نموذج اللغة الكبير (LLM) هو نموذج لغة يتكون من شبكة عصبية بها العديد من المعلمات (عادة ما تكون بالمليارات أو أكثر)، ويتم تدريبه على كميات كبيرة من النصوص غير الموسومة باستخدام التعلم غير المشرف. ظهرت LLMs حوالي عام 2018 وتتألق في مجموعة واسعة من المهام. قد أدى ذلك إلى تغيير تركيز بحوث معالجة اللغة الطبيعية بعيدًا عن النموذج السابق لتدريب نماذج مشرفة متخصصة لمهام محددة [1].
الخصائص
على الرغم من أن مصطلح نموذج اللغة الكبير ليس له تعريف رسمي، إلا أنه يشير عمومًا إلى نماذج التعلم العميق التي تحتوي على عدد معلمات بحجم المليارات أو أكثر [2]. النماذج العامة الغرض LLMs التي تتفوق في مجموعة واسعة من المهام، على عكس التدريب لمهمة محددة واحدة (مثل تحليل المشاعر، التعرف على الكيانات المسماة، أو التفكير الرياضي) [1] [3]. على الرغم من تدريبها على مهام بسيطة على غرار التنبؤ بالكلمة التالية في الجملة، تم العثور على نماذج اللغة العصبية مع التدريب الكافي وعدد المعلمات لالتقاط الكثير من بناء الجملة والدلالة للغة الإنسان. بالإضافة إلى ذلك، تظهر نماذج اللغة الكبيرة معرفة عامة كبيرة عن العالم، وقادرة على "حفظ" كمية كبيرة من الحقائق أثناء التدريب [1].
الهيكل والتدريب
تم استخدام بنية التحويل الأكثر شيوعًا في نماذج اللغة الكبيرة، التي أصبح ت منذ عام 2018 هي تقنية التعلم العميق القياسية للبيانات المتسلسلة (في السابق، كانت البنى المتكررة مثل LSTM هي الأكثر شيوعًا) [1]. يتم تدريب LLMs بطريقة غير مشرفة على النصوص غير الموسومة. يتم تدريب محول من اليسار إلى اليمين لزيادة احتمالية تعيين الكلمة التالية في البيانات التدريبية، بناءً على السياق السابق. بدلاً من ذلك، قد يستخدم LLM محولًا ثنائي الاتجاه (كما في مثال BERT)، الذي يعين توزيع احتمال على الكلمات عند الوصول إلى السياق السابق واللاحق [4]. بالإضافة إلى مهمة التنبؤ بالكلمة التالية أو "ملء الفراغات"، قد يتم تدريب LLMs على مهام مساعدة تختبر فهمها لتوزيع البيانات مثل التنبؤ بالجملة التالية (NSP)، حيث يتم تقديم أزواج من الجمل ويجب أن يتنبأ النموذج ما إذا كانت تظهر جنبًا إلى جنب في مجموعة التدريب [4].
تم تدريب أوائل LLMs على مؤلفات تبلغ حجمها مليارات الكلمات تقريبًا. تم تدريب الإصدار الأولي من GPT في عام 2018 على BookCorpus، الذي يتكون من 985 مليون كلمة. في العام نفسه، تم تدريب BERT على مجموعة من BookCorpus وويكيبيديا الإنجليزية، بمجموع 3.3 مليار كلمة [4]. في السنوات التي تلت ذلك، زادت مؤلفات التدريب لـ LLMs بمقادير من الأوامر، لتصل إلى مئات المليارات أو تريليونات الرموز [4].
تحتاج LLMs إلى قوة حوسبة كبيرة للتدريب.
continue
قدرت دراسة عام 2020 تكلفة تدريب نموذج بمليار ونصف المليار معلمة (بمقدار 1-2 أمرين من الأوامر أصغر من حالة الممارسة في ذلك الوقت) بمليون و600 ألف دولار [5].
وجدت تحليلات عام 2020 أن قدرة نماذج اللغة العصبية (كما يتم قياسها بفقدان التدريب) تزداد بسلاسة في علاقة قوة القانون مع عدد المعلمات، وكمية البيانات التدريبية، والحوسبة المستخدمة للتدريب [6] [7]. تم اختبار هذه العلاقات على مجموعة واسعة من القيم (تصل إلى سبعة أوامر من الأوامر) ولم يتم ملاحظة توهين العلاقة في أعلى نهاية المدى (بما في ذلك أحجام الشبكة تصل إلى تريليونات المعلمات) [7].
التطبيق على المهام السفلى
بين عامي 2018 و2020، كانت الطريقة القياسية لاستخدام LLM لمهمة معالجة اللغة الطبيعية محددة هي ضبط النموذج مع تدريب إضافي محدد للمهمة. ومنذ ذلك الحين تم العثور على أن LLMs الأكثر قوة مثل GPT-3 يمكن أن تحل المهام دون تدريب إضافي عبر تقنيات "الموجه"، حيث يتم تقديم المشكلة المراد حلها للنموذج كموجه نصي، ربما مع بعض الأمثلة النصية لمشكلات مماثلة وحلولها [1].
الضبط الدقيق
المقالة الرئيسية: الضبط الدقيق (تعلم الآلة)
الضبط الدقيق هو ممارسة تعديل نموذج اللغة الموجود المدرب مسبقًا عن طريق تدريبه (بطريقة مشرفة) على مهمة محددة (مثل تحليل المشاعر،
أو التعرف على الكيانات المسماة، أو وسم أجزاء الكلام). إنه شكل من أشكال التعلم المنقول. يتضمن ذلك عمومًا إدخال مجموعة جديدة من الوزنات تربط الطبقة الأخيرة من نموذج اللغة بمخرجات المهمة السفلى. قد يكون الوزن الأصلي لنموذج اللغة "مجمدًا"، بحيث لا يتعلم إلا الطبقة الجديدة من الوزنات التي تربطها بالمخرجات أثناء التدريب. بدلاً من ذلك، قد تتلقى الأوزان الأصلية تحديثات صغيرة (ربما مع تجميد الطبقات السابقة) [4].
التوجيه
انظر أيضًا: هندسة الموجه والتعلم القليل النقاط (معالجة اللغة الطبيعية)
في نمط التوجيه المنتشر على نطاق واسع بواسطة GPT-3 [3]، يتم صياغة المشكلة المراد حلها عن طريق موجه نصي، يجب على النموذج حله من خلال توفير إكمال (عبر التأويل). في "التوجيه بالقليل من النقاط"، يتضمن الموجه عددًا قليلًا من الأمثلة على أزواج مشابهة (مشكلة، حل) [1]. على سبيل المثال، يمكن توجيه مهمة تحليل المشاعر لوضع تسمية على مشاعر مراجعة الأفلام على النحو التالي [3]:
المراجعة: هذا الفيلم يفوح منه الرائحة الكريهة.
المشاعر: سلبية
المراجعة: هذا الفيلم رائع!
المشاعر:
إذا كان النموذج يخرج "إيجابية"، فإنه قد حل المهمة بشكل صحيح. في التوجيه ذو الصفر نقطة، لا تقدم أمثلة على حل المشكلة [5] [8]. مثال على موجه ذو الصفر نقطة لمهمة تحليل المشاعر نفسها يكون: "المشاعر المرتبطة بمراجعة الفيلم 'هذا الفيلم رائع!' هي" [9].
أظهرت أداء التوجيه بالقليل من النقاط للـ LLMs نتائج تنافسية على مهام معالجة اللغة الطبيعية، وفاقت في بعض الأحيان نهج الضبط الدقيق المتقدمة. تشمل أمثلة المهام معالجة اللغة الطبيعية هذه الترجمة، والإجابة على الأسئلة، ومهام الكلمات المفقودة، وإعادة ترتيب الكلمات، واستخدام كلمة جديدة في جملة [8]. يطلق على إنشاء وتحسين هذه الموجهات اسم "هندسة الموجه" وهي الآن مجال دراسة نشط.
التوجيه بالتعليمات
التوجيه بالتعليمات هو شكل من أشكال الضبط الدقيق الذي يهدف إلى تسهيل تفاعلات التوجيه ذات الصفر نقطة الأكثر طبيعية ودقة. بناءً على المدخلات النصية، سيولد نموذج اللغة المدرب مسبقًا إكمالًا يطابق توزيع النص الذي تم تدريبه عليه. قد يوفر نموذج اللغة الساذج الموجه "اكتب مقالًا حول الموضوعات الرئيسية في هاملت." إكمالًا مثل "سيتم تطبيق غرامة متأخرة بنسبة 10٪ لليوم على الإرساليات المستلمة بعد 17 مارس." في توجيه التعليمات، يتم تدريب نموذج اللغة على العديد من الأمثلة على المهام المصاغة كتعليمات باللغة الطبيعية، جنبًا إلى جنب مع الاستجابات المناسبة. تم تطبيق تقنيات مختلفة لتوجيه التعليمات في الممارسة العملية. ينطوي ب