في خضم الثورة التكنولوجية، ظهرت نماذج اللغة الكبيرة (LLMs) على الساحة، واعدة بتغيير الطريقة التي نعيش ونعمل بها. ولكن ما هي طريقة عمل نماذج اللغة الكبيرة؟ بدءًا من بوت الدردشة “ChatGPT” الخاص بـ “OpenAI” وحتى “Gemini” من جوجل، تصدرت نماذج اللغة كبيرة عناوين الأخبار بفضل قدراتها المذهلة على إنشاء نص يشبه الإنسان والاستجابة لطلبات المستخدم. ولكن وراء الكواليس، مهد التاريخ الغني والعلوم المعقدة الطريق لهذه الابتكارات.
محتويات المقال :
كيف تعمل اللغة؟
هل تساءلت يومًا كيف نفهم اللغة؟ لا يقتصر الأمر على التعرف على الكلمات ومعانيها فحسب، بل يتعلق أيضًا بفهم العلاقات بينها. في جوهرها، اللغة هي لعبة الاحتمالات. عندما نتواصل، نستخدم مجموعة معقدة من القواعد والأنماط لنقل المعنى. ومع ذلك، فإن هذه القواعد ليست مطلقة ويمكن أن تختلف بشكل كبير حسب السياق والثقافة وحتى الفرد.
في عالم نماذج اللغة، يتم ممارسة لعبة الاحتمالية هذه من خلال التمثيلات الرياضية للغة. تم تصميم هذه النماذج لتقدير احتمالية وجود تسلسل معين من الكلمات، مع مراعاة سياق اللغة وأنماطها. على سبيل المثال، نموذج اللغة الجيد من شأنه أن يعين احتمالية عالية لجملة جيدة الصياغة مثل “القطة السوداء العجوز تنام بشكل سليم”” واحتمالية منخفضة لتسلسل عشوائي من الكلمات مثل “علي يشرب سطح في”.
ويتم ذلك من خلال عملية تسمى التقدير، حيث يبحث النموذج عن الأنماط والعلاقات في مجموعات بيانات كبيرة من النص. تشبه هذه العملية الطريقة التي نتعلم بها، كبشر، اللغة من خلال التعرض والممارسة. عندما نتعلم المزيد عن اللغة، نقوم بتحسين فهمنا لهذه الاحتمالات، مما يسمح لنا بالتواصل بشكل أكثر فعالية.
طريقة عمل نماذج اللغة الكبيرة
الـn-gram
يعود مفهوم النماذج اللغوية إلى خمسينيات القرن الماضي، عندما طرح كلود شانون، الباحث في شركة “IBM”، فكرة استخدام الاحتمالات لتقدير احتمالية تسلسلات كلمات معينة. كان هذا بمثابة ميلاد نماذج اللغة، والتي تطورت في النهاية إلى نماذج اللغة الكبيرة (LLMs) التي نعرفها اليوم.
يتضمن نهج شانون، المعروف باسم نمذجة “n-gram”، تحليل تسلسل الكلمات لتقدير احتمالية حدوثها. ومن خلال البحث عن الأمثلة في المستندات الموجودة، يمكنه حساب احتمالية “n-gram”، مثل “أسود قديم” أو “القطة تنام بشكل سليم”. يتم بعد ذلك دمج هذه الاحتمالات الرياضية لحساب الاحتمالية الكلية لتسلسلات أطول من الكلمات، مثل الجمل الكاملة.
يصبح تقدير الاحتمالات لـ “n-grams” أكثر صعوبة كلما أصبحت ال”n-gram” أطول، لذا فإن تقدير الاحتمالات الدقيقة لتسلسلات من أربع كلمات أصعب بكثير من تقدير الاحتمالات لتسلسلات من كلمتين. وبالتالي، كانت نماذج اللغة المبكرة من هذا النوع غالبًا ما تستند إلى “n-grams” قصيرة.
الشبكات العصبية
ولمعالجة هذه القيود، لجأ الباحثون إلى الشبكات العصبية، وهي أنظمة ذكاء اصطناعي مستوحاة من بنية الدماغ البشري. وتتفوق هذه الشبكات العصبية في التقاط التبعيات بعيدة المدى بين الكلمات، حتى عندما تكون منفصلة بمسافات كبيرة. ولتحقيق هذه الغاية، تعتمد على عدد كبير من المَعلمات (Parameter)، التي يتم تعديلها من خلال عملية تدريب للتعرف على العلاقات المعقدة بين الكلمات.
أثناء التدريب، تتعرض الشبكة العصبية لمجموعة بيانات ضخمة من المستندات النصية. ومن خلال تحليل هذه المستندات، تتعلم الشبكة التنبؤ بالكلمة التالية في تسلسل بناءً على الكلمات السابقة. وتعمل هذه العملية التكرارية على ضبط قيم المَعلمات، مما يمكن النموذج من توليد نص متماسك وذو صلة بالسياق.
وفي حين تقدم نماذج اللغة القائمة على الشبكات العصبية مزايا كبيرة، إلا أنها تعاني أيضًا من بعض العيوب. فعلى الرغم من قدرتها النظرية على التقاط التبعيات بعيدة المدى، فإنها تميل إلى إعطاء الأولوية للعلاقات الأقرب في الممارسة العملية. بالإضافة إلى ذلك، فإن الطبيعة التسلسلية لعملية التدريب، حيث يجب معالجة الكلمات واحدة تلو الأخرى، يمكن أن تحد من سرعة التدريب.
ظهور المحولات
في عام 2017، ظهر نوع جديد ثوري من الشبكات العصبية، يُعرف باسم المحول (transformer). وعلى عكس سابقاته، يعالج المحول جميع الكلمات المدخلة في وقت واحد، مما يتيح المعالجة المتوازية وتسريع التدريب بشكل كبير. تسمح قدرة المعالجة المتوازية هذه للمحولات بالتدريب على مجموعات بيانات ضخمة، مما يؤدي إلى تطوير نماذج لغوية أكبر وأكثر تطوراً.
وفي حين لا تزال المحولات تتعلم من أمثلة النصوص، فإن أهداف تدريبها تمتد إلى ما هو أبعد من مجرد التنبؤ بالكلمة التالية. حيث يمكنها معالجة مجموعة متنوعة من المهام، بما في ذلك تمارين “ملء الفراغ” (fill in the blanks) حيث يجب استنتاج الكلمات المفقودة من السياق. بالإضافة إلى ذلك، يمكن تدريب المحولات لتقييم التماسك المنطقي بين أزواج الجمل، مما يعزز قدرتها على فهم النص وتوليده.
تدريب وتطورات مستمرة
يتم تدريب بعض نماذج الذكاء الاصطناعي هذه على أكثر من تريليون كلمة. ويستغرق الأمر من شخص بالغ يقرأ بسرعة متوسطة أكثر من 7600 عام لقراءة هذا القدر.
كمت تتضمن عملية التدريب تغذية النموذج بمجموعة بيانات ضخمة من النصوص، والتي يمكن أن تتراوح من الكتب والمقالات والأوراق البحثية إلى منشورات وسائل التواصل الاجتماعي والمواقع الإلكترونية والمنتديات عبر الإنترنت. يتعلم النموذج بعد ذلك تحديد الأنماط والعلاقات والسياق داخل النص، مما يسمح له بتوليد استجابات وتنبؤات شبيهة بالبشر.
لقد أدخلت التطورات الأخيرة في نماذج اللغة الكبيرة (LLMs) نموذجًا جديدًا للتفاعل بين الإنسان والذكاء الاصطناعي. تم تصميم هذه النماذج للاستجابة للتلقين (prompts)، سواء كانت أسئلة بسيطة أو تعليمات معقدة. أدت هذه القدرة إلى ظهور أنظمة ذكاء اصطناعي توليدية قوية مثل ChatGPT وGemini وLlama.
ولتحسين استجاباتها، تخضع نماذج اللغة الكبيرة لعملية تدريب تُعرف باسم التعلم التعزيزي. هذه العملية تشبه تعليم الكمبيوتر لعب الشطرنج، حيث يتم استخدام ردود الفعل البشرية لتوجيه تعلم الذكاء الاصطناعي. يقدم البشر مطالبات، ويتم تقييم استجابات الذكاء الاصطناعي. وتسمح حلقة التغذية الراجعة هذه للنموذج بتحسين مخرجاته المستقبلية.
ومع ذلك، فإن الاعتماد فقط على ردود الفعل البشرية يمكن أن يكون مكلفًا ويستغرق وقتًا طويلاً. ولمعالجة هذه المشكلة، يستكشف الباحثون استخدام ردود الفعل التي يولدها الذكاء الاصطناعي لمحاكاة التفاعل البشري. ومن خلال تدريب النموذج على مزيج من ردود الفعل البشرية والذكاء الاصطناعي، يمكن تقليل تكلفة التدريب بشكل كبير.
إن تدريب هذه النماذج قد يتطلب قوة حسابية هائلة، مما يؤدي إلى استهلاك كبير للطاقة وانبعاثات كربونية. ومع استمرار ثورة الذكاء الاصطناعي في التسارع، فمن الضروري معالجة هذه التحديات وضمان التنمية المستدامة لهذه التقنيات القوية.
المصدر
Large language models: how the AI behind the likes of ChatGPT actually works | the conversation
سعدنا بزيارتك، جميع مقالات الموقع هي ملك موقع الأكاديمية بوست ولا يحق لأي شخص أو جهة استخدامها دون الإشارة إليها كمصدر. تعمل إدارة الموقع على إدارة عملية كتابة المحتوى العلمي دون تدخل مباشر في أسلوب الكاتب، مما يحمل الكاتب المسؤولية عن مدى دقة وسلامة ما يكتب.
التعليقات :