كيف تعمل نماذج اللغة الكبيرة مثل الموجودة في ChatGPT؟

في خضم الثورة التكنولوجية، ظهرت نماذج اللغة الكبيرة (LLMs) على الساحة، واعدة بتغيير الطريقة التي نعيش ونعمل بها. ولكن ما هي طريقة عمل نماذج اللغة الكبيرة؟ بدءًا من بوت الدردشة “ChatGPT” الخاص بـ “OpenAI” وحتى “Gemini” من جوجل، تصدرت نماذج اللغة كبيرة عناوين الأخبار بفضل قدراتها المذهلة على إنشاء نص يشبه الإنسان والاستجابة لطلبات المستخدم. ولكن وراء الكواليس، مهد التاريخ الغني والعلوم المعقدة الطريق لهذه الابتكارات.

كيف تعمل اللغة؟

هل تساءلت يومًا كيف نفهم اللغة؟ لا يقتصر الأمر على التعرف على الكلمات ومعانيها فحسب، بل يتعلق أيضًا بفهم العلاقات بينها. في جوهرها، اللغة هي لعبة الاحتمالات. عندما نتواصل، نستخدم مجموعة معقدة من القواعد والأنماط لنقل المعنى. ومع ذلك، فإن هذه القواعد ليست مطلقة ويمكن أن تختلف بشكل كبير حسب السياق والثقافة وحتى الفرد.

في عالم نماذج اللغة، يتم ممارسة لعبة الاحتمالية هذه من خلال التمثيلات الرياضية للغة. تم تصميم هذه النماذج لتقدير احتمالية وجود تسلسل معين من الكلمات، مع مراعاة سياق اللغة وأنماطها. على سبيل المثال، نموذج اللغة الجيد من شأنه أن يعين احتمالية عالية لجملة جيدة الصياغة مثل “القطة السوداء العجوز تنام بشكل سليم”” واحتمالية منخفضة لتسلسل عشوائي من الكلمات مثل “علي يشرب سطح في”.

ويتم ذلك من خلال عملية تسمى التقدير، حيث يبحث النموذج عن الأنماط والعلاقات في مجموعات بيانات كبيرة من النص. تشبه هذه العملية الطريقة التي نتعلم بها، كبشر، اللغة من خلال التعرض والممارسة. عندما نتعلم المزيد عن اللغة، نقوم بتحسين فهمنا لهذه الاحتمالات، مما يسمح لنا بالتواصل بشكل أكثر فعالية.

طريقة عمل نماذج اللغة الكبيرة

الـn-gram

يعود مفهوم النماذج اللغوية إلى خمسينيات القرن الماضي، عندما طرح كلود شانون، الباحث في شركة “IBM”، فكرة استخدام الاحتمالات لتقدير احتمالية تسلسلات كلمات معينة. كان هذا بمثابة ميلاد نماذج اللغة، والتي تطورت في النهاية إلى نماذج اللغة الكبيرة (LLMs) التي نعرفها اليوم.

يتضمن نهج شانون، المعروف باسم نمذجة “n-gram”، تحليل تسلسل الكلمات لتقدير احتمالية حدوثها. ومن خلال البحث عن الأمثلة في المستندات الموجودة، يمكنه حساب احتمالية “n-gram”، مثل “أسود قديم” أو “القطة تنام بشكل سليم”. يتم بعد ذلك دمج هذه الاحتمالات الرياضية لحساب الاحتمالية الكلية لتسلسلات أطول من الكلمات، مثل الجمل الكاملة.

يصبح تقدير الاحتمالات لـ “n-grams” أكثر صعوبة كلما أصبحت ال”n-gram” أطول، لذا فإن تقدير الاحتمالات الدقيقة لتسلسلات من أربع كلمات أصعب بكثير من تقدير الاحتمالات لتسلسلات من كلمتين. وبالتالي، كانت نماذج اللغة المبكرة من هذا النوع غالبًا ما تستند إلى “n-grams” قصيرة.

الشبكات العصبية

ولمعالجة هذه القيود، لجأ الباحثون إلى الشبكات العصبية، وهي أنظمة ذكاء اصطناعي مستوحاة من بنية الدماغ البشري. وتتفوق هذه الشبكات العصبية في التقاط التبعيات بعيدة المدى بين الكلمات، حتى عندما تكون منفصلة بمسافات كبيرة. ولتحقيق هذه الغاية، تعتمد على عدد كبير من المَعلمات (Parameter)، التي يتم تعديلها من خلال عملية تدريب للتعرف على العلاقات المعقدة بين الكلمات.

أثناء التدريب، تتعرض الشبكة العصبية لمجموعة بيانات ضخمة من المستندات النصية. ومن خلال تحليل هذه المستندات، تتعلم الشبكة التنبؤ بالكلمة التالية في تسلسل بناءً على الكلمات السابقة. وتعمل هذه العملية التكرارية على ضبط قيم المَعلمات، مما يمكن النموذج من توليد نص متماسك وذو صلة بالسياق.

وفي حين تقدم نماذج اللغة القائمة على الشبكات العصبية مزايا كبيرة، إلا أنها تعاني أيضًا من بعض العيوب. فعلى الرغم من قدرتها النظرية على التقاط التبعيات بعيدة المدى، فإنها تميل إلى إعطاء الأولوية للعلاقات الأقرب في الممارسة العملية. بالإضافة إلى ذلك، فإن الطبيعة التسلسلية لعملية التدريب، حيث يجب معالجة الكلمات واحدة تلو الأخرى، يمكن أن تحد من سرعة التدريب.

Related Post

ظهور المحولات

في عام 2017، ظهر نوع جديد ثوري من الشبكات العصبية، يُعرف باسم المحول (transformer). وعلى عكس سابقاته، يعالج المحول جميع الكلمات المدخلة في وقت واحد، مما يتيح المعالجة المتوازية وتسريع التدريب بشكل كبير. تسمح قدرة المعالجة المتوازية هذه للمحولات بالتدريب على مجموعات بيانات ضخمة، مما يؤدي إلى تطوير نماذج لغوية أكبر وأكثر تطوراً.

وفي حين لا تزال المحولات تتعلم من أمثلة النصوص، فإن أهداف تدريبها تمتد إلى ما هو أبعد من مجرد التنبؤ بالكلمة التالية. حيث يمكنها معالجة مجموعة متنوعة من المهام، بما في ذلك تمارين “ملء الفراغ” (fill in the blanks) حيث يجب استنتاج الكلمات المفقودة من السياق. بالإضافة إلى ذلك، يمكن تدريب المحولات لتقييم التماسك المنطقي بين أزواج الجمل، مما يعزز قدرتها على فهم النص وتوليده.

تدريب وتطورات مستمرة

يتم تدريب بعض نماذج الذكاء الاصطناعي هذه على أكثر من تريليون كلمة. ويستغرق الأمر من شخص بالغ يقرأ بسرعة متوسطة أكثر من 7600 عام لقراءة هذا القدر.

كمت تتضمن عملية التدريب تغذية النموذج بمجموعة بيانات ضخمة من النصوص، والتي يمكن أن تتراوح من الكتب والمقالات والأوراق البحثية إلى منشورات وسائل التواصل الاجتماعي والمواقع الإلكترونية والمنتديات عبر الإنترنت. يتعلم النموذج بعد ذلك تحديد الأنماط والعلاقات والسياق داخل النص، مما يسمح له بتوليد استجابات وتنبؤات شبيهة بالبشر.

لقد أدخلت التطورات الأخيرة في نماذج اللغة الكبيرة (LLMs) نموذجًا جديدًا للتفاعل بين الإنسان والذكاء الاصطناعي. تم تصميم هذه النماذج للاستجابة للتلقين (prompts)، سواء كانت أسئلة بسيطة أو تعليمات معقدة. أدت هذه القدرة إلى ظهور أنظمة ذكاء اصطناعي توليدية قوية مثل ChatGPT وGemini وLlama.

ولتحسين استجاباتها، تخضع نماذج اللغة الكبيرة لعملية تدريب تُعرف باسم التعلم التعزيزي. هذه العملية تشبه تعليم الكمبيوتر لعب الشطرنج، حيث يتم استخدام ردود الفعل البشرية لتوجيه تعلم الذكاء الاصطناعي. يقدم البشر مطالبات، ويتم تقييم استجابات الذكاء الاصطناعي. وتسمح حلقة التغذية الراجعة هذه للنموذج بتحسين مخرجاته المستقبلية.

ومع ذلك، فإن الاعتماد فقط على ردود الفعل البشرية يمكن أن يكون مكلفًا ويستغرق وقتًا طويلاً. ولمعالجة هذه المشكلة، يستكشف الباحثون استخدام ردود الفعل التي يولدها الذكاء الاصطناعي لمحاكاة التفاعل البشري. ومن خلال تدريب النموذج على مزيج من ردود الفعل البشرية والذكاء الاصطناعي، يمكن تقليل تكلفة التدريب بشكل كبير.

إن تدريب هذه النماذج قد يتطلب قوة حسابية هائلة، مما يؤدي إلى استهلاك كبير للطاقة وانبعاثات كربونية. ومع استمرار ثورة الذكاء الاصطناعي في التسارع، فمن الضروري معالجة هذه التحديات وضمان التنمية المستدامة لهذه التقنيات القوية.

المصدر

Large language models: how the AI behind the likes of ChatGPT actually works | the conversation

اضغط هنا لتقييم التقرير
[Average: 0]
أخبار علمية

Share
Published by
أخبار علمية

Recent Posts

استخدام حرارة الجسم لشحن الأجهزة القابلة للإرتداء في المستقبل

توصل باحثون إلى اكتشاف رائد يمكن أن يحدث ثورة في عالم التكنولوجيا القابلة للارتداء. لقد…

8 ساعات ago

عصام حجي يقترح طريقة علمية لتقاسم موارد النيل

مع تصاعد التوترات حول نهر النيل، الذي يشكل شريان حياة بالغ الأهمية لملايين البشر في…

8 ساعات ago

سوء استخدام الإنسان للذكاء الاصطناعي سيجعله أكثر خطورة

من المتوقع أن تشهد البشرية في السنوات القليلة المقبلة تطورات كبيرة في مجال الذكاء الاصطناعي.…

8 ساعات ago

المشي حافيًا قد يجعلك أكثر عرضة لمقاومة المضادات الحيوية

مقاومة المضادات الحيوية، التي تمثل تهديدًا صحيًا عالميًا متزايدًا، لها سبب مفاجئ وهي التربة. حيث…

8 ساعات ago

كيف حاول السهروردي وابن عربي شرح طبيعة الإله؟

في عالم الفلسفة الإسلامية، تم التغاضي عن مفهوم رائع لعدة قرون. لقد كانت الأحادية (monism)،…

يوم واحد ago

دراسة تكشف أن الحياة لا تحتاج إلى وجود كوكب!

من خلال إعادة التفكير في افتراضاتنا حول الحياة خارج الأرض، يتحدانا عالمان للنظر في إمكانية…

يوم واحد ago
Seraphinite AcceleratorOptimized by Seraphinite Accelerator
Turns on site high speed to be attractive for people and search engines.