أحدث تطور الذكاء الاصطناعي ثورة في علم الأعصاب. فبإدماجه في «واجهات الدماغ والحاسوب- brain–computer interfaces (BCIs)»، وهي أنظمة تستعمل في وصل الدماغ بأجهزة الحاسوب، صار من الممكن قراءة النشاط الدماغي وتحويله إلى كلام. فهل تنجح هذه الواجهات في تمكين العاجزين عن النطق من الكلام؟ وما العوائق التي تقف أمام استخدام هذه الواجهات في المجال الطبي؟
محتويات المقال :
استخدام الذكاء الاصطناعي في تحويل الأفكار إلى كلام
بفضل التطور الهائل لقدرة الحواسب، أصبح تطبيق الذكاء في مختلف المجالات، بما في ذلك علم اللأعصاب، الوجهة المفضلة للعديد من الباحثين. وقد نشرت عدة دراسات حول طرق تحويل الأفكار إلى كلام باستخدام الذكاء الاصطناعي وواجهات الدماغ والحاسوب [1–3]. في هذا المقال، سنعرض آخر النتائج التي تم الحصول عليها بدمج الذكاء الاصطناعي مع واجهات الدماغ والحاسوب من أجل تحويل الأفكار إلى كلام، والتي توصلت إليها دراستان نشرتا في صيف 2023.
الدراسة الأولى: فك شفرة الإشارات العصبية لمنطقة النطق في الدماغ
في الدراسة الأولى، قام فريق بحثي من جامعة ستانفورد بتطوير جهاز يُزرع في المنطقة المسؤولة عن النطق في الدماغ. يقوم الجهاز بالكشف عن الإشارات العصبية التي ينتجها الدماغ أثناء محاولة النطق ببعض العبارات والجمل. ثم يربط بين الإشارات الدماغية والمفردات المنطوقة باستخدام الذكاء الاصطناعي [1][2][4].
التجربة
أثناء تجربته للواجهة المطَورة، قام الفريق البحثي بزرع رقائق من االسيليكون بالجزء المسؤول عن النطق في دماغ متطوعة عاجزة عن النطق. تعاني المريضة من مرض التصلب الجانبي الضموري، الذي يؤثر بشدة في قدرتها على التحكم بعضلات اللسان. تقوم الرقائق باستقبال الإشارات العصبية للدماغ أثناء محاولة المريضة نطق عبارات معينة تعرض عليها. واعتماداً على هذه البيانات، تقوم خوارزميات للتعلم العميق بالربط بين الإشارات العصبية، التي ينتجها دماغ المريضة، ومفردات الجمل والعبارات، التي تحاول نطقها، بفك تشفير كل فونيم (الوحدة الصوتية الصغرى) على حدة، أي بمحاولة إرفاق كل فونيم بإشارته العصبية التي تناسبه [2][4].
اعتمدت الدراسة على نموذج للتعلم العميق يدعى «الشبكة العصبية المتكررة-(recurrent neural network (RNN». والذي يأخذ بعين الاعتبار الفينومات التي سبق فك تشفيرها من أجل فك تشفير الفينوم اللاحق في عبارة ما. يقوم النموذج، خلال محاولة المريضة النطق بعبارة ما، بالتنبؤ باحتمالية نطق كل فونيم. ثم يقوم بتركيب الكلمات الأكثر احتمالية وترتيبها بمساعدة نموذج لغوي للغة الإنجليزية. وهكذا، تبني خوارزمية التعلم العميق نموذجاً قادراً على تفسير الإشارات العصبية للمريضة وترجمتها إلى نص [2].
نتائج التجربة
أظهرت واجهات الدماغ والحاسوب التي طورها الفريق نتائج واعدة. قد تعطي أملاً للأفراد العاجزين عن النطق باستعادة تواصل طبيعي وسلس مع المجتمع. فلم تتجاوز نسبة الكلمات الخاطئة 9% من مجموع الكلمات التي تنبَّأ بها عند استعمال 50 مفردة في تدريب الخوارزمية. بينما، ارتفعت هذه النسبة إلى 23.8% عند تدريب الخوارزمية ب 125 ألف مفردة. ووصلت سرعة التنبؤ إلى معدل متوسط قدره 62 كلمة في الدقيقة في مقابل 160 كلمة بالنسبة للكلام الطبيعي. رغم هذا، تبقى هذه النتائج مشجعة لبذل مزيد من الجهد في تحسين واجهات الدماغ والحاسوب لجعلها أكثر كفاءة في إنتاج كلام سلس وطبيعي [2][4].
الدراسة الثانية: ربط النشاط الدماغي بالجمل والعبارات
في الدراسة الثانية، قام فريق بحثي من جامعة كاليفورنيا بمحاولة ربط النشاط الدماغي بالجمل والعبارات المنطوقة. وتختلف هذه الدراسة عن سابقتها بكونها لا تقتصر على النشاط الدماغي للمناطق المسؤولة عن النطق، بل تتعداه لتغطي القشرة الدماغية كلها. بالإضافة إلى هذا، نجح الفريق في خلق محاكاة شبه طبيعية للمريضة وهي تتحدث، وذلك بمساعدة أفاتار يحاكي تعابير وجهها ونبرة صوتها أثناء الكلام [1][4].
التجربة
في هذه التجربة، قام فريق البحث بزرع 253 قطبا وتوزيعها على القشرة الدماغية لمريضة فقدت قدرتها على النطق إثر سكتة دماغية. تقوم الأقطاب بالتقاط النشاط المشترك لآلاف الخلايا العصبية أثناء محاولة المريضة نطق عبارات تتكون بمجملها من 1024 مفردة. ويتم تدريب خوارزمية للتعلم العميق على التعرف على أنماط النشاط الدماغي الناتج عن نطق كل مفردة. ثم يتم تحويل الكلمات إلى صوت وتعبيرات وجه اصطناعية بواسطة أفاتار طوره الفريق [1][4].
نتائج التجربة
حققت واجهات الدماغ والحاسوب في هذه التجربة نتائج مشجعة وملهمة في تحسين التواصل بين العاجزين عن النطق مع العالم الخارجي. ورغم أن نسبة الخطإ في هذه الدراسة فاقت 25 بالمئة، يبقى توفير طريقة تواصل بتعابير الوجه ونبرة الصوت طفرة نوعية قدمتها هذه الدراسة. بالإضافة إلى هذا، تفوق سرعة فك التشفير (ترجمة النشاط الدماغي إلى كلمات) في هذه الدراسة تلك التي حققتها الدراسة السابقة، حيث تصل إلى 78 كلمة في الدقيقة. ورغم أن هذه السرعة لا تزال بعيدة عن السرعة الطبيعية للكلام، فإن الدراسة تفتح آفاقاً واسعة أمام استخدام واجهات الدماغ والحاسوب في استعادة الكلام للعاجزين عن النطق [1][4].
عيوب الدراستين
رغم الاهتمام الهائل الذي لاقته كلتا الدراستين، لا تزال واجهات الدماغ والحاسوب في حاجة إلى مزيد من التحسين والتطوير من أجل إدماجها في مراكز الرعاية الصحية لمساعدة العاجزين عن النطق على الكلام. ومن أبرز العيوب التي تعاني منها الدراستان، وجود أسلاك تربط رأس المريض بالحاسب الآلي أثناء عملية التواصل. مما يحُدُّ من حصول تواصل طبيعي وفعال. أضف إلى هذا أن هذه التقنية تعتمد بشكل كلي على وجود مناطق دماغية سليمة عند المريض من أجل فك تشفيرها. وهذا ليس حال كل المرضى، دون أن ننسى الآثار الجانبية والمسائل الأخلاقية التي قد يثيرها زرع واجهات الدماغ والحاسوب بأدمغة المرضى [1][2][4].
في النهاية، من أجل انتشار واسع لهذه التقنية، يجب التركيز على تحسين دقة وسرعة فك التشفير. بالإضافة إلى تطوير أنظمة قابلة للزرع بالكامل دونما حاجة إلى أسلاك موصلة مع الأخذ بعين الاعتبار لمختلف الآثار الجانبية [4].
المصادر
[1] A high-performance neuroprosthesis for speech decoding and avatar control
[2] A high-performance speech neuroprosthesis
[3] High-performance brain-to-text communication via handwriting
[4] Brain-reading devices allow paralysed people to talk using their thoughts
سعدنا بزيارتك، جميع مقالات الموقع هي ملك موقع الأكاديمية بوست ولا يحق لأي شخص أو جهة استخدامها دون الإشارة إليها كمصدر. تعمل إدارة الموقع على إدارة عملية كتابة المحتوى العلمي دون تدخل مباشر في أسلوب الكاتب، مما يحمل الكاتب المسؤولية عن مدى دقة وسلامة ما يكتب.
التعليقات :