7 تقنيات تغزو المدن الذكية فما هي؟

هذه المقالة هي الجزء 2 من 18 في سلسلة كيف ستغير المدن الذكية من شكل عالمنا؟

تستخدم المدن الذكية التقنيات المتطورة والابتكارات الحديثة، وتدمج البنية التحتية المادية مع تكنولوجيا المعلومات والاتصالات ICT وموارد المعرفة. يهدف ذلك إلى تعزيز التقدّم الاقتصادي، وتحسين نوعية حياة الأفراد، وضمان الاستدامة. فتعتمد المدن الذكية على مجموعة من الأدوات والتقنيات لكي تحقق أهدافها الأساسية، وتتصدى لمختلف التحديات التي تواجهها في نفس الوقت كالنمو السكاني والتلوث والازدحام. فما أمثلة تقنيات المدن الذكية؟

تقنيات المدن الذكية

تعد تقنيات المدن الذكية مصطلحًا واسعًا يشمل مجموعةً متنوعةً من التقنيات والاستراتيجيات القائمة على البيانات. تهدف المدن الذكية إلى تحسين نوعية حياة المواطنين، وجعل العمليات الحضرية أكثر كفاءة.[1] تسعى تقنيات المدن الذكية إلى تحقيق التكامل بين البنى التحتية المتقدّمة والتقنيات الحديثة لزيادة “ذكاء” المدن. قد يكون مصطلح “ذكاء” المدن غريب بعض الشيء لكنه المقصود ومرتبط بالذكاء الاصطناعي وهذا ما سنراه.

تضم هذه التقنيات العديد من الأنظمة والابتكارات مثل البرمجيات التطبيقية، ونظام تحديد المواقع GPS، وسلسلة الكتل Blockchain. عمومًا ينبغي على المدن الذكية ربط هذه النظم والأدوات ببعضها، وجمع عملها ونتائجها، لتوفير خدمات فعّالة للمواطنين. وهذا هو المقصود بـ “ذكاء المدن”.[2]

1. تكنولوجيا المعلومات والاتصالات ICT

تشمل تكنولوجيا المعلومات والاتصالات ICT أي جهاز اتصال أو تطبيق يعمل على جمع المعلومات ومعالجتها وتخزينها واسترجاعها ونشرها. بما في ذلك الراديو، والتلفاز، والهاتف المحمول، والبرمجيات، وأنظمة الاتصالات القائمة على الأقمار الصناعية، وغيرها الكثير. تساهم تكنولوجيا المعلومات والاتصالات في تطوير العديد من المجالات كالتعليم، والرعاية الصحية، والأعمال التجارية، وتعتبر أساس النمو والتنمية. [3]

تطبق المدن الذكية ICT في مجال الحوكمة الإلكترونية. حيث يمكن للمواطنين استعمال الانترنت للوصول إلى خدمات حكومية أو خدمات القطّاع الخاص. مما يقلل الحاجة للذهاب إلى المكاتب والفروع، فيخفف الازدحام في الدوائر الحكومية، ويسهل تنفيذ الأعمال على المواطنين. على سبيل المثال؛ استعمال ICT لتجديد رخصة القيادة وتسجيل الأعمال التجارية.[4]

2. المستشعرات

المستشعرات هي أجهزة تكشف وتستجيب وتقيس المؤثرات الفيزيائية مثل الضوء، والصوت، ودرجة الحرارة، والضغط، والحركة. وتحوِّل البيانات إلى إشارات يمكن قراءتها من قبل مراقب أو أداة، وتعتمد المدن الذكية عليها عادةً لجمع البيانات. تعمل المستشعرات في مراقبة حركة المرور، ومستوى الضوضاء، والحالة الفيزيائية للطرق والجسور والمباني، وذلك من أجل الكشف عن الأعطال في الوقت المناسب ومعالجتها.

تضم أجهزة الاستشعار العديد من الأنواع ومنها المستشعرات الحرارية التي تقيس درجات الحرارة، وتستعمل عادةً في أجهزة إنذار الحرائق. وكذلك المستشعرات اللاسلكية التي تستطيع التواصل لاسلكيًا مع أجهزة أخرى مثل الهواتف الذكية وأجهزة الحاسوب ويشاع استخدامها في انترنت الأشياء.[5][6] تكشف أجهزة استشعار إشغال المباني عن وجود أو عدم وجود أشخاص في غرفة أو مبنى ما، وتستعمل غالبًا في أنظمة التشغيل الآلي التي تتحكم في الإضاءة وأنظمة التدفئة والتكييف والتهوية. وتكشف المستشعرات الموجودة في الكاميرات أيضًا عن الحركة في المباني وتستعمل لأغراض أمنية.[7]

صورة توضح عمل المستشعرات اللاسلكية

3. البيانات الضخمة Big data

تشير البيانات الضخمة إلى مجموعات البيانات الكبيرة أو المعقدة التي لا نستطيع التعامل معها بواسطة البرمجيات التقليدية. وتتسم البيانات الضخمة ب3 قيم:

  • الحجم، تولد التجارة الإلكترونية ووسائل التواصل الاجتماعي كميات كبيرة من البيانات.
  • التنوع، تتخذ البيانات العديد من الأشكال المختلفة مثل البيانات المنظمة في قواعد البيانات التقليدية، والبيانات غير المنظمة من المستشعرات ووسائل التواصل الاجتماعي كالصور والمستندات ومقاطع الفيديو.
  • السرعة، تتولد بيانات جديدة بوتيرة سريعة. [8]

تعتمد المدن على البيانات الضخمة وتربطها مع تقنيات المدن الذكية الأخرى التي تجمع وتعالج وتحلل هذه البيانات. وذلك من أجل اتخاذ القرارات ووضع الخطط المستقبلية بشكل أفضل. [9]

4. تحليل البيانات Data analytics

يقصد بتحليل البيانات عملية فحص مجموعات ضخمة ومعقدة من البيانات. بهدف الكشف عن الأنماط الخفية، والعلاقات المتبادلة، وتوجه السوق، وتفضيلات العملاء، وغيرها من المعلومات التجارية المفيدة. [10] يرتكز تحليل البيانات على اتباع الأساليب الإحصائية والحسابية لدراسة البيانات واستخلاص النتائج المستخدمة لاتخاذ القرارات الحاسمة.[11]

يقسم تحليل البيانات إلى عدّة فئات رئيسية. ومنها:

  • التحليلات الوصفية، تركز على تلخيص وتصور ما حدث في الماضي. وتستخدم لتحديد الاتجاهات والأنماط والعلاقات.
  • التحليلات التشخيصية، تهدف إلى تحديد أسباب حدوث الأنماط المعينة، وتساعد في معرفة الأسباب الجذرية للمشاكل، أو لفهم العوامل المساهمة في النجاح.
  • التحليلات التنبؤية، تعتمد التحليلات التنبؤية على النماذج الإحصائية للتنبؤ بما سيحدث في المستقبل. تتنبأ هذه التحليلات بالطلبات، وتحدد المخاطر، أو تتخذ قرارات بشأن الاستثمارات المستقبلية.
  • التحليلات الإرشادية، تحدد هذه التحليلات أفضل مسار للعمل لتحقيق النتائج المرجوة. [12]

يعتبر تحليل البيانات من أبرز تقنيات المدن الذكية، فمن خلال فهم الماضي والحاضر بوسعنا إنشاء مستقبل أفضل. ويتداخل كذلك في عدّة سياقات مثل الذكاء الاصطناعي. ,تُعرَّف الشبكات العصبية الاصطناعية ANNs على أنها نوع من خوارزميات تعلم الآلة المعتمدة على تحليل البيانات. إذ استُمد تصميم الشبكات العصبية من بنية الدماغ البشري. ويمكن تدريبها للتعرف على الأنماط في مجموعات البيانات، ويستفاد منها في تطبيقات كثيرة مثل التنبؤ بشدة الحوادث.[11]

5. الذكاء الاصطناعي AI

يختلف تعريف الذكاء الاصطناعي تبعًا لمجال الدراسة. لكن عمومًا هو فرع من أفرع الحاسوب يهتم ببناء آلات ذكية قادرة على أداء المهام التي تتطلب عادةً الذكاء البشري مثل اتخاذ القرار، وترجمة اللغات، والتعرف على الكلام. [13] تعرِّف المدن الذكية الذكاء الاصطناعي على أنه الذكاء الذي يظهره كيان اصطناعي بحيث يكون قادرًا على إدراك محيطه ويتخذ إجراءات تقلل من التدخل البشري، وتحقق أهدافه بنجاح في نفس الوقت.

يعمل الذكاء الاصطناعي مع تقنيات المدن الذكية الأخرى في المنزل الذكي لكي يطوّر حياة السكان. على سبيل المثال؛ يقوم بأتمتة المهام كالتحكم بالإضاءة، ودرجات الحرارة. إضافةً إلى ذلك، يدمج الذكاء الاصطناعي نظام التعرف على الوجه في نموذج المنزل الذكي. يساعد ذلك في تحديد إذا ما كان الشخص الموجود في المنزل مقيمًا أو شخصًا غير معروف. من ثم يرسل نظام الإخطار الآلي -الذي يستخدم نظام تلغرام بوت- إشعار إلى صاحب المنزل في حالة دخول شخص مجهول إلى المنزل. كما يوفر التطبيق خيارات إضافية للمستخدم من أجل اتخاذ مزيد من الإجراءات الوقائية كإبلاغ الشرطة مثلًا أو إغلاق الأبواب. [14]

6. تعلم الآلة Machine Learning

يعد تعلم الآلة مجالًا سريع النمو، يتقاطع مع علوم الحاسوب والإحصاء، وهو فرع من فروع الذكاء الاصطناعي يركز على تمكين أجهزة الحاسوب من تحسين أدائها تلقائيًا من خلال الخبرة. يحدث ذلك عادةً عن طريق دراسة وبناء خوارزميات التعلم المعتمدة على تحليل البيانات، وبناء نماذج لتمثيل العلاقات بين البيانات المدخلة والمخرجات المطلوبة.[15]

يستعمل تعلم الآلة بطرق مختلفة لتعزيز تطبيقات المدن الذكية، على سبيل المثال؛ يساعد في تحقيق الأمن السيبراني. حيث يتزايد خطر التهديدات الإلكترونية مع نمو شبكات المدن الذكية، ويكشف تعلم الآلة عن تهديدات الأمن السيبراني ويمكن أن يحدد الشذوذ ويمنع الهجمات الإلكترونية بفاعلية في الوقت المناسب. مما يحافظ على أجهزة انترنت الأشياء والبنية التحتية آمنة. [16]

7. انترنت الأشياء IoT

يعد انترنت الأشياء IoT من أهم تقنيات المدن الذكية، والركيزة الأساسية لمجالاتها ال8 الذكية، وهي: الحوكمة، والرعاية الصحية، والبيئة، والاقتصاد، والصناعة، والتنقل، المعيشة والبنية التحتية، والطاقة. ,يشير IoT إلى شبكة عملاقة تربط الأشياء والأشخاص بالانترنت وببعضها البعض وتسمح بجمع وتبادل ومعالجة البيانات. يهدف عمومًا إلى تحديد المواقع، والتتبع، والمراقبة، والتعرف الذكي، والإدارة، إضافةً إلى ربط الأجهزة الذكية ببعضها مثل المستشعرات.[17]

انترنت الأشياء IoT

تطور تقنيات المدن الذكية

تحقق المدن الاستفادة القصوى من التقنيات الذكية عندما يتكامل عملها. ويتنامى اليوم تطوير تقنيات المدن الذكية بسرعة مذهلة، فالأدوات المذكورة سابقًا ليست إلا جزءًا من الكثير من التقنيات. وستؤثر بشكل جذري على أسلوب حياتنا ومدننا في المستقبل. وتعد هذه التقنيات والأدوات حصيلة تقدّم البشرية. فمن مدينة أوروك السومرية أول مدينة في العالم المبنية باللبن إلى المدن الذكية اليوم، ومن التطبيق الذي تقرأ منه هذه المقالة إلى الروبوت الذي يجري العمليات الجراحية، يمكنك تخيل حجم هذا التطور.

المصادر

  1. Semanticsholar
  2. IGI global
  3. ResearchGate
  4. semanticscholar
  5. ResearchGate
  6. semanticsholar
  7. MDPI
  8. SAGE
  9. Cornell University
  10. semanticsholar
  11. ResearchGate
  12. National Library of medicine
  13. IJCMAS
  14. IEEE
  15. MDPI
  16. National library of medicine
  17. ResearchGate

أشهر أدوات المعلوماتية الحيوية، ما هي أداة بلاست BLAST وفيم تستخدم؟

أداة بلاست BLAST

تعد أداة بلاست «BLAST» من أهم أدوات البحث في المعلوماتية الحيوية وهي عبارة عن خوارزمية لمقارنة معلومات التسلسل البيولوجي، مثل تسلسل الأحماض الأمينية في البروتينات أو تسلسل ثلاثيات النيوكليوتيدات في الحمض النووي DNA أو الحمض النووي الريبي RNA. وتعني كلمة «BLAST» أداة بحث الصف المحلية الأساسية أو «basic local alignment search tool». وتمكّن أداة «BLAST» من مقارنة بروتين أو تسلسل نيوكليوتيد بمكتبة أو قاعدة بيانات للتسلسلات، وتحديد تسلسل قاعدة البيانات الموافق للتسلسل الذي تتم دراسته. وعند اكتشاف جين جديد عند الفأر مثلَا، ولمعرفة مقدار التشابه بينه وبين الجينوم البشري، يتم البحث عبر «BLAST»، حيث تقوم بكشف التشابهات بين الجين الجديد والجينات المخزنة ضمن قاعدة بيانات سابقًا. [1]

آلية عمل بلاست BLAST

باستخدام الطريقة «الإرشادية – Heuristic»، تجد الأداة تسلسلات متشابهة من خلال تحديد مواقع التطابق بين التسلسلين، وبعد كشف أول تشابه، تبدأ أداة «BLAST» بالبحث عن الصف. وأثناء البحث عن تشابهات للتسلسل، تعتبر مجموعات الأحرف مهمة حيث كل جزء من التسلسل يرمز له بحرف معين. فلو افترضنا مثلًا أنه لدينا التسلسل التالي «GLKFA»، إذا تم إجراء البحث فسيكون تشكيل كلمات من ثلاثة أحرف من هذا التسلسل. في هذه الحالة، ستكون الكلمات التي تم البحث عنها هي GLK ، LKF ، KFA. وبعد ذلك تحدد الخوارزمية الإرشادية للأداة جميع الكلمات المشابهة للتشكيلات المكونة من ثلاثة أحرف الخاصة بالتسلسل الذي نبحث عنه والتسلسلات الموجودة في قاعدة البيانات.

خوارزمية BLAST

  • إزالة المنطقة منخفضة التعقيد
    المنطقة منخفضة التعقيد تعني منطقة من التسلسل مكونة من عدد قليل من العناصر. وقد تسبب هذه المناطق تشويش يربك البرنامج في بحثه عن التسلسل الفعلي في قاعدة البيانات، لذلك يجب إزالتها. وهذه المناطق تشبه التشويش الموجود في الإشارات الرقمية، ويجب التخلص منها قبل معالجة الإشارة. ويتم تمييز هذه المناطق بالرمز X في تسلسلات البروتين وبالرمز N في تسلسل الحمض النووي، وذلك لتسهل تجاهلها من قبل البرنامج ولأن N مستخدم بالفعل في الحروف التي ترمز لأحد الأحماض الأمينية.
  • إنشاء قائمة كلمات مكونة من عدد K من الحروف للتسلسل

    نفترض k = 3 على سبيل المثال، سنستخلص الكلمات المكونة من 3 أحرف من تسلسل البروتين، حتى يتم تضمين الحرف الأخير.
طريقة تشكيل كلمات ثلاثية من تسلسل الحروف
  • قائمة الكلمات المطابقة المحتملة
    تهتم خوارزمية «BLAST» فقط بالكلمات ذات الدرجات العالية. ويتم إنشاء الدرجات من خلال مقارنة الكلمة الموجودة في المشكلة في الخطوة السابقة بجميع الكلمات المكونة من 3 أحرف ضمن قاعدة البيانات. وتُستخدم مصفوفة التسجيل (مصفوفة الاستبدال) لتسجيل المقارنة بين كل زوج من المخلفات. وكلما زاد التطابق، زادت الدرجة والعكس صحيح.
  • تنظيم الكلمات المتبقية عالية الدرجات في ترتيبات بحث فعالة
    يسمح هذا للبرنامج بمقارنة الكلمات عالية الدرجات بسرعة مع تسلسلات قاعدة البيانات. ويتم تكرار الخطوات 3 و 4 حتى الانتهاء من التسلسل بشكل كامل.

تحميل برنامج BLAST

يمكن تحميل برنامج «BLAST» وتشغيله كأداة مساعدة أو الوصول إليه مجانًا عبر الويب. ويسمح خادم الويب «BLAST»، الذي يستضيفه موقع «NCBI»، لأي شخص لديه متصفح ويب بإجراء عمليات بحث عن التشابهات ضمن قواعد البيانات المحدثة باستمرار للبروتينات والحمض النووي والتي تشمل معظم الكائنات الحية. ويعتمد برنامج «BLAST» على تنسيق مفتوح المصدر، مما يتيح للجميع الوصول إليه ويمكّنهم من تغيير الكود البرمجي الخاص بالبرنامج مما أدى إلى إنشاء العديد من المشاريع الفرعية المشتقة من هذا المصدر. ويمكنك تحميل وتفحص البرنامج من هنا.[2]

أنواع برنامج BLAST

  • BLASTn: يقارن واحدًا أو أكثر من تسلسل النيوكليوتيدات بتسلسل النوكليوتيدات في قاعدة البيانات أو تسلسل واحد معين.
  • BLASTx: يقارن هذا البرنامج منتجات ترجمة ستة إطارات لتسلسل النوكليوتيدات ضمن الـ DNA بقاعدة بيانات تسلسل البروتين للعثور على الجين المسؤول عن إنتاج بروتين أو حمض أميني معين.
  • TBLASTn: وهو بعكس «BLASTX » ويستخدم لرسم خريطة للبروتين والحمض النووي المسؤول عنه.
  • BLASTp: يقارن تسلسلًا واحدًا أو أكثر من تسلسل البروتين بالتسلسلات ضمن قاعدة بيانات. مما يساعد في محاولة التعرف على بروتين معين.

يمكن استكشاف عدد من عمليات البحث ضمن البرنامج من هنا. [3]

أصبح «BLAST» أداة أساسية لعلماء الأحياء. حيث تسمح سرعته وحساسيته للعلماء بمقارنة تسلسل النيوكليوتيدات والبروتينات بالتسلسلات ضمن قواعد البيانات الكبيرة. وأصبح من المعتاد قراءة بحث في مجال علم الأحياء الحديث يحمل اسم «BLAST» كأداة مستخدمة. وقد سمحت «BLAST» وتطبيقاتها التابعة للعلماء بالتنبؤ بوظائف الجينات والبروتينات في الجينوم الكامل، والإجابة على أسئلة كان لا يمكن الإجابة عليها بالعمل المختبري فقط.

المصادر
[1] Berkley library
[2] BLAST NCBI
[3]
NCBI Github

 

 

 

 

 

 

علم البيانات الإكلينيكية: أنواع البيانات

يتوجه عدد كبير من المرضى يوميًا إلى المستشفيات، منهم من يتلقى علاجًا سريعًا لحالة بسيطة، ومنهم من يذهب إلى الطوارئ لحالة بسيطة، والأخير من يمكث بعض الوقت في المستشفى ولا سيما العناية. كل من يدخل إلى المستشفى تُسجل بيانات خاصة به من أجل معرفة كاملة بحالته مستقبلًا. فهل كل البيانات تتشابه في كل حالة مريض؟ وما هي البيانات؟ ومن الذي يحصل عليها؟ هذا ما نراه في هذا المقال عن علم البيانات الإكلينيكية: أنواع البيانات.

السجل الصحي الإلكتروني(EHR) والسجل الطبي الإلكتروني(EMR):

يعتبر السجل الصحي أعم وأشمل من السجل الطبي، حيث يحتوي على كل ما يخص صحة المريض على سبيل المثال، السجلات الطبية وصور الأشعة وبيانات التحاليل في المعامل، بالإضافة إلى المعلومات غير الصحية مثل معلومات التأمين الصحي ومعلومات الديموغرافيا الخاصة بالمريض والتسلسل الجيني، وأيضًا البيانات من تطبيقات تتبع اللياقة البدنية. وعلى الجانب الاّخر فالسجل الطبي محدود حيث يحتوي على التقارير الطبية القديمة والتشخيص وطريقة العلاج من الطبيب المعالج. [1]

أهمية السجل الصحي الإلكتروني

  • مساعدة الطبيب المعالج حيث يحتوي على أي تشخيصات سابقة، والأدوية التي استخدمها المريض.
  • تجنب مسببات الحساسية المعروفة سابقًا والمسجلة فيه.
  • الاطلاع على أي تحاليل وأشعة سابقة من خلاله للمساعدة في الحصول على تاريخ مرضي أدق.
  • المدفوعات السابقة للمريض من قام بها وهدفها.
  • التقارير القانونية السابقة للمريض من قام بها وقدمها لأي جهة.

4 أسئلة يجب أن نعرفها عن البيانات الإكلينيكة بمجرد الاطلاع عليها

  • من سجل هذه البيانات؟ هل طبيب أم ممرض أم صيدلي أم أحد مسئولي الدفع في الحسابات والاستقبال
  • متى أصبحت هذه البيانات متاحة؟ ومتى قام بهذه التحاليل والأشعة؟
  • لماذا كُتبت هذه التقارير؟ هل بسبب أزمة صحية مر بها المريض أم كان لجهة معينة أو جهة حكومية؟
  • ما هي أنواع البيانات؟ هل بيانات مهيكلة أم غير مهيكلة أم نصف مهيكلة؟

أنواع المقابلات الصحية التي ينتج عنها بيانات عن المرض

1- مقابلات عادية(out patient): وهي زيارة مرضية إلى مقدم رعاية صحية قد يكون طبيب عام أم أخصائي أم جراح أو طبيب أسنان أو طبيب علاج طبيعي، وإذا كانت زيارة أولى يُسجل مريض جديد، وإذا كانت زيارة ثانية أو ما بعدها تُسجل كمتابعة.

يُسجل كل ما حدث في الزيارة مثل العلامات التي ظهرت على المريض والتشخيص والأدوية التي صرفها من الصيدلية وأي اجراءات اتخذها المريض، وعلى الجانب الأخر تكون بيانات زيارات الجراحة أكثر من بيانات الزيارات الأخرى.

2- مقابلات داخل المستشفى(in patient): عندما يتم تحويل المريض للدخول إلى المستشفى لإجراء طبي قد يمتد لساعات أو أيام أو أسابيع. ومن خلال ذلك يتعامل المريض مع عدد أكبر من مقدمي الرعاية الصحية كأطباء وممرضات وصيادلة وعاملين بالصحة الاجتماعية. ويتم تحديد وقت دخول المريض إلى المستشفى والوقت الذي استغرقه ووقت الخروج منها. وتُسجل أكبر عدد من البيانات وتكون أغلبها بيانات غير منتظمة وأكثر تعقيدًا حيث يستخدم مقدمو الرعاية الصحية أجهزة أكثر، وبالتالي بيانات أكثر.

3- الطوارئ: وهذه هي الحالة الوسط بين المقابلات العادية والمقابلات داخل المستشفى فقد تكون زيارة سريعة وقد تمتد لوقت طويل.

يعتبر أيضًا استخدام التليفون أو الفيديو (زيارة إلكترونية) ونعتبرها مقابلة عادية وتُسجل فيها بيانات المريض.

أنواع البيانات

1- بيانات الفواتير:

وتنقسم إلى نوعين من الأكواد، الأول هو كود للإجراءات الطبية(CPT): وهي التي اتخذها مقدمو الرعاية الصحية من أجل المريض مثل التقارير الطبية والتحاليل والأشعة ويتكون هذا الكود من 5 حروف ويوجد أكثر من 10 ألاف كود يتم تحديثه كل من 3 إلى 5 سنوات على سبيل المثال (99213) ويدل الكود على معالجة الطبيب لحالة مريض مزمنة.

أما الثاني فهو الكود التشخيصي: وكان سابقًا يتكون من 5 حروف إلى عام 2015م ووصلوا إلى أكثر من 14 ألف كود، أما حاليًا يتكون من 7 حروف وأصبح يوجد أكثر من 70 ألف كود. وهذا الكود يوضح تشخيص الطبيب للمريض على سبيل المثال، S06.0X1A يوضح الكود حالة من فقدان الوعي للمريض.

وهذه الأكواد لها متخصصون يعملون بها، ويحصل على هذه البيانات مقدمو الرعاية الصحية على حسب نوع زيارة المريض سواء كانت مقابلة عادية أو داخل المستشفى أو زيارة طوارئ. [5]

2- بيانات تحاليل المعامل

وتنقسم إلى تشريحية وهي بيانات خاصة برؤية الأعضاء والأنسجة باستخدام الميكروسكوب وينتج عنها تقارير غير مهيكلة أو نصف مهيكلة. والنوع الثاني إكلينيكية مثل تحاليل السوائل كالدم والبول ويتداخل معها الكيمياء الإكلينيكية والميكروبيولوجي وأمراض الدم، وينتج عنها تقارير مهيكلة أو رقمية.

يتضمن العمل بهذه البيانات 4 خطوات:

  1. طلب التحاليل: ويطلبها مقدم الرعاية الصحية(الطبيب) في وقت معين في حالة الرغبة في اكتشاف أوالجواب على سؤال معين بسبب ظهور عرض ما على المريض وتنقسم إلى تشريحية بالميكروسكوب أو تحاليل دم أو بول في المعمل أو فحص كامل للجسم بجهاز أشعة.
  2. جمع العينة: ويقدم تلك الخدمة المساعد أو المسئول عن المعمل، وقد تكون العينة دم أو بول أو براز ويُضاف أيضًا إلى البيانات طريقة سحب العينة.
  3. تحليل العينة: يتم عن طريق طبيب متخصص في التحاليل، وقد يكون في نفس المكان أو يتم إرسال العينة إلى مكان أخر، حيث يتم تحديد نوع العينة وطريقة تجميعها والطرق المختلفة المتاحة للتحليل ومكان تحليلها. ثم تُخزن هذه البيانات والنتائج في النظام الإداري الخاص بالمعمل.
  4. نتائج التحاليل: وتتضمن نوع العينة وطريقة تجميعها والرقم المرجعي لكل ناتج، بالإضافة إلى تاريخ تجميع العينات وتاريخ النتائج.

3- البيانات العلاجية

وتتضمن:

  • الوصفات الطبية: وتكون ضرورية أن يتلقى المريض الأدوية المكتوبة فيها، وتُكتب عن طريق طبيب أو صيدلي أو مقدم رعاية صحية. وقد تكون الوصفة ورقية أو إلكترونية يحصل عليها المريض عند الزيارة أو ترسل إليه في الزيارات الإلكترونية.
  • صرف الأدوية: عن طريق الصيدلي أو فني الصيدلية وتكون منظمة ومهيكلة.
  • أدوية المستشفيات: وهي الأدوية التي تشكل نسبة خطورة أعلى فتكون متاحة فقط بالمستشفيات ولا توجد في الصيدليات، ومسجل عليها من وكيف ولماذا ومتى أعطى الممرض للمريض هذا العلاج.
  • بالإضافة إلى تفاصيل أكثر وأشمل في هذا النوع من البيانات على سبيل المثال، اسم العلاج التجاري والمادة الفعالة وتركيز العلاج والشكل الصيدلاني قد يكون حبوب أو شراب أو غيره وطريقة إعطاء العلاج والجرعة والتكرار والمدة.

4- بيانات ملاحظة المريض

وهي القياسات والأعراض التي تُسجل للمريض في الزيارة. كما في الزيارات العادية كالطول والوزن والعلامات الحيوية مثل ضغط الدم والنبض ودرجة الحرارة، ومن الممكن أن يطلب أخصائي اختبارات معينة مثل وظيفة الرئة.

وتكون هذه البيانات مهيكلة يأخذها الممرض أو مساعد الطبيب في بداية الزيارة لتقييم صحة المريض بشكل عام. أما في الزيارات داخل المستشفى فتكون أكثر سرعة وتتم عن طريق ممرض متخصص أو أخصائي للتعرف على التغييرات الطارئة على المريض ومحاولة تفادي أي أخطار.

5- الديموغرافيا والتاريخ العائلي والاجتماعي

حيث يتم تسجيل:

  • بيانات ديموغرافيا المريض مثل العمر والنوع والعرق.
  • التاريخ الاجتماعي مثل الوظيفة والحالة الاجتماعية، ويحصل عليها الطبيب وتكون بيانات غير مهيكلة.
  • نظام الحياة مثل التدخين والكحول. ويحصل عليها الممرض في كل زيارة تقريبًا أو بعد مشكلة صحية والأدوية التي يتناولها، وتكون البيانات مهيكلة أو غير مهيكلة.
  • التاريخ العائلي للأمراض للتعرف على الأمراض التي قد يكون المريض أكثر عرضة إليها بسبب الجينات، ويحصل على هذه البيانات الطبيب.

مصادر

[1] towards data science

[2] health current

[3] research gate

[4] health sciences library

[5] simple practice

مقدمة في علم البيانات الإكلينيكية

هذه المقالة هي الجزء 13 من 17 في سلسلة مقدمة في علم البيانات وتطبيقاته

قديمًا، كنا عندما نذهب إلى المستشفى لاستشارة طبية أو المتابعة بسبب مرضٍ ما، من الممكن ألا يتذكرك طبيبك الخاص بسبب كثرة ما يرى من عدد المرضى يوميًا بدون وجود تقارير طبية خاصة بهم. ثم تطور الأمر إلى دفتر خاص بكل مريض ولكنه ملئ بالتحديات للحصول على معلومة عن المريض. ولكن الاّن بضغطة زر واحدة تحصل على كل المعلومات التي تريدها عن أي مريض في لحظة واحدة. قد يكون هذا ملخص التعامل الطبي مع المرضى منذ بداية الطب إلى العصر الحالي، مما فتح أمامنا مجالات متعددة وخاصة مع توافر بيانات سهلة الوصول لكل مريض أصبح لدينا أحد أهم العلوم في العصور القادمة وهو علم البيانات الإكلينيكية. وسنبدأ في هذا المقال مقدمة في علم البيانات الإكلينيكة.

أولًا: ما هو علم البيانات؟ هو علم يجمع بين 3 علوم متفرقة: علم الكمبيوتر، وعلم الإحصاء، وخبرة في مجال متخصص. ويوجد تقارير حديثة تضيف إليهم علمًا رابعًا وهو علم الاجتماع والتواصل.

أما علم البيانات الإكلينيكية والي سنتحدث عنه باستفاضة في هذا المقال فهو استخدام البيانات التي تم تجميعها من قِبل مقدمي الرعابة الصحية لخلق معارف جديدة وتطوير الاهتمام بالمرضى مستقبلًا باستخدام البرمجة والإحصاء.

ويوجد عدد من العلوم القريبة في تعاريفها وتطبيقها من علم البيانات الإكلينيكية وعلى سبيل المثال، علم البيانات البيولوجية وتتضمن تجميع البيانات الجينية الخاصة بكل مريض لتتبع وجود أو تطور مرض ما بداخله. وعلى الجانب الأخر علم بيانات الرعاية الصحية وهو يركز بشكل أكبر على تسيير أعمال المؤسسة الصحية من الناحية الإدارية والمالية أكثر من الاهتمام بالمريض. وأخيرًا علم البيانات الصحية الذي يهتم بتجميع البيانات الإكلينيكية وغير الإكلينيكية مثل اللياقة البدنية وتتبع النوم وصفاء الذهن والبيانات الاخرى التي تركز على الصحة. [1]

قوانين البيانات الإكلينيكة

في سنة 1966م، أقر الكونجرس الأمريكي قانون لحماية بيانات المرضى وتوجيه استخدامها فقط في الأبحاث العلمية من أجل تطوير الخطط العلاجية والدفع والتأمينات، ووقعه الرئيس بيل كلينتون. ويتلخص هذا القانون في استخدام أقل قدر ممكن من البيانات للحصول على أعلى استفادة علميًا وعمليًا.

وأشهر انواع قواعد البيانات هما:

  • قاعدة البيانات المحدودة وتنص على استخدام المعلومات لأهداف محددة فقط بغرض حماية البيانات، مع عدم التعريف بالأشخاص وتقديم تقارير، بالإضافة إلى التأكد من أن جميع المستخدمين يتبعون القوانين. حيث يُحذف عدد من المُعرفات بالأشخاص تصل إلى 16 مُعرف مثل الإسم والعنوان ورقم التأمين الاجتماعي وهكذا.
  • قاعدة البيانات غير المُعرفة للأشخاص: ويتم تنفيذها بطريقتين، الأولى هي حذف 18 مُعرف بالأشخاص للحفاظ على الخصوصية. والطريقة الثانية تتم عن طريق خبراء في المجال يفحصون البيانات بشكل دقيق، ثم يحذفون ما يُعرف بالأشخاص ويحصلون فقط على ما يفيد في عملية تحليل البيانات فقط. [3]

حجم البيانات الإكلينيكية

قدرت منظمة الصحة العالمية حجم البيانات الإكلينيكة في سنة 2013م فقط ب 153 إكسابايت، وفي سنة 2020م ب 2314 إكسابايت. هذه الأرقام ضخمة في العام الواحد ككمية أكبر من البيانات في أي مجال غيره. ووصل حجم الإنفاقات على تحليل البيانات الإكلينيكة إلى 8 مليار دولار سنة 2022، ومن المتوقع أن يصل إلى 50.7 مليار دولار في سنة 2027م ، مما يدل على أهمية المجال وتطوره مستقبلًا. [4]

مثال واقعي على علم البيانات الإكلينيكية

من الأمثلة الكلاسيكية مثلًا ملاحظة تأثير التمارين الرياضية على وظيفة الرئة في المرضى اللذين لديهم مشاكل في الرئة والتنفس. في هذا المثال كل العلامات واضحة وذلك مجرد تحليل للبيانات وملاحظة القياسات.

أما من الأمثلة الحديثة التي يكون فيها علامات ودلائل غير واضحة وعلينا اكتشافها فهي على سبيل المثال، يموت نسبة كبيرة من مرضى مشاكل الكلى بعد فترة قصيرة من الدخول في مرحلة غسيل الكلى، لذا يجب معرفة السبب باستخدام البيانات المتاحة.

تجميع البيانات الإكلينيكية

يتم تجميع البيانات الإكلينيكية عن طريق :

  • السجلات الصحية الإلكترونية وهي متاحة فقط داخل نظام المستشفى الإلكتروني، وبها التاريخ المرضي للمريض، والأمراض التي تم تشخيصه بها سابقًا، والأدوية التي استخدمها.
  • سجلات المرض اعتمادًا على مرض معين أو حالة معينة. حيث يتم تقييم المرض وانتشاره على سبيل المثال، هيئة صحية مهتمة بمرض السرطان أو القلب وهكذا.
  • بيانات الأبحاث الإكلينيكية حيث يتم تجميع هذه البيانات عن طريق تجربة علمية لدواء جديد أو طريقة علاج جديدة أو اختبار جهاز جديد.
  • أجهزة حديثة مثل التليفونات الذكية والساعة الرياضية. [3]

عن ماذا نبحث أولًا في البيانات الإكلينيكة؟

  • الهدف: محاولة فهم الهدف من هذه البيانات، وما تحاول أن توضحه، والسؤال الذي تجيب عنه.
  • عدم التحيز: ينبغي أن تكون كل البيانات المُعرفة للأشخاص المشاركين مجهولة لمن يقوم بعملية تحليل البيانات. بهدف عدم التحيز لنتيجة ما.
  • تركيبة البيانات: يجب أن تكون متطابقة لقوانين الصحة العالمية، لكي يتم الاعتبار بها كنتيجة حقيقية.
  • اتجاهات البيانات: يجب أن تكون البيانات مُعبرة عن النتيجة. [2]

المجالات الصحية التي تُطبق فيها علم البيانات الإكلينيكية:

  • إدارة أعمال منشاّت الصحة العامة.
  • الصحة العقلية.
  • الصحة العامة.
  • اليقظة الدوائية.
  • انتشار الأمراض.
  • الكشف عن الغش في الأدوية.

مصادر

[1] towards data science

[2] propharma group

[3] springer link

[4] market data forecast

نظرية الاحتمال بين الماضي والمستقبل

انتشر القمار في المجتمع الفرنسي قديمًا بشكل كبير إلى أن وصل أنه كان الأكثر شهرة وحداثة في المجتمع في منتصف القرن السابع عشر. وبعدما أصبح أكثر تعقيدًا وأضخم كانت هناك حاجة ملحة للوصول إلى طرق رياضية أحدث لتحقيق المكسب. فاستعان لاعب القمار الشهير في ذلك الوقت الذي لم يكن يخسر وقتها أي مواجهة إلا بصعوبة <<Chevalier De Mere – شوفالييه دي ميري >> الحاصل على جائزة نوبل ب <<Blaise Pascal – بليز باسكال >> فبدأ باسكال التعاون مع صديقه العالم << Pierre De Fermat – بيير دي فيرما>> لمناقشة هذه المشكلة، وتوصلوا من ذلك إلى الأصل الرياضي للاحتمالات ووضعوا أساس ما يسمى بالاحتمال الكلاسيكي. ففي هذا المقال نناقش نظرية الاحتمال بين الماضي والمستقبل.

تاريخ نظرية الاحتمال

  1. العصور القديمة: ظهرت لعبة رمي النرد في ألعاب الحظ عبر كل العالم تقريبًا منذ أكثر من 3500 سنة في اليونان والإمبراطورية الرومانية والصين والهند وغيرهم من الدول. وكان يُصنع النرد وقتها من عظام الحيوانات مثل الماعز والخروف، وتواجدت هذه الصناعة بشكل أكبر في اليونان والإمبراطورية الرومانية.
  2. القرنين السادس عشر والسابع عشر: في هذه الفترة كانت قد حصلت ألعاب الحظ وألعاب الكروت على اهتمام أكبر. وكتب عالم الرياضيات << Gerolamo Cardano – جيرولامو كاردانو >> دليل قصير سنة 1524م والذي احتوى على أول معالجة رياضية عن الاحتمالات ونُشرت بعد قرن تقريبًا سنة 1633م. وكان قد عرض العالم كاردانو في هذا الدليل أن احتمالية حدث ما تكون بين صفر وواحد والناتج عشوائي. وعندما تكون احتمالية حدث ما هي (p) وعدد المرات التي تحدث هي (n) فإن عدد المرات التي ستحدث هي (np). واعتقد العلماء وقتها أنه لم يقدم جديدًا ولكنه ما زال يعتبر الأب الحقيقي لعلم لنظرية الاحتمال. ثم جاء العالمان بليز باسكال وبيير دي فيرما وقدموا تعريف الاحتمالات والقيمة المتوقعة والاحتمال المشروط وذلك يعتبر ميلاد الاحتمالية الكلاسيكية. ثم نشر العالم الهولندي << Christian Huygens – كريستيان هوغنس >> أول بحث له عن نظرية الاحتمال عام 1657م وأعاد تقديم فكرة احتمالية حدث معين واستعان بتعريفات أبو الاحتمالات العالم كاردانو. وظلت كتاباته هي الأشهر حتى القرن الثامن عشر.
  3. القرنين الثامن عشر والتاسع عشر: وضع العالم <<Jacob Bernoulli – ياكوب بيرنولي >> أساس نظرية الاحتمال وحل مشكلة الأرقام الكبيرة التي قابلت العلماء فيما سبق. ثم العالم << Pierre Simon – بيير سيمون >> وهو أول من قام بمحاولات لتطوير نظرية الاحتمالات في ألعاب الحظ، وأقام تطبيقات عديدة في الرياضيات والعلوم الاجتماعية مثل معدل الوفيات وغيرها، وساهم بشكل كبير في علم الإحصاء.
  4. الاحتمالية الحديثة: ترأس هذه المرحلة عالم الرياضيات الروسي << Alexander Nikolaje – أليكسندر نيكوليجي >> وقدم إسهامات كبيرة في القرن العشرين، وهو الخبير الأول وقد نشر كتاب أساسيات نظرية الاحتمال، ووضع الأساسيات الحديثة لعلم الاحتمالات. [2]

تعريف نظرية الاحتمال

نظرية الاحتمال هي الفرصة لحدوث شئ معين بناءً على بعض التجارب، على سبيل المثال عندما نقول فرصة سقوط المطر اليوم 30%. وتكون الاحتمالات دائمًا ما بين 0% إلى 100% أو ما بين الصفر والواحد. ولكن عندما تكون 0% هذا يعني أن هذا لن يحدث مطلقًا، وعندما تكون 100% معنى ذلك أنه سيحدث بكل تأكيد ولا يعد ذلك احتمال.

فإذا كان أمامك صندوق من الكرات وكل كرة عليها رقم من 1 إلى 6، فكل الاحتمالات الممكنة هي كل أرقام هذه الكرات وتعبر عن العينة أي أن العينة هي { 1 و 2 و 3 و 4 و 5 و 6 }، واحتمال حدوث كل حدث من هذه الاحتمالات هي 1 مقسومًا على عدد الاحتمالات، واحتمالية حدوث العينة كلها يساوي واحد. [1]

فكيف نعد هذه الاحتمالات؟

يوجد طرق متعددة لمعرفة عدد الاحتمالات، وأشهرهم:

  1. طريقة التجميع (Multplication Rule): على سبيل المثال إذا كان لدينا موقع به 4 ألوان و3 خطوط و3 أماكن مختلفة لوضع الصور، فنستطيع أن نحصل على عدد الاحتمالات الممكنة لظهور تصميم الموقع بضرب عدد الألوان في عدد الخطوط في عدد الأماكن أي أننا في هذا المثال بإمكاننا أن نحصل على 36 تصميم مختلف.
  2. التباديل: إحدى طرق عد الاحتمالات وتهتم بترتيب العناصر، حيث نحصل على عدد احتمالات ترتيب العناصر بشكل مختلف، على سبيل المثال أ-ب-ج من الممكن أن نحصل منهم على 6 أشكال بتغيير الترتيب.
  3. التوافيق: وهي طريقة تتشابه مع التباديل دون الاهتمام بالترتيب، ونستخدمها عندما نريد الحصول على احتمالات لعدد من العناصر أقل من عدد الاحتمالات الكلي، على سبيل المثال إذا أردنا الحصول على احتمالية تواجد موقع 3 كرات داخل صندوق من أصل 10 كرات. [1]

أهمية دراسة الاحتمالات وتطبيقاتها

تتداخل الاحتمالات مع العديد من المجالات ومنها:

  • الإحصاء: وتعتبر الاحتمالية هي أساس ولغة الإحصاء، وتمكننا بطرق عديدة باستخدام البيانات لنتعلم عن العالم.
  • الفيزياء: وتساعدنا على فهم الفيزياء الكمية، والتي تتضمن الاحتمالات في أساسياتها لدراسة الطبيعة.
  • الأحياء: تترابط الجينات بقوة مع الاحتمالات، وخاصة في دراسة الجينات والوراثة والطفرات.
  • علم الكمبيوتر: حيث تلعب الاحتمالات دورًا كبيرًا في دراسة الخوارزميات العشوائية وتعلم الألة والذكاء الاصطناعي.
  • التمويل: وهي أساس التمويل الكمي، وترقب أسعار المخزون مع مرور الوقت يعتمد بشكل كامل على الاحتمالات.
  • العلوم السياسية: أصبحت الاحتمالات في هذا المجال ذات اهمية كبيرة مؤخرًا، وأصبح هناك ارتباطًا أكبر بالكم والإحصاء مثل توقع وفهم نتائج الانتخابات.
  • الطب: تطورت التجارب الإكلينيكية العشوائية التي فيها يُقسم المرضى إلى مجموعتين واحدة تحصل على العلاج الأساسي والأخرى تحصل على كبسولات فارغة ليس فيها علاج. وساعدت الاحتمالات الطب كثيرًا في مثل هذه الحالات في السنوات الأخيرة.
  • الحياة: حيث أن الحياة غير مؤكدة، والاحتمالات هي عدم التأكد، لذلك استخدام الاحتمالات في اتخاذ القرارات في حياتنا يساعدنا كثيرًا. [3]

مصادر

[1] Britannica

[2] Britannica

[3] Springerlink

تقرير موقع كاجل: نصائح لعلماء البيانات

يتطور مجال علم البيانات تقريبًا كل يوم إلى أن أصبح من أهم المجالات في القرن الحالي. ولكن ما أن يبدأ عالم البيانات حياته العملية إلا أنه يجد العديد من الصعوبات. تخيل أنك طالب قد درست علم البيانات وبدأت أن تفتح يديك لسوق العمل. فأولًا تبحث عن أي التقنيات التي يجب ان تتقنها وأى لغات البرمجة التي يجب أن تكون ملمًا بها وأسئلة أخرى متعددة تجول بخاطرك بلا شك. فلنتعمق في تقرير موقع كاجل: نصائح لعلماء البيانات.

مجتمع كاجل لعلم البيانات هو من أشهر المواقع التي تجمع علماء البيانات عالميًا بغرض التعليم وحل المشكلات والمنافسة فيما بينهم. ويعرض الموقع تقريرٍا سنويًا ويحتوي على أراء علماء البيانات بداية من لديه خبرة أقل من عام إلى من لديه خبرة تفوق العقدين من الزمن في هذا المجال.

ونستيطع أن نخرج ببعض الدروس والنصائح المستفادة من هذا التقرير وتوجيهها إلى المبتدئين في مجال علم البيانات. ويفيد أيضًا من لديهم خبرة كبيرة.

ستقدم الإناث المزيد مستقبلًا في هذا المجال

مازال هناك فرق كبير بين عدد العاملين من الرجال والسيدات في علم البيانات، حيث ٨٢٪ من العاملين في هذا المجال رجال و ١٦٪ فقط سيدات وأقل من ٢٪ لم يفضلوا ذكر النوع. حتى منذ ٥ سنوات سابقة وحتى الآن لم يكن هناك تغيير في هذه النسبة منذ ٢٠١٧م وحتى عام ٢٠٢١م. لذا فاعتقد ان المجال متاحًا أمام السيدات لأخذ خطوات واسعة قوية في سبيل هذا المجال.

هل يوجد أزمة منتصف العمر لدى علماء البيانات؟

يعتبر مجال علم البيانات في مرحلة مبكرة، حيث تقريبًا نصف العاملين في هذا المجال بين عمر ٢٢ إلى ٣٤ سنة. حيث يبدأ العمل في علم البيانات تقريبًا بعمر ١٦ سنة، ويظل في الزيادة، ويكون في قمة الزيادة من ٢٥ إلى ٢٩ سنة، وتظل النسبة قريبة حتى عمر ٣٤ سنة ولكن تبدأ تقل تدريجيًا بعد عمر ال٣٩. 

لماذا تزداد نسبة علماء البيانات في الهند؟

من أكثر الدول التي تمتلك علماء بيانات هما أمريكا والهند. فمنذ ٥ سنوات وما زال نفس الوضع قائمًا. ومنذ ٢٠١٧م تقل النسبة في أمريكا وتزداد في الهند حيث يمثل مجتمع علماء البيانات على موقع كاجل ٢٤٪ هنود، و١٢٪ من أمريكا وتأتي بعدهم البرازيل، وذلك بسبب توافر فرص التعليم عبر الإنترنت. ويتجه الأمريكيون إلى إكمال التعليم الجامعي في تعلم الآلة والذكاء الاصطناعي.

هل الحصول على بكالوريوس أو ماجستير كافي للعمل؟

أكثر من ٦٢٪ من علماء البيانات قد حصلوا على دراسات عليا بين ماجستير ودكتورة. وأقل من ٥٪ لم يحصلوا على درجات علمية بعد دراسة الثانوية العامة. ويحصل أغلب علماء البيانات على ماجستير وبعدها بكالوريوس ويليهما الدكتوراة. وبعدهم بنسبة قليلة لا تُذكر علماء بيانات لم يدرسوا بعد الدراسة الثانوية. 

وبمرور الوقت أصبح توظيف علماء البيانات غير مقتصر على الحصول على درجة علمية متقدمة حيث يزيد توظيف خريجي البكالوريوس وغير الحاصلين على الماجستير والدكتوراه مؤخرًا.

أفضل المواقع للتطوير من نفسك من المنزل كعالم بيانات

لا يتوقف علماء البيانات عن التعلم أبدًا، وأكثر المنصات التي يستخدمها علماء البيانات المتواجدين في مجتمع كاجل هي  المنصة الشهيرة كورسيرا ثم يوديمي ثم كاجل، ومن بعدهم إيدكس ولينكدإن ليرنينج. وكاجل هو أكثر المواقع زيارة وازدياد في الاستخدام في التعلم في السنة الماضية، وقل بنسبة قليلة كورسيرا ويوديمي.

هل تحتاج إلى خبرة في البرمجة قبل التعمق في علم البيانات؟

نسبة قليلة لا تتعدى ١٪ لم تكن لديها خبرة سابقة في البرمجة. وأغلب الخبرات من ٣ إلى ١٠ سنوات، ولكن ازدادت النسبة في السنة الماضية حيث وصلت إلى ١٤٪  بعدما كانت ٩٪ فقط. 

الخبرة في تعلم الآلة

بدأ أغلب علماء البيانات في تعلم الآلة توًا، حيث دخل أكثر من ٥٥٪ من علماء البيانات في مجتمع كاجل تعلم الآلة منذ أقل من ٣ سنوات،  وأقل من ٦٪ منذ أكثر من عقد. 

وعلماء البيانات داخل أمريكا عمومًا أكثر معرفة بتعلم الآلة عن علماء البيانات خارجها نظرًا لتوافر التعليم الجامعي في هذه التخصصات بطريقة جيدة. 

أفضل دولة يعمل بها علماء البيانات من حيث الرواتب

يحصل أغلب علماء البيانات في أمريكا على راتب يتعدى ١٠٠ ألف دولار سنويًا،  ولكن ٣٪ فقط من علماء البيانات في الهند يحصلون على هذا الراتب. وأكبر متوسطات للرواتب عالميًا في أمريكا تليها ألمانيا ثم اليابان، ويزداد المتوسط في أمريكا حاليًا في سنة ٢٠٢١م إلى ١٥٠ ألف دولار سنويًا بعدما كان ١٠٠ ألف دولار، وفي ألمانيا وفي اليابان بمتوسط ٦٠ ألف دولار.

في أي شركة تبحث عن عمل كعالم بيانات؟

الشركات الكبيرة والصغيرة الناشئة هما الأشهر في توظيف علماء البيانات. وعدد أعضاء فريق علم البيانات في الأغلب ٥ أشخاص أو أقل، وفقط خمس الشركات الكبرى لديها عدد أكثر من ٢٠ موظف عالم بيانات.

التقنيات المستخدمة

يسيطر «جوبيتير نوتبوك –  jupyter notebook» على ٧٥٪ من عمل علماء البيانات، ويأتي بعده «فيجوال ستوديو كود – visual studio code» في المركز الثاني مباشرة بنسبة ٣٨٪. ومازال جوبيتير على نفس الأهمية تقريبا منذ ٤ سنوات وقد حدث تغيير طفيف للأقل بنسبة لا تُذكر ١٪ فقط. 

أشهر الخوارزميات التي تتعلمها كعالم بيانات

«Linear regression – الارتباط الخطي»

«Logistic regression – الانحدار اللوجيستي» 

«Decision tree – شجرة القرار » 

وغيرهم من أنواع الخوارزميات التي يستخدمها علماء البيانات في عملهم. 

أشهر إطارات العمل الخاصة بتعلم الآلة

مازالت تسيطر لغة البرمجة بايثون ومكتباتها على العمل حيث تحتل مكتبة ( scikit-learn ) المركز الأول بجدارة وتسيطر على أكثر من ٨٠٪ من أعمال تعلم الآلة، وتُستخدم أيضًا كلًا من Tensorflow و keras في التعلم العميق.

وما زال يتطور علم البيانات وتتغير الأدوات يومًا بعد يوم في سبيل الوصول إلى أفضل ما يمكن لمساعدة كل الدارسين والباحثين في علم البيانات.

مصادر

[1] kaggle

[2] IBM

مستقبل علم البيانات في كرة القدم

كرة القدم من أهم الصناعات في العالم، هي ليست مجرد لعبة فقط فقد تحولت إلى عالم من الأموال والقرارات الهامة التي تتطلب التقنيات الهامة ومن أهم هذه التقنيات هي علم البيانات. بدأ استخدام علم البيانات في كرة القدم بشكل قد لا يُرى من بعض الأرقام إلى أن أصبح به تتخذ أهم الفرق العالمية القرارات الكبرى داخل الفريق فنيًا وإداريًا. فما هو مستقبل علم البيانات في كرة القدم؟

١. تحويل الكم الهائل من البيانات إلى رسالة بسيطة

عندما يذهب محلل بيانات للعمل مع فريق كرة قدم يُزحم كل من حوله بالبيانات اعتقادًا منه أن ذلك يجعلهم يعتقدون أن هذا المحلل على مستوى متقدم. ولكن البساطة تُفيد أكثر والتركيز على ما يهم الفريق فقط أقوى، ومن الممكن التركيز على أهداف قليلة محددة يجلب نجاح أفضل.

٢. الاهتمام باستقدام اللاعبين المناسبين

للمدرب وجهة نظر صحيحة حينما يقول أن هذا اللاعب جيد أو ذلك اللاعب غير جيد، ولكن في المنطقة الرمادية في الاختلاف وعدم القدرة على التحديد بدقة تكون الإحصاء أكثر قدرة على اتخاذ القرار أفضل من الإنسان. وتحديد ما يستحقه اللاعب سنويًا؛ حيث إن كان هذا اللاعب يجلب لك الفوز في مباراتين فقط يستحق ١٠ مليون يورو، وإن كان لاعب آخر يحقق الفوز في ٤ مباريات يستحق ٢٠ مليون يورو، فتحديد ذلك مهم جدًا للفريق. ولكن إذا أخطأت أكثر من مرة في مثل هذه الأمور سيفتح ذلك لمسار مشكلة مالية كبيرة للمؤسسة. ولقد أصبح خبراء البيانات هم الأفضل عالميًا حاليًا في التوقيع مع اللاعبين طبقًا لتقارير صحفية عديدة من أهمها موقع بي بي سي. [2]

٣. الأولوية في اتخاذ القرارات

تريد أغلب الأندية العالمية الاستثمار في البيانات ولكنها قد لا تعطي الأولوية في اتخاذ القرار لنتائج البيانات. ويوجد العديد من محترفي كرة القدم السابقين ويتخذون القرار بناءً على خبرتهم السابقة في الملاعب. وفي نهاية السنة عندما نريد أن نشاهد تأثير دراسة البيانات قد نجده قليلًا جدًا، ولكن هناك تطورات عديدة في اتخاذ القرارات. وعلى سبيل المثال موقف مدرب فريق تشيلسي  عندما عرض عليه محللو البيانات أن كيبا الحارس الثاني في الفريق هو أفضل من ميندي الحارس الأساسي في ضربات الترجيح وبالفعل فازوا في المباراة بفضل كيبا. 

٤. تحديد الهدف

حيث من الممكن سؤال محلل بيانات عن احتياج الفريق هل يحتاج الفريق إلى أخصائي تغذية أم تخصص آخر سيفيد أكثر. والتوجه إلى أي اتجاه فهل تقضي وقتًا ومجهودًا أكثر هل في الاستثمار في اللاعبين أم مدربين أم إنشاء ملاعب ومراكز تدريب وهكذا. وكل ذلك يستطيع محلل البيانات وضع إجابة مناسبة له. 

٥. استخلاص أدق التفاصيل من تتبع بيانات اللاعبين

حيث مع التطور المستمر لتتبع البيانات يصبح من الأسهل توظيف مواقع اللاعبين في الملعب والشكل الثلاثي للكرة وموقعها مهم في ذلك. وهذا يعتبر بيانات قيمة بشكل لا يصدق. وبالتطور أكثر يتم تطوير تحرك اللاعبين في المساحات والحركة بدون كرة. ولم يصل هذا حتى الآن في أكبر الأندية العالمية مثل ليفربول وأرسنال. 

ولقد أصبح وجود الأجهزة للحصول على البيانات مثل ساعات اليد أمرًا اعتياديًا في تدريبات الفرق. [1]

٦. خلق مساحات في الملعب

ما يفرق كرة القدم عن الرياضات الأخرى أنها لعبة تعتمد على المساحات. وتملك اللاعب المساحه يعني ببساطة أنه إذا كانت الكرة في مكان ما أي لاعب سيصل إليها أولًا وتحديد كل موقع على الملعب. ومن أكثر اللاعبين قدرة خارقة في أنه يعرف متى يتحرك ومتى يظل في مكانه هو الأرجنتيني الشهير ميسي. ومن ذلك يصنع فرص ومساحات لزملائه في الملعب، وذلك يعني أن الحركة تفيد وعدم الحركة يفيد في بعض الحالات. 

٧. الاستفادة في النقل من الألعاب الأخرى إلى كرة القدم

على سبيل المثال كرة السلة حيث من الممكن تطبيق كيف يستطيع لاعب عمل حاجز على لاعبي الخصم لإعطاء الفرصة لزميله لكي ينطلق إلى الداخل. وأيضًا طريقة استخدام الجسم بشكل قانوني وذلك يحدث في كرة القدم ولكن لا يتم تطبيقه بشكل صحيح. 

ومن كرة القدم الأمريكية من الممكن تعلم كيفية الجري في بعض الطرق المحددة في الملعب وفتح المساحات والفرص. 

٨. تعلم الآلة: تقييم كل المهارات اللازمة لكل لاعب

بمعنى أن هناك ٣٠ مهارة يجب أن يتقنها اللاعب في هذا المركز. وليكن اللاعب ميسي جيد في ٢٥ مهارة وغير جيد في ٥ مهارات. فهل نحن بحاجة إلى تقوية مهارة من المهارات الجيدة أم تنميه أحد المهارات غير الجيدة. 

ويقتصر العمل بها الآن على لاعب مهاجم يحصل على ٤ فرص محققة لإحراز أهداف فيسجل هدفين فتصبح نسبة التهديف ٥٠٪. [3]

٩. التنبؤ المستقبلي

وهو التحول من الوصف الاحصائي لما حدث في المباريات السابقة إلى التنبؤ بما قد يحدث في المباريات القادمة، وذلك من أهم التقنيات. 

١٠. زيادة التفاهم والتواصل

تقليل الفراغات أو المسافات بين محللي البيانات والمدرب أو المدير الرياضي أو مسؤول التعاقدات. وتحويل كل الأسئلة التي يبحث عنها الممارسون للعبة إلى لغة يفهمونها وتحقيق تواصل بشكل أفضل. 

مصادر

[1] training ground guru

[2] BBC

[3] SCISPORTS

فلسفة البيانات: الأيديولوجيا الجديدة

فلسفة البيانات هي الأيدلوجية الجديدة أو شكل جديد للدين الذي يصبح فيه تدفق المعلومات هو القيمة العليا كما وصفه عالم الاجتماع << يوفال نوح هراري – yuval Noah harari >>. واُستخدم هذا المصطلح لأول مرة بواسطة ديفيد بروكس في مجلة النيويورك تايمز في مقاله الشهير في فبراير 2013م. فماذا نعرف عن فلسفة البيانات: الأيديولوجيا الجديدة.

تاريخيًا

في شهر فبراير سنة 2013م، كتب < David Brooks – ديفيد بروكس > أنه إذا طُلب منه وصف الفلسفة المتصاعدة هذه الأيام سيقول أنها فلسفة البيانات. وفي عالم يتزايد فيه كمية البيانات الضخمة فسوف نعتمد على البيانات لمحاولة دراسة أشكال السلوكيات.

وفي عام 2015م  ألقى < Steve lohr  – ستيف لوهر > الضوء على قدرة البيانات الضخمة على تحول المجتمع.

في 2016م قال يوفال نوح هراري أنه من الممكن اعتبار كل الصراعات السياسية والتركيبات الاجتماعية بنظام عمل بيانات في كتابه التاريخ الملخص الذي تحدث فيه عن فلسفة البيانات. وأوضح أن الكون يتكون من تدفقات البيانات وقيمة أي ظاهرة تٌحدد على أساس توافر البيانات عنها، وعلى المتحمسين للبيانات زيادة تدفق البيانات لتوصيل بيانات أكثر. وقال ان النتيجة الطبيعية من هذه العملية أن الإنسان سيعطي الخوارزميات السلطة لاتخاذ أهم القرارات في حياته مثلا من يتزوج وأي مسار عمل يختار وهكذا. 

النقد الموجه إلى مصطلح فلسفة البيانات

الكائنات الحية ليست عبارة عن خوارزميات.

تنص فلسفة البيانات أن تكون كل البيانات عامة حتى البيانات الشخصية حتى يعمل النظام بشكل كامل وهذا ما يواجه مقاومة حتى الاّن.

استغلال شركات عالمية مثل شركة كامبردج أناليتيكا  المستخدمين وبيانات الأشخاص على فيسبوك حيث من الممكن بعدد الإعجابات على منشورات الفيسبوك معرفة الشخصية ومعرفة صفات الأشخاص القريبين منك.

https://arketyp.com/wp-content/uploads/2019/08/AdobeStock_34144555.jpg

المميزات

من أهم المميزات الحصول على معلومات هامة عن الطرق وتقليل الحوادث بفضل شركة جوجل.

سهولة إحصاء المعلومات عن عدد المرضى مثل تقدير عدد إصابات مرض السكري في العالم والتجهيز الجيد.

مقاومة الامراض الوبائية المنتشرة بسرعة عن طريق الكشف عليها مباشرة ومشاركة المعلومات مثل فيروس كورونا وزيكا.

عمل الأبحاث الإكلينيكية على المرضى وتجارب الأدوية بشكل اسهل واسرع لمحاولة الوصول إلى نتائج أسرع.

العيوب

تعتبر البيانات أكثر المصادر قيمة على الكوكب حتى أكبر قيمة من البترول. ولكن تم استغلال البيانات في تفسير أفكار وعقائد الناس مثل استخدامها في الانتخابات الأمريكية الأخيرة التي فاز فيها ترامب. واستخدامها ايضًا في البريكست.

وتعمل خوارزميات متعددة على التعرف على الأشخاص أكثر من أشد الناس معرفة بهم. حيث من 10 إعجابات يمكن التعرف عليك أكثر من زميل عملك. ومن 150 إعجاب يمكن المعرفة عنك أكثر من والديك. ومن 300 لايك يمكن المعرفة عنك أكثر مما يعرفه شريكك.

يتضح أن العالم في مقمة عصر فلسفة البيانات ولكن التطبيق من العدم سيظل جدالًا واسعًا حتى وإن تم تطبيقه بشكل لا إرادي.

مصادر

singularity hub

علم البيانات الجينية

هذه المقالة هي الجزء 14 من 17 في سلسلة مقدمة في علم البيانات وتطبيقاته

علم الجينوم هو أحد فروع علم الوراثة المتعلق بدراسة الجينوم، أي كامل المادة الوراثية داخل مختلف الكائنات الحية. وتتطابق الجينات بين كل الأفراد بنسبة ٩٩,٩٪ وتختلف في نسبة قليلة تجعل كل شخص فريدًا من نوعه. وجينات البشر تكون أقرب ما يمكن إلى حيوان الشمبانزي. علم البيانات الجينية هو علم يجمع بين البيولوجيا والإحصاء والكمبيوتر من أجل تمكين الباحثين من استخدام التقدم التكنولوجي في الكمبيوتر والإحصاء لاستكشاف المعلومات والوظائف الخاصة بالجينات.

حجم البيانات الجينية

قد تساعد الأبحاث الجينية في وجود من ٢ – ٤٠ إكسابايت من البيانات الجينية في العقد المقبل، وإكسابايت يساوي ١ مليون تيرابايت. وتصل كمية البيانات المتاحة حاليًا سنويا من ٢ – ٤٠ مليار جيجابايت، ويستغلها العلماء أفضل استغلال في الدراسة من أجل صحة الإنسان والأمراض. ولكن من الواجب أن يكون هناك أخلاقيات وقواعد تحكم للحفاظ على خصوصيات الأشخاص؛ حيث كل جين مرتبط بشخص يعبر عن العديد من الأشياء بالنسبة إليه. 

إذا أردت أن تتعلم علم البيانات الجينية، عليك بدراسة قوية في البيولوجيا والكمبيوتر والإحصاء. ولا يشترط أن تكون ملمًا بكل كبيرة وصغيرة في المجالات الثلاثة، ولكن على الأقل أن تكون حاصلًا على دراسة قوية في مجال منها وملمًا بما تحتاج إليه في مجال آخر، وبعدها قد تصل إلى راتب بمعدل ١١٠ ألف دولار سنويًا.

بداية علم البيانات الجينية

بدأ علم البيانات الجينية كمجال بحث ودراسة سنة ١٩٩٠م عن طريق الدمج بين:

  • استخلاص التسلسل الجيني من دراسة جينات الكائنات الحية. 
  • تحليل البيانات باستخدام الإحصاء والكمبيوتر في تحليل ورسم البيانات الجينية، وتتضمن الحصول على البيانات وتخزينها واستخدام الخوارزميات لتحليل البيانات الجينية للأشخاص. [2]

علم البيانات الجينية يُعتبر من البيانات الضخمة

كل خلية في جسم الإنسان تحتوي على نسختين من الجينات كاملة، يتكون جسم الإنسان من ترليونات الخلايا. البيانات الجينية لشخص واحد من الممكن أن تشكل ٢٠٠ جيجا بايت. وسنحتاج إلى تقريبًا ٤٠ إكسابايت لتخزين التسلسل الجيني عالميًا بحلول عام ٢٠٢٥م،  بما يعادل تقريبًا مليون قرص مدمج. ونظرًا لوجود هذا الكم الهائل من البيانات الجينية اعتبر هذا المجال من مجال البيانات الضخمة. 

كيف يدرس العلماء العلوم البيانات الجينية؟

يخترع العلماء أدوات تسهل دراسة الجينات اعتمادًا على التطور التكنولوجي في الكمبيوتر والإحصاء، من أهم هذه الأدوات:

  • أداة « aligners » لتحديد أين تقع كل قطعة من الترتيب الجيني للحمض النووي. 
  • أداة « Variant Callers » تتعرف على الأماكن المختلفة في التسلسل الجيني عن باقي التسلسلات الجينية العادية، هذه الاختلافات الجينية تختلف أحجامها فقد تكون حرف واحد من الحمض النووي في ما يعرف ب «single neuclotide polymorphism »، وقد تكون حروف متعددة وتعرف بإسم «Structural Variants». 

قد تكون هذه التغيرات بدون أخطار، وقد تكون سببًا لمشاكل وراثية نادرة كالسرطان أو أمراض أخرى شائعة. [1]

كيف يدير ويخزن الباحثون هذه الكمية الضخمة من البيانات؟

  1. استخدام برامج وأدوات الكمبيوتر والإحصاء. 
  2. اعتبار مراكز تحليل البيانات جزءًا أساسيًا من العمل. 
  3. دعم مالي كبير من المعاهد العلمية على سبيل المثال « NHGRI – المعهد الوطني لبحوث الجينوم البشري»، والذي بدوره يوفر أكثر من ١٢٥ مليون دولار سنويًا لدعم علم البيانات الجينية.
  4. جعل البيانات مفتوحة المصدر في المجتمع العلمي لتسهيل تحليل البيانات وتنظيم أفضل لها. 
  5. تقديم سُبل تعاون أفضل بين بعض المراكز الخاصة والتجارية والمعاهد الحكومية على سبيل المثال، المعهد الوطني للصحة بالولايات المتحدة من أجل توفير تخزين واستضافة البيانات بشكل أفضل وتعزيز الخصوصية. 

أخلاقيات مشاركة البيانات الجينية

  • معرفة المريض بمشاركة البيانات الجينية الخاصة به وإعطاءه معلومات واضحة عن  مدى درجة الخصوصية. 
  • عدم التعريف بالشخص مالك الجينات إلا في حالات الكشف عن المجرمين. 

كيف يتشارك الباحثون البيانات الجينية؟

يقسم العلماء مصادر البيانات الجينية إلى ٣ أنواع:

  1. مفتوحة المصدر: وهي النوع الأكثر انتشارًا، وتكون البيانات متاحة للعامة لأهداف بحثية. 
  2. تحتاج إلى تسجيل: يستطيع أن يصل إليها الباحثون، ولكن بعد تسجيل معلوماتهم وأعمالهم مع البيانات للموافقة. لذلك هي بين المفتوحه والمغلقة. 
  3. مغلقة المصدر: عرض الطلب على لجنة وقد توافق عليه لغرض البحث أو لا توافق، ولكن يظل الباحثون فقط هم الذين لديهم القدرة على الوصول إلى هذه البيانات. [1]

أهم المجالات المرتبطة بعلم البيانات الجينية

يحاول العلماء والباحثون اختراع أدوات تتعرف على الاختلافات في التسلسل الجيني وربطها بالمعلومات الطبية مثل:

  • اكتشاف عوامل خطورة لمرضٍ ما. 
  • استخدام جديد لدواء معين.
  • استخدم الباحثون الذكاء الاصطناعي لتطوير البيانات الجينية للأغراض الإكلينيكية.

فما هو الاختلاف الجيني؟

يمتلك كل شخص ٦ مليار جين ويوجد اختلافات بسيطة بين الأفراد، بعض الاختلافات من الممكن أن تكون عامل خطورة لمرض معين وبعضها يقلل خطر مرضٍ ما وهناك ما ليس لها تأثير. 

وتنقسم هذه الأمراض الجينية  إلى نوعين:

  •  نوع مرتبط بتغير جين واحد على سبيل المثال « Cystic Fibrosis – التليف الكيسي » وهو اضطراب وراثي يسبب تلفًا شديدًا في الرئتين والجهاز الهضمي والأعضاء الأخرى في الجسم. ويحدث بسبب اختلاف في الجين الذي يعمل على تشفر بروتين منظم الإيصالية عبر الغشاء في التليف الكيسي (CFTR)
https://www.genome.gov/Health/Genomics-and-Medicine/Polygenic-risk-scoresالتليف الكيسي جينيًا
  • نوع مرتبط باختلافات جينية كثيرة بالإضافة إلى عوامل بيئية مثل نظام الغذاء والنوم والضغط والتوتر والتدخين. وتصل هذه الاختلافات الجينية مثلًا إلى ٦٠ جين تقريبًا مختلف كما في الأشخاص المصابين بمرض تصلب الشريان التاجي. [3]
https://www.genome.gov/Health/Genomics-and-Medicine/Polygenic-risk-scores

«Polygenic Risk Score – درجة مخاطر الاختلافات الجينية المتعددة» 

يفحص العلماء كل الاختلافات الجينية في شخص ما ثم يسجلوا هذه المعلومات على الكمبيوتر، وباستخدام برامج الإحصاء والكمبيوتر المتقدمة يعملون على تقدير هذه الاختلافات إن كانت عامل مؤثر في مرض معين أم لا. 

وجود درجة اختلاف جيني ليس مؤكدًا على وجود مرض معين. فإذا افترضنا أن شخصًا لديه اختلاف جيني ولكنه يبلغ من العمر ٢٢ عامًا ويسير على نظام غذائي وصحي جيد،  وشخصًا آخر يبلغ من العمر ٦٠ عامًا ولا يمتلك نظامًا جيدًا في الغذاء والصحة ولديه اختلاف جيني، سيكون الشخص الثاني أكثر عرضة للمرض. ففي النهاية هي توضح علاقة ما وليست طريقة حسابات مؤكدة. [3]

مصادر

[1] National Human Genome Research Institute
[2] Springer link
[3] NHGRI

مقدمة عن الذكاء الاصطناعي

الذكاء الاصطناعي هو مجال واسع المدى مختص بعلوم الكمبيوتر مع بناء آلات ذكية قادرة على أداء مهام تحتاج إلى ذكاء الإنسان.

مكونات الذكاء الاصطناعي

تعلم الآلة: وهو فرع من فروع الذكاء الاصطناعي يعمل على بناء تطبيقات تتعلم من البيانات. وتتطور مع الوقت بدون برمجتها على هذا العمل. 

التعلم العميق: وهو فرع آخر يقلد عمل مخ الانسان في التعامل مع البيانات، والوصول إلى حلول وأشكال جديدة من البيانات الأصلية لاتخاذ القرارات. 

يتداخل أيضًا علم البيانات والبيانات الضخمة في الذكاء الاصطناعي؛ حيث أننا نعيش في عصر البيانات. فكلما ازدادت البيانات تحسن أداء الآلة. والبيانات المستخدمة في الذكاء الاصطناعي قد تكون حروف أو أرقام أو صور تتعرف من خلالها الآلة على شكل معين على سبيل المثال، مثال القطة المشهور الذي اُعتبر أول مثال تتعرف الآلة عليها دون إخبارها عن طريق التعلم العميق، بالإضافة إلى الصوت والنصوص. وتتلخص مشاكل البيانات أنها قد تكون في حاجة إلى تصحيح الخطأ أو إيجاد البيانات المفقودة. 

أمثلة عن الذكاء الاصطناعي وتعلم الآلة

  • عندما يصل إليك بريد إلكتروني ويتم تحديد هل هذا البريد مرغوب أم غير مرغوب فيه. 
  • تحويل الصوت إلى كلام مكتوب. 
  • تحويل كلمات لغة إلى لغة أخرى. 
  • إمكانية تحديد موقع السيارات في السيارة ذاتية القيادة عن طريق تخزين الصور ومعلومات السرعة والطرق. 

تاريخ الذكاء الاصطناعي

  • ظهرت قصص الروبوتات الذكية والمخلوقات المُصنعة في الأساطير والحكايات الخاصة بالحضارة اليونانية القديمة. 
  • سنة ١٩٤٣م، نشر العالمان «Warren McCullough» و«Walter Pitts» أول ورقة بحثية وضعوا فيها أول نموذج رياضي لبناء الشبكات العصبونية. 
  • نشر العالم «كلود شانون-Claude Shannon» ورقة بحثية عن برمجة الكمبيوتر للعب الشطرنج سنة ١٩٥٠م. وفي نفس السنة نشر «إسحاق عظيموف-Isaac Asimov» ٣ قوانين عن الروبوتات.
  • يعتبر عام ١٩٥٦م ميلاد الذكاء الاصطناعي كما نعرفه اليوم، حيث اُستخدم إسم الذكاء الاصطناعي صريحًا في مشروع بحثي بواسطة «John McCarthy». وفي العام نفسه طور لغة الذكاء الاصطناعي عن طريق بحث أوضح فيه نظام ذكاء اصطناعي كامل ذو قدرة على التعلم بكفاءة من تجارب الإنسان. 
  • أسس العالم «Arthur Samuel» مصطلح تعلم الآلة في شركة IBM سنة ١٩٥٩م. 
  • أسست وزارة الصناعة والتجارة الدولية باليابان مشروع الجيل الخامس من الكمبيوتر، وهو كمبيوتر متطور فائق الأداء بالإضافة إلى منصة لتطوير الذكاء الاصطناعي سنة ١٩٨٢م.
  •  في سنة ١٩٨٥م، أصبحت الشركات تنفق أكثر من مليار دولار على هذه الأنظمة الجديدة، وتطورت لغة «Lisp» الجديدة بشكل ثوري لتعلم الآلة.
  • طورت الولايات المتحدة إدارة تنظيم وتخطيط لوجستية تدعى «DART» أثناء حرب الخليج سنة ١٩٩١م.
  • في ٢٠٠٥م، تطورت السيارات ذاتية القيادة على سبيل المثال، سيارة «STANELY» التي فازت في أهم سباقات السيارات في الولايات المتحدة، ويدعى «DARPA GRAND». 
  •  قدمت  شركة جوجل طفرة في مجال التعرف على الكلام، وقدمت الخاصية في تطبيق أبل سنة ٢٠٠٨م.
  • استخدم العالم «Andrew ng» التعلم العميق في التعرف على شكل القطة دون إخبار البرنامج بذلك عن طريق ١٠ مليون فيديو على اليوتيوب.
  • صنعت شركة جوجل أول سيارة ذاتية القيادة تجتاز امتحان القيادة في الولايات المتحدة سنة ٢٠١٤م.

أنواع الذكاء الاصطناعي

أولًا: الذكاء الاصطناعي المحدود أو الضعيف وهو عبارة عن تقليد لذكاء الإنسان، وعادة ما يقوم بمهمة فردية بطريقة جيدة. وبالرغم من ظهوره بشكل جيد إلا أن لديه تحديات كبيرة للوصول إلى ذكاء الإنسان. ولكنه أدى وظائف مهمة؛ حيث قالت إدارة الرئيس أوباما في تقرير عام ٢٠١٦م للتجهيز لمستقبل الذكاء الاصطناعي أن الذكاء الاصطناعي ساهم في تأثيرات اجتماعية ملحوظة. 

ومنها على سبيل المثال، بحث جوجل، وأنظمة التعرف على الصور، والمساعد الشخصي البسيط مثل «siri»، والسيارات ذاتية القيادة.

ثانيًا: الذكاء الاصطناعي العام أو القوي وهذا ما نراه في الافلام مثل استخدام الروبوت ونجده يشبه أكثر ما يمكن الإنسان.

ومنها على سبيل المثال:

  • المساعد الشخصي الأكثر تطورًا مثل «Alexa – أليكسا». 
  • خرائط الأمراض وأدوات التنبؤ بها. 
  • تصنيع الروبوت وبرمجته. 
  • توصيات علاجات شخصية خاصة بكل مريض على حسب حالته الصحية الخاصة. 
  • بوت محادثة خاص بالتسويق وخدمة العملاء. 
  • فلترة البريد الإلكتروني من يكون مرغوب ومن يكون غير مرغوب فيه. 
  • فحص مواقع التواصل الاجتماعي للمحتوى الخطير والأخبار المزيفة. 
  • الاقتراحات والتوصيات الخاصة بالأغاني ومشاهدة الأفلام مثل: سبوتيفاي ونيتفليكس. 

ما الذي لا يستطيع الذكاء الاصطناعي فعله؟

  • الرد على رسالة تحتاج إلى التعاطف في البريد الإلكتروني، عندما يخبرك أحد العملاء أن البضاعة المرسلة إليه قد تدمرت، ما يفعله الذكاء الاصطناعي هو الرد بعدد محدد من الجمل قد لا يتناسب مع الموقف فيجب أن يُحول العميل إلى مركز خدمة العملاء للتعامل مع المشكلة. 
  • لا يستطيع الذكاء الاصطناعي أن يقف في محطة لإيقاف السيارات أو يشير بيده لإيقاف سيارة. ولا يستطيع أن يقود دراجة ويضع يديه جانبيه للحركة يمينًا أو يسارًا. 
  • يستطيع الذكاء الاصطناعي تشخيص الالتهاب الرئوي من ١٠٠٠ صورة سابقة للمرضى، ولكنه لا يستطيع تشخيص المرض من خلال ١٠ صور توضيحية في كتاب طبي.

أهم تطبيقات الذكاء الاصطناعي

  • «siri»: المساعد الشخصي الخاص بشركة أبل، بالاعتماد على الذكاء الاصطناعي يحاول فهم أسئلة وطلبات الأشخاص. 
  • «Alexa»: وهو أساس المنازل الذكية، طورته شركة أمازون للمساعدة في مهام عديدة مثل جمع المعلومات من الويب والتسوق وتنظيم المواعيد وعمل منبة وغيرها الاستخدامات الأخرى. 
  • سيارات «Tesla – تسلا» ذاتية القيادة. 
  • «cogito» وتعد واحدة من أشهر الأدوات المُستَخدمة في التكيف السلوكي لخدمة العملاء. 
  • «Boxever» وهي شركة تعتمد على تعلم الآلة لتطوير خبرة التعامل مع العميل في صناعة السفر والرحلات، ومساعدة الشركة على إيجاد عملاء دائمين. 
  • تتوقع شركة أمازون ما يحتاجه العملاء قبل ما يطلبونه من خلال تتبع البحث على الويب.
  • اقتراح العديد من الأفلام التي تتناسب معك بناءً على المشاهدات السابقة كما في شركة نتفليكس. 
  • شركة «Nest» التي استحوذت عليها جوجل عام ٢٠١٤م  بقيمة ٣,٢ مليار دولار. تتعرف على احتياجاتك للحرارة أو البرودة بما يتناسب معك من خلال نظام أليكسا في منزلك.

مما لا شك فيه أن الذكاء الاصطناعي له في وقتنا هذا تأثيرات عظيمة على مجالات متعددة، ومن المتوقع أن يزداد تواجده في هذه المجالات ويدخل في مجالات جديدة. ولكن هذا المجال ليس بالسحر فله قدرات محددة معروفة للعلماء وفي نفس الوقت لا يستطيع التواجد في مجالات أخرى قد يكون بعيدًا عنها أو قد لم يُجرب فيما سبق.

المصادر:
forbes
britannica
investopedia
builtin

٤ تطبيقات غير تقليدية لعلم البيانات

هذه المقالة هي الجزء 7 من 17 في سلسلة مقدمة في علم البيانات وتطبيقاته

تنتشر الأبحاث في الصحف والمجلات عن تطبيقات متعددة لعلم البيانات في إدارة أعمال الشركات والحكومات وغيرها. ولكننا نتجاهل في أحيانٍ كثيرة تطبيقات البيانات في مجالات حديثة وغير متوقعة. فمن الممكن استخدام تقنيات علم البيانات في المساعدة فيما هو أكبر من ذلك على سبيل المثال، العمليات الجراحية إلى حتى تقييم أخطار الانتحار ومحاولة تجنبها. ونتابع معًا في هذا المقال ٤ تطبيقات غير تقليدية لعلم البيانات.

١. التنبؤ بالأداء الدراسي

على الرغم من وجود أبحاث كثيرة عن تأثير عوامل متعددة  على  الأداء الدراسي. أُجريت دراسة حديثة في البرازيل عن العوامل المؤثرة في الأداء الدراسي،  حيث هناك حاجة مُلحة في البرازيل لجعل مجال التعليم في مكانة أفضل. قام الباحثون «Jocye Maia and Joao Sato» بتجربة اعتمادً على البيانات المتاحة في وزارة التعليم باستخدام النماذج غير الخطية للإحصاء عن العوامل الاقتصادية والاجتماعية واتصالها بضعف وقوة الأداء الدراسي. وأثبتت الدراسات التأثير القوي لهذه العوامل. أمل الباحثون من صُناع القرار استخدام نتائج البحث لتطوير ضعف الأداء الدراسي. [1]

٢. تتبع ومراقبة أدوات الجراحة في غرف العمليات

استخدم العلماء هذه التقنية اعتمادً على صور سابقة من عمليات جراحية فيما يعرف ب «surgical data science – علم البيانات في الجراحة ». كان هناك صعوبة سابقًا في تواجد الأدوات في المكان الصحيح وتنقل الأدوات من مكان إلى مكان يرهق العاملين في القطاع الصحي. قام الباحثون في قسم الاختراعات الطبية بمساعدة الكمبيوتر في مركز أبحاث السرطان الألماني في هيدلبرج  باستخدام صور جراحية سابقة وأشكال مصممَة باستخدام التحليل التنبؤي لكي يتأكدوا متى نحتاج هذه الأدوات في مكان ما ومتى نحتاج إلى نقلها لمكان آخر. وكان الهدف من استخدام هذه التقنيات تقديم المساعدة للطبيب. نُشرت هذه البيانات لأول مرة وتحتوي على ٣٠ فيديو من ٣ أنواع جراحات مختلفة مع بيانات حساسة من أجهزة خاصة بغرف العمليات. [2]

٣. تقييم الحالات المرضية من خلال تغريدات تويتر

تزداد قدرة وسائل التواصل الاجتماعي على إلقاء الضوء على بعض الحالات المرضية وإحساس المريض بحالته. يتحدث الناس بشكل أفضل وأكثر إثراءً على وسائل التواصل الاجتماعي من عمل مقابلات معهم. حُللت تغريدات عن كيفية التعايش مع مرض« ADHD – اضطراب فرط الحركة وتشتت الانتباه» بواسطة الباحث (مايكل ثالويل) وزملائه باستخدام «Word Association Thematic Analysis – تحليل موضوعي الكلمات المترابطة ». لقد قام قام الباحثون بتحليل ٨٥٩٨٣ تغريدة مرتبطة ب«ADHD»  وأيضًا ١٣٥٢٤٤٢ تغريدة مرتبطة بحالات مرضية أخرى لعمل مقارنة وتقييم للحالة. ومن النتائج اتضح أن هذه الطريقة أفضل من المقابلة الشخصية لتقييم الحالة الصحية.  [3]

٤. علاج أمراض نادرة

يحاول العلماء استخدام علم البيانات في دراسة الأمراض النادرة ومشاكل الصحة العامة مثل الانتحار. لم تصل حتى الآن هذه التقنيات إلى المقدمة في علم البيانات. ولكن يفترض الباحثون في معهد نافارا لأبحاث السرطان في أسبانيا أنه من الممكن استخدام تعلم الآلة في اكتشاف وتطوير علاجات جديدة لهذه الأمراض. تؤثر الأمراض النادرة على حياة الملايين في العالم، على سبيل المثال، «hepatocellular carcinoma» الذي يعتبر نوع نادر من سرطانات الكبد ويقتل ٦٢٠٠٠ شخص كل سنة. لكن حتى الآن، العلاجات المُخصصَة لهذا المرض غير مؤثرة بدرجة كافية. 

قارن العلماء ١٢٠٠٠ مركب محتمل وأدوية أخرى جديدة عن طريق تحليل البيانات وسيكون هناك نتائج جيدة في الفترة المقبلة. وفي نفس الموضوع تم عمل دراسة على الانتحار بين عشرات الألاف من الدنماركيين بأخذ النتائج و تحديدها وتقسيمها. أثبتت الدراسات وجود علاقة بين خطر الانتحار ونوع الجنس – ذكر أم أنثى – والصحة العامة والأمراض النفسية الأخرى. [4]

ما زالت المجالات موجودة ومنتشرة وما زال الربط بين المجالات والابتكار والخروج بأفضل نتيجة هو ما سيساعد البشرية في المستقبل.

المصادر:

[1]plos public health
[2]nature
[3]open respiratory
[4]wiley online library

علم البيانات في الجريمة

هذه المقالة هي الجزء 11 من 17 في سلسلة مقدمة في علم البيانات وتطبيقاته

تخيل أن تحدث جريمة في يوم ما ويحضر الشرطي إلى مكان الحادث بصحبة عالم بيانات لمساعدته في الكشف عن الجريمة. أصبح علم البيانات ركيزة أساسية في الكشف عن الجرائم اعتمادً على البيانات السابقة والمحاضر من أقسام الشرطة. نستطيع الاستفادة من علم البيانات في:

  • معرفة أنواع الجرائم التي تحدث في مكان ما وتدريب أفراد الشرطة على التعامل معها. وتوعية أفراد المجتمع عن مثل هذه الجرائم والتحذير من القيام بها وأثرها على الفرد والمجتمع. 
  • التعرف على اوقات الجرائم من حيث السنوات التي تزيد فيها والعوامل المؤثرة ومحاولة تقليلها والقضاء عليها إلى أقصى درجة ممكنة. وأيضًا الشهور والمواسم من السنة والعوامل المؤثرة. وكذلك الأوقات من اليوم لتوعية الأشخاص بالأوقات الأكثر خطورة وتجهيز أفراد الشرطة وعمل الاستعدادات اللازمة. 
  • تحديد أكثر أماكن حدوث الجرائم في المحافظات والمدن وتركيز المجهود الأكبر عليها.
  •  التحقيق في جريمة معينة ومعرفة العوامل المرتبطة بها، فمن الممكن العمل على هذه الجريمة بجهود أكبر لمحاولة للقضاء عليها. 
  • تدعيم ضحايا الجرائم، وخاصة الدعم النفسي لهم وتقديم اللازم لرفع أسلوب معيشتهم.

تطبيقات هامة لعلم البيانات في الكشف عن الجرائم

التعرف على الوجه

أصبحت تقنية التعرف على الوجه منتشرة في أماكن متعددة من العالم كالصين بشكل شرعي معروف، والولايات المتحدة والمملكة المتحدة بشكل تجريبي غير معروف لدى كل المواطنين. 

استُخدمت في حالات خطف الأطفال حيث فقدت عائلة بريطانية ابنتها ذات عمر ٣ سنوات عام ٢٠٠٣م. وضعت أجهزة الشرطة افتراضات للخاطف حيث من الممكن أن يكون من مدمني جنس الأطفال، فبحثوا على مواقع الجنس المخصصة لجنس الأطفال. يبحث الأشخاص في الولايات المتحدة يوميًا بأعداد كبيرة عن المحتوى الجنس الذي يشمل أطفال ومن خبرة المفتشين أن عدد كبير من الأطفال المفقودين تظهر صورهم على هذه المواقع.

استخدمت الشرطة أداة «Child Exploitation Image Analysis – CHEXIA» التي تم تطويرها من قِبل «The department of homeland security». وتعمل من خلال التعرف على الوجه من خلال بيانات ضخمة لصور أطفال والتعامل مع أدوات الطب الشرعي المتاح. 

طورت أيضًا شركة ميكروسوفت أداة «PhotoDNA» التي تعمل بطريقة مختلفة لكن بنفس هدف التعرف على الوجه. تعمل الأداة عن طريق وضع تعريف لكل صورة ومقارنتها بالصور الأخرى لإيجاد نسخ متشابهة تُمكن المفتشين من إيجاد أصل الصور أو صور متشابهة. تستخدم هذه الأداة أكثر من ٢٠٠ منظمة ضد خطف الأطفال. 

كما اخترعت أيضًا اعتمادً على الأداة السابقة أداة «PhotoDNA for video» التي تعتمد على أخذ لقطات مهمة للوجه من الفيديو وربطها مع قاعدة البيانات للمقارنة والتعرف على الوجه.

تجميع البيانات الضخمة لتتبع نشاط القتل المتسلسل

جمّع «Thomas Hargrove» حالات القتل حيث وصل إلى مئات الألاف من الحالات لكي يرى هل من الممكن أن يكون أحد  المجرمين له علاقة بالقتل المتسلسل. أسس بعدها مشروع يدعى «Murder Accountability Project» الذي يحتوي على بيانات لكل حالات القتل مع بعض أساسيات التحليل. اكتشف بعدها خوارزمية لتجميع حالات القتل المرتبطة بنفس الطريقة أو المكان أوالوقت ونوع الضحية – ذكر أم أنثى – كما ألقى الضوء على حالات القتل غير المحلولة من الممكن أن تكون بصورة ملحوظة أم لا. 

توقعت الخوارزمية وجود قاتل متسلسل في ولاية «Indiana» بالولايات المتحدة الأمريكية، وأخبر توماس هارجروف الشرطة بذلك ولكنها تجاهلته. وبعد ٤ سنوات قبضت الشرطة على هذا المجرم، ولكنه كان قد قتل في هذه الفترة ٦ أشخاص. وأثبتت هذه الخوارزمية دقتها ودورها في قدرتها على مساعدة الشرطة في الكشف عن القتلة المتسلسلين.

تطبيقات إضافية لعلم البيانات في الكشف عن الجرائم

  • مشاكل سرقة كروت تحويل الأموال، ومعرفة إذا كان الشخص مالك هذا الكارت أم لا. 
  • تحميل الفيديوهات مباشرة وتوقع الجرائم من خلالها. 
  • تحليل الأصوات والتعرف على إذا ما كان الشخص لديه قابلية لارتكاب جريمة أم لا. 

عيوب استخدام علم البيانات في الكشف عن الجرائم

  • في مايو ٢٠١٩م،  كان لدى المملكة المتحدة في لندن ٦ مليون كاميرا لمراقبة الأشخاص – حوالي ٦٦ مليون شخص – في الشوارع، بمعنى أن الكاميرا الواحدة تراقب ١١ شخص فقط. استخدمت هذه الكاميرات تقنية التعرف على الوجه. صحيح أن بعض التقنيات مثل «PhotoDNA» و«CHEXIA» ساعدوا كثيرًا في إنقاذ أطفال، ولكن الاستخدام بتلك الطريقة يعتبره البعض تعدى على الخصوصية. 
  • عنصرية الذكاء الاصطناعي، حيث يوجد تحيز ناحية الرجال البيض ضد السود وذلك بناءً على البيانات المتاحة. إذ أن عدد المسجونين السود في الولايات المتحدة أكثر عددًا من البيض. نضيف إلى ذلك أيضًا أن أغلب صانعي التقنيات الحديثة هذه من ذوي البشرة البيضاء. فتتعرف أيضًا تقنيات التعرف على الوجه على أصحاب البشرة البيضاء بدقة أكبر من تعرفها على أصحاب البشرة السوداء.

ما زال ارتباط علم البيانات بالجرائم في طور النشأة، ولكنه أثبت قوته عند استخدامه في مناحي متعددة. وعلى الجانب الآخر ما زالت هناك بعض أوجه القصور مثل الخصوصية والعنصرية، فلذلك ما زلنا بحاجة إلى الدخول في طور التطوير والاستفادة منه والتخلص من أضراره.

المصادر
big data analytics
towards data science

ماذا تعرف عن البيانات الضخمة؟

هذه المقالة هي الجزء 4 من 17 في سلسلة مقدمة في علم البيانات وتطبيقاته

عندما تضغط على تليفونك المحمول أو ساعتك الذكية أو تبحث من خلال جهاز الكمبيوتر، تذكر أن بياناتك تبدأ رحلة قد تأخذها في جميع أنحاء العالم، وقد تعود لك بشكلٍ آخر. إذ يترك كل شخص في هذا العالم أثر يتحول إلى بيانات لكل ما يفعله، مثل السفر أو الإقامة في أحد الفنادق وحتى الألعاب التي يمارسها. هذه البيانات لا تستطيع التقنيات العادية تحليلها لحجمها الكبير، ويطلق عليها «البيانات الضخمة-The big data». والبيانات الضخمة هي بيانات ديناميكية وكبيرة ومتباينة تُنشأ بواسطة الأشخاص والأدوات والآلات، وتتطلب تقنيات جديدة ومبتكرة وقابلة للتطوير.

عناصر أساسية في البيانات الضخمة

تمتلك البيانات الضخمة ٥ عناصر أساسية مرتبطة بها:

  • السرعة: وهي سرعة تدفق البيانات التي تصل إلينا على سبيل المثال، أن كل ٦٠ ثانية يتم تحميل ساعات من اللقطات على يوتيوب الذي ينتج بيانات. فمن الممكن تخيل سرعة تراكم البيانات في الساعة أو اليوم أو الشهر وهكذا.
  • الحجم: حيث يزيد حجم البيانات مما يُعيق معالجتها بالطرق العادية. وهذه الزيادة بسبب تعدد مصادر البيانات وأجهزة الاستشعارات عالية الدقة والبنية التحتية القابلة للتطوير. يستخدم الناس في العالم غالبًا كل أنواع الأجهزة من تليفون وكمبيوتر وساعة رقمية. وأصبح حجم البيانات لدينا يصل إلى ٢,٥ كوينتليون بايت يوميًا ما يعادل ١٠ مليون قرص(DVDs).
  • التنوع: تتنوع البيانات على شكل صور أو فيديوهات أو أرقام أو تغريدات ومنشورات. حيث يزداد تنوع البيانات بسبب دخول عدد كبير من التكنولوجيا الجديدة للتليفون ووسائل التواصل الاجتماعي والفيديو وغيرها الكثير.
  • الصدق: حيث نوعية وأصل البيانات وتطابقها مع الحقائق والوقائع والاكتمال والنزاهة. وتتكلف الشركات مبالغ ومجهودات عالية ويزداد تتبع البيانات وتحري الدقة دائمًا للتأكد من المصداقية. و٨٠٪ من البيانات غير منتظمة، لذلك يجب دائمًا ابتكار طرق لتنظيم وترتيب وتحليل البيانات.
  • القيمة: تحويل البيانات إلى قيمة لجلب فوائد طبية واجتماعية، وفوائد للموظف والعميل وتطوير الشخصية.

تاريخ البيانات الضخمة

بالرغم من أن المصطلح حديث، لكن ظهرت كمية ضخمة من البيانات في الستينيات والسبعينات بعد ظهور الكمبيوتر متعدد الأغراض لأول مرة عام ١٩٤٥م بسعة تخزين بيانات ضئيلة للغاية. وفي عام ١٩٧٩م، اخترعت شركة « Oracle – أوراكل» أول نظام بيانات لربط بيانات الجداول ببعضها.

وفي عام ١٩٩٠م، بدأ الكمبيوتر ينتشر في العالم ويتمدد وبدأ من خلاله تجميع كم كبير من البيانات. ثم عام ٢٠٠٥م، أدرك العلماء الحجم الضخم من البيانات، خاصة بعد ظهور وسائل التواصل الاجتماعي وظهور اليوتيوب وغيرهم من المواقع التي تتبع تحركات العملاء داخلها. ظهر في نفس العام (hadoop) وهو مساحة عمل مفتوحة المصدر لتخزين وتحليل البيانات الضخمة. واشتهرت أيضًا (NoSQL) للعمل على البيانات في نفس العام.

شاركت أمازون في السباق حيث أسست (Amazon Web Service) لتخزين البيانات الضخمة وتحليلها عام ٢٠١٠م. وفي عام ٢٠١٤م، ظهرت مساحة العمل الأكثر شهرة حاليًا في عالم البيانات الضخمة وهي (Spark) واكتمل نضوجها في عام ٢٠١٦م. ومع ازدياد التطور، لم يعد الإنسان هو مصدر البيانات الوحيد بل امتد صدور البيانات من الأجهزة، خاصة بعد ظهور إنترنت الأشياء وازدهار الذكاء الاصطناعي وتعلم الآلة.

الفائدة الأساسية للبيانات الضخمة

الحصول على إجابات كاملة بعد امتلاك معلومات أكثر، هذه الإجابات تمنح ثقة أكبر في البيانات وتوفر طريقة مختلفة لإيجاد حلول والتغلب على المشاكل.

أهم استخدامات البيانات الضخمة

  • تطوير المنتجات: تستخدم بعض الشركات البيانات للاطلاع على آراء ومطالب العملاء، وعمل نماذج ومقارنات بين توفير الخدمة قديمًا والتحديثات للوصول إلى أفضل نتيجة مثل شركة نيتفليكس.
  • التنبؤ بالمخاطر: ملاحظة العوامل التي تؤدي إلى الفشل والسقوط، وعمل دراسات عليها وتحليلها، واستخدام كل الأساليب لتفادي الخسائر.
  • الحماية والأمان للمواقع: رفع معدلات الحماية والأمان باستخدام البيانات الضخمة عن طريق التعرف على أشكال معينة أو نماذج معينة، وأي تغيير فيها يتضح أن هناك مشكلة اختراق ويجب حلها فورًا.
  • تعلم الآلة: أصبح تعلم الآلة أدق وأكثر إنتاجًا حاليًا، ويعود الفضل في ذلك إلى البيانات الضخمة.
  • اتخاذ القرار: تحليل الآراء والنقد من الاستبيانات ووسائل التواصل الاجتماعي، واتخاذ قرار يتناسب مع سوق العمل.
  • ابتكار طرق وحلول جديدة وتطوير القرارات والماليات.

خريطة عمل البيانات الضخمة

هناك 3 خطوات رئيسية تعمل بها البيانات الضخمة وهي:

  • استخلاص البيانات ونقلها لمكان العمل.
  • تنظيم البيانات وتنظيفها وتخزينها.
  • تحليل البيانات وإنتاج رسم يعبر عن البيانات ثم إتخاذ القرار.

ما هي التحديات التي تواجه البيانات الضخمة؟

  • حجم البيانات كبير جدًا ورغم وجود حلول فالبيانات تتضاعف كل سنتين تقريبًا، قتزداد الحاجة إلى أدوات جديدة.
  • تستهلك البيانات الضخمة وقتً كبيرًا في تنظيمها لأن غالبا ما تكون البيانات غير منتظمة. ويستهلك علماء البيانات ٥٠-٨٠٪ من وقتهم في تنظيم وتنظيف البيانات.
  • التطور الدائم في الأدوات، فمن الممكن أن تعمل على أداة ما اليوم، وفي اليوم التالي تخرج أداة جديدة أفضل. حيث كان (hadoop) أداة أساسية والآن أصبحت (sparke) أو بالتشارك بينهما.

كيف يمكننا عمليًا الاستفادة من البيانات الضخمة؟

  • تخطيط أهداف في عالم الأعمال وازدياد جذب العملاء والتفاعل معهم.
  • استخدام مهارات تحليل البيانات الضخمة وتقويتها في التدريب والتوظيف.
  • مشاركة المعلومات والبيانات عبر العالم وإنشاء مواقع مفتوحة المصدر – بشرط الحفاظ على الخصوصية – لاكتشاف واختراع طرق وأساليب جديدة.
  • تقوية الخصوصية والأمان.
  • تطوير مجالات تعلم الآلة والذكاء الاصطناعي.

ازداد حجم البيانات بشكل لم نعد نستطيع التعامل معه بالطرق العادية لذلك أصبح علماء البيانات مطالبين بأدوات جديدة للتعامل مع الكمية الضخمة من البيانات، وتحقيق أقصى استفادة منها في مجالات متعددة.

المصادر:

towards datascience
oracle

البيانات المُصنَعة أم بيانات البشر؟

هذه المقالة هي الجزء 6 من 17 في سلسلة مقدمة في علم البيانات وتطبيقاته

البيانات المُصنَعة أم بيانات البشر؟

خصوصية البيانات

ارتبطت البيانات بالبشر دائمًا. إذا أردت البيانات يجب أن تبحث عن أشخاص لتحصل منهم على بياناتهم. لكن مؤخرًا أصبح التعامل مع البيانات يسوده صعوبات وشروط وعواقب وخيمة لأسباب تتعلق بالخصوصية، بالإضافة إلى الخوف من اختراق بعض البيانات الشخصية للأفراد. ظهرت القوانين التي تنظم بيانات الأفراد، وخاصة بيانات المرضى. ومن أهم هذه القوانين هو (نظام حماية معلومات المرضى الأمريكي HIPPA) عام ١٩٩٦م، ويُحدّث باستمرار. وال HIPPA هو قانون يهتم بحفظ وحماية المعلومات الخاصة، وخاصة بعد استحداث الملف الإلكتروني للمرضى. لم تكن المشكلة فقط في الخصوصية والقوانين، لكنها تعلقت أيضًا بالوقت اللازم لتجميع هذه البيانات، والتكلفة العالية. حيث تصل تكلفة بعض أبحاث السرطان إلى ٢,٧٧ مليار دولار، وهي تكلفة لا تشمل البحث وتعويض أولئك الأشخاص الذين نحصل منهم على البيانات. لذلك كانت الحاجة عاجلة إلى إيجاد طريقة أخرى للعمل على البيانات. فظهر تصنيع بيانات تُماثل البيانات الحقيقية وغير مرتبطة بأشخاص حقيقيين. فأيهما أفضل، البيانات المُصنعَة أم بيانات البشر؟

ما هي البيانات المُصنَعة؟

هي بيانات بديلة ومُصنعَة لمحاكاة بيانات العالم الحقيقية ولحماية خصوصيات الأفراد. وتستبدل البيانات المصنعة تلك البيانات الحقيقية التي تحتوي على معلومات شخصية. تُستخدم البيانات المصنعة للتأكد من دقة البيانات وتناسبها أثناء تطوير البرمجيات. ونصل في النهاية إلى بيانات صناعية تتشابه خصائصها مع البيانات الحقيقية.

تجميع بيانات من مليون شخص، يتيح لنا فرصة الحصول على قدر لا نهائي من المعلومات باستخدام تقنيات ولوغاريتمات وأجهزة حديثة. بل نصل إلى مرحلة عدم الاحتياج إلى بيانات حقيقية.

تاريخ البيانات المُصنَعة

في عام ٢٠١٣، تحديدًا في جامعة (MIT)، استطاع العالم (Veeramacheni) وفريقه عمل أول بيانات مُصنعَة تُماثل البيانات الحقيقية. جاء ذلك بسبب حاجتهم إلى عمل دراسات على طلاب يتعلمون على منصة (edx).

ولكن بسبب خصوصية بيانات طلابهم، اضطروا إلى تصنيع هذه البيانات. وقد نجحت التجربة بالفعل. بدايةً، كانت النتائج تماثل ٧٠٪ من نتائج العمل على بيانات حقيقية واستمرت في التطور. واستطاع الفريق عرض نتائجه في مؤتمرات عالمية عام ٢٠١٦م، ومن بعدها أصبح استخدام البيانات الصناعية حقيقة. وفي عام ٢٠١٩م، توصل طالب دكتوراة يُدعى (lei xu) إلى خوارزمية جديدة لتصنيع البيانات. 

استخدامات البيانات المُصنَعة

بدأت تنتشر البيانات المُصنَعة في عدد من المجالات منها على سبيل المثال، بعض النماذج لتطوير الشخصية، والماليات، والبنوك، بالإضافة إلى تعلم الآلة. لكن ازداد الاهتمام بالبيانات المُصنَعة في مجالات الصحة والأبحاث الإكلينيكية للحفاظ على خصوصية الأفراد وسهولة الوصول للمعلومات وتوفير الوقت. 

أشهر منصة صحية في مجال البيانات المُصنَعة

منصة (synthea) وهي منصة مفتوحة المصدر بها بيانات مرضى يصل التاريخ المرضي لهم إلى ١٠ سنوات، والبيانات الموجودة بها تماثل البيانات الحقيقية. وتُستخدم هذه المنصة في تخليق أو تصنيع كمية ضخمة من بيانات ذات جودة عالية في مواقع متعددة من العالم، عن طريق استخدام عدد من الأدوات البرمجية.

نستطيع من خلالها التعديل على البيانات، فمثلًا، إذا أردت عمل أبحاث عن السرطان يمكنك الدخول على المنصة، وتعطي أمر للحصول على بيانات ١٠٠ مريض، وتختار المرض الذي تدور حوله الدراسة وهو السرطان وبعض الأمراض المرتبطة به والمؤثرة، ومواقع أولئك المرضى في العالم. ستمدك المنصة بالبيانات المطلوبة عبر صناعتها وهي ليست بيانات مرضى حقيقيين.

ما زالت بعض أوجه القصور تواجه المنصة، لكن يتم حلها باستمرار من خلال فريق برمجي يعمل على التطوير الدائم. ومؤخرًا، بدأت بعض شركات الأدوية في عمل الأبحاث الإكلينيكية باستخدام البيانات المُصنَعة. على سبيل المثال، بدأ العمل في مجال الأورام لما فيه من صعوبات لإجراء الدراسات على البيانات الحقيقية بسبب التكلفة والوقت اللازم لتجميعها. ولكن باستخدام البيانات المصنعة قل الوقت اللازم للوصول إلى نتيجة، مما قد يقلل التكاليف وأسعار العلاجات الناتجة.

أصبح للبيانات المُصنَعة دور كبير في الأبحاث الإكلينيكية على أمراض الجهاز الهضمي أيضًا. إذ وجد العلماء أننا نستطيع الحصول على بيانات نموذجية تساعد على الوصول إلى نتائج جيدة. ويتجه العالم إلى استغلال البيانات بالشكل الأمثل، ولكن تطرأ معوقات عديدة في استخدام البيانات الحقيقة التي تنتمي إلى البشر. مما اضطر العلماء بعدها إلى البحث عن طريقة أخرى وهي البيانات المُصنَعة. وهي الآن في مرحلة التطور وتعطي نتائج مماثلة للبيانات الحقيقية.

المصادر

PHARMATIMES
MIT
MEDIUM

من يضع شروط استخدام البيانات؟

هذه المقالة هي الجزء 5 من 17 في سلسلة مقدمة في علم البيانات وتطبيقاته

من يضع شروط استخدام البيانات؟

تتصارع الشركات على بياناتك دون شروط

تتصارع العديد من الشركات على بياناتك، ويتوقع الكثيرون أن سعر البيانات سيصبح مقاربًا لسعر البترول في الأعوام القليلة القادمة. وتبذل العديد من الشركات الجهود للحصول على بياناتك رغمًا عنك أو اعتمادًا على حاجتك إليها للدخول إلى أحد مواقعها على الإنترنت.

تطلب منك الشركات معلومات قد تكون عادية على سبيل المثال، مثل الإسم والعمر والدراسة. لكن تستطيع الشركات أن تحوّل بعض بياناتك لتعرف عنك الكثير مثل تصرفاتك ومشاعرك ورغباتك لتستغلها في بعض الأسواق والخدمات، بالرغم من أنك لم تسمح للشركة بعمل هذه الدراسات. وتأخذ منك بعض الشركات معلومات أكثر خصوصية وأكثر حساسية مثل الإصابة بأمراض جنسية أو وجود طفرات جينية. قبولك للحصول على هذه البيانات أم لا، يتوقف على رغباتك وخصوصياتك وقرارك أنت فقط غالبًا.

يومك عبارة عن بياناتك

تستيقظ من النوم ذات يوم أقل سعادة، فمن الممكن أن تكتب على صفحتك الخاصة ما تشعر به، بعدها ستجد إعلانات عن أماكن ترفيه عن النفس. تذهب إلى العمل في الصباح، وتشتكي من صعوبة المواصلات العامة، وتتحدث مع صديقُ لك أنك تفكر في شراء سيارة، بعدها بقليل ستجد إعلانات عن سيارات. قبل العمل تمر بمقهى لتشرب كوبًا من القهوة، وبعد أن تنهي ذلك ستجد أحد العاملين يطلب منك أن تكمل استبيان لتعزيز وتقوية خدماتهم، بعدها ستجد المقهى على تواصل معك دائمًا. بعد نهاية عملك قد تذهب إلى أحد المطاعم لتناول الغذاء سيحدث معك ما حدث في المقهى تقريبًا. بالإضافة إلى الأماكن الاستثنائية التي تذهب إليها كالمستشفى والنادي وشركات الخدمات وغيرها من الأماكن التي ستعمل على تجميع بياناتك. لقد وصلنا إلى عصر تمتاز فيه البيانات بالأهمية التي قد تجعل كل العاملين في مكانٍ ما يساهمون فيها. 

التخوّف من استخدام البيانات الخاصة

ظهر اعتراض واضح لأول مرة عام ١٩٤٠م، عندما اعترضت العديد من الدول على الحكومة النازية في استخدام بيانات بعض الأشخاص لأبحاث طبية. هؤلاء الأشخاص كانوا قد قُبض عليهم كأسرى من عدد من الدول. بدأت بعض المعاهد الوراثية في أمريكا وغرب أوروبا باستخدام بيانات المواطنين بشكل مبالَغ فيه. كما سهّلت من وصول الحكومات إلى تلك البيانات، فاعترض المواطنون وقتها ولم يوافقوا على وصول الحكومة إلى هذه البيانات.

اشتدت الاعتراضات بقوة في القرن الحالي بسبب ازدياد استخدام البيانات، وفتح الباب على مصراعيه لأن تصبح الشركات مالكة لهذه المعلومات. فقامت بعض الشركات بعمل منظومة توافق بين العملاء أصحاب البيانات والشركة. هذه المنظومة تشمل شروط لأصحاب البيانات يتم الاتفاق عليها مسبقًا.

فماذا تستفيد المؤسسات من بناء نظام عمل بيانات بناءً على شروط أصحاب البيانات؟

  1. وجود علاقة وثيقة متبادلة بين المؤسسات وأصحاب البيانات.
  2. الوصول لقرار أفضل لأنه معتمد على بيانات موثوقة دائمًا.
  3. تقليل مخاطر الوقوع في مشاكل قانونية.
  4. الشفافية.
  5. ازدياد التعاون المشترك.

فما هي شروط استخدام البيانات التي توفرت عند بعض الشركات، وبعض المقترحات الإضافية؟

  1. معرفة عامة عن المشروع:
    • يجب معرفة اسم المشروع الذي تُجمّع البيانات من أجله ووصف كامل له، وهل يتم تجميع هذه البيانات لهذه المؤسسة أم لمؤسسة أخرى؟
    •  من حق صاحب البيانات أيضًا معرفة إن كان سيتوجب عليه إعطاء معلومات شخصية أو حساسة؟
  2. كيفية تحديد النتائج:
    •  هل هناك أي قصور، على سبيل المثال، هل يحدث انحياز في تجميع البيانات وتحليلها وجودة البيانات؟
    • هل الأشخاص العاملين في فريق التحليل قد يعملون على التأثير على نتيجة البيانات؟ 
  3. مشاركة البيانات مع الآخرين:
    • يجب أن يكون صاحب البيانات على معرفة بإمكانية مشاركة المؤسسة لهذه البيانات مع مؤسسة أخرى. 
    • هل سيتم نشر البيانات وتسهيل وصول منظمات معينة لها دون الموافقة؟
  4. القواعد والقوانين الأخلاقية: وهي السياسات والتنظيم وكيفية استخدام البيانات، وتطبيق معايير حقوق الإنسان الدولية. 
  5. الشكل القانوني:
    • كل البيانات المستخدمَة في المشروع تُشترى أم تُجمٌع من أفراد؟
    • هل تُجمّع لهذا المشروع فقط أم معه مشاريع أخرى؟
    • هل كل التصاريح للبدء في المشروع مجهزة دون مشاكل؟
  6. سبب استخدام البيانات:
    •  الهدف الرئيسي من تجميع البيانات.
    • نظام العمل المناسب، ويندرج تحت أي مجال؟
    • التأثير على المجتمع، وهل يُقدّم أثر إيجابي؟
    • النتائج النهائية ستكون جديدة أم لا؟
  7. الهدف النهائي مما يترتب عليه حماس المشاركة والمساعدة في إيجاد عدد أكبر من المشاركين.
  8. معرفة الأثر الإيجابي:
    •  معرفة الأفراد أو المنظمات التي ستتأثر بالمشروع. 
    • كيفية قياس هذا التأثير وكيفية زيادته؟
  9. الأثر السلبي:
    • الأفراد أو المنظمات الذين سيتأثروا بالمشروع. 
    • هل سيكون هناك ضرر أو أذى لأي شخص؟
    • ما هي حدود استخدام البيانات؟
  10. تقليل الأثر السلبي للبيانات:
    1. كيفية تقليل خطر استخدام البيانات؟
    2. كيفية الحفاظ على البيانات الشخصية والحساسة؟
    3. معرفة الاستفادة التي تعود على المؤسسة. 
  11. التواصل والتفاعل الجيد مع أصحاب البيانات، ومعرفة إذا كان هناك حقوق لأصحاب البيانات لعمل أي تعديل. 
  12. الانفتاح والشفافية:
    •  معرفة حق أصحاب البيانات في قول الآراء وتقبل النقد. 
    • معرفة هل سيتم نشر طرق العمل على هذه البيانات بمنتهى الشفافية؟
  13. يحتاج أصحاب البيانات إلى تدريبات ومعلومات عن البيانات عمومًا:
    • لمعرفة كيفية إيصال البيانات التي لديهم.
    • معرفة إن كانت الأفكار والمعتقدات ستغير نتائج تحليل البيانات أم لا؟
  14. معرفة المسئول عن كل هذه البيانات، ومعرفة طرق نشر البيانات.

إذن، من يضع شروط استخدام البيانات؟

دائمًا ما يكون الحديث عن البيانات شائكًا، وتحاول الشركات والمؤسسات الضخمة الحصول عليها مهما كان الثمن. ويعتقد العلماء أن يزداد ذلك مع الوقت. لذلك كانت الحاجة مُلحة دائمًا لوضع شروط وقوانين لاستخدام البيانات. ومن المهم أن تدرك الشركات أن إعطاء الأشخاص لبياناتهم ليس سماح باستخدامها في كل مشروع، ولكن لا بد من الحصول على موافقة.

المصادر:

dataethics
opendatainstitue
adweek

Exit mobile version