البيانات الضخمة الأرشيف

لماذا تعد المدن الذكية مستودعات للبيانات؟

هذه المقالة هي الجزء 3 من 18 في سلسلة كيف ستغير المدن الذكية من شكل عالمنا؟

تستثمر «المدن الذكية-smart cities» اليوم في التقنيات الذكية والتطبيقات القائمة على البيانات لتعزيز الأداء والكفاءة. إذ تحتاج المدن إلى التقنيات والبيانات والاتصال السريع لتطوير البنية التحتية الحالية. وتتوفر لدى الموجة الجديدة من المدن الذكية بيانات آنيّة تعزّز مشاركة المواطنين في عمليات صنع القرار وتحسّن من نوعية حياتهم.

لماذا تسعى المدن إلى تحقيق الاستدامة ؟

تحتوي المدن على 54% من سكان العالم ومن المتوقع أن يرتفع العدد إلى 66% بحلول عام 2050. [1] وبالإضافة إلى النمو السكاني، لا تزال قدرة المدن على مواجهة الكوارث سواءً الطبيعية أو التي من صنع الإنسان تثير القلق والشكوك لدى الخبراء.[2] إذ تواجه المدن ضغطًا بيئيًا متزايدًا –كتغيُّر المناخ مثلًا- وكذلك نقصًا في البنية التحتية. إلى جانب تزايد طلب السكان على توفير نوعية حياة أفضل لهم.[3][4]

بسبب ذلك تسعى المدن الذكية اليوم إلى تحقيق التنمية الشاملة. ويوجد توجّه عالمي لدمج التكنولوجيا في المدن من أجل تحسين وظائف وأداء المدن الحضرية. وقد ساعد تطوير الشبكة العالمية WWW وتكنولوجيا المعلومات والاتصالات ICT منذ عام 1990 في خلق فرص للاتصال والمشاركة وتقاسم المعلومات بين المدن على الصعد المحلية والإقليمية والوطنية.[5]

تحوّل المدن إلى مدن ذكية

تحتاج عملية تحوّل المدن إلى مدن ذكية التعاون بين العديد من أصحاب المصالح والجهات الفاعلة. وتحتاج كذلك إلى:

وجود الدعم المقدّم من تكنولوجيا المعلومات والاتصالات ICT
الاستفادة من البنية التحتية الشبكية لتحسين الكفاءة الاقتصادية والسياسية.[6] وتشير البنية التحتية الشبكية إلى الأجهزة والبرمجيات التي تمكّن الاتصال بالشبكة أو الانترنت والاتصال بين المستخدمين وغيرها من الأمور.
يؤكّد باحثون آخرون على أهمية دور رأس المال والتعليم، إذ تبيّن أن أسرع معدلات النمو الحضري تتحقّق في المدن التي تتوافر فيها قوّة عاملة متعلّمة.[7]
تحقيق الإندماج الاجتماعي لمختلف السكان في الخدمات العامة.[8]
حث المواطنين على استخدام التكنولوجيا والاستفادة منها.

تقدّم البيانات فرصًا في المدن الذكية

تقدّم البيانات الفرص للحكومات والسلطات لتقوم بالتنبؤ والاستجابة والتخطيط لسيناريوهات المستقبل. ويتيح الوصول إلى البيانات والمعلومات في الوقت المناسب توفير خدمات فعّالة وتطوير الإنتاجية مما يؤدي إلى فوائد بيئية واجتماعية واقتصادية. كما تساعد في عمليات صنع القرار وتوفر الفرص لإشراك المجتمع المحلي عن طريق تعزيز الثقافة الرقمية ومحو الأمية الرقمية من خلال دمج تكنولوجيا الانترنت في حياتهم وعملهم. ويمكن تعريف محو الأمية الرقمية على أنها القدرة والمهارة في العثور على المحتوى وتقييمه واستخدامه ومشاركته وإنشائه باستخدام تقانة المعلومات IT والانترنت.[9]

البيانات الآنيّة في المدن الذكية

تعمل المدن اليوم كمستودعات واسعة للمعلومات والبيانات الآنيّة التي يتم جمعها وتنظيمها بشكل منهجي. من ثم يمكن تخزين البيانات ومشاركتها وتطبيقها لتوفير خدمات وتطبيقات جديدة أو تحسين الخدمات الحالية. لذلك يتوجّه الخبراء اليوم للتعامل مع هذه البيانات المجمّعة. نتيجةً لذلك تولّد في المدن الذكية قاعدة بيانات كبيرة يصعب إدارتها واستخدامها.[10] وتصنّف البيانات إلى عدّة أنواع ومنها:

البيانات المفتوحة Open data

تعرف «البيانات المفتوحة-Open data» على أنها البيانات المتاحة للجميع وقد تنشأ من قبل مصادر خاصة أو عامة على حد سواء. وتخزّن بشكل آمن في قواعد البيانات أو على أجهزة إلكترونية. لكن قد تتشكّل في نفس الوقت تحديات عديدة تتعلّق بالتمسّك بأمن البيانات وخصوصيتها.[11]

البيانات الضخمة Big data

تشير «البيانات الضخمة-Big data» إلى مجموعات البيانات الكبيرة أو المعقدة التي لا نستطيع التعامل معها بواسطة البرمجيات التقليدية. وتتسم بالحجم (تولّد التجارة الإلكترونية ووسائل التواصل الاجتماعي كميات كبيرةً جدًا من البيانات)، والتنوّع (تتّخذ البيانات العديد من الأشكال المختلفة مثل رسائل البريد الإلكتروني والمستندات والصور ومقاطع الفيديو)، والسرعة (تتولّد بيانات جديدة بوتيرة سريعة). [12] وتسمى بعض التطبيقات التي تستخدم مصادر البيانات الضخمة DDDAS، وتكتسب أهمية حيوية في المدن الذكية لأنها تجمع بين العديد من أنظمة البنية التحتية.[13]

البيانات و IoT

توسّع تطبيق انترنت الأشياء IoT في المدن الذكية ليشمل الأبنية الذكية، والتنقل، والطاقة، والبيئة، والاقتصاد والصناعة، والرعاية الصحية. وتضم المدن الذكية المعتمدة على IoT شبكات من أجهزة الاستشعار وتربط الأجهزة الذكية ببعضها وبالانترنت من أجل المراقبة والمعالجة عن بعد. على سبيل المثال؛ تراقب استخدام الطاقة لتحسين إدارة استخدام الكهرباء والإضاءة والتكييف.[14]

يمكن توسيع أجهزة الاستشعار في مواقع مختلفة لجمع وتحليل البيانات وتغذي هذه البيانات تطبيقات الخدمة التي تعتمد على IoT. والتي تؤدي بدورها إلى تحسين المعيشة وتصنع مكانًا أكثر إنتاجيةً للأعمال التجارية.[15]

نقل البيانات في المدن الذكية

تحتاج المدن الذكية لنقل البيانات التي جُمعت بواسطة الأجهزة الذكية وأجهزة الاستشعار، ويمكن لشبكات الاتصال القوية نقل البيانات بسرعة وأمان. ويستخدم عادةً مصطلح النطاق العريض الترددي لنقل البيانات وتقاس سرعته بميغابت في الثانية، وتوفر التطبيقات ذات عرض النطاق الترددي الأعلى اتصالات أسرع. وتعطي المدن الذكية الأولوية لسرعات النطاق الترددي العريض الأعلى -الأسرع- والتي تشكل ضرورة أساسية لدعم الاستعمال المطلوب للبيانات من قبل المواطنين.[16]

بينما يمكن للتطبيقات التي تحتاج إلى سرعات أقل الاستفادة من الشبكات الواسعة ذات الطاقة المنخفضة المعروفة بLPWAN. والتي تسمح بنشر أجهزة استشعار على نطاق واسع وبتكاليف قليلة. تعد LPWAN نوع من أنواع الاتصالات اللاسلكية على شكل شبكة واسعة مصمّمة للسماح بالاتصالات طويلة المدى بمعدل بت منخفض بين الأجسام المتصلة مثل أجهزة الاستشعار التي تعمل بالبطارية.[17]

استخدام البيانات في المدن الذكية

تُدمج البيانات المفتوحة في التطبيقات الذكية، وتعتبر البيانات والاتصال عنصرين أساسيين في تحقيق العمليات السهلة بكفاءة. وكذلك تعد شبكات الجيل الرابع والخامس 4G و5G والربط بLPWAN ذات أهمية حاسمة في هذه العملية.

فيما يتعلق بوظائف المدن، تعمل البيانات الضخمة وIoT على توفير فرص جديدة للابتكار، وتسرّع عملية إطلاق منتجات وخدمات جديدة. وتوفر مصادر جديدة للإيرادات وتقوم بتحويل الأعمال التجارية وفقًا لنماذج العمليات المستقبلية.[18]

يساعد الباحثون وأصحاب المصلحة والمنظمات المحلية المدن الذكية على إدارة التعقيد التقني لجمع البيانات. أيضًا تمويل وتحليل احتياجات التطبيقات التي تجمع البيانات على مستوى المدينة بما في ذلك جودة الهواء والضوضاء والطقس وغيرها. بالطبع بدلًا من جمع البيانات بشكل مستقل، من المفيد تحقيق التعاون بين الإدارات في إطار مبادئ توجيهية شاملة للحصول على رؤى مشتركة.

تحديات وعوائق

يتعين على الجهات الفاعلة مواجهة العديد من التحديات في تشغيل وإدارة البيانات إذ توجد تقنيات معقدة للحصول على البيانات وتخزينها واستخدامها. ومن ضمنها:

مشاكل تتعلق بحماية البيانات وأمنها وخصوصيتها، على سبيل المثال؛ ضعف أمن الحاسوب الموجود في تطبيقات الويب، والقرصنة، وتسرّب البيانات، والسرقة.
تعد بعض البلدان متقدمةً في مجال إدارة البيانات الضخمة. بالرغم من ذلك تفتقر غالبية الدول إلى القدرة أو المعرفة الكافية بشأن التقنيات والقدرات التحليلية للبيانات. بالتالي تحتاج هذه الدول اعتماد تدابير جادةً لضمان خصوصية وأمن بيانات المواطنين. وبدون هذا الضمان لا يمكن للمواطنين أن يثقوا في نظم الحوكمة، وبذلك يصبح جمع البيانات صعبًا.
يقترن استخدام البيانات بتحديات متعلقة بالجوانب القانونية والاجتماعية.
عمليات نقل البيانات الضخمة.
إدارة الحجم الكبير من البيانات غير المنظمة والتعامل مع النمو المستمر لها. إضافةً إلى ازدياد في عدد أشكال البيانات مثل بيانات وسائل التواصل الاجتماعي والصوت والفيديو وغيرها.
توظيف واستبقاء المهنيين المهرة في معالجة البيانات وتحليلها نظرًا لوجود نقص في أعداد الموظفين ذوي الخبرة.[19]

تسعى المدن اليوم لإدخال تدابير أمن البيانات في مرحلة مبكرة من جمع وتخزين واسترداد البيانات. من أجل ردع أي اختراق للبيانات المتعلقة بالبنية التحتية للمدينة. لأن الهجمات الإلكترونية يمكن أن تسبّب ضررًا لعمليات خدمة المدينة، وعواقب ماليةً كبيرةً.[20]

المصادر

التشخيص المبكر لمرض التوحد بالذكاء الاصطناعي

يعاني ١ من كل ٤٤ طفل من اضطرابات التوحد، وتظهر النسبة مختلفة بين الذكور والإناث؛ حيث أن نسبة إصابة الذكور ٤ أضعاف الإناث.
التوحد ليس نوعًا واحدًا، ولكنه عديد من الأنواع. ويشير التوحد أو اضطراب طيف التوحد إلى مدى واسع من التحديات التي يواجهها الشخص المُصاب به على سبيل المثال، المهارات الاجتماعية والسلوكيات المتكررة والكلام والتواصل.
وينتج التوحد في الغالب عن مزيج من العوامل الجينية والبيئية، ولأن كل نوع مختلف فكل شخص يعاني من التوحد لديه نقاط قوته ونقاط ضعفه الخاصة به. [1]
الطريقة التي يتعلم ويفكر بها ويحل المشاكل لها مدى واسع من مهارة عالية إلى تحدي قوي. حيث أن البعض يحتاج إلى دعم في ممارسة الأنشطة اليومية، والبعض يحتاج إلى دعم أقل، والبعض الآخر يعيش بمفرده ولا يحتاج إلى أي دعم.

أهم مشاكل التشخيص المتأخر للتوحد

تظهر علامات التوحد بعد سنتين إلى ٣ سنوات على الأطفال، وقليلًا ما قد تظهر في عمر سنة ونصف وهذه نسبة لا تكاد تُذكر، وبعض الأشخاص لا يتم تشخيصهم إلا بعد عمر ١٢ سنة. بالإضافة إلى أنه لا يوجد تحليل خاص بالتوحد عن طريق علامة معينة أو إنزيمات تظهر عند المريض، ولكن يشخص الأطباء المرض فقط بملاحظة سلوكيات وتطور نمو الطفل. [2]

ينتج عن ذلك مشاكل متعددة لمصابي التوحد، حيث أثبتت النتائج والأبحاث أن التدخل مبكرًا يؤدي إلى نتائح إيجابية مؤخرًا في حياة هؤلاء الأشخاص.

مساهمة الذكاء الاصطناعي في تشخيص التوحد

أنشأ علماء من جامعة استانفورد خوارزمية تستخدم الصور الناتجة عن التصوير الإشعاعي لإيجاد أشكال منتظمة لنشاط الدماغ تبين وجود التوحد أو عدم وجوده. وتتنبأ أيضًا الخوارزمية بحدة أعراض المرض. وبالتالي سيؤدي ذلك إلى تشخيص مبكر، وأدوية متخصصة، وفهم أشمل وأوسع لأصل التوحد في الدماغ.

تعمل الخوارزمية على البيانات التي تم تجميعها من خلال الأشعة، ومن ثم تقوم هذه الصور بعمل أشكال لنشاط الدماغ، وبرسم هذه الأنشطة بمرور الوقت وبالاستعانة بمناطق عديدة في الدماغ تولد الخوارزمية بصمة لنشاط الدماغ في الشخص المُصاب بالتوحد، وتكون بصمة فريدة من نوعها لكل شخص مصاب مثل البصمة العادية. ومع ذلك تشترك بصمات الدماغ في مميزات متشابهة مما يسمح بفرزها وتصنيفها.

وفي دراسة جديدة عملت الخوارزمية على صور أشعة ١١٠٠ مريض، وبدقة ٨٢٪ حددت الخوارزمية الأشخاص المصابين بالتوحد. [3]

البيانات الضخمة

دخل علم البيانات الضخمة في التوحد، حيث تم تجميع صور للأشعة من كل أنحاء العالم لعمل قاعدة بيانات ضخمة. والمرحلة الثانية هي التعامل بكفاءة مع تعقيدات واختلافات البيانات حيث بدأ العالم سوبيكار ورفاقه بخوارزمية للتعرف على الصور. ثم تم تطويرها بواسطة شركات تكنولوجية.
تنمو الخوارزمية باستمرار في التعامل مع الاختلاف في الصور، على سبيل المثال صور للقطط والكلاب بالخوارزمية. حيث تُلتقط العديد من الصور من زوايا مختلفة وألوان مختلفة لرفع كفاءة التعرف عليها.

ركز العلماء على أكثر ٣ مناطق في الدماغ تتغير وتتفاعل مع بعضها البعض وهي المناطق الأكثر تأثرًا في مرضى التوحد.
وهذه المناطق الثلاثة هي:

الجزء الأمامي من القشرة الحزامية: وتكون نشطة في الوضع العادي للإنسان وأي مشكلة بها تكون دليل تنبؤ قوي على التوحد.
بشرة الفص الجبهي الظهرية والجانبية
التلم الصدغي العلوي وهو الجزء الذي يتعامل مع أصوات البشر.

سيتم تطوير هذه الخوارزمية بشكل أكبر لتعمل على التفرقة بين الأدمغة شديدة التشابه. وتعمل أيضًا على اكتشاف الاضطراب في عمر سنة أو قد تصل كفاءتها إلى الاكتشاف في عمر ٦ شهور، لأن الاكتشاف المبكر خطوة قوية لتحقيق نتائج أفضل.

مصادر

[1] autism speaks
[2] cdc.gov
[3] stanford university HAI

علم البيانات الجينية

هذه المقالة هي الجزء 14 من 17 في سلسلة مقدمة في علم البيانات وتطبيقاته

علم الجينوم هو أحد فروع علم الوراثة المتعلق بدراسة الجينوم، أي كامل المادة الوراثية داخل مختلف الكائنات الحية. وتتطابق الجينات بين كل الأفراد بنسبة ٩٩,٩٪ وتختلف في نسبة قليلة تجعل كل شخص فريدًا من نوعه. وجينات البشر تكون أقرب ما يمكن إلى حيوان الشمبانزي. علم البيانات الجينية هو علم يجمع بين البيولوجيا والإحصاء والكمبيوتر من أجل تمكين الباحثين من استخدام التقدم التكنولوجي في الكمبيوتر والإحصاء لاستكشاف المعلومات والوظائف الخاصة بالجينات.

حجم البيانات الجينية

قد تساعد الأبحاث الجينية في وجود من ٢ – ٤٠ إكسابايت من البيانات الجينية في العقد المقبل، وإكسابايت يساوي ١ مليون تيرابايت. وتصل كمية البيانات المتاحة حاليًا سنويا من ٢ – ٤٠ مليار جيجابايت، ويستغلها العلماء أفضل استغلال في الدراسة من أجل صحة الإنسان والأمراض. ولكن من الواجب أن يكون هناك أخلاقيات وقواعد تحكم للحفاظ على خصوصيات الأشخاص؛ حيث كل جين مرتبط بشخص يعبر عن العديد من الأشياء بالنسبة إليه.

إذا أردت أن تتعلم علم البيانات الجينية، عليك بدراسة قوية في البيولوجيا والكمبيوتر والإحصاء. ولا يشترط أن تكون ملمًا بكل كبيرة وصغيرة في المجالات الثلاثة، ولكن على الأقل أن تكون حاصلًا على دراسة قوية في مجال منها وملمًا بما تحتاج إليه في مجال آخر، وبعدها قد تصل إلى راتب بمعدل ١١٠ ألف دولار سنويًا.

بداية علم البيانات الجينية

بدأ علم البيانات الجينية كمجال بحث ودراسة سنة ١٩٩٠م عن طريق الدمج بين:

استخلاص التسلسل الجيني من دراسة جينات الكائنات الحية.
تحليل البيانات باستخدام الإحصاء والكمبيوتر في تحليل ورسم البيانات الجينية، وتتضمن الحصول على البيانات وتخزينها واستخدام الخوارزميات لتحليل البيانات الجينية للأشخاص. [2]

علم البيانات الجينية يُعتبر من البيانات الضخمة

كل خلية في جسم الإنسان تحتوي على نسختين من الجينات كاملة، يتكون جسم الإنسان من ترليونات الخلايا. البيانات الجينية لشخص واحد من الممكن أن تشكل ٢٠٠ جيجا بايت. وسنحتاج إلى تقريبًا ٤٠ إكسابايت لتخزين التسلسل الجيني عالميًا بحلول عام ٢٠٢٥م، بما يعادل تقريبًا مليون قرص مدمج. ونظرًا لوجود هذا الكم الهائل من البيانات الجينية اعتبر هذا المجال من مجال البيانات الضخمة.

كيف يدرس العلماء العلوم البيانات الجينية؟

يخترع العلماء أدوات تسهل دراسة الجينات اعتمادًا على التطور التكنولوجي في الكمبيوتر والإحصاء، من أهم هذه الأدوات:

أداة « aligners » لتحديد أين تقع كل قطعة من الترتيب الجيني للحمض النووي.
أداة « Variant Callers » تتعرف على الأماكن المختلفة في التسلسل الجيني عن باقي التسلسلات الجينية العادية، هذه الاختلافات الجينية تختلف أحجامها فقد تكون حرف واحد من الحمض النووي في ما يعرف ب «single neuclotide polymorphism »، وقد تكون حروف متعددة وتعرف بإسم «Structural Variants».

قد تكون هذه التغيرات بدون أخطار، وقد تكون سببًا لمشاكل وراثية نادرة كالسرطان أو أمراض أخرى شائعة. [1]

كيف يدير ويخزن الباحثون هذه الكمية الضخمة من البيانات؟

استخدام برامج وأدوات الكمبيوتر والإحصاء.
اعتبار مراكز تحليل البيانات جزءًا أساسيًا من العمل.
دعم مالي كبير من المعاهد العلمية على سبيل المثال « NHGRI – المعهد الوطني لبحوث الجينوم البشري»، والذي بدوره يوفر أكثر من ١٢٥ مليون دولار سنويًا لدعم علم البيانات الجينية.
جعل البيانات مفتوحة المصدر في المجتمع العلمي لتسهيل تحليل البيانات وتنظيم أفضل لها.
تقديم سُبل تعاون أفضل بين بعض المراكز الخاصة والتجارية والمعاهد الحكومية على سبيل المثال، المعهد الوطني للصحة بالولايات المتحدة من أجل توفير تخزين واستضافة البيانات بشكل أفضل وتعزيز الخصوصية.

أخلاقيات مشاركة البيانات الجينية

معرفة المريض بمشاركة البيانات الجينية الخاصة به وإعطاءه معلومات واضحة عن مدى درجة الخصوصية.
عدم التعريف بالشخص مالك الجينات إلا في حالات الكشف عن المجرمين.

كيف يتشارك الباحثون البيانات الجينية؟

يقسم العلماء مصادر البيانات الجينية إلى ٣ أنواع:

مفتوحة المصدر: وهي النوع الأكثر انتشارًا، وتكون البيانات متاحة للعامة لأهداف بحثية.
تحتاج إلى تسجيل: يستطيع أن يصل إليها الباحثون، ولكن بعد تسجيل معلوماتهم وأعمالهم مع البيانات للموافقة. لذلك هي بين المفتوحه والمغلقة.
مغلقة المصدر: عرض الطلب على لجنة وقد توافق عليه لغرض البحث أو لا توافق، ولكن يظل الباحثون فقط هم الذين لديهم القدرة على الوصول إلى هذه البيانات. [1]

أهم المجالات المرتبطة بعلم البيانات الجينية

يحاول العلماء والباحثون اختراع أدوات تتعرف على الاختلافات في التسلسل الجيني وربطها بالمعلومات الطبية مثل:

اكتشاف عوامل خطورة لمرضٍ ما.
استخدام جديد لدواء معين.
استخدم الباحثون الذكاء الاصطناعي لتطوير البيانات الجينية للأغراض الإكلينيكية.

فما هو الاختلاف الجيني؟

يمتلك كل شخص ٦ مليار جين ويوجد اختلافات بسيطة بين الأفراد، بعض الاختلافات من الممكن أن تكون عامل خطورة لمرض معين وبعضها يقلل خطر مرضٍ ما وهناك ما ليس لها تأثير.

وتنقسم هذه الأمراض الجينية إلى نوعين:

نوع مرتبط بتغير جين واحد على سبيل المثال « Cystic Fibrosis – التليف الكيسي » وهو اضطراب وراثي يسبب تلفًا شديدًا في الرئتين والجهاز الهضمي والأعضاء الأخرى في الجسم. ويحدث بسبب اختلاف في الجين الذي يعمل على تشفر بروتين منظم الإيصالية عبر الغشاء في التليف الكيسي (CFTR)

https://www.genome.gov/Health/Genomics-and-Medicine/Polygenic-risk-scoresالتليف الكيسي جينيًا

نوع مرتبط باختلافات جينية كثيرة بالإضافة إلى عوامل بيئية مثل نظام الغذاء والنوم والضغط والتوتر والتدخين. وتصل هذه الاختلافات الجينية مثلًا إلى ٦٠ جين تقريبًا مختلف كما في الأشخاص المصابين بمرض تصلب الشريان التاجي. [3]

https://www.genome.gov/Health/Genomics-and-Medicine/Polygenic-risk-scores

«Polygenic Risk Score – درجة مخاطر الاختلافات الجينية المتعددة»

يفحص العلماء كل الاختلافات الجينية في شخص ما ثم يسجلوا هذه المعلومات على الكمبيوتر، وباستخدام برامج الإحصاء والكمبيوتر المتقدمة يعملون على تقدير هذه الاختلافات إن كانت عامل مؤثر في مرض معين أم لا.

وجود درجة اختلاف جيني ليس مؤكدًا على وجود مرض معين. فإذا افترضنا أن شخصًا لديه اختلاف جيني ولكنه يبلغ من العمر ٢٢ عامًا ويسير على نظام غذائي وصحي جيد، وشخصًا آخر يبلغ من العمر ٦٠ عامًا ولا يمتلك نظامًا جيدًا في الغذاء والصحة ولديه اختلاف جيني، سيكون الشخص الثاني أكثر عرضة للمرض. ففي النهاية هي توضح علاقة ما وليست طريقة حسابات مؤكدة. [3]

مصادر

[1] National Human Genome Research Institute
[2] Springer link
[3] NHGRI

تطبيقات البيانات الضخمة في الصحة العامة

هذه المقالة هي الجزء 12 من 17 في سلسلة مقدمة في علم البيانات وتطبيقاته

تتميز البيانات الضخمة بحجمها الكبير واختلافها وتنوعها. والصحة العامة هي علم منع الأمراض وزيادة العمر والصحة والكفاءة من خلال مجهود مجتمعي منظم. تخيل أنك تذهب إلى مستشفى لعمل فحص سنوي طبيعي للاطمئنان على حالتك الصحية. يأخذ منك الطبيب أو المختص بعض البيانات والتحاليل ثم بعدها تتلقى رسالة بوجوب الذهاب إلى قسم القلب لأنك قد تعاني قريبًا من مشكلة ما تخص القلب وأنت لم تكن تشتكي سابقًا. يعد هذا الموقف هو أهم ما ستوفره البيانات الضخمة بالتعاون مع الذكاء الاصطناعي في المستقبل القريب لكل الناس. بعد أن أصبح متوفر حاليًا ولكن في نطاق محدود.

واتضح أنه من الممكن استخدام البيانات الضخمة في تطبيقات متعددة في الصحة العامة على سبيل المثال، استخدام وسائل التواصل الاجتماعي و تطبيقات التتبع في صناعة قاعدة بيانات للأمراض وتوزيع اللقاحات بشكل أفضل.

أصبح مهمًا استخدامها في هذه الأثناء في توزيع لقاح كورونا. وأيضًا تتبع الحالات المرضية المُصابة بفيروس كورونا المستجد عن طريق «contact tracing application – تطبيقات تتبع الاتصال». فمثلًا أطلقت شركات مثل جوجل وأبل برامج تستخدم إشارات البلوتوث للتواصل مع مستخدمين آخرين ترسل الإشعارات في حالة الإصابة. وتقول الحكومات أن معلومات الإصابات فقط هي التي تُرسل ولكن لا توجد ثقة حتى الآن في الحفاظ على البيانات فمن الممكن أن تجبر الحكومة الناس على مشاركة بياناتهم.

الملفات الصحية الإلكترونية

بدأ تسجيل الملفات الصحية للمرضى إلكترونيًا عام ٢٠٠٣م. وأُنشئت أنظمة كاملة للعمل على هذه الملفات في عام ٢٠١٤م بتشجيعات على استخدام التقارير الإلكترونية والتحاليل والإحصائيات. في عام ٢٠١٥ و٢٠١٦م، طُورت أنظمة البيانات المفتوحة، وعلى أثرها تطورت المشاريع السحابية في تحليل البيانات وتنظيمها للمساعدة على التعرف على تهديدات الصحة والكشف عن أمراض متوقعة.

في عام ٢٠١٨م، بدأت استراتيجيات جديدة واستخدام مصادر بيانات غير تقليدية وتكنولوجيا جديدة وتواصل اعتمادً على بيانات من الهاتف الخاص ووسائل التواصل الاجتماعي فيما يعرف بالبيانات الضخمة. وتقنيات جديدة مثل الذكاء الاصطناعي سمحت البيانات الضخمة لها مع زيادة حجمها واختلافها وتنوعها باستخدام تعلم الآلة في تحليل وتنبؤات أفضل لها.

مصادر البيانات الضخمة المُستخدمة في تطبيقات الصحة العامة:

ملفات المرضى.
الدراسات والأبحاث.
قواعد البيانات والملفات المسجلة إلكترونيًا.
مراكز البحث.
الأجهزة التي تُلبس مثل الساعات الذكية.
أجهزة التليفون المحمول.
المنظمات الحكومية ومنظمة المدفوعات.
البيانات من وسائل التواصل الاجتماعي التي من الممكن أن تتنبأ بالمرض وتطوره والمضاعفات.

أهم تطبيقات البيانات الضخمة

التنبؤ المبكر بالأمراض المزمنة وأيضًا الوبائية ومكانها وحاملي المرض والتتبع. والرعاية الشخصية وبيانات الجسم من الممكن ان تتنبأ بالتأثيرات الجانبية للأدوية.
«personalized medicine – الطب الشخصي»: أصبح الاهتمام بصحة كل شخص بمفرده أمرًا بالغ الأهمية اعتمادًا على البيانات الشخصية ومعلومات الجينات ونظام الحياة.
التجارب الإكلينيكية: حيث اختيار العينة المناسبة للدراسة وتتبع الوقت الحقيقي للأوبئة والتبليغ عنها بشكل أسرع.
الاستفادة من توقع تكلفة علاج المرضى: عن طريق تتبع نظام الحياة المسجل يتم التنبؤ بإمكانية التسجيل على أي أنظمة التأمين، حيث تقريبا ٥٪ فقط من الأمريكيين يستخدمون كل موارد التأمين.

أمثلة على تطبيقات البيانات الضخمة في الصحة العامة

تعاونت الشركتان «Apple وIBM» في عمل يسمح لأجهزة ال «IPhone وIpad» مشاركة بيانات الأشخاص على الخدمة السحابية «IBM watson» لخدمة تحليل البيانات، والهدف هو الوصول إلى البيانات في الوقت الحقيقي والعمل كبنك للبيانات، ويمكن للمستخدم مشاركة بياناته الصحية مع طبيبه.
أنتجت شركة فايزر للأدوية دواء «xalkori» وحصل على موافقة هيئة «FDA – الغذاء والدواء الأمريكية» للاستخدام في عام ٢٠١١م. وهو دواء خاص بمرضى سرطان الرئة. استخدم المصنعون تحليل البيانات الضخمة حيث استخدموا المعلومات الجينية والأبحاث الإكلينيكية وتقارير التاريخ المرضي والعلاج السابق للمرضى لتصنيع هذا الدواء. تحاول أيضًا شركة فايزر استكشاف إمكانية تطوير أدوية اعتمادً على البيانات ونظام الحياة.
«Carolinas Healthcare System»: مركز يدير ٩٠٠ مركز عناية بالصحة، يزوره آلاف الأشخاص كل يوم ويحلل بيانات المرضى والزائرين وعن طريق خوارزمية معينة في الحال تتعرف على المرضى الذين لديهم خطورة لمرض معين وتوصله بالأطباء كأولوية.

مميزات استخدام البيانات الضخمة في الصحة العامة

يمكن الحصول على كمية ضخمة من البيانات تساعدنا في الكشف عن انتشار الأمراض والأوبئة بالاعتماد على إنترنت الأشياء. والميزه الاكبر هي إمكانية الاستحواذ على بيانات الفرد في وقتها الحقيقي لتتبع انتشار الأمراض المزمنة والأوبئة.

قوانين تحكم التعامل مع البيانات

تأسس قانون «HIPAA» في ٢١ أغسطس ١٩٩٦م وينص على أنه من الممكن استخدام البيانات الضخمة في تقديم أفضل خطة علاجية وتأمين أفضل وتوفير للأموال.

في عام ٢٠٠٦م، أُدرِجت الخصوصية والأمان ووُضعت بنود تحكم الاستخدام. في عام ٢٠٠٩م تطور تصور هذا القانون إلى «HITECH» تم تأسيسه بهدف استخدام سجلات المرضى في الرعاية الصحية وحماية المعلومات الشخصية للمريض.

٢٠١٣م، استخدام البيانات أصبح مسموح بدون سيطرة على هذه البيانات من قِبل الجهات المسئولة.

تحديات تواجهها تطبيقات البيانات الضخمة في الصحة العامة:

التفرقة: إحتمالية وجود بيانات ليس لها علاقة ببعضها البعض، ولا يمكن إخراج معلومات مفيده منها، لذلك يجب أن يكون هناك استمرار تنظيف وترتيب للبيانات ووجود هيئات مسؤولة عن تجميعها وترتيبها.
امتلاك ومشاركة البيانات: من يمتلك البيانات ويتحكم فيها؟
الحصول على بيانات دقيقة.

من أكبر المشاكل التي طرأت واستغل فيسبوك فيها المستخدمين هي تجربة تغيير ما يظهر على الصفحة الرئيسية لك لفيسبوك ومتابعة تأثيره عليك من تغيير المزاج للأسوأ أو للأحسن وظهوره على منشوراتك على فيسبوك فيما بعد.

لن يقف عند هذا الحد وسيستفيد أصحاب الأعمال من البيانات لتطوير الأعمال واكتساب الأموال.

لكن العلوم الجديدة والمتطورة دائمًا ما يكون لها عواقب وتحديات. ولكن الناتج على المجتمع من مميزاتها تجعلنا نواجه هذه الصعوبات والتحديات من أجل تحقيق أقصى استفادة منها.

المصادر:
atriumhealth
datapine

ماذا تعرف عن البيانات الضخمة؟

هذه المقالة هي الجزء 4 من 17 في سلسلة مقدمة في علم البيانات وتطبيقاته

عندما تضغط على تليفونك المحمول أو ساعتك الذكية أو تبحث من خلال جهاز الكمبيوتر، تذكر أن بياناتك تبدأ رحلة قد تأخذها في جميع أنحاء العالم، وقد تعود لك بشكلٍ آخر. إذ يترك كل شخص في هذا العالم أثر يتحول إلى بيانات لكل ما يفعله، مثل السفر أو الإقامة في أحد الفنادق وحتى الألعاب التي يمارسها. هذه البيانات لا تستطيع التقنيات العادية تحليلها لحجمها الكبير، ويطلق عليها «البيانات الضخمة-The big data». والبيانات الضخمة هي بيانات ديناميكية وكبيرة ومتباينة تُنشأ بواسطة الأشخاص والأدوات والآلات، وتتطلب تقنيات جديدة ومبتكرة وقابلة للتطوير.

عناصر أساسية في البيانات الضخمة

تمتلك البيانات الضخمة ٥ عناصر أساسية مرتبطة بها:

السرعة: وهي سرعة تدفق البيانات التي تصل إلينا على سبيل المثال، أن كل ٦٠ ثانية يتم تحميل ساعات من اللقطات على يوتيوب الذي ينتج بيانات. فمن الممكن تخيل سرعة تراكم البيانات في الساعة أو اليوم أو الشهر وهكذا.
الحجم: حيث يزيد حجم البيانات مما يُعيق معالجتها بالطرق العادية. وهذه الزيادة بسبب تعدد مصادر البيانات وأجهزة الاستشعارات عالية الدقة والبنية التحتية القابلة للتطوير. يستخدم الناس في العالم غالبًا كل أنواع الأجهزة من تليفون وكمبيوتر وساعة رقمية. وأصبح حجم البيانات لدينا يصل إلى ٢,٥ كوينتليون بايت يوميًا ما يعادل ١٠ مليون قرص(DVDs).
التنوع: تتنوع البيانات على شكل صور أو فيديوهات أو أرقام أو تغريدات ومنشورات. حيث يزداد تنوع البيانات بسبب دخول عدد كبير من التكنولوجيا الجديدة للتليفون ووسائل التواصل الاجتماعي والفيديو وغيرها الكثير.
الصدق: حيث نوعية وأصل البيانات وتطابقها مع الحقائق والوقائع والاكتمال والنزاهة. وتتكلف الشركات مبالغ ومجهودات عالية ويزداد تتبع البيانات وتحري الدقة دائمًا للتأكد من المصداقية. و٨٠٪ من البيانات غير منتظمة، لذلك يجب دائمًا ابتكار طرق لتنظيم وترتيب وتحليل البيانات.
القيمة: تحويل البيانات إلى قيمة لجلب فوائد طبية واجتماعية، وفوائد للموظف والعميل وتطوير الشخصية.

تاريخ البيانات الضخمة

بالرغم من أن المصطلح حديث، لكن ظهرت كمية ضخمة من البيانات في الستينيات والسبعينات بعد ظهور الكمبيوتر متعدد الأغراض لأول مرة عام ١٩٤٥م بسعة تخزين بيانات ضئيلة للغاية. وفي عام ١٩٧٩م، اخترعت شركة « Oracle – أوراكل» أول نظام بيانات لربط بيانات الجداول ببعضها.

وفي عام ١٩٩٠م، بدأ الكمبيوتر ينتشر في العالم ويتمدد وبدأ من خلاله تجميع كم كبير من البيانات. ثم عام ٢٠٠٥م، أدرك العلماء الحجم الضخم من البيانات، خاصة بعد ظهور وسائل التواصل الاجتماعي وظهور اليوتيوب وغيرهم من المواقع التي تتبع تحركات العملاء داخلها. ظهر في نفس العام (hadoop) وهو مساحة عمل مفتوحة المصدر لتخزين وتحليل البيانات الضخمة. واشتهرت أيضًا (NoSQL) للعمل على البيانات في نفس العام.

شاركت أمازون في السباق حيث أسست (Amazon Web Service) لتخزين البيانات الضخمة وتحليلها عام ٢٠١٠م. وفي عام ٢٠١٤م، ظهرت مساحة العمل الأكثر شهرة حاليًا في عالم البيانات الضخمة وهي (Spark) واكتمل نضوجها في عام ٢٠١٦م. ومع ازدياد التطور، لم يعد الإنسان هو مصدر البيانات الوحيد بل امتد صدور البيانات من الأجهزة، خاصة بعد ظهور إنترنت الأشياء وازدهار الذكاء الاصطناعي وتعلم الآلة.

الفائدة الأساسية للبيانات الضخمة

الحصول على إجابات كاملة بعد امتلاك معلومات أكثر، هذه الإجابات تمنح ثقة أكبر في البيانات وتوفر طريقة مختلفة لإيجاد حلول والتغلب على المشاكل.

أهم استخدامات البيانات الضخمة

تطوير المنتجات: تستخدم بعض الشركات البيانات للاطلاع على آراء ومطالب العملاء، وعمل نماذج ومقارنات بين توفير الخدمة قديمًا والتحديثات للوصول إلى أفضل نتيجة مثل شركة نيتفليكس.
التنبؤ بالمخاطر: ملاحظة العوامل التي تؤدي إلى الفشل والسقوط، وعمل دراسات عليها وتحليلها، واستخدام كل الأساليب لتفادي الخسائر.
الحماية والأمان للمواقع: رفع معدلات الحماية والأمان باستخدام البيانات الضخمة عن طريق التعرف على أشكال معينة أو نماذج معينة، وأي تغيير فيها يتضح أن هناك مشكلة اختراق ويجب حلها فورًا.
تعلم الآلة: أصبح تعلم الآلة أدق وأكثر إنتاجًا حاليًا، ويعود الفضل في ذلك إلى البيانات الضخمة.
اتخاذ القرار: تحليل الآراء والنقد من الاستبيانات ووسائل التواصل الاجتماعي، واتخاذ قرار يتناسب مع سوق العمل.
ابتكار طرق وحلول جديدة وتطوير القرارات والماليات.

خريطة عمل البيانات الضخمة

هناك 3 خطوات رئيسية تعمل بها البيانات الضخمة وهي:

استخلاص البيانات ونقلها لمكان العمل.
تنظيم البيانات وتنظيفها وتخزينها.
تحليل البيانات وإنتاج رسم يعبر عن البيانات ثم إتخاذ القرار.

ما هي التحديات التي تواجه البيانات الضخمة؟

حجم البيانات كبير جدًا ورغم وجود حلول فالبيانات تتضاعف كل سنتين تقريبًا، قتزداد الحاجة إلى أدوات جديدة.
تستهلك البيانات الضخمة وقتً كبيرًا في تنظيمها لأن غالبا ما تكون البيانات غير منتظمة. ويستهلك علماء البيانات ٥٠-٨٠٪ من وقتهم في تنظيم وتنظيف البيانات.
التطور الدائم في الأدوات، فمن الممكن أن تعمل على أداة ما اليوم، وفي اليوم التالي تخرج أداة جديدة أفضل. حيث كان (hadoop) أداة أساسية والآن أصبحت (sparke) أو بالتشارك بينهما.

كيف يمكننا عمليًا الاستفادة من البيانات الضخمة؟

تخطيط أهداف في عالم الأعمال وازدياد جذب العملاء والتفاعل معهم.
استخدام مهارات تحليل البيانات الضخمة وتقويتها في التدريب والتوظيف.
مشاركة المعلومات والبيانات عبر العالم وإنشاء مواقع مفتوحة المصدر – بشرط الحفاظ على الخصوصية – لاكتشاف واختراع طرق وأساليب جديدة.
تقوية الخصوصية والأمان.
تطوير مجالات تعلم الآلة والذكاء الاصطناعي.

ازداد حجم البيانات بشكل لم نعد نستطيع التعامل معه بالطرق العادية لذلك أصبح علماء البيانات مطالبين بأدوات جديدة للتعامل مع الكمية الضخمة من البيانات، وتحقيق أقصى استفادة منها في مجالات متعددة.

المصادر:

towards datascience
oracle