Ad
هذه المقالة هي الجزء 6 من 17 في سلسلة مقدمة في علم البيانات وتطبيقاته

البيانات المُصنَعة أم بيانات البشر؟

خصوصية البيانات

ارتبطت البيانات بالبشر دائمًا. إذا أردت البيانات يجب أن تبحث عن أشخاص لتحصل منهم على بياناتهم. لكن مؤخرًا أصبح التعامل مع البيانات يسوده صعوبات وشروط وعواقب وخيمة لأسباب تتعلق بالخصوصية، بالإضافة إلى الخوف من اختراق بعض البيانات الشخصية للأفراد. ظهرت القوانين التي تنظم بيانات الأفراد، وخاصة بيانات المرضى. ومن أهم هذه القوانين هو (نظام حماية معلومات المرضى الأمريكي HIPPA) عام ١٩٩٦م، ويُحدّث باستمرار. وال HIPPA هو قانون يهتم بحفظ وحماية المعلومات الخاصة، وخاصة بعد استحداث الملف الإلكتروني للمرضى. لم تكن المشكلة فقط في الخصوصية والقوانين، لكنها تعلقت أيضًا بالوقت اللازم لتجميع هذه البيانات، والتكلفة العالية. حيث تصل تكلفة بعض أبحاث السرطان إلى ٢,٧٧ مليار دولار، وهي تكلفة لا تشمل البحث وتعويض أولئك الأشخاص الذين نحصل منهم على البيانات. لذلك كانت الحاجة عاجلة إلى إيجاد طريقة أخرى للعمل على البيانات. فظهر تصنيع بيانات تُماثل البيانات الحقيقية وغير مرتبطة بأشخاص حقيقيين. فأيهما أفضل، البيانات المُصنعَة أم بيانات البشر؟

ما هي البيانات المُصنَعة؟

هي بيانات بديلة ومُصنعَة لمحاكاة بيانات العالم الحقيقية ولحماية خصوصيات الأفراد. وتستبدل البيانات المصنعة تلك البيانات الحقيقية التي تحتوي على معلومات شخصية. تُستخدم البيانات المصنعة للتأكد من دقة البيانات وتناسبها أثناء تطوير البرمجيات. ونصل في النهاية إلى بيانات صناعية تتشابه خصائصها مع البيانات الحقيقية.

تجميع بيانات من مليون شخص، يتيح لنا فرصة الحصول على قدر لا نهائي من المعلومات باستخدام تقنيات ولوغاريتمات وأجهزة حديثة. بل نصل إلى مرحلة عدم الاحتياج إلى بيانات حقيقية.

تاريخ البيانات المُصنَعة

في عام ٢٠١٣، تحديدًا في جامعة (MIT)، استطاع العالم (Veeramacheni) وفريقه عمل أول بيانات مُصنعَة تُماثل البيانات الحقيقية. جاء ذلك بسبب حاجتهم إلى عمل دراسات على طلاب يتعلمون على منصة (edx).

ولكن بسبب خصوصية بيانات طلابهم، اضطروا إلى تصنيع هذه البيانات. وقد نجحت التجربة بالفعل. بدايةً، كانت النتائج تماثل ٧٠٪ من نتائج العمل على بيانات حقيقية واستمرت في التطور. واستطاع الفريق عرض نتائجه في مؤتمرات عالمية عام ٢٠١٦م، ومن بعدها أصبح استخدام البيانات الصناعية حقيقة. وفي عام ٢٠١٩م، توصل طالب دكتوراة يُدعى (lei xu) إلى خوارزمية جديدة لتصنيع البيانات. 

استخدامات البيانات المُصنَعة

بدأت تنتشر البيانات المُصنَعة في عدد من المجالات منها على سبيل المثال، بعض النماذج لتطوير الشخصية، والماليات، والبنوك، بالإضافة إلى تعلم الآلة. لكن ازداد الاهتمام بالبيانات المُصنَعة في مجالات الصحة والأبحاث الإكلينيكية للحفاظ على خصوصية الأفراد وسهولة الوصول للمعلومات وتوفير الوقت. 

أشهر منصة صحية في مجال البيانات المُصنَعة

منصة (synthea) وهي منصة مفتوحة المصدر بها بيانات مرضى يصل التاريخ المرضي لهم إلى ١٠ سنوات، والبيانات الموجودة بها تماثل البيانات الحقيقية. وتُستخدم هذه المنصة في تخليق أو تصنيع كمية ضخمة من بيانات ذات جودة عالية في مواقع متعددة من العالم، عن طريق استخدام عدد من الأدوات البرمجية.

نستطيع من خلالها التعديل على البيانات، فمثلًا، إذا أردت عمل أبحاث عن السرطان يمكنك الدخول على المنصة، وتعطي أمر للحصول على بيانات ١٠٠ مريض، وتختار المرض الذي تدور حوله الدراسة وهو السرطان وبعض الأمراض المرتبطة به والمؤثرة، ومواقع أولئك المرضى في العالم. ستمدك المنصة بالبيانات المطلوبة عبر صناعتها وهي ليست بيانات مرضى حقيقيين.

ما زالت بعض أوجه القصور تواجه المنصة، لكن يتم حلها باستمرار من خلال فريق برمجي يعمل على التطوير الدائم. ومؤخرًا، بدأت بعض شركات الأدوية في عمل الأبحاث الإكلينيكية باستخدام البيانات المُصنَعة. على سبيل المثال، بدأ العمل في مجال الأورام لما فيه من صعوبات لإجراء الدراسات على البيانات الحقيقية بسبب التكلفة والوقت اللازم لتجميعها. ولكن باستخدام البيانات المصنعة قل الوقت اللازم للوصول إلى نتيجة، مما قد يقلل التكاليف وأسعار العلاجات الناتجة.

أصبح للبيانات المُصنَعة دور كبير في الأبحاث الإكلينيكية على أمراض الجهاز الهضمي أيضًا. إذ وجد العلماء أننا نستطيع الحصول على بيانات نموذجية تساعد على الوصول إلى نتائج جيدة. ويتجه العالم إلى استغلال البيانات بالشكل الأمثل، ولكن تطرأ معوقات عديدة في استخدام البيانات الحقيقة التي تنتمي إلى البشر. مما اضطر العلماء بعدها إلى البحث عن طريقة أخرى وهي البيانات المُصنَعة. وهي الآن في مرحلة التطور وتعطي نتائج مماثلة للبيانات الحقيقية.

المصادر

PHARMATIMES
MIT
MEDIUM

سعدنا بزيارتك، جميع مقالات الموقع هي ملك موقع الأكاديمية بوست ولا يحق لأي شخص أو جهة استخدامها دون الإشارة إليها كمصدر. تعمل إدارة الموقع على إدارة عملية كتابة المحتوى العلمي دون تدخل مباشر في أسلوب الكاتب، مما يحمل الكاتب المسؤولية عن مدى دقة وسلامة ما يكتب.


تقنية

User Avatar

Hossam Gadallah

صيدلي مهتم بتحليل البيانات في تطوير مستوى الصحة، ومهتم بالتكنولوجيا والإدارة.


عدد مقالات الكاتب : 46
الملف الشخصي للكاتب :

مقالات مقترحة

التعليقات :

اترك تعليق