مقالات وتدوينات
(0)

10 مصطلحات مهمّة في علم البيانات

2,663 قراءة
1 تعليق
alt
التصنيف مقالات وتدوينات
وقت النشر
2020/12/14
الردود
1

علم البيانات هو أحد أهم المجالات التقنية؛ لكبير فائدته وتوسّع وظائفه، فعلم البيانات مصطلح شامل ويغطي العديد من الفروع التقنيّة مثل: تعلّم الآلة والذكاء الاصطناعي ومعالجة اللغة الطبيعيّة وبيانات والـ mining data أيضًا.

عندما تقرّر التخصّص في مجال محدّد فأنت بحاجة إلى معرفة ما هو المجال بالضبط؟ وما يتضمّنه؟ وما هي المصطلحات الأساسيّة فيه؟ لكن جمع كل هذه المعلومات ليس سهلًا، خاصة إذا كنت مبتدئ المعرفة بالمجال.

عندما بدأت في علم البيانات شعرت بالضياع؛ حيث أنّه عليّ تعلّم الكثير من الأشياء في ذات الوقت... التقنيات المستخدمة ومواكبة البحث والتقدّم في المجال ومحاولة فهم المصطلحات أو كما أسميتها "the lingo"، والآن بعد عامين من تخصّصي سأكتب مقالًا لمساعدة المبتدئين في هذا المجال، وسأذكر فيه 10 مصطلحات أساسيّة لكل عالم بيانات.


-النموذج Model

أهم وأكثر مصطلح ستسمعه هو "النموذج"... تدريب النموذج، تحسين كفاءة النموذج، سلوك النموذج وإلخ، ولكن ما هو النموذج؟

من الناحية الرياضيّة: النموذج هو تحديد لبعض العلاقات الاحتماليّة بين المتغيّرات المختلفة.

وفي مصطلح لايمان: النموذج هو طريقة لوصف كيفيّة عمل متغيّرين معًا.

ولأن مصطلح (النمذجة) قد يسبّب بعض الغموض يستخدم علماء البيانات مصطلح (النمذجة الإحصائيّة - statistical modeling) ليكون أكثر دقّة.


-الانحدار Regression

تم أخذ هذا المصطلح من (تعلّم الآلة) ويعني النهج الأساسي والتعلّم الآلي -غير خاضع لإشراف الإنسان-، وفي الانحدار غالبًا ما يكون لديك قيمتين: المستهدفة – متغيّرات المعيار- والمتنبّئات، ولنأخذ سوق العمل كمثال: سيكون مدى صعوبة أو سهولة الحصول على وظيفة متغيّر المعيار -القيمة المستهدفة- وهو يعتمد على طلب الوظيفة وعرضها (المتنبّئات).

هناك أنواع مختلفة من الانحدارات تختلف حسب التطبيقات ومنها: الانحدار الخطي واللوجستي (linear and logistic regressions).


-المتغيّرات Parameters

أحد أشهر المصطلحات في التقنية وقد تبدو مبهمة لاختلاف معناها حسب المجال الذي تم استخدامها فيه، مثلًا: في الاحصائيّات يتم استخدامه لوصف خصائص الاحتمالات المختلفة كشكله ومقياسه، أمّا في علم البيانات أو التعلّم الآلي فيتم استخدامه للمكوّنات التي يتعلّمها النظام بدقة، وفي التعلّم الآلي هناك نوعان من النماذج: 

parametric models

وهي التي تحتوي على عدد محدد من الميزات التي لا تتأثّر بعدد بيانات التدريب، ويعتبر الانحدار الخطي أحد أمثلتها

 nonparametric models

وهي التي لا تحتوي على عدد محدد من الميزات وبناءً على ذلك يزداد تعقيدها مع عدد بيانات التدريب، ومن أمثلتها خوارزميّة KNN


-التحيّز Bias

يُستخدم مصطلح التحيّز غالبًا للإشارة إلى وجود خطأ في البيانات، والسبب هو نتائج أخذ العيّنات والتقدير، فنحن غالبًا ما نأخذ عيّنة من البيانات من مجموعة أكبر، وقد تكون العيّنة المختارة متحيّزة؛ أي لا تمثّل المجموعة بشكلٍ صحيح.

ونظرًا لأن النموذج الذي ندرّبه لا يعرف غير البيانات التي نقدّمها فسيتعلّم عليها فقط؛ ولهذا على علماء البيانات التأكّد من أن البيانات غير متحيّزة.


-الارتباط Correlation

يُستخدم الارتباط للإشارة إلى إمكانيّة حدوث حدثين أو أكثر مثلًا: إذا زادت حالات الاكتئاب في المناطق الباردة فقد تكون هناك علاقة (ارتباط) بين برودة الطقس والاكتئاب! وغالبًا ما ترتبط الأشياء ببعضها بدرجات متفاوتة، فاتباع مقادير محدّدة والحصول على وجبة لذيذة مرتبط ببعضه أكثر من ازدياد الاكتئاب في المناطق الباردة، وتسمّى درجات الارتباط هذه بمعامل الارتباط (correlation coefficient).

عندما يكون معامل الارتباط مساويًا للعدد 1 فالارتباط حينها قويًّا، أمّا إذا كان مساويًا لـ 0.2 فسيكون الارتباط ضعيفًا، كما يمكن أن يكون المعامل سالبًا مثل العلاقة بين الأكل الجيّد والإصابة بالمرض -كلما كان اكلك جيّدًا كلما قلّت فرص إصابتك بالمرض-.

*يجب ألا تنسى أن الارتباط لا يعني (السببيّة)


-فرط التدريب ونقص التدريب Overfitting/ Underfitting

هذه طريقة أخرى لوصف النماذج Models وتكون حسب ملاءمتها للبيانات التي تم التطبيق عليها، يحدث فرط التدريب عند إضافة الكثير من المعلومات للنموذج؛ حيث ينتهي الامر بنموذج معقّد وصعب التطبيق على بيانات أخرى، أمّا نقص التدريب فيحدث عندما لا يحتوي النموذج على الكثير من المعلومات وينتهي بنموذج غير مناسب، وهنا عليك كعالم بيانات معرفة كيفيّة إيجاد حل وسط بين النوعين.


-التحقّق المتقاطع Cross-Validation

يعد التحقّق المتقاطع طريقة لتقييم سلوك النموذج عندما يُطلب منه التعلّم من مجموعة بيانات مختلفة عن البيانات المستخدمة في التدريب، وهذا مقلق بعض الشيء لأن النموذج غالبًا ما يكون ممتازًا مع بيانات التدريب، ولكن قد ينتهي أمره مع البيانات الحقيقيّة.

توجد ثلاثة طرق أساسيّة للتحقّق المتقاطع:

أولًا: طريقة التوقّف (holdout method): يتم تقسيم بيانات التدريب إلى قسمين أحدهما لبناء النموذج والآخر لاختباره.

ثانيًا: طريقة k-fold: وهي تطوير للطريقة الأولى ويتم فيها تقسيم البيانات إلى أقسام تساوي العدد k للحصول على دقة أعلى.

ثالثًا: طريقة الإبقاء على واحد (The leave-one-out cross-validation): هنا سيكون k هو نفس عدد نقاط البيانات المستخدمة في مجموعة البيانات.


-الفرضيّة Hypothesis

وتعني تفسير حدثٍ ما، غالبًا ما يتم وضع الفرضيّات بناءً على بيانات وملاحظات سابقة، والفرضيّة الصحيحة هي التي يمكن اختبارها بالنتائج -سواءً كانت نتائج صحيحة أو خاطئة-، وفي علم الإحصاء يجب أن تكون الفرضيّة قابلة للدحض، وهذا يعني قابليّة اختبارها دائمًا.

في علم "تعلّم الآلة" يشير مصطلح الفرضيّة إلى النماذج المرشّحة التي يمكن استخدامها لتعيين مدخلات النموذج إلى المخرجات الصحيحة.


-القِيَم الشاذّة Outlier

ويشير إلى المسافة غير العاديّة بين قيم مجموعة من البيانات، أوّل ما يجب أن يفعله عالم البيانات هو تحديد القيم الشاذّة والمتطرّفة، لأنها قد تمثّل الأخطاء التي حصلت أثناء جمع البيانات، أو يسمح باكتشاف حالات نادرة وفريدة، ولهذا لا ينبغي التخلّص من القيم الشاذّة قبل فهمها والتحقّق منها.




ختامًا

علم البيانات هو مجال سريع التطوّر، واعتمادنا على البيانات يزداد كل يوم وطالما أنّ هناك بيانات للتعدين والتحليل وغيرهما مما يسهّل الحياة بشكلٍ عام سوف تزداد الحاجة إلى علماء البيانات.

ولكن أقوى الصعوبات عند البدء في مجالٍ جديد هو تعلّم مفاهيمه ولغته، فلا يستفاد من المفاهيم معرفة معناها فقط بل كيفيّة استخدامها لبناء مشروع علم بيانات قوي، والطريقة الوحيدة لإتقان أي لغة هو استخدامها في مشاريع مختلفة.



المصدر: هنا

التعليقات (1)

قم بتسجيل الدخول لتتمكن من إضافة رد