التعرف التلقائي على الكلام
التصنيف | مقالات وتدوينات |
وقت النشر |
2020/07/08
|
الردود |
0
|
التواصل اللفظي بين البشر يعتبر من الطرق الأساسية للتواصل وأكثرها استخدامًا، وهو تبادل المعلومات بين أطراف الاتصال من خلال التحدث للوصول إلى فهم مشترك للمعنى، بالمقابل التواصل بين البشر والآلة عادةً محدود باستخدام لوحة المفاتيح أو الفأرة وهما من أكثر الأدوات استخدامًا في هذا النوع من التواصل.
ولكن فكّر البعض بطريقة للتواصل بين البشر والآلة تشبه طريقة تواصل البشر مع بعضهم البعض، لحل المشكلات المتعلقة بعدم قدرة بعض البشر على النطق مما يمنعهم من التواصل اللفظي أو حاجة بعض البشر للتواصل مع الآلات لتخدم إعاقتهم الجسديّة، فكبار السن والمصابون ببعض الإعاقات -على سبيل المثال- يحتاجون لاستخدام التواصل اللفظي مع الآلة؛ وبسبب هذا الاحتياج ظهرت تقنية التعرف التلقائي على الكلام (ASR).
التعرف التلقائي على الكلام: هو تحويل الكلام المسموع إلى سلسلة من الكلمات المقابلة له أو إلى كيانات لغوية أخرى عن طريق استخدام خوارزميات تقوم بهذه العملية، والتعرف التلقائي يستخدم عملية الترجمة حيث يترجم الكلام إلى موجات صوتية (يمكن تمثيل الكلام باستخدام الوحدات الصوتية، والوحدة الصوتية هي أصغر وحدة أساسية تصف كيف ينقل الكلام المعنى اللغوي حيث تبني الكلام وتؤثر فيه إذا تم استبدالها بوحدة صوتية أخرى).
يوضّح الرسم في المرفقات هيكل نظام التعرف التلقائي على الكلام ومكوناته، نلاحظ بالرسمة أن أول خطوة هي استخلاص المميزات وهي خطوة مهمة لزيادة سرعة أداء خوارزميات التعرف التلقائي على الكلام حيث أنها تحول البيانات (الكلام المدخل لها) لشكل أبسط، وتوضّح الرسمة أيضًا أحد أهم عناصر التعرف التلقائي على الكلام وهو (المحلل) حيث يربط المميزات المستخلصة مع النموذج الصوتي، نموذج اللغة والملف الذي يحتوي على النطق، بعد ذلك يطبق خوارزمية تقوم بالبحث؛ للحصول على تسلسل الكلمات التي يمثلها الحديث المدخل.
هناك مرحلتان في بناء نموذج التعرف التلقائي على الكلام:
- مرحلة التدريب
- ومرحلة الاختبار
نقوم بتقسيم البيانات الصوتية لجزئين، جزء لمرحلة التدريب وهو الجزء الأكبر وجزء لمرحلة الاختبار، ثم نعمل على استخلاص المميزات -وتحدث في كلا المرحلتين-، خلال مرحلة التدريب يتم تقدير معلمات نموذج التصنيف الخاص بالتعرف التلقائي على الكلام عن طريق تدريب النموذج باستخدام البيانات الصوتية الخاصة بمرحلة التدريب، أما في مرحلة الاختبار فتتم مطابقة البيانات الصوتية الخاصة بالاختبار مع النموذج الذي تم تدريبه مسبقًا.
بعد ذلك يتم تقييم دقة النموذج عن طريق حساب معدل خطأ الكلمات (Words Error Rate-WER) وهو مقياس يقيس دقّة التعرف على الكلام، وكلما كانت النسبة أقل كان النموذج أدق.
مثلما ذكرنا، هناك نموذجان في التعرف التلقائي على الكلام، النموذج الصوتي ونموذج اللغة:
- في النموذج الصوتي كل كيان لغوي له نموذج ماركوف الخفي (Hidden Markov Model-HMM)، ونموذج ماركوف الخفي عبارة عن تمثيل إحصائي صوتي يتم الحصول عليه من خلال تطبيق خوارزمية تدريب على البيانات الصوتية الخاصة بالتدريب، ويستخدم خوارزمية فيتربي وهي تجد التسلسل الأكثر احتمالًا للحالات الخفية، تأخذ خوارزمية فيتربي الإشارة الصوتية كحدث ملحوظ ومن ثم تبحث عن أكثر تسلسل احتمالًا.
عندما يتحدث الشخص بشيء ما فهناك احتمالات بما سيقوله بعد ذلك، مثلًا عندما يقول شخص "ما" فهناك احتمال عالي لأن تأتي كلمة "هو" بعدها، ولكن هناك احتمال أن تأتي كلمة "الذي" بعد كلمة "ما" أيضًا؛ هذه أحد المشاكل التي تحدث في محاولة العثور على أفضل معنى لنمط الكلام والتي حلتها خوارزمية فيتربى.
- أما نموذج اللغة، فهو يعني احتماليّة ظهور كل كلمة، بالنسبة لملف النطق فهو يحتوي على قائمة بالكلمات المستخدمة لتدريب نموذج اللغة.
من أكثر الأشياء التي تزيد من صعوبة بناء التعرف التلقائي على الكلام هي الخصائص الطيفيّة والتي تتأثر بعدة أوامر منها:
الفسيولوجية: أطياف الصوت لشخصين مختلفة وهذا الاختلاف يعود إلى الأبعاد المختلفة للقناة الصوتية التي تتحكم في تردد الرنين، عادة تكون ترددات الرنين لدى الذكور أصغر من ترددات الإناث، والبالغين أصغر من الأطفال.
السلوكية: المتحدثون لديهم خلفيات اجتماعية مختلفة وهذا يؤثر على اللهجات واستخدام الكلمات.
سارة محمد المنيف
التعليقات (0)
لم يتم إضافة ردود حتى الآن...