خبراء لـ"المجلة: هكذا يعيد الذكاء الاصطناعي تشكيل لسان العرب

تحديات تقنية وثقافية وتشريعية

خبراء لـ"المجلة: هكذا يعيد الذكاء الاصطناعي تشكيل لسان العرب

في الوقت الذي يندفع فيه العالم نحو رقمنة مختلف مناحي الحياة، يواجه اللسان العربي اختبارا غير مسبوق في الفضاء الرقمي. فقد اجتاحت الفيديوهات العربية المولدة بالذكاء الاصطناعي، أخيرا، منصات التواصل الاجتماعي، متغلغلة في أنماط متعددة من المحتوى الرقمي، من نصائح التجميل والطب، إلى الأدعية والقصص الدينية والأدبية، وصولا إلى المواد الوثائقية والثقافية. ومع تنوع اهتمامات المتلقين من مختلف الفئات العمرية، بات المستخدمون أمام تدفق بصري وسمعي كثيف، يقدم في ظاهره بوصفه "طفرة تقنية"، لكنه يكشف في جوهره عن ما يعتبره خبراء "تلوثا لغويا"، وينبئ بتحديات تمس سلامة البنية اللغوية وتماسك الهوية الثقافية عبر إعادة تشكيل غير مباشرة للوعي.

تتناول "المجلة" قضية جودة المحتوى العربي في عصر الذكاء الاصطناعي التوليدي، عبر استعراض آراء خبراء حول فجوة البيانات ومخاطر "تطبيع الانحراف" اللغوي، وصولا إلى بحث ملامح خريطة طريق تقنية وتشريعية لحماية مستقبل لغة الضاد.

فجوة البيانات العربية

يرى رئيس لجنة الذكاء الاصطناعي والأمن السيبراني، ونائب رئيس جمعية مهندسي تكنولوجيا المعلومات والاتصالات في نقابة المهندسين الأردنيين، هاني البطش، أن التحدي في جودة الفيديو العربي المولد بالذكاء الاصطناعي "ليس لغويا بحتا"، بل يرتبط بـ"عوامل هيكلية، في مقدمتها فجوة في البيانات العربية العالية الجودة، وتعقيد البنية اللغوية، وضعف سلاسل الإنتاج والتحرير". ويؤدي ذلك، وفق البطش، إلى خطر مزدوج يتمثل في تضليل معرفي محتمل، وتطبيع تدريجي مع أخطاء لغوية قد تتحول إلى "معيار مسموع" لدى الجمهور.

وبلغة الأرقام والبيانات يتحدث البطش عن العربية، على مستوى الحجم والأهمية، فهي ليست لغة هامشية رقميا، إذ تعد من أكثر خمس لغات انتشارا عالميا، ويتحدث بها أكثر من 400 مليون شخص، وتستخدم رسميا في أكثر من 20 دولة. كما تعد إحدى اللغات الرسمية في الأمم المتحدة، مما يمنحها وزنا مؤسسيا عالميا. ومع ذلك، لا ينعكس هذا الثقل الديموغرافي والمؤسسي في الفضاء الرقمي بشكل متوازن، إذ تشير تقديرات متداولة في تقارير دولية إلى أن المحتوى العربي لا يتجاوز 1% إلى 3% من إجمالي محتوى الإنترنت العالمي، رغم أن الناطقين بالعربية يشكلون نحو 5% من سكان العالم. هذه الفجوة الرقمية، بحسب البطش، هي أحد الأسباب الجوهرية وراء ضعف أداء النماذج اللغوية والصوتية عند التعامل مع العربية.

وفي مجال البيانات الصوتية والنصية، تظهر الدراسات، وفق البطش، أن العربية، مقارنة بالإنكليزية، تعد من اللغات المحدودة الموارد في سياق الذكاء الاصطناعي، إذ تعاني نقصا في البيانات المهيكلة والمشكولة، اللازمة لتدريب نماذج دقيقة. فمعظم النصوص العربية المتاحة على الإنترنت غير مشكولة بنسبة تتجاوز 90%، مما يخلق التباسا مباشرا في النطق والمعنى، ويؤدي إلى أخطاء في التعليق الصوتي الآلي، خاصة في الفيديوهات الوثائقية والثقافية التي تتطلب دقة في الأسماء والمصطلحات.

هذه الفجوة الرقمية، بحسب البطش، هي أحد الأسباب الجوهرية وراء ضعف أداء النماذج اللغوية والصوتية عند التعامل مع العربية

وينوه البطش بأن التعدد اللهجي يمثل تحديا إضافيا. فالعربية طيف لغوي يمتد من الفصحى إلى عشرات اللهجات، مما يصعب بناء نموذج موحد عالي الدقة. كما تشير مراجعات أكاديمية حديثة إلى أن الأبحاث في معالجة اللهجات العربية لا تزال محدودة، مقارنة بلغات أخرى، وهو ما ينعكس على جودة الفهم والتوليد، لا سيما في المحتوى السمعي البصري.

ويتابع البطش أن اعتماد أدوات الذكاء الاصطناعي التوليدي يتسارع عالميا، من حيث الاستخدام، إذ تشير تقديرات إلى أن أكثر من 100 مليون مستخدم تبنوا بعض هذه الأدوات خلال أشهر قليلة من إطلاقها، وأن ما يزيد على 30% من العاملين يستخدمونها أسبوعيا لرفع الإنتاجية. في السياق العربي، ورغم غياب إحصاءات دقيقة شاملة، تلفت المؤشرات إلى انتشار واسع بين فئات الشباب والمهنيين، خاصة في مجالات التعليم، وصناعة المحتوى، والترجمة، والتسويق الرقمي. ويزيد هذا التوسع، في ظل فجوة الجودة، احتمال انتشار محتوى عربي ضعيف أو غير دقيق على نطاق واسع.

PHILIPPE LOPEZ / AFP
معلمة تكتب على اللوح خلال حصة لتعليم اللغة العربية للأطفال في معهد "لسان" قرب باريس، 2018

أما على مستوى المخاطر، فينبه البطش إلى أن تقارير دولية، بما في ذلك تقارير صادرة عن منظمات أممية، تحذر من أن النماذج التوليدية قد تنتج محتوى مقنعا شكليا لكنه غير دقيق أو متحيز، وهو ما يزيد خطورة الفيديوهات التي تبدو وثائقية أو تعليمية، لكنها في الواقع غير خاضعة لأي تدقيق بشري.

"الهلوسة اللغوية" والذكاء الاصطناعي

وإذا كان البطش يشير إلى فجوة البيانات بوصفها من أبرز مسببات المشكلة، فإن الخبير في تطوير مشروعات حوسبة اللغة العربية، مأمون الحطاب، يذهب أبعد من ذلك، بتفكيك هذا الخلل في الأنظمة التوليدية.

ويوضح الحطاب، الذي أسهم في تطوير عدد من الأنظمة العربية ومشروعات الترجمة الآلية، مواطن الخلل في توليد الفيديوهات بالذكاء الاصطناعي وما تتضمنه من أخطاء لغوية، كما يطرح سبل تطوير المحتوى العربي باستخدام هذه التقنيات بما يواكب الانفجار المعرفي والنمو المتسارع في هذه الصناعة.

قد تنتج النماذج التوليدية محتوى مقنعا شكليا لكنه غير دقيق أو متحيز، وهو ما يزيد خطورة الفيديوهات التي تبدو وثائقية أو تعليمية

وينبه الحطاب أن ما نشهده اليوم من تضخم في المحتوى المولد اصطناعيا "ليس طفرة تقنية عابرة، بل هو اختبار لصمود الهوية اللغوية العربية في الفضاء الرقمي"، مبينا أن جذر الإشكالية لا يكمن في قصور الذكاء الاصطناعي، بل في طبيعة البيانات التي يتغذى عليها، إذ يعاني المحتوى العربي الرقمي من فقر معرفي بنيوي، وتهيمن عليه العامية والركاكة. وتعيد نماذج الذكاء الاصطناعي إنتاج هذا الإفلاس اللغوي في قوالب مصقولة الشكل، مجوفة الجوهر.

ويرجع الحطاب طبيعة الخلل إلى أن نماذج الذكاء الاصطناعي تفتقر إلى الملكة اللسانية الحقيقية. فهي ترصف الكلمات وفق التوقع الإحصائي لا وفق منطق النحو وضوابط الدلالة، فتنتج ما يمكن تسميته "الهلوسة اللغوية" في نص منساب في جرسه، مفخخ في بنيته بأخطاء إعرابية وتشويهات دلالية.

وتتفق الباحثة منى السواح في دراستها المعنونة بـ"هل يفهم الذكاء الاصطناعي اللغة العربية؟" والمنشورة باللغة الإنكليزية في "مركز كار لسياسات حقوق الإنسان"، كلية هارفارد كينيدي، مع بعض ما يذهب إليه البطش والحطاب، وتعيد السواح جذور هذه المعضلة إلى طبيعة اللغة العربية ذاتها، بوصفها لغة ذات بنى صرفية ونحوية وصوتية معقدة، ونظام نحوي مرن يسمح بتغيير ترتيب الكلمات، مما يربك النماذج الذكية التي طورت في الأساس على منطق لغات أخرى. ويضاف إلى ذلك تحدي التعدد اللهجي، ومحدودية الموارد اللغويةالرقمية، المشكولة والمهيكلة.

 Hussein FALEH / AFP
قلم الخط العربي المستخدم من قبل الخطاط العراقي وائل الرمضان في ورشته بمدينة البصرة، 2021

ورغم القفزات التي حققتها نماذج اللغة الكبيرة (LLMs)، مثل ChatGPT و Gemini، تشير الدراسات إلى أن النماذج العامة لا تزال تعاني قصورا في التعامل مع خصوصية العربية، مقارنة بنماذج أصغر وأكثر تخصصا. ذلك يؤكد، وفق السواح، أن المشكلة لا تتعلق بصعوبة اللغة، بقدر ما ترتبط بمستوى الاستثمار والاهتمام الموجه لتطوير خوارزميات تستجيب لخصوصية العربية، فعلى الرغم من الأداء المتقدم لنموذج ChatGPT في اللغة الإنكليزية، تظهر الدراسات أن النسخة 3.5 لا تزال أقل كفاءة في التعامل مع العربية المتعددة اللهجات.

تعيد نماذج الذكاء الاصطناعي إنتاج هذا الإفلاس اللغوي في قوالب مصقولة الشكل، مجوفة الجوهر

وتشير السواح إلى أن تأخر إدراج العربية كعنصر أساس في التصميم الأولي لكبرى المنصات العالمية، جعل حضورها يبدو إضافة لاحقة لا أولوية بنيوية. وهذا التهميش لا ينعكس فقط على جودة المحتوى العربي، بل يرفع احتمالات الخطأ المعرفي ويعزز مظاهر التبعية الرقمية، ما لم يتم تدارك هذه الفجوة عبر رؤية تقنية شاملة وموجهة للعربية بوصفها لغة مركزية في الفضاء الرقمي.

 

تطبيع الانحراف اللغوي

"الهلوسة اللغوية" التي وصفها الحطاب، تمتد لتشكل خطرا داهما على الوعي الجمعي، وهو ما يفصله أستاذ اللسانيات في الجامعة الهاشمية الدكتور عيسى برهومة، الذي يوضح مخاطر التعرض المكثف لمحتوى مرئي مولد بالذكاء الاصطناعي يتضمن أخطاء لغوية، وما يفضي إليه من تطبيع هذه الأخطاء في وعي المتلقي، وانعكاس ذلك على ذائقته اللغوية وسلامة استعماله.

ويبين برهومة أن البناء اللغوي في الذهن يتأسس على مبدأ التراكم النمطي، إذ تتشكل الكفاءة عبر استبطان صيغ متكررة تختزن في الذاكرة كنماذج قابلة للاستدعاء. وفي هذا السياق، يؤدي التعرض المكثف لمحتوى مشبع بانزياحات نحوية وتركيبية إلى إعادة تشكيل هذه النماذج، إذ يفضي التكرار إلى ما يمكن تسميته "تطبيع الانحراف"، بحيث تنتقل الصيغ المضطربة من حيز الطارئ إلى المألوف، وتغدو جزءا من البنية الإدراكية للمتلقي.

REUTERS/Dado Ruvic
عبارة "الذكاء الاصطناعي AI" إلى جانب لوحة مفاتيح وأيدٍ روبوتية في صورة توضيحية، 2025

تتعمق هذه الدينامية، وفق برهومة، في بيئات التداول الرقمي، وتتسارع وتيرة الاستهلاك عبر منصات مثل "يوتيوب" و"تيك توك" و"إنستاغرام" وغيرها، حيث يكتسب الخطاب، في هذا الفضاء، حضورا كثيفا متحررا من آليات الضبط اللغوي التقليدية، وتتوالد الصيغ في نسق سريع، يمنح الأولوية للانتشار على حساب الإحكام. وهنا يعمل الذهن وفق مبدأ الألفة، فيميل إلى استدعاء ما تكرر حضوره، فيغدو المعيار مرتبطا بالكثافة التداولية لا بالدقة اللغوية.

ويربط برهومة انتشار الأخطاء في المحتوى الرقمي بضعف الجهود العربية في هذا المجال، فلا تزال نماذج الذكاء الاصطناعي قاصرة عن محاكاة الصوت العربي البشري بدقة، مما يعقب أخطاء في الأعلام، فضلا عن الأخطاء اللغوية والأسلوبية التي توردها التطبيقات، فيغدو المحتوى المولد آليا مفتقرا إلى التفاعل والدفء البشري.

ينعكس هذا المسار، بحسب برهومة، على الذائقة اللغوية، التي تعيد تشكيل نفسها وفق ما يتداول، فتفقد حساسيتها الدقيقة للفروق التركيبية والدلالية. ومع تواتر النماذج المختلة، يتراجع الإدراك الوظيفي للعلاقات الإعرابية، ويحدث نوع من السيولة في البنية الدلالية مقابل المتانة البنيوية. كما يتشكل مستوى أسلوبي هجين، يمتزج فيه الفصيح بالمولد والعامي في سياق واحد، بما يعيد رسم حدود المقبول التعبيري. ومع سيرورة هذا التعرض لمحتوى سقيم تستقر، لدى المتلقين، إلفة للخطأ وتقبل له، وهذا يعزز العامية المقنعة، والمحتوى التافه.

هذا التهميش لا ينعكس فقط على جودة المحتوى العربي، بل يرفع احتمالات الخطأ المعرفي ويعزز مظاهر التبعية الرقمية

أما على المستوى البنيوي فيؤدي تكرار التعرض لهذه الأخطاء إلى تآكل النظام النحوي في الوعي، فتضعف القدرة على تنظيم الجملة وفق قواعدها الداخلية. ويبرز اضطراب في إنتاج المعنى، نتيجة اعتماد صيغ غير مستقرة تحدث لبسا في الفهم والتأويل، كما يشهد معيار الصواب تحولا، إذ يكتسب الشائع سلطة معيارية ضمن منطق التداول الرقمي.

وينوه برهومة بأن هذه التأثيرات تتضاعف لدى الناشئة، نظرا لكون كفايتهم اللغوية في طور التشكل، فيغدو المحتوى المتداول مصدرا رئيسا لبناء النماذج الذهنية. ومع اقتران اللغة بالصورة والصوت، تتعزز قوة الترسيخ في الذاكرة. غير أن التأثير يمتد أيضا إلى الكبار، عبر إعادة "معايرة الحس اللغوي"، وفق ما يتكرر في البيئة الرقمية.

ويخلص برهومة إلى أن العلاقة بين التقنية واللغة باتت مركبة، إذ يسهم الذكاء الاصطناعي في إعادة إنتاج الخطاب، ويمنحه قابلية انتشار واسعة، فتغدو الأخطاء جزءا من دورة تداولية مستمرة. ويستدعي هذا الوضع يقظة معرفية تعيد الاعتبار الى معيارية اللغة، وتؤسس لوعي نقدي قادر على التمييز بين البنية الرصينة والبنية المضطربة، بما يحفظ توازن النظام اللغوي ويصون قدرته على أداء وظائفه المعرفية والتواصلية.

خريطة طريق تقنية عربية

أمام هذا التشخيص التقني واللساني، يتفق الخبراء على أن المواجهة لا تكون بالانكفاء، بل برسم خريطة طريق واضحة، وفي هذا السياق يرى الحطاب، عضو مجمع اللغة العربية الأردني، أنه لا سبيل إلى وقف هذا المد، غير أن توجيهه يظل ممكنا، وذلك عبر مسارين لا يغني أحدهما عن الآخر: الأول، مسار السيادة التشريعية من خلال تفعيل دور مجامع اللغة العربية في صوغ مواثيق أخلاقية ولغوية ملزمة لصناعة المحتوى الذكي، وحث المنصات والمؤسسات الإعلامية على اعتماد معايير جودة لغوية واضحة، حيث لا يتاح المحتوى المولد آليا إلا بعد مروره على آليات تدقيق بشري.

REUTERS/Satish Kumar
موظفون داخل مركز "بانوراما" للقيادة الرقمية في مقر "أدنوك" في أبوظبي، 2019

أما الثاني، فمسار الإثراء التقني، ولا يكون الحل بالانكفاء، بل بالمواجهة المعرفية، وبناء مستودعات لغوية واسعة تتسم بالفصاحة والضبط بالشكل، لتكون المرجع الأساس لتدريب النماذج الذكية، وتطوير مساعدات لغوية ذكية متخصصة في العربية قادرة على استيعاب صرفها ونحوها.

يؤدي تكرار التعرض لهذه الأخطاء إلى تآكل النظام النحوي في الوعي، فتضعف القدرة على تنظيم الجملة وفق قواعدها الداخلية. ويبرز اضطراب في إنتاج المعنى

وحول الشق التشريعي، ومدى فاعليته وإمكان تطبيقه عمليا في ظل الانفجار في صناعة المحتوى الرقمي وتزايد العاملين فيه، يوضح الحطاب أن الحديث عن التشريع، لا يعني قوانين جامدة تنتظر المخالفين في المحاكم، بل تعني التشريع المنظم لسياسة الحوسبة الوطنية، وهذا فارق جوهري.

فكما تلزم شركات الأدوية مواصفات كيميائية صارمة، يمكن إلزام منصات توليد المحتوى دمج مرشحات لغوية معتمدة من المجامع، لا كواجب ثقافي، بل كشرط للعمل التجاري داخل السوق الوطنية. ولا يعفي التذرع بالسرعة والعائد المادي من هذه المسؤولية، إذ يمكن التشريع فرض وسم الموثوقية اللغوية، فكل محتوى مولد دون تدقيق معتمد يصنف تقنيا على أنه غير مدقق، مما يقلص قيمته السوقية ويدفع الشركات تلقائيا نحو الجودة طلبا للربح لا التزاما بالأنظمة.

ويمتد دور القانون، وفق الحطاب، إلى توجيه التمويل، عبر التمييز بين اللغة الوظيفية (اللهجات للاستخدام اليومي) واللغة المرجعية (الفصحى للوثائقيات والتعليم)، ويحمي الفصحى من أن تذوب في خوارزمية تفضل العامية لغزارتها الرقمية.

REUTERS/Bhawika Chhabra
شخص يقف إلى جانب شعار "تشات جي بي تي" خلال قمة AI Impact في نيودلهي، 2026

وفي مواجهة الطرح القائل بعجز التشريع عن مواكبة التطور التقني، يلفت الحطاب إلى تجربة قانون الذكاء الاصطناعي الأوروبي (EU AI Act) الذي أرغم كبرى الشركات العالمية على إعادة هندسة منتجاتها امتثالا لمعاييره، فالتقنية تتفلت حين يغيب القانون المنظم لمواصفاتها، فإن لم نتحكم بها تشريعيا، نصير مستهلكين لذكاء اصطناعي يتحدث العربية بلسان أعجمي، وبخصائص لغوية مشوهة أو غير دقيقة.

وفي سياق متصل، يرى البطش أن معالجة الفجوة الرقمية للعربية، تتطلب نموذج حوكمة تشاركيا، إذ تقع على عاتق الحكومات مسؤولية إتاحة البيانات العامة العالية الجودة، وتمويل البنية التحتية اللغوية، فيما تضطلع الجامعات ببناء المدونات اللغوية وتطوير أدوات التقييم. وتتحمل المؤسسات الإعلامية مسؤولية إنتاج محتوى عربي موثوق به ومراجع، بينما تعمل شركات التكنولوجيا على تطوير النماذج والأدوات، وتؤدي المجامع اللغوية دورا في وضع المعايير. ومن دون هذا التكامل، ستبقى الفجوة قائمة رغم التقدم التقني.

الرهان الحقيقي هو الانتقال من موقع المستهلك لما تنتجه الشركات العالمية إلى موقع الصانع لأنظمة تفهم خصوصية هذه اللغة وتصونها

وحول كيفية إعداد "خريطة طريق تقنية للعربية"، إن جاز التعبير، يوضح البطش أن الأولوية تنبع من بناء قواعد بيانات عربية ضخمة ومشكولة تغطي قطاعات متعددة، لسد فجوة التمثيل الرقمي التي لا تتجاوز 3% من المحتوى العالمي. كما تبرز الحاجة إلى تطوير أدوات للتشكيل والنطق تقلل أخطاء ناتجة من غياب التشكيل، وإنشاء نماذج عربية متخصصة بدل الاعتماد على نماذج عامة. ويعد فرض طبقات تدقيق بشري في المحتوى الحساس خطوة ضرورية، إلى جانب الاستثمار في تدريب الكوادر في ظل ما تشير إليه الدراسات من أن نقص المهارات الرقمية يمثل عائقا رئيسا أمام توظيف الذكاء الاصطناعي في المنطقة العربية.

وبهذا يؤكد الحطاب أن حماية العربية في زمن الذكاء الاصطناعي "ليست معركة منع، بل معركة تمكين". والرهان الحقيقي هو الانتقال من موقع المستهلك لما تنتجه الشركات العالمية إلى موقع الصانع لأنظمة تفهم خصوصية هذه اللغة وتصونها.

font change

مقالات ذات صلة