في الوقت الذي يندفع فيه العالم نحو رقمنة مختلف مناحي الحياة، يواجه اللسان العربي اختبارا غير مسبوق في الفضاء الرقمي. فقد اجتاحت الفيديوهات العربية المولدة بالذكاء الاصطناعي، أخيرا، منصات التواصل الاجتماعي، متغلغلة في أنماط متعددة من المحتوى الرقمي، من نصائح التجميل والطب، إلى الأدعية والقصص الدينية والأدبية، وصولا إلى المواد الوثائقية والثقافية. ومع تنوع اهتمامات المتلقين من مختلف الفئات العمرية، بات المستخدمون أمام تدفق بصري وسمعي كثيف، يقدم في ظاهره بوصفه "طفرة تقنية"، لكنه يكشف في جوهره عن ما يعتبره خبراء "تلوثا لغويا"، وينبئ بتحديات تمس سلامة البنية اللغوية وتماسك الهوية الثقافية عبر إعادة تشكيل غير مباشرة للوعي.
تتناول "المجلة" قضية جودة المحتوى العربي في عصر الذكاء الاصطناعي التوليدي، عبر استعراض آراء خبراء حول فجوة البيانات ومخاطر "تطبيع الانحراف" اللغوي، وصولا إلى بحث ملامح خريطة طريق تقنية وتشريعية لحماية مستقبل لغة الضاد.
فجوة البيانات العربية
يرى رئيس لجنة الذكاء الاصطناعي والأمن السيبراني، ونائب رئيس جمعية مهندسي تكنولوجيا المعلومات والاتصالات في نقابة المهندسين الأردنيين، هاني البطش، أن التحدي في جودة الفيديو العربي المولد بالذكاء الاصطناعي "ليس لغويا بحتا"، بل يرتبط بـ"عوامل هيكلية، في مقدمتها فجوة في البيانات العربية العالية الجودة، وتعقيد البنية اللغوية، وضعف سلاسل الإنتاج والتحرير". ويؤدي ذلك، وفق البطش، إلى خطر مزدوج يتمثل في تضليل معرفي محتمل، وتطبيع تدريجي مع أخطاء لغوية قد تتحول إلى "معيار مسموع" لدى الجمهور.
وبلغة الأرقام والبيانات يتحدث البطش عن العربية، على مستوى الحجم والأهمية، فهي ليست لغة هامشية رقميا، إذ تعد من أكثر خمس لغات انتشارا عالميا، ويتحدث بها أكثر من 400 مليون شخص، وتستخدم رسميا في أكثر من 20 دولة. كما تعد إحدى اللغات الرسمية في الأمم المتحدة، مما يمنحها وزنا مؤسسيا عالميا. ومع ذلك، لا ينعكس هذا الثقل الديموغرافي والمؤسسي في الفضاء الرقمي بشكل متوازن، إذ تشير تقديرات متداولة في تقارير دولية إلى أن المحتوى العربي لا يتجاوز 1% إلى 3% من إجمالي محتوى الإنترنت العالمي، رغم أن الناطقين بالعربية يشكلون نحو 5% من سكان العالم. هذه الفجوة الرقمية، بحسب البطش، هي أحد الأسباب الجوهرية وراء ضعف أداء النماذج اللغوية والصوتية عند التعامل مع العربية.
وفي مجال البيانات الصوتية والنصية، تظهر الدراسات، وفق البطش، أن العربية، مقارنة بالإنكليزية، تعد من اللغات المحدودة الموارد في سياق الذكاء الاصطناعي، إذ تعاني نقصا في البيانات المهيكلة والمشكولة، اللازمة لتدريب نماذج دقيقة. فمعظم النصوص العربية المتاحة على الإنترنت غير مشكولة بنسبة تتجاوز 90%، مما يخلق التباسا مباشرا في النطق والمعنى، ويؤدي إلى أخطاء في التعليق الصوتي الآلي، خاصة في الفيديوهات الوثائقية والثقافية التي تتطلب دقة في الأسماء والمصطلحات.




