مشروع الذكاء الاصطناعي يترجم الكتابة المسمارية التي يبلغ عمرها 5 عام بضغطة زر واحدة
الكتابة المسمارية هي أقدم شكل معروف للكتابة ، ولكن من الصعب جدا قراءتها بحيث لا يستطيع سوى بضع مئات من الخبراء حول العالم فك شفرة الألواح الطينية المليئة برموز على شكل إسفين.
والآن، أنشأ فريق من علماء الآثار وعلماء الكمبيوتر من إسرائيل برنامج ترجمة مدعوم الذكاء الاصطناعي للمسمارية الأكادية القديمة، مما يسمح بترجمة عشرات الآلاف من الألواح الرقمية بالفعل إلى اللغة الإنجليزية على الفور.
على الصعيد العالمي ، تحتوي المكتبات والمتاحف والجامعات على أكثر من نصف مليون لوح طيني منقوش بالكتابة المسمارية. لكن العدد الهائل من النصوص، والعدد القليل من القراء الأكاديين – وهي لغة لم يتحدث بها أحد أو يكتبها منذ 2 عام – يعني أن جزءا صغيرا فقط من هذه الألواح قد تمت ترجمته.
قد يسمح برنامج جديد من نوع الترجمة من Google لعلماء الآثار على الكراسي بذراعين بتجربة أيديهم في تفسير الكتابة المسمارية.
“ما هو مدهش في الأمر هو أنني لست بحاجة إلى فهم الأكادية على الإطلاق لترجمة [جهاز لوحي] والحصول على ما وراء الكتابة المسمارية” ، قال غاي غوثيرز ، عالم الكمبيوتر الذي كان جزءا من الفريق الذي طور البرنامج. “يمكنني فقط استخدام الخوارزمية لفهم واكتشاف ما يقوله الماضي.”
بدأ المشروع كمشروع أطروحة للحصول على درجة الماجستير لغوثرز في جامعة تل أبيب. في مايو ، نشر الفريق ورقة بحثية في PNAS Nexus التي تمت مراجعتها من قبل النظراء ، من مطبعة جامعة أكسفورد ، تصف ترجمتها الآلية العصبية من الأكادية إلى الإنجليزية.
تعمل الترجمة الآلية العصبية ، التي تستخدمها أيضا ترجمة Google و Baidu translate ومحركات الترجمة الأخرى ، عن طريق تحويل الكلمات إلى سلسلة من الأرقام ، وتستخدم صيغة رياضية معقدة ، تسمى الشبكة العصبية ، لإخراج جملة بلغة أخرى في بناء جملة أكثر دقة وطبيعية من ترجمة كلمة بكلمة.
كانت الأكادية مكتوبة ومستخدمة في بلاد ما بين النهرين والشرق الأوسط من حوالي 3 قبل الميلاد إلى 000 م. كانت اللغة المشتركة في ذلك الوقت ، مما سمح للناس من مناطق مختلفة بالتواصل. انقسمت اللغة إلى الأكادية الآشورية والأكادية البابلية حوالي عام 100 قبل الميلاد. ابتداء من حوالي 2000 قبل الميلاد ، بدأت الآرامية ببطء في استبدال الأكادية ، حتى أصبحت أكثر انتشارا.
تمت كتابة الأكادية وسابقتها ، السومرية ، باستخدام الكتابة المسمارية ، حيث تخلق القصبة الحادة علامات على شكل إسفين على قطعة مبللة من الطين. تعد الكتابة المسمارية الأكادية والسومرية أقدم اللغات المكتوبة التي تم اكتشافها على الإطلاق ، على الرغم من وجود نصوص أكادية أكثر بكثير من النصوص السومرية المتاحة.
ترجمة جميع الألواح التي لا تزال غير مترجمة يمكن أن تعرضنا للأيام الأولى من التاريخ
وقال غوثيرز: “إن ترجمة جميع الألواح التي لا تزال غير مترجمة يمكن أن تعرضنا للأيام الأولى من التاريخ، لحضارة هؤلاء الناس، وما يؤمنون به، وما كانوا يتحدثون عنه، وما كانوا يوثقونه”.
تحتوي بعض الأجهزة اللوحية المترجمة على معلومات لا تزال ذات صلة حتى اليوم. “إذا نظف ملابسه ، فستكون أيامه طويلة” ، وفقا لأحد الكتاب الأكاديين منذ أكثر من 3 عام.
وقال غويترز إن الفريق يشارك أيضا أبحاثه مفتوحة المصدر عبر الإنترنت، على أمل أن يتمكن خبراء آخرون من إنشاء برامج ترجمة للغات القديمة أو الميتة الأخرى.
فقدت في الترجمة؟
الترجمة هي شكل من أشكال الفن، لذلك قد يكون من الصعب قياس عدديا ما يشكل ترجمة “جيدة”، كما يقول غوثيرز. من أجل تقييم الترجمات ، استخدم الباحثون أفضل دراسة تقييم ثنائية اللغة 4 (BLEU4) ، وهي أداة تقييم تم تطويرها في أوائل عام 2000 لقياس دقة الترجمات التي تم إنشاؤها آليا تلقائيا.
وفقا للدراسة ، قدمت الترجمة الآلية العصبية درجة BLEU4 من 36.52 للكتابة المسمارية إلى الإنجليزية ، ودرجة 37.47 للكتابة المسمارية إلى الإنجليزية. تتراوح درجات BLEU4 من 0 إلى 100 ، حيث يكون 0 هو الأدنى و 100 ترجمة مثالية ، والتي لم يتمكن حتى المترجم البشري من تحقيقها. وأوضح غوثيرز أن حوالي 37 يعتبر جيدا إلى حد ما لنموذج ترجمة في مرحلة مبكرة.
قال غوثيرز إن ترجمة Google ، وهي أداة تجارية ممولة من القطاع الخاص موجودة منذ أكثر من عقد ، ستحصل على درجة BLEU4 تبلغ حوالي 60 ترجمة من الإسبانية إلى الإنجليزية.
“أحد الإنجازات الرئيسية في البحث هو أننا أظهرنا أنه من الممكن الحصول على ترجمة عالية الجودة تنتقل مباشرة من الكتابة المسمارية إلى الإنجليزية” ، قال Gutherz.
الذي كان سابقا مهندس برمجيات لشركة Google ويبدأ الآن نشاطا تجاريا الذكاء الاصطناعي يتضمن تقنية مختلفة من هذا المشروع. عادة ما تتطلب عملية البحث الحالية التي تستغرق وقتا طويلا من الخبراء ترجمة الكتابة المسمارية أولا إلى الترجمة الصوتية اللاتينية ، ثم إلى حد كبير إلى الإنجليزية.
في عام 2020 ، نشر غوثيرز وعالم الآثار البروفيسور شاي جوردين من جامعة أرييل وآخرون ورقة حول استخدام الذكاء الاصطناعي لترجمة الكتابة المسمارية الأكادية إلى نص لاتيني مترجم صوتيا. يقرأ النص المترجم صوتيا كمجموعة لا معنى لها من الحروف والأرقام للعين غير المدربة ، ولكنه “لغة” شائعة تسمح لعلماء الآثار والباحثين بدراسة ومناقشة الكتابة المسمارية في جميع أنحاء العالم.
في ورقة عام 2020 ، تمكن الفريق من استخدام الذكاء الاصطناعي لتحقيق دقة بنسبة 97 في المائة من الكتابة المسمارية الأكادية إلى النص اللاتيني المترجم صوتيا. هذه عملية أبسط بكثير لأنها تعمل عن طريق ترجمة الرموز المسمارية إلى كلمة واحدة ، والحفاظ على الكلمات بنفس الترتيب الذي تم العثور عليها.
تعد ترجمة الأكادية إلى الإنجليزية أو النص المترجم صوتيا إلى الإنجليزية عملية أكثر تعقيدا لأنها تتطلب من الكمبيوتر تجميع عبارات أو جمل كاملة منطقية باللغة الإنجليزية ، والتي تتم كتابتها بترتيب نحوي مختلف.
بعض الترجمات كانت جيدة جدا … وكان بعضها “هلوسة” كاملة
وقال غوثيرز إنه على الرغم من التعقيد، كان أداء الترجمات الذكاء الاصطناعي أفضل من المتوقع، على الرغم من أن البرنامج لا يزال في المراحل المبكرة وبعيدا عن الدقة. كما هو متوقع ، كان لدى الذكاء الاصطناعي مستوى أعلى من الدقة للنصوص الصيغية .
مثل المراسيم الملكية أو العرافات ، التي تتبع نمطا معينا. كان للنصوص الأدبية والشعرية ، مثل رسائل الكهنة أو المعاهدات ، نسبة أعلى من “الهلوسة” ، وهو مصطلح الذكاء الاصطناعي يعني أن الآلة أنتجت نتيجة لا علاقة لها تماما بالنص المقدم.
أحد أكثر الأشياء التي فاجأت الباحثين هو أن الترجمات التقطت أسلوب أو إيقاع نوع معين حتى يتمكنوا من تحديد – ببساطة بناء على أسلوب الترجمة – ما إذا كان النص وثيقة قانونية صيغية أو تقريرا فلكيا أو خطابا علميا.
قال غوثيرز: “كانت بعض الترجمات جيدة جدا ، وبعضها كان قريبا من النقطة ، حيث يمكنك البدء منها ، ولكن سيتعين عليك جعلها أكثر دقة يدويا ، وبعضها كان هلوسة كاملة”. “هذه هي الخطوة الأولى للترجمة الآلية للغات الأكادية والقديمة ، وآمل حقا أن يتم إجراء المزيد من الأبحاث في هذا المجال وأن تتحسن الترجمات وتكون ذات دقة أعلى.”
تماما مثل ترجمة جوجل
كان التحدي الأكبر لتدريب النموذج الذكاء الاصطناعي هو الكمية المحدودة من المواد – صور الأجهزة اللوحية والأجهزة اللوحية المترجمة – التي كان لدى الفريق لتدريب النموذج الذكاء الاصطناعي. حتى أكبر قواعد البيانات على الإنترنت للأقراص الأكادية لا تحتوي إلا على عشرات الآلاف من الإدخالات.
قال غوثيرز: “ترتبط كمية البيانات التي تتدرب عليها بمدى جودة أدائك ، وكلما زادت البيانات التي لديك ، كانت نماذجك أفضل”. “يعمل ChatGPT بشكل جيد لأنهم تمكنوا من تدريبه على الإنترنت بالكامل. بالنسبة لنا، كانت المهمة الرئيسية في البداية هي جمع كل الترجمات الممكنة التي يمكننا الحصول عليها، لتوليد أكبر عدد ممكن من الأمثلة”.
سحب الفريق عيناتهم من ORACC ، المجموعة المسمارية المفتوحة المشروحة الغنية ، وهي قاعدة بيانات على الإنترنت من جامعة بنسلفانيا. بالنسبة للبيانات التي تمكنوا من مسحها ضوئيا ، استخدم الباحثون 90٪ من المواد للتدريب (50,544 جملة) ، و 5٪ للتحقق من الصحة (2,808 جملة) ، و 5٪ للاختبار (2,808 جملة).
خلال 3 عام تم فيها استخدام الأكادية ، هناك اختلافات هائلة. يمكن أن يكون للأكادية المكتوبة من 000 عام رموز مسمارية مختلفة تماما ، وكانت هناك اختلافات في اللهجات ، مما يزيد من التعقيد.
قال غوثيرز إنه قرر دراسة اللغات القديمة لمشروعه النهائي في معالجة اللغة الطبيعية (NLP) ، بعد أن قدم عالم الآثار البروفيسور شاي جوردين ، وهو محاضر كبير في علم الآشوريات والعلوم الإنسانية الرقمية في جامعة أرييل ، عرضا تقديميا لفصله في البرمجة اللغوية العصبية.
لا يحاول الكثير من الباحثين استخدام أساليب علوم الكمبيوتر الحديثة لمحاولة العمل على اللغات القديمة
“أنا مهتم بالتاريخ ، وأعتقد أن لديه الكثير ليعلمنا إياه” ، قال غوثيرز. “أدرك أنه لا يحاول الكثير من الباحثين استخدام أساليب علوم الكمبيوتر الحديثة لمحاولة العمل على اللغات القديمة. إنه مجال شعرت أنه يمكنني المساهمة فيه لأنه ليس في دائرة الضوء … لا يعمل الكثير من الناس على ذلك “.
فقط انقر فوق “ترجمة”
تتوفر نسخة تجريبية مبكرة من مشروع الترجمة من الكتابة المسمارية إلى الترجمة الصوتية عبر الإنترنت للجمهور على بوابة تسمى محرك بابل. يمكن العثور على البحث وشفرة المصدر للمشروع الحالي على GitHub على Akkademia و Colaboratory.
ومع ذلك، لا يصطف جميع الخبراء الأكاديين لاستخدام التكنولوجيا الجديدة.
“أنا عالم فقه اللغة من المدرسة القديمة أجلس على طاولة، أنظر إلى الألواح وأقرأها كما اعتاد البشر أن يفعلوا منذ آلاف السنين”، قال البروفيسور ناثان واسرمان، أستاذ علم الآشوريات في معهد الآثار في الجامعة العبرية في القدس. نظر في فرص الترجمة الذكاء الاصطناعي في الورقة ، لكنه غير مقتنع بأنها ستكون مفيدة له.
قال واسرمان: “نحن في مرحلة ما بعد ChatGPT ونحن في عالم مختلف الآن ، لذلك إذا قلت ،” لن ينجح “، فهذا يجعلني أبدو غبيا”. “بالطبع ، سينجح الأمر ، لم أهبط من القمر أمس. ولكن بالنسبة للنصوص الأعمق والأقل صيغة، لا يزال هذا بعيدا جدا عن أن يكون مفيدا”.
مجال خبرة واسرمان هو النصوص الأكادية الأكثر تعقيدا وشاعرية ، بما في ذلك الترانيم والصلوات والأساطير ، والتي غالبا ما توجد على الألواح التي تكون في أسوأ حالة ويصعب قراءتها بشكل استثنائي. وقال إن عمله لا يتعلق فقط بالترجمة، بل بفهم السياق داخل الثقافة والأدب الأكادي. وهو مهتم بمراقبة الطريقة التي تتطور بها هذه التكنولوجيا ، حتى لو لم يتسرع في استخدامها الآن.
وقال: “أنا كبير بما يكفي لأتذكر بداية ترجمة Google ، وكانت مزحة ، ولكن الآن يمكنك عمل كميات كبيرة من النصوص والحصول على نتيجة لائقة ، زائد أو ناقص”. “ولكن ماذا يحدث إذا وضعت هاملت في ترجمة Google ، فهل ستحصل على ترجمة لائقة لمسرحية هاملت لشكسبير؟”
قال واسرمان إنه يعتقد أن الذكاء الاصطناعي يمكن أن يكون مفيدا للغاية لمسح أجسام كبيرة من الأجهزة اللوحية الرقمية ومحاولة العثور على اتصالات. على سبيل المثال ، يمكن أن تظهر أسماء كاهن أو ملك معين على لوحين غير مرتبطين تماما ، وربما حتى تلك التي تم العثور عليها في مواقع مختلفة وموجودة في مكتبات مختلفة ويمكن أن تؤدي إلى تفاهمات جديدة. كما أنه فضولي بشأن استخدام البرنامج لتتبع الإحصائيات حول استخدام الكلمات المختلفة ، بما في ذلك التوزيع الزمني أو الجغرافي لكلمات معينة.
يعتبر واسرمان نفسه من بين باحثي “المدرسة القديمة” ، لكنه ليس عدوا لاستخدام التكنولوجيا للغات القديمة. كان واسرمان جزءا من الفريق الذي طور SEAL ، مصادر الأدب الأكادي المبكر. كانت قاعدة البيانات على الإنترنت.
التي استضافتها الجامعة العبرية، واحدة من مشاريع الرقمنة الرائدة للألواح المسمارية الأكادية عندما بدأت في عام 2010. لا يزال يتم تحميل الأجهزة اللوحية الرقمية حديثا على أساس منتظم ، ولا يزال الموقع اليوم أحد أكبر رواسب الأعمال الأدبية الأكادية من 3000-1000 قبل الميلاد.
وقال: “لست قلقا [بشأن الذكاء الاصطناعي] ، أنا فضولي ، إنه عالم جديد شجاع وأنا فضولي لمعرفة ما سيحدث”. “ليس الأمر كما لو أنني أعمل في أحد البنوك ، وقلقا من إرسالي إلى المنزل لأن آلة ستقوم بعملي.”
“عندما يكون لديك نص ، حتى عندما يكون لديك الكلمات الصحيحة ، فهذا لا يعني أنك تفهم ما هو موجود. لذلك، ما زلت بحاجة إلى العقل البشري». “أنا لست خائفا من [الذكاء الاصطناعي] ، ولكن أيضا ، لا ينبغي أن نكون مفتونين به تماما. يجب تقييمه لما يمكن أن يفعله لنا ، وما لا يمكنه فعله “.
المصدر / timesofisrael
يجب أنت تكون مسجل الدخول لتضيف تعليقاً.