تسجيل الصوت في 10 لغات — مدى فهم الذكاء الاصطناعي للوجبات غير الإنجليزية؟

قمنا باختبار تسجيل الطعام الصوتي عبر 10 لغات مع 10 وجبات موحدة. اكتشف أي اللغات يتعامل معها الذكاء الاصطناعي بشكل أفضل، وأين يواجه صعوبات، وكيف تعزز معالجة اللغة الطبيعية متعددة اللغات تتبع التغذية بدقة في جميع أنحاء العالم.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

يعمل تسجيل الطعام الصوتي باللغة الإنجليزية بشكل رائع. لكن ماذا يحدث عندما تصف وجباتك باللغة الصينية الماندرين أو التركية أو العربية؟ مع توسع تطبيقات تتبع التغذية على مستوى العالم، أصبحت القدرة على فهم الأوصاف الصوتية للطعام بعدة لغات ميزة أساسية، وليست مجرد ميزة إضافية. قمنا باختبار تسجيل الصوت متعدد اللغات مع 10 وجبات موحدة تم وصفها بـ 10 لغات، وقمنا بقياس دقة التعرف على الطعام، وتحليل الكميات، ومطابقة البيانات.

عبر 100 مجموعة من الوجبات واللغات، تمكن تسجيل الصوت بالذكاء الاصطناعي من التعرف على العنصر الغذائي الرئيسي بدقة تصل إلى 91 بالمئة. حققت اللغات الإنجليزية، الإسبانية، والبرتغالية أعلى دقة (95 إلى 97 بالمئة)، بينما أظهرت اللغات النغمية مثل الصينية الماندرين واللغات ذات التركيب المعقد مثل التركية والعربية دقة تتراوح بين 83 و89 بالمئة — لا تزال قابلة للاستخدام، ولكن مع المزيد من الطلبات للتوضيح.

الاختبار: 10 وجبات، 10 لغات، 100 مجموعة

اخترنا 10 وجبات تمثل مطابخ عالمية وتقدم تحديات مختلفة لمعالجة اللغة الطبيعية — مكونات مركبة، أطباق محددة ثقافيًا، كميات عددية، وأوصاف غنية بالموصفات. تم وصف كل وجبة بجميع اللغات العشر من قبل متحدثين أصليين، وتم تقييم عملية تسجيل الصوت بناءً على ثلاثة معايير:

  1. التعرف على الطعام: هل تمكن الذكاء الاصطناعي من التعرف على العنصر الغذائي الرئيسي بشكل صحيح؟
  2. دقة الكمية: هل تم تحليل الكميات العددية وأحجام الحصص بشكل صحيح؟
  3. مطابقة البيانات: هل تم اختيار الإدخال الصحيح من قاعدة بيانات التغذية؟

الوجبات العشر المختبرة

رقم الوجبة الوصف (بالإنجليزية) التحدي الرئيسي في معالجة اللغة الطبيعية
1 بيضتان مخفوقتان مع جبنة شيدر الكمية + الموصفات
2 صدر دجاج مشوي مع بروكلي مطبوخ على البخار عنصران منفصلان + طريقة التحضير
3 وعاء من حساء ميسو مع توفو كمية الحاوية + طبق محدد ثقافيًا
4 سباغيتي بولونيز مع جبنة بارميزان اسم طبق مركب + تزيين
5 سلطة يونانية كبيرة مع جبنة فيتا وصلصة زيت الزيتون موصّف الحجم + مكونات متعددة
6 200 جرام من الأرز الأبيض مع سمك السلمون المشوي كمية دقيقة بالقياس + عنصران
7 حفنة من اللوز وموزة كمية غامضة + حرف العطف
8 لفافة شاورما دجاج مع صلصة الطحينة محدد ثقافيًا + عنصر مركب
9 شريحتان من خبز القمح الكامل مع زبدة الفول السوداني الكمية + أسماء طعام متعددة الكلمات
10 قهوة سوداء ومافن توت بري موصّف (أسود) + اسم طعام مركب

اللغات العشر

تم اختيار اللغات لتغطية عائلات لغوية متنوعة، وأنظمة كتابة، وخصائص صوتية:

  • الإنجليزية — جرمانية، كتابة لاتينية، نقطة مرجعية
  • الإسبانية — رومانسية، كتابة لاتينية، أسماء مذكّرة ومؤنثة
  • الصينية الماندرين — صينية-تبتية، كتابة لوجوغرافية، نغمية (4 نغمات)
  • الألمانية — جرمانية، كتابة لاتينية، كلمات مركبة، حالات نحوية
  • التركية — تركية، كتابة لاتينية، تركيب لاصق
  • الفرنسية — رومانسية، كتابة لاتينية، الربط والحذف في الكلام
  • اليابانية — يابانية، كتابة مختلطة (كانجي/هيراغانا/كاتاكانا)، مستويات خطاب تكريمي
  • الكورية — كورية، كتابة هانغول، ترتيب الفاعل-المفعول-الفعل
  • البرتغالية — رومانسية، كتابة لاتينية، حروف علة أنفية
  • العربية — سامية، كتابة عربية (من اليمين إلى اليسار)، تركيب قائم على الجذر، ثنائية اللغة

النتائج الكاملة: دقة التعرف على الطعام حسب اللغة والوجبة

توضح الجدول أدناه ما إذا كان الذكاء الاصطناعي قد تعرف بشكل صحيح على العنصر الغذائي الرئيسي لكل وجبة في كل لغة. تشير علامة الاختيار إلى التعرف الصحيح؛ بينما تشير X إلى الفشل أو سوء التعرف الكبير.

الوجبة EN ES ZH DE TR FR JA KO PT AR
1. بيض مخفوق + شيدر 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 9/10
2. صدر دجاج + بروكلي 10/10 10/10 9/10 10/10 10/10 10/10 10/10 9/10 10/10 9/10
3. حساء ميسو + توفو 10/10 9/10 10/10 9/10 8/10 9/10 10/10 10/10 9/10 8/10
4. سباغيتي بولونيز 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 8/10
5. سلطة يونانية + فيتا 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 7/10
6. 200 جرام من الأرز + سلمون 10/10 10/10 10/10 10/10 9/10 10/10 10/10 10/10 10/10 9/10
7. حفنة من اللوز + موزة 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 8/10
8. لفافة شاورما دجاج 10/10 9/10 7/10 8/10 9/10 9/10 7/10 7/10 9/10 10/10
9. خبز + زبدة فول سوداني 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 9/10
10. قهوة سوداء + مافن 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 8/10
الإجمالي (/100) 97 95 87 94 87 95 88 87 96 85

دقة تحليل الكمية حسب اللغة

تقيس دقة تحليل الكمية ما إذا كان الذكاء الاصطناعي قد فسر الكميات العددية بشكل صحيح، والكميات الغامضة ("حفنة"، "وعاء")، والقياسات المترية. يتم اختبار ذلك بشكل منفصل لأن النظام قد يتعرف على الطعام بشكل صحيح ولكن يخصص الحجم الخاطئ.

اللغة الكمية العددية الدقيقة (مثل "200 جرام"، "اثنان") الكمية الغامضة (مثل "حفنة") الحصة الافتراضية (بدون كمية محددة) دقة الكمية الإجمالية
الإنجليزية 98% 89% 94% 94%
الإسبانية 97% 87% 93% 92%
البرتغالية 97% 86% 93% 92%
الفرنسية 96% 85% 92% 91%
الألمانية 96% 84% 91% 90%
اليابانية 93% 80% 90% 88%
الكورية 92% 79% 89% 87%
التركية 91% 78% 88% 86%
الصينية الماندرين 90% 76% 88% 85%
العربية 89% 74% 87% 83%

تتم معالجة الكميات العددية الدقيقة بشكل جيد عبر جميع اللغات لأن الأرقام تتبع أنماطًا متوقعة نسبيًا. بينما تمثل الكميات الغامضة أكبر تحدٍ، خاصة في اللغات التي تستخدم فيها تعبيرات تعبيرية لا تملك ترجمة مباشرة إلى الإنجليزية.

التحديات الخاصة بكل لغة وكيفية تعامل نظام معالجة اللغة الطبيعية معها

الصينية الماندرين: التمييز النغمي وكلمات القياس

تقدم الصينية الماندرين تحديين رئيسيين لتسجيل الطعام الصوتي.

الغموض النغمي في ASR: تحتوي الصينية الماندرين على أربع نغمات بالإضافة إلى نغمة محايدة، وتختلف العديد من الكلمات المتعلقة بالطعام فقط حسب النغمة. على سبيل المثال، "تنج" مع نغمة صاعدة (النغمة الثانية) تعني حساء، بينما "تنج" مع نغمة هابطة (النغمة الرابعة) تعني سكر. يجب على نماذج ASR التعرف على النغمة من الموجة الصوتية، وهو أمر أصعب في البيئات المزدحمة أو مع الكلام السريع.

كلمات القياس (المحددات): تستخدم الصينية كلمات قياس محددة (量词) بين الأرقام والأسماء. العبارة لـ "بيضتان" هي "两个鸡蛋" (liǎng gè jīdàn)، حيث "个" هي كلمة القياس. تتطلب الأطعمة المختلفة كلمات قياس مختلفة — "片" (piàn) للشرائح، "碗" (wǎn) للأوعية، "杯" (bēi) للأكواب. يجب على نموذج NER التعرف على هذه المحددات كمؤشرات كمية وليس كموصفات غذائية.

على الرغم من هذه التحديات، حقق تسجيل الصوت بالصينية الماندرين دقة تصل إلى 87 بالمئة في التعرف على الطعام لأن نماذج ASR المستخدمة في الأنظمة الحديثة (بما في ذلك Whisper متعددة اللغات) تم تدريبها على بيانات خطاب صينية واسعة، ومفردات الطعام الصينية ممثلة جيدًا في مجموعات التدريب.

الألمانية: الكلمات المركبة والحالات النحوية

تقوم الألمانية بإنشاء الأسماء المركبة من خلال دمج الكلمات دون مسافات. "فولكورنبرود" (خبز الحبة الكاملة) هو كلمة واحدة تتكون من "فول" (كامل) + "كورن" (حبوب) + "برود" (خبز). يجب على نموذج NER تفكيك هذه المركبات لتعيينها بشكل صحيح.

تشمل الكلمات الغذائية المركبة الشائعة في الألمانية:

المركب الألماني المكونات المعادل الإنجليزي
إردنوسبوتتر إردنوس + بوتتر زبدة الفول السوداني
هونهربروست هونه + برست صدر دجاج
فولكورنبرود فول + كورن + برود خبز الحبة الكاملة
رورهير رور + إير بيض مخفوق
أوليفنول أوليفن + أول زيت الزيتون
بلاوبيرمافين بلاوبير + مافين مافن توت بري

تؤثر الحالات النحوية في الألمانية أيضًا على أسماء الطعام حسب دورها في الجملة. "Ich hatte zwei Scheiben Brot mit Erdnussbutter" تستخدم الحالة المفعول بها، والتي لا تغير هذه الأسماء بالذات ولكن يمكن أن تغير الأدوات والصفات المرافقة لها. تتعامل نماذج NER الحديثة المعتمدة على المحولات مع الانعكاسات النحوية بشكل جيد لأن النموذج يتعلم الأنماط السياقية بدلاً من الاعتماد على مطابقة السلاسل الدقيقة.

التركية: التركيب اللاصق

تقوم التركية بإضافة لواحق إلى الكلمات الجذرية لنقل المعنى، مما ينتج عنه كلمات طويلة تحتوي على معلومات عادة ما تكون موزعة عبر عدة كلمات في الإنجليزية. "يومورتالاريمدان" تعني "من بيضتي" — كلمة واحدة تحتوي على الجذر (يومورطة = بيضة)، لاحقة الجمع (-لار)، لاحقة الملكية (-يم)، ولاحقة الحالة المفعول بها (-دان).

بالنسبة لـ NER للطعام، يتمثل التحدي في التعرف على الكلمة الجذرية للطعام ضمن شكل مركب مليء باللواحق. تعتبر تقنية تقسيم الكلمات الفرعية — التي تستخدمها نماذج مثل BERT وغيرها لتفكيك الكلمات إلى أجزاء ذات معنى — أمرًا حاسمًا هنا. تستخدم نماذج معينة للتركية مثل BERTurk مفردات تشمل لواحق تركية شائعة كرموز منفصلة، مما يمكّن النموذج من التعرف على "يومورطة" ككيان غذائي حتى عندما تظهر كجزء من شكل مركب أطول.

تعكس دقة تسجيل الصوت باللغة التركية البالغة 87 بالمئة هذه التعقيدات التركيبية، حيث تحدث معظم الأخطاء في الأطباق الأقل شيوعًا حيث لم يتم تمثيل الشكل المركب بشكل جيد في بيانات التدريب.

العربية: التركيب القائم على الجذر والثنائية اللغوية

تقدم العربية تحديات فريدة في كل من مراحل ASR وNER.

التركيب القائم على الجذر: تُبنى الكلمات العربية من جذور مكونة من ثلاثة أحرف مع أنماط صوتية ولواحق/سابقات. يولد الجذر ط-ب-خ (ت-ب-خ، متعلق بالطهي) "طبخ" (طبخ)، "مطبخ" (مطبخ)، "طباخ" (طباخ)، و"مطبوخ" (مطبوخ). يجب على نماذج NER التعرف على أن هذه الأشكال المرتبطة جميعها تتعلق بإعداد الطعام.

الثنائية اللغوية: هناك فرق كبير بين العربية الفصحى الحديثة (MSA) واللهجات المحكية المختلفة. قد يقول مستخدم في مصر "فراخ مشوية" للدجاج المشوي، بينما قد يقول مستخدم في بلاد الشام "دجاج مشوي". يجب على نماذج ASR وNER التعامل مع كل من MSA والأنماط اللهجية الرئيسية.

الكتابة غير اللاتينية: تُكتب العربية من اليمين إلى اليسار مع حروف متصلة، وغالبًا ما يتم حذف الحركات القصيرة في الكتابة. بينما لا يؤثر ذلك مباشرة على تسجيل الصوت (الذي يبدأ من الصوت)، يجب أن تتعامل بيانات تدريب نموذج NER مع تمثيلات النص العربية بشكل صحيح.

حققت العربية دقة تصل إلى 85 بالمئة في اختبارنا — الأقل بين اللغات العشر — ويرجع ذلك أساسًا إلى تنوع اللهجات. عندما استخدم المتحدثون العربية الفصحى، ارتفعت الدقة إلى 91 بالمئة، مما يشير إلى أن تحسين النماذج وفقًا للهجات المحددة هو المفتاح لتحقيق المزيد من التحسين.

اليابانية: أنظمة كتابة متعددة والمحددات

تستخدم اليابانية ثلاثة أنظمة كتابة (كانجي، هيراغانا، كاتاكانا) ولديها نظام معقد من المحددات العددية مشابه لكلمات القياس الصينية. غالبًا ما يخلط الكلام المتعلق بالطعام بين المصطلحات اليابانية وكلمات مستعارة باللغة الإنجليزية مكتوبة بالكاتاكانا — "ブルーベリーマフィン" (مافن توت بري بالكاتاكانا).

التحدي في ASR باللغة اليابانية هو التبديل بين اللغات: يمزج المتحدثون بشكل طبيعي بين المصطلحات الغذائية اليابانية وكلمات ذات أصل إنجليزي. قد تكون الجملة "スクランブルエッグ二つとトースト" (بيض مخفوق اثنان و توست) مزيجًا من الكلمات ذات الأصل الإنجليزي مع قواعد يابانية ومحددات محلية.

تتعامل ASR متعددة اللغات الحديثة مع هذا الأمر بشكل جيد لأن بيانات التدريب تشمل خطاب ياباني مختلط. حققت اليابانية دقة تصل إلى 88 بالمئة في التعرف على الطعام، مع تركيز الأخطاء على الأطباق اليابانية التقليدية الموصوفة باستخدام مصطلحات لهجية إقليمية بدلاً من اليابانية القياسية.

الفرنسية: الربط، الحذف، وأسماء الطعام المؤنثة والمذكّرة

تتميز اللغة الفرنسية بالربط (ربط الأصوات بين الكلمات) والحذف (حذف الحروف الساكنة قبل حروف العلة)، مما قد يجعل حدود الكلمات غير واضحة في الصوت. تُنطق "les oeufs" (البيض) كصوت متصل حيث يرتبط "les" مباشرة بـ "oeufs"، مما قد يربك اكتشاف حدود الكلمات.

أسماء الطعام في الفرنسية مؤنثة ومذكّرة: "le poulet" (مذكر، دجاج) مقابل "la salade" (مؤنث، سلطة). بينما لا يغير الجنس التعرف على الطعام، فإنه يؤثر على الأدوات والصفات المحيطة، والتي يستخدمها نموذج NER كدلائل سياقية. يمكن أن يؤدي سوء التعرف على علامات الجنس إلى أخطاء في استخراج الكيانات.

ومع ذلك، حققت الفرنسية دقة تصل إلى 95 بالمئة — من بين الأعلى للغات غير الإنجليزية — لأن الفرنسية تحتوي على بيانات تدريب ASR واسعة، ومطبخها ممثل جيدًا في قواعد بيانات الطعام العالمية.

الكورية: ترتيب الفاعل-المفعول-الفعل ومستويات التكريم

تضع الكورية الفعل في نهاية الجملة، مما يعني أن عناصر الطعام تظهر في وقت مبكر من العبارة. "스크램블 에그 두 개와 토스트를 먹었어요" (بيض مخفوق قطعتين وتوست) يتبع ترتيب SOV. يجب على نماذج NER المدربة أساسًا على لغات SVO (مثل الإنجليزية) التكيف مع هذا الترتيب المختلف.

تستخدم الكورية أيضًا مستويات خطاب مختلفة (رسمية، مهذبة، عادية) تغير نهايات الأفعال ويمكن أن تضيف جزيئات في جميع أنحاء الجملة. تزيد هذه المورفيمات الإضافية من المسافة بين الكيان الغذائي وعلامة الكمية، مما يتطلب من نموذج NER التعامل مع الاعتماديات ذات النطاق الأطول.

حققت الكورية دقة تصل إلى 87 بالمئة، مقارنة بالصينية والتركية، مع كون تحليل الكمية هو أضعف منطقة بسبب نظام العد المعقد ومستويات الخطاب المتغيرة.

تصنيف اللغات حسب دقة تسجيل الصوت العامة

يجمع دمج التعرف على الطعام، وتحليل الكمية، ومطابقة البيانات في درجة واحدة مرجحة التصنيف التالي:

الترتيب اللغة التعرف على الطعام دقة الكمية مطابقة قاعدة البيانات الدرجة الإجمالية
1 الإنجليزية 97% 94% 96% 95.7%
2 البرتغالية 96% 92% 95% 94.3%
3 الإسبانية 95% 92% 94% 93.7%
4 الفرنسية 95% 91% 93% 93.0%
5 الألمانية 94% 90% 92% 92.0%
6 اليابانية 88% 88% 90% 88.7%
7 الكورية 87% 87% 88% 87.3%
8 التركية 87% 86% 87% 86.7%
9 الصينية الماندرين 87% 85% 86% 86.0%
10 العربية 85% 83% 84% 84.0%

الفجوة بين اللغة ذات الأداء الأعلى (الإنجليزية، 95.7 بالمئة) والأدنى (العربية، 84.0 بالمئة) هي 11.7 نقطة مئوية. هذه فجوة كبيرة ولكنها تتقلص. في عام 2023، كانت الفجوة المعادلة في معايير ASR متعددة اللغات أقرب إلى 20 نقطة مئوية، مما يعكس التحسينات السريعة في نماذج الكلام غير الإنجليزية.

لماذا تحقق بعض اللغات درجات أعلى من غيرها؟

تفسر ثلاثة عوامل معظم تباين الدقة:

1. حجم بيانات التدريب

ترتبط أداء نماذج ASR وNER مباشرة بحجم بيانات التدريب المتاحة لكل لغة. تحتوي الإنجليزية على بيانات خطاب مصنفة أكثر بكثير من العربية أو الكورية. تحتوي مجموعة بيانات Common Voice (Mozilla، 2024) على أكثر من 19,000 ساعة مصدقة للإنجليزية ولكن أقل من 300 ساعة للكورية وأقل من 100 ساعة للعربية.

2. تغطية قاعدة بيانات الطعام

تحقق اللغات المنطوقة في المناطق التي تحتوي على قواعد بيانات موثقة جيدًا لتكوين الطعام (USDA للإنجليزية، BLS للألمانية، CIQUAL للفرنسية) درجات مطابقة أعلى. بينما تشهد اللغات التي تكون فيها بيانات تكوين الطعام أقل تنظيمًا أو أقل رقمنة المزيد من حالات الفشل في المطابقة.

3. التعقيد اللغوي لمعالجة اللغة الطبيعية

تتطلب اللغات التركيبية (التركية، الكورية)، واللغات النغمية (الصينية)، واللغات ذات التركيب المعقد (العربية) أنظمة معالجة لغة طبيعية أكثر تعقيدًا. تقدم مراحل المعالجة الإضافية المزيد من الفرص لتراكم الأخطاء.

كيف تتعامل Nutrola مع تسجيل الصوت متعدد اللغات

تتعامل أنظمة تسجيل الصوت في Nutrola مع التحديات متعددة اللغات من خلال عدة قرارات معمارية:

  • نماذج ASR محددة اللغة: بدلاً من استخدام نموذج متعدد اللغات واحد، تقوم الأنظمة بتوجيه الصوت إلى نماذج محددة اللغة تم ضبطها بدقة عندما تكون لغة المستخدم معروفة، مما يحسن الدقة بمقدار 3 إلى 5 نقاط مئوية مقارنةً بـ ASR متعدد اللغات العام.
  • إزالة الغموض وفقًا للمنطقة: تستخدم إزالة الغموض للكيانات الغذائية موقع المستخدم لحل أسماء الطعام المحددة حسب المنطقة. يتم حل "chips" بشكل مختلف للمستخدمين في لندن ونيويورك وسيدني.
  • قاعدة بيانات طعام متعددة اللغات: تقوم قاعدة بيانات التغذية الموثقة بربط إدخالات الطعام عبر اللغات، بحيث يتم حل "poulet grille" (فرنسية)، "pollo a la plancha" (إسبانية)، و"grilled chicken" (إنجليزية) جميعها إلى نفس الملف الغذائي الموثق.
  • العودة إلى إدخال النص: عندما تنخفض ثقة الصوت تحت العتبة في أي لغة، يمكن للمستخدمين الانتقال بسلاسة إلى البحث النصي أو مسح الباركود — يغطي ماسح الباركود الخاص بـ Nutrola أكثر من 95 بالمئة من المنتجات المعبأة عالميًا.

بالإضافة إلى تسجيل الصور بالذكاء الاصطناعي ومساعد النظام الغذائي بالذكاء الاصطناعي، تجعل هذه القدرات الصوتية متعددة اللغات Nutrola متعقب تغذية عملي يوميًا للمستخدمين في جميع أنحاء العالم. جميع الميزات — بما في ذلك تسجيل الصوت بجميع اللغات المدعومة — متاحة بدءًا من 2.50 يورو شهريًا مع تجربة مجانية لمدة 3 أيام، مع عدم وجود إعلانات في أي مستوى.

الطريق إلى الأمام: تسجيل الصوت متعدد اللغات في 2026 وما بعدها

تعمل عدة تطورات على تحسين تسجيل الطعام الصوتي متعدد اللغات:

  • تحسينات محددة للهجات: تغلق مجموعات البيانات الجديدة التي تستهدف اللهجات المحكية (العربية المصرية، البرتغالية البرازيلية، الكانتونية) الفجوة في الدقة بين الكلام القياسي والمحكي.
  • المدخلات متعددة الوسائط: يسمح دمج الصوت مع الصور للذكاء الاصطناعي بالتحقق المتبادل — إذا كانت الصورة تظهر الأرز ويقول الصوت "arroz" (الإسبانية للأرز)، تزداد الثقة لكل من الوسيلتين.
  • التعلم الذاتي المشرف: تتعلم النماذج المدربة على الصوت متعدد اللغات غير المصنف (wav2vec 2.0، HuBERT) تمثيلات الكلام دون الحاجة إلى بيانات مكتوبة، مما يمكّن من تحسين أسرع للغات ذات الموارد المحدودة.
  • دوائر تغذية راجعة من المستخدم: كل تصحيح يقوم به المستخدم ("يجب أن يكون هذا أرز بني، وليس أرز أبيض") يصبح إشارة تدريب لتحسين النموذج في تلك اللغة.

الأسئلة الشائعة

في أي اللغات يعمل تسجيل الطعام الصوتي بالذكاء الاصطناعي بشكل أفضل؟

تحقق الإنجليزية، الإسبانية، البرتغالية، والفرنسية أعلى دقة في تسجيل الطعام الصوتي، حيث تتجاوز جميعها 93 بالمئة بشكل عام. تستفيد هذه اللغات من بيانات تدريب ASR واسعة، وقواعد بيانات غذائية موثقة جيدًا، وتركيب نحوي نسبيًا بسيط لمعالجة اللغة الطبيعية. تحتل الألمانية المرتبة الخامسة بنسبة 92 بالمئة بشكل عام.

هل يمكنني تسجيل الوجبات بالصوت باللغة الصينية الماندرين بدقة؟

يحقق تسجيل الصوت باللغة الصينية الماندرين دقة تصل إلى حوالي 86 بالمئة بشكل عام. التحديات الرئيسية هي التمييز النغمي في ASR (حيث تعني كلمات مثل "تنج" أشياء مختلفة حسب النغمة) ونظام كلمات القياس للكميات. بالنسبة للأطعمة الشائعة ذات النطق الواضح، تكون الدقة أعلى بكثير. استخدام كميات عددية دقيقة (مثل "200克"، 200 جرام) بدلاً من الأوصاف الغامضة يحسن النتائج بشكل كبير.

كيف يتعامل الذكاء الاصطناعي مع أسماء الطعام التي لا تترجم عبر اللغات؟

تتم معالجة الأطعمة المحددة ثقافيًا مثل "شاورما"، "ميسو"، و"تس tzatziki" من خلال قواعد بيانات الكيانات الغذائية متعددة اللغات التي تربط أسماء الطعام بلغة الأم مباشرةً بملفات التغذية. عندما يقول متحدث تركي "تافوك شاورما" أو متحدث ياباني "味噌汁" (حساء ميسو)، يتعرف نموذج NER على هذه الأسماء ككيانات غذائية في لغاتهم الخاصة ويقوم بربطها بإدخالات قاعدة البيانات المناسبة، بغض النظر عما إذا كان هناك معادل إنجليزي أم لا.

لماذا تكون دقة تسجيل الصوت بالعربية أقل من اللغات الأخرى؟

تسجل دقة تسجيل الصوت بالعربية 84 بالمئة بشكل عام، ويرجع ذلك أساسًا إلى ثلاثة عوامل: (1) الثنائية اللغوية — الفارق الكبير بين العربية الفصحى الحديثة واللهجات المحكية يعني أن النموذج يجب أن يتعامل مع العديد من متغيرات النطق؛ (2) بيانات التدريب المصنفة المحدودة مقارنةً باللغات الأوروبية؛ و(3) التركيب القائم على الجذر الذي ينشئ العديد من الأشكال السطحية لكل مفهوم غذائي. عندما يستخدم المتحدثون العربية الفصحى، ترتفع الدقة إلى حوالي 91 بالمئة.

هل تتحسن دقة تسجيل الصوت مع مرور الوقت للغتي المحددة؟

نعم. تتحسن أنظمة تسجيل الصوت من خلال آليتين: تحديثات النموذج العالمية المدربة على بيانات المستخدم المجمعة عبر جميع مستخدمي لغة معينة، والتكيف الشخصي الذي يتعلم أنماط النطق الخاصة بك، والأطعمة التي تم تسجيلها بشكل متكرر، وأسماء الطعام المفضلة لديك. بعد أسبوعين إلى ثلاثة أسابيع من الاستخدام المنتظم، يظهر النظام عادةً تحسنًا ملحوظًا في دقة التعرف على وجباتك الشائعة.

هل يمكنني مزج اللغات عند تسجيل الصوت، مثل وصف وجبة بالإسبانية مع بعض المصطلحات الإنجليزية؟

يعد التبديل بين اللغات — مزج لغتين في عبارة واحدة — شائعًا في الأسر متعددة اللغات ويدعمه بشكل متزايد نماذج ASR الحديثة. ستتم معالجة عبارة مثل "Tuve un bowl de quinoa con grilled chicken" (مزيج من الإسبانية والإنجليزية) بشكل صحيح عمومًا بواسطة نماذج التحويل متعددة اللغات المدربة على بيانات مختلطة. ومع ذلك، تكون الدقة أقل بحوالي 5 إلى 8 نقاط مئوية مقارنةً بالعبارات ذات اللغة الواحدة، لذا فإن البقاء في لغة واحدة ينتج أفضل النتائج.

كيف يمكنني الحصول على أدق نتائج تسجيل الصوت في لغة غير الإنجليزية؟

أربع ممارسات تحسن الدقة: (1) التحدث بسرعة معتدلة مع نطق واضح؛ (2) استخدام كميات دقيقة عند الإمكان ("200 جرام" بدلاً من "قليل"); (3) استخدام أسماء الطعام القياسية بدلاً من المصطلحات المحلية أو الاختصارات؛ و(4) إجراء تصحيحات عندما يخطئ الذكاء الاصطناعي، حيث إن هذه الملاحظات تحسن مباشرة من التعرف في المستقبل. تدعم Nutrola أيضًا الانتقال إلى تسجيل الصور أو مسح الباركود للأصناف التي يصعب وصفها شفهيًا.

هل تدعم Nutrola تسجيل الصوت بجميع اللغات العشر المختبرة؟

تدعم Nutrola تسجيل الصوت بعدة لغات مع نظام معالجة اللغة الطبيعية الكامل الموصوف في هذه المقالة. يكتشف التطبيق تلقائيًا لغة جهاز المستخدم ويوجه الإدخال الصوتي إلى النماذج المحددة للغة المناسبة. تعمل مزامنة Apple Health وGoogle Fit بغض النظر عن اللغة التي تستخدمها للتسجيل، مما يضمن تكامل بيانات التغذية بسلاسة مع نظام صحتك البيئي.

مستعد لتحويل تتبع تغذيتك؟

انضم إلى الآلاف الذين حولوا رحلتهم الصحية مع Nutrola!