كيف تفهم تقنيات الذكاء الاصطناعي لتسجيل الصوت اللغة الطبيعية لتتبع الطعام

4 أبريل 2026

غوص تقني عميق في سلسلة معالجة اللغة الطبيعية وراء تسجيل الطعام بالصوت — من التعرف التلقائي على الكلام إلى التعرف على الكيانات المسماة، وتوضيح الطعام، وتطبيع الكميات، وتقييم الثقة.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

عندما تقول "لقد تناولت للتو بيضتين مخفوقتين مع جبنة شيدر على خبز توست من القمح الكامل" إلى هاتفك وتراقب كيف يظهر ذلك كوجبة مسجلة بالكامل مع ماكروز دقيقة، يبدو الأمر وكأنه سحر. وراء هذه التجربة السلسة توجد سلسلة معالجة متقدمة للغة الطبيعية تحول الصوت الخام إلى بيانات غذائية منظمة في أقل من ثانيتين. فهم هذه السلسلة يوضح لماذا أصبح تسجيل الصوت واحدًا من أسرع وأكثر الطرق دقة لتتبع ما تأكله.

يستخدم الذكاء الاصطناعي لتسجيل الصوت سلسلة معالجة متعددة المراحل للغة الطبيعية — التعرف التلقائي على الكلام (ASR)، تصنيف النوايا، التعرف على الكيانات المسماة (NER)، توضيح الطعام، تطبيع الكميات، ربط البيانات، وتقييم الثقة — لتحويل أوصاف الوجبات المنطوقة إلى إدخالات غذائية دقيقة وموثوقة.

تستعرض هذه المقالة كل مرحلة من تلك السلسلة، تشرح التكنولوجيا الأساسية، وتوضح بالضبط كيف تتحول جملة واحدة منطوقة إلى إدخال كامل في سجل الطعام.

سلسلة معالجة اللغة الطبيعية المكونة من سبع مراحل لتسجيل الطعام بالصوت

تتبع الطعام باستخدام الصوت ليس مجرد خوارزمية واحدة. إنها سلسلة من النماذج المتخصصة، كل منها يحل جزءًا مختلفًا من المشكلة. عندما تتحدث عن وصف وجبة، تمر كلماتك عبر سبع مراحل معالجة متميزة قبل أن تظهر إدخال غذائي في سجلك.

تتبع الجدول أدناه عبارة واحدة عبر السلسلة بأكملها:

المرحلة	العملية	المدخلات	المخرجات
1. ASR	تحويل الكلام إلى نص	شكل موجي صوتي	"بيضتان مخفوقتان مع جبنة شيدر على خبز توست من القمح الكامل"
2. التعرف على النية	تصنيف نية المستخدم	النص الخام	النية: تسجيل الطعام (ثقة 0.97)
3. NER	استخراج الكيانات الغذائية	النص المصنف	[بيض مخفوق، جبنة شيدر، خبز قمح كامل]
4. توضيح الكيانات	حل الكيانات الغامضة	الكيانات الغذائية الخام	[بيض مخفوق (USDA: 01132)، جبنة شيدر (USDA: 01009)، خبز قمح كامل محمص (USDA: 20090)]
5. تطبيع الكميات	توحيد الكميات	"اثنان"، حصة افتراضية	[2 بيض كبير (100غ)، شريحة جبنة شيدر (28غ)، شريحتان من التوست (56غ)]
6. ربط البيانات	مطابقة مع الإدخالات الموثوقة	الكيانات الموضحة + الكميات	ملفات غذائية كاملة مع السعرات الحرارية، البروتين، الدهون، الكربوهيدرات، المغذيات الدقيقة
7. تقييم الثقة	تقييم اليقين	جميع مخرجات السلسلة	الثقة العامة: 0.94 — تسجيل تلقائي

تعتمد كل مرحلة على تقنيات تعلم آلي مختلفة، وأي فشل في أي مرحلة يؤثر على المراحل التالية. إن الحصول على السلسلة كاملة بشكل صحيح هو ما يميز تسجيل الصوت الموثوق عن التخمين المحبط.

المرحلة 1: التعرف التلقائي على الكلام (ASR) — تحويل الصوت إلى نص

التحدي الأول هو تحويل شكل موجي صوتي خام إلى نص. تستخدم أنظمة ASR الحديثة هياكل قائمة على المحولات — نفس عائلة النماذج وراء النماذج اللغوية الكبيرة مثل GPT وClaude — المدربة على مئات الآلاف من الساعات من بيانات الكلام متعددة اللغات.

كيف تعمل ASR لوصف الطعام

تقوم نماذج ASR بمعالجة الصوت في ثلاث مراحل:

استخراج الميزات: يتم تحويل شكل الموجة الصوتية الخام إلى طيف صوتي، وهو تمثيل بصري لترددات الصوت على مر الزمن. ثم يتم تقسيم الطيف إلى إطارات متداخلة، عادةً بعرض 25 مللي ثانية مع خطوة 10 مللي ثانية.
معالجة المشفر: يقوم مشفر المحول بمعالجة إطارات الطيف، متعلمًا العلاقات السياقية بين الأصوات. يفهم النموذج، على سبيل المثال، أن تسلسل الصوت لكلمة "جبنة شيدر" من المرجح أن يظهر في سياق الكلام المتعلق بالطعام أكثر من "تشيدر" أو "شيكر".
توليد المفسر: يقوم مفسر المحول بإنشاء تسلسل النص الأكثر احتمالًا، مستخدمًا بحث الحزمة لتقييم عدة فرضيات في وقت واحد. يطبق المفسر احتمالات نموذج اللغة لحل الغموض الصوتي.

تصل أنظمة ASR الحديثة مثل Whisper (OpenAI، 2022) إلى معدلات خطأ أقل من 5 في المئة على الكلام الإنجليزي النظيف. بالنسبة لمفردات الطعام المحددة، يمكن أن يؤدي تحسين النماذج على أوصاف الوجبات إلى دفع الدقة إلى مستويات أعلى، مع معدلات خطأ أقل من 3 في المئة على المصطلحات الغذائية الشائعة.

تحدي مفردات الطعام

تقدم مفردات الطعام تحديات فريدة لـ ASR:

الكلمات المستعارة والمصطلحات الأجنبية: كلمات مثل "غنوتشي"، "تزاتزيكي"، و"أساي" تتبع قواعد النطق من لغاتها الأصلية.
الألفاظ المتجانسة: "زهرة" مقابل "طحين"، "كراث" مقابل "تسرب"، "محار" مقابل "عضلة".
أسماء العلامات التجارية: الآلاف من أسماء المنتجات الغذائية الخاصة التي قد لا تظهر في بيانات التدريب العامة.
النطق الإقليمي: يتم نطق "بيكان" بشكل مختلف عبر المناطق الناطقة بالإنجليزية.

يتم تحسين نماذج ASR على مجموعات بيانات مجال الطعام — التي تحتوي عادةً على 5,000 إلى 50,000 ساعة من الكلام المتعلق بالطعام — لمعالجة هذه التحديات من خلال تعليم النموذج الأنماط الإحصائية المحددة لأوصاف الوجبات.

المرحلة 2: التعرف على النية — هل هذه طلبية لتسجيل الطعام؟

ليس كل ما يقوله المستخدم لتطبيق التغذية هو وصف وجبة. تصنف عملية التعرف على النية النص إلى واحدة من عدة فئات:

النية	المثال المنطوق	الإجراء
تسجيل الطعام	"تناولت سلطة دجاج سيزر على الغداء"	توجيه إلى سلسلة NER
تسجيل الماء	"شربت كوبين من الماء"	تسجيل تناول الماء
سؤال	"كم عدد السعرات الحرارية في الأفوكادو؟"	توجيه إلى المساعد الذكي
تصحيح	"في الواقع كانت أرز بني وليس أرز أبيض"	تعديل الإدخال السابق
حذف	"احذف آخر وجبة لي"	حذف الإدخال

تستخدم تصنيف النية عادةً نموذج محول مُحسن يقوم بمعالجة النص الكامل ويخرج توزيع احتمالي عبر جميع النوايا الممكنة. بالنسبة لتسجيل الطعام، يتم تعيين العتبة عالية — عادةً فوق 0.90 ثقة — لتجنب تسجيل ذكر غير رسمي للطعام عن طريق الخطأ.

أظهرت الأبحاث من جمعية علوم الحاسوب (ACL، 2023) أن مصنفي النية المحددة للمجال تحقق درجات F1 فوق 0.96 عند تحسينها على أقل من 10,000 مثال مُعَلَّم، مما يجعل هذه واحدة من أكثر المراحل موثوقية في السلسلة.

المرحلة 3: التعرف على الكيانات المسماة (NER) — استخراج الكيانات الغذائية

التعرف على الكيانات المسماة هو المرحلة التي تحدد فيها الذكاء الاصطناعي ويستخرج العناصر الغذائية المحددة، والكميات، والمعدلات من جملة. هذه هي التحدي اللغوي الأساسي في تسجيل الطعام بالصوت.

أنواع الكيانات في NER للطعام

يتم تدريب نموذج NER المحدد للطعام على التعرف على عدة أنواع من الكيانات:

نوع الكيان	العلامة	الأمثلة
عنصر غذائي	FOOD	بيض مخفوق، صدر دجاج، أرز بني
كمية	QTY	اثنان، 200 جرام، كوب، نصف
معدل	MOD	مشوي، مع جبنة شيدر، قليل الدسم، عضوي
علامة تجارية	BRAND	شوباني، باريللا، كيركلاند
سياق الوجبة	MEAL	للإفطار، كوجبة خفيفة، بعد التمرين
حاوية	CONT	وعاء من، طبق من، كوب من

بالنسبة للجملة المثال "بيضتان مخفوقتان مع جبنة شيدر على خبز توست من القمح الكامل"، ينتج نموذج NER:

[QTY: اثنان] [FOOD: بيض مخفوق] [MOD: مع جبنة شيدر] [MOD: على خبز توست من القمح الكامل]

أوصاف الطعام التركيبية

أحد أصعب تحديات NER هو الأوصاف التركيبية للطعام — الوجبات الموصوفة كمجموعات من المكونات بدلاً من أسماء أطباق فردية. عندما يقول شخص ما "دجاج مقلي مع بروكلي، فلفل رومي، وصلصة الصويا فوق أرز الياسمين"، يجب على النموذج أن يحدد ما إذا كانت هذه طبقًا مركبًا واحدًا أو خمسة عناصر منفصلة.

تتعامل أنظمة NER الحديثة مع هذا باستخدام نظام تعليمات BIO (بداية، داخل، خارج) معزز بتحليل الاعتماد. يحدد محلل الاعتماد العلاقات النحوية بين الكلمات، بحيث يُفهم "دجاج مقلي" كطبق واحد بينما يتم التعرف على "بروكلي، فلفل رومي، وصلصة الصويا" كمكوناته، ويتم تحديد "أرز الياسمين" كرفيق منفصل.

تظهر الأداء القياسي على مجموعات بيانات NER الغذائية مثل FoodBase (2019) ومجموعة بيانات الكيانات الغذائية TAC-KBP درجات F1 من 0.89 إلى 0.93 لاستخراج الكيانات الغذائية، مع تركيز الأخطاء على الأطباق النادرة أو الإقليمية للغاية.

المرحلة 4: توضيح الكيانات الغذائية — ماذا تعني بالضبط؟

بمجرد استخراج الكيانات الغذائية، يجب على السلسلة حل الغموض. اللغة الطبيعية مليئة بالكلمات التي قد تشير إلى أطعمة مختلفة اعتمادًا على السياق أو المنطقة أو العادة الشخصية.

تحديات التوضيح الشائعة

المصطلح الغامض	التفسيرات المحتملة	إشارة الحل
رقائق	رقائق البطاطس (الولايات المتحدة)، البطاطس المقلية (المملكة المتحدة)، رقائق التورتيلا، رقائق الموز	موقع المستخدم، المعدلات السابقة، سياق الوجبة
بسكويت	كعكة (المملكة المتحدة)، خبز شبيه بالسكون (جنوب الولايات المتحدة)، كراكر (بعض أجزاء آسيا)	موقع المستخدم، الأطعمة المرافقة
جيلي	حلوى هلامية (الولايات المتحدة)، مربى فواكه (المملكة المتحدة)	سياق الوجبة (على الخبز مقابل كحلوى)
بودنغ	حلوى كريمية (الولايات المتحدة)، طبق مخبوز مثل بودنغ يوركشاير (المملكة المتحدة)	سياق الوجبة، المعدلات
ذرة	ذرة على الكوب، ذرة معلبة، دقيق الذرة، فشار	المعدلات، سياق التحضير
توست	شريحة خبز، تحية شرب	تصنيف النية (تم حله بالفعل)

يعتمد التوضيح على عدة إشارات:

موقع المستخدم: توفر إعدادات لغة التطبيق ومنطقته إشارة قوية. من المرجح أن تعني كلمة "رقائق" لمستخدم أسترالي البطاطس المقلية السميكة؛ بينما من المرجح أن تعني لمستخدم أمريكي رقائق البطاطس الرقيقة.
المعدلات السياقية: "رقائق مع كاتشب" تشير إلى البطاطس المقلية؛ "رقائق مع صلصة" تشير إلى رقائق التورتيلا؛ "كيس من الرقائق" تشير إلى رقائق البطاطس المعبأة.
تاريخ الوجبة: إذا كان المستخدم يسجل بانتظام وجبات على الطراز البريطاني، فإن نموذج التوضيح يعدل أولوياته وفقًا لذلك.
تشابه التضمين: تضع التضمينات القائمة على المحولات الأطعمة في مساحة دلالية حيث تتجمع الأطعمة المتشابهة سياقيًا، مما يمكّن النموذج من اختيار التفسير الذي يناسب السياق اللغوي المحيط.

المرحلة 5: تطبيع الكميات — تحويل اللغة الطبيعية إلى جرامات

نادراً ما يصف الناس كميات الطعام بالجرامات. يقولون "كوب"، "حفنة"، "وعاء كبير"، "شريحتان"، أو ببساطة لا يقولون شيئًا على الإطلاق (مما يعني حصة قياسية واحدة). يقوم تطبيع الكميات بتحويل هذه الأوصاف الطبيعية إلى كميات معيارية يمكن ربطها بإدخالات قاعدة البيانات.

التعبيرات الكمية الشائعة وقيمها المعيارية

التعبير الطبيعي	سياق الطعام	القيمة المعيارية	المصدر
كوب	أرز مطبوخ	186غ	مرجع قياسي من USDA
كوب	حليب	244غ (244مل)	مرجع قياسي من USDA
حفنة	مكسرات مختلطة	28–30غ	توافق أبحاث التغذية
حفنة	توت أزرق	40–50غ	تقدير حصة من USDA
شريحة	خبز	25–30غ	متوسط الصناعة
شريحة	بيتزا (كبيرة، 14 بوصة)	107غ	مرجع قياسي من USDA
وعاء	حبوب مع حليب	240–300غ إجمالي	كمية مرجعية من FDA
قطعة	صدر دجاج	120–174غ	حصص قياسية من USDA
رشة	زيت زيتون	5–7مل	معيار طهوي
رشة	صلصة الصويا	5مل	معيار طهوي

التعقيد هنا هو أن "كوب" من الأرز (186غ) له وزن مختلف تمامًا عن "كوب" من السبانخ (30غ) أو "كوب" من الدقيق (125غ). يجب أن يكون تطبيع الكميات مدركًا للطعام، وليس فقط للوحدات.

تستخدم الأساليب الحديثة جداول بحث للوحدات المحددة جيدًا (كوب، ملعقة طعام، ملعقة شاي) مع نماذج انحدار متعلمة للكميات غير الدقيقة (حفنة، رشة، وعاء كبير). يتم تدريب هذه النماذج الانحدارية على مجموعات بيانات أحجام الحصص من قاعدة بيانات USDA للأغذية والدراسات الغذائية (FNDDS) ومصادر مماثلة.

عندما لا يتم تحديد كمية — كما في "تناولت بيضًا مخفوقًا وتوست" — يقوم النظام بالافتراض على حصص مرجعية قياسية من USDA، والتي تمثل الكمية التي يتم تناولها عادةً في مناسبة تناول واحدة.

المرحلة 6: ربط البيانات — مطابقة الكيانات مع بيانات التغذية الموثوقة

مع الكيانات الغذائية الموضحة والكميات المعيارية في اليد، يجب على السلسلة مطابقة كل عنصر مع إدخال محدد في قاعدة بيانات التغذية. هنا تلتقي سلسلة معالجة اللغة الطبيعية بقاعدة بيانات علوم الغذاء.

عملية المطابقة

تستخدم ربط البيانات مزيجًا من:

مطابقة النصوص الدقيقة: البحث المباشر عن اسم الطعام في قاعدة البيانات. سريع وموثوق للأطعمة الشائعة.
مطابقة النصوص غير الدقيقة: تستخدم خوارزميات مثل مسافة ليفنشتاين وغيرها للتعامل مع اختلافات الإملاء، الأسماء المختصرة، والأخطاء الطفيفة في النسخ. "بيض مخفوق" لا يزال يتطابق مع "بيض مخفوق".
البحث الدلالي: تمكّن تضمينات الجمل القائمة على المحولات من المطابقة بناءً على المعنى بدلاً من الكلمات الدقيقة. "بيض مقلوب" يتطابق مع إدخال قاعدة البيانات لـ "بيض مقلي، وليس مخفوق" على الرغم من أن الكلمات بالكاد تتداخل.
الاحتياطي الهرمي: إذا لم يوجد تطابق دقيق للطعام، يعود النظام إلى أقرب فئة رئيسية. "لحم العمة الخاص" سيُطابق مع "لحم مفروم، محلي الصنع" في قاعدة بيانات USDA.

تعتبر جودة قاعدة البيانات الأساسية حاسمة في هذه المرحلة. توفر قاعدة بيانات التغذية الموثوقة مع إدخالات مستمدة من جداول تكوين الأغذية الحكومية (USDA FoodData Central، EFSA، FSANZ) والتي تم التحقق منها من قبل أخصائيي التغذية نتائج أكثر موثوقية بكثير من قواعد البيانات التي يقدمها المستخدمون حيث يمكن لأي شخص إضافة إدخالات.

تستخدم Nutrola قاعدة بيانات تغذية موثوقة مع إدخالات تم التحقق منها مقابل بيانات تكوين الأغذية الرسمية، مما يعني أن القيم النهائية للسعرات الحرارية والماكروز التي يتم إرجاعها من سلسلة تسجيل الصوت تستند إلى بيانات تغذية تم تحليلها في المختبر بدلاً من تقديرات مستندة إلى الجمهور. بالإضافة إلى ذلك، مع مسح الرموز الشريطية الذي يغطي أكثر من 95 في المئة من المنتجات المعبأة، تحقق مرحلة ربط البيانات معدلات مطابقة عالية عبر كل من الأطعمة الكاملة والمنتجات المعبأة.

المرحلة 7: تقييم الثقة — متى يتم التسجيل ومتى يُطلب التأكيد

تجمع المرحلة النهائية تقييمات الثقة من كل مرحلة سابقة في مقياس يقين عام. يحدد هذا المقياس ما إذا كان النظام يسجل الوجبة تلقائيًا، أو يطلب من المستخدم التأكيد، أو يطلب توضيحًا.

عتبات الثقة والإجراءات

الثقة العامة	الإجراء	سيناريو المثال
0.95–1.00	تسجيل تلقائي	وجبة شائعة، كميات واضحة، تطابق دقيق مع قاعدة البيانات
0.80–0.94	تسجيل مع طلب تأكيد	كمية أو نوع طعام غامض قليلاً
0.60–0.79	عرض أفضل 2–3 خيارات للاختيار من قبل المستخدم	اسم طعام غامض أو تطابقات متعددة محتملة
أقل من 0.60	طلب من المستخدم إعادة صياغة أو تقديم مزيد من التفاصيل	كلام غير واضح، طعام غير معروف، أو وصف غامض للغاية

تقييم الثقة ليس رقمًا واحدًا بل هو مزيج موزون من الدرجات الفرعية:

ثقة ASR: ما مدى تأكد نموذج تحويل الكلام إلى نص؟ (يتم قياسها من خلال احتمال ما بعد التفسير المتسلسل)
ثقة NER: ما مدى وضوح تحديد الكيانات الغذائية؟ (يتم قياسها من خلال F1 لحدود الكيانات)
ثقة التوضيح: هل كان هناك فائز واضح بين التفسيرات المحتملة؟ (يتم قياسها من خلال الفجوة الاحتمالية بين أفضل 1 و2)
ثقة المطابقة مع قاعدة البيانات: ما مدى قرب المطابقة من إدخال قاعدة بيانات موثوق؟ (يتم قياسها من خلال تشابه كوزاين للتضمينات)

يسمح هذا النظام المعقد من الثقة لتسجيل الصوت بأن يكون سريعًا ودقيقًا في الوقت نفسه. يتم تسجيل التفسيرات عالية الثقة على الفور، بينما تؤدي الحالات ذات الثقة المنخفضة إلى طرح أسئلة توضيحية مستهدفة بدلاً من رسائل خطأ عامة.

كيف تحسن نماذج المحولات والنماذج اللغوية الكبيرة من تسجيل الطعام بالصوت

لقد تم تحويل السلسلة الكاملة الموضحة أعلاه بفضل ظهور هياكل المحولات (Vaswani et al., 2017) والنماذج اللغوية الكبيرة (LLMs). استخدمت أنظمة تسجيل الصوت القديمة نماذج مستقلة مدربة بشكل منفصل لكل مرحلة. تستخدم الأنظمة الحديثة بشكل متزايد نماذج موحدة من المحولات التي تتعامل مع عدة مراحل في وقت واحد.

التقدم الرئيسي

ASR من النهاية إلى النهاية: تعالج نماذج ASR القائمة على المحولات مثل Whisper الصوت مباشرة إلى نص دون تمثيلات صوتية وسيطة، مما يقلل من انتشار الأخطاء.
NER السياقية: تفهم نماذج اللغة المدربة مسبقًا مثل BERT ونسخها مصطلحات الطعام في سياقها، مما يحسن بشكل كبير من استخراج الكيانات للأوصاف التركيبية.
التوضيح بدون تدريب: يمكن للنماذج اللغوية الكبيرة توضيح مصطلحات الطعام التي لم ترها من قبل في بيانات التدريب من خلال الاستفادة من معرفتها الواسعة بالعالم. نموذج قرأ ملايين الوصفات وأوصاف الطعام يفهم أن "رقائق مع غواكامولي" تعني رقائق التورتيلا مع الغواكامولي دون أن يتم تدريبه صراحة على تلك العبارة.
تصحيح محادثاتي: تمكّن LLMs من إجراء محادثات متابعة طبيعية. إذا سجل الذكاء الاصطناعي "أرز أبيض" وقال المستخدم "في الواقع كان أرز قرنبيط"، يفهم النموذج ذلك كتصحيح ويقوم بتحديث الإدخال وفقًا لذلك.

يستفيد مساعد Nutrola الذكي للتغذية من هذه القدرات، مما يسمح للمستخدمين بتسجيل الوجبات بالصوت، وطرح أسئلة متابعة، وطلب تعديلات، والحصول على رؤى غذائية من خلال محادثة طبيعية.

الدقة في العالم الحقيقي: كيف يقارن تسجيل الصوت بأساليب أخرى

سؤال طبيعي هو كيف تقارن دقة تسجيل الصوت مع الإدخال اليدوي للنص، ومسح الرموز الشريطية، وتسجيل الصور.

طريقة التسجيل	متوسط دقة السعرات الحرارية	متوسط الوقت لكل إدخال	جهد المستخدم
البحث النصي اليدوي	85–90% (يعتمد على اختيار المستخدم)	45–90 ثانية	عالي
مسح الرموز الشريطية	97–99% (للأطعمة المعبأة فقط)	5–10 ثواني	منخفض
تسجيل الصور (AI)	85–92% (تختلف حسب تعقيد الطعام)	3–8 ثواني	منخفض
تسجيل الصوت (AI)	88–94% (تختلف حسب وضوح الوصف)	5–15 ثانية	منخفض جدًا

تأتي ميزة دقة تسجيل الصوت من غنى اللغة الطبيعية. لا يمكن للصورة التمييز بين الحليب الكامل والحليب الخالي من الدسم، لكن الوصف الصوتي يمكنه ذلك. تكافح الصورة مع الأطباق المكونة مثل البوريتو، لكن الوصف المنطوق — "بوريتو دجاج مع فاصوليا سوداء، صلصة، كريمة حامضة، وغواكامولي" — يوفر للذكاء الاصطناعي معلومات واضحة عن المكونات.

تجمع مزيج تسجيل الصوت مع تسجيل الصور تغطي نقاط ضعف كل طريقة. يوفر الصوت تفاصيل المكونات؛ توفر الصور تقديرًا بصريًا للحصة. باستخدام كلا الطريقتين معًا، كما هو مدعوم في نظام التسجيل متعدد الوسائط الخاص بـ Nutrola جنبًا إلى جنب مع مسح الرموز الشريطية، يتم تحقيق أعلى دقة عملية لتتبع الوجبات اليومية.

الخصوصية ومعالجة البيانات على الجهاز

تعتبر بيانات الصوت شخصية بطبيعتها. تعالج أنظمة تسجيل الصوت الحديثة الخصوصية من خلال عدة خيارات معمارية:

ASR على الجهاز: يتم تحويل الكلام إلى نص على جهاز المستخدم، لذا لا يغادر الصوت الخام الهاتف أبدًا.
نقل النص فقط: يتم إرسال النص المنسوخ فقط إلى خوادم السحابة من أجل NER ورابط البيانات.
عدم تخزين الصوت: يتم حذف التسجيلات الصوتية على الفور بعد النسخ.
قناة مشفرة: جميع البيانات المرسلة بين مراحل المعالجة تستخدم تشفيرًا من النهاية إلى النهاية.

تضمن هذه التدابير أن راحة تسجيل الصوت لا تأتي على حساب الخصوصية. تعالج Nutrola بيانات الصوت وفقًا لهذه المبادئ التي تركز على الخصوصية، مما يزامن نتائج التغذية مع Apple Health وGoogle Fit دون الكشف عن بيانات الصوت الخام.

الأسئلة الشائعة

ما مدى دقة تسجيل الطعام بالصوت مقارنةً بإدخال الأطعمة يدويًا؟

تحقق تسجيل الطعام بالصوت دقة سعرات حرارية تتراوح بين 88 إلى 94 في المئة في المتوسط، وهو ما يقارن أو يتفوق قليلاً على البحث النصي اليدوي (85 إلى 90 في المئة). تكمن ميزة الصوت في أن المستخدمين يميلون إلى تقديم أوصاف أكثر تفصيلاً بشكل طبيعي — بما في ذلك طرق التحضير، والصلصات، وتفاصيل المكونات — مما يوفر للذكاء الاصطناعي مزيدًا من المعلومات للعمل بها مقارنةً باستعلام نصي بسيط.

هل يمكن للذكاء الاصطناعي لتسجيل الصوت فهم أوصاف الطعام التي تحتوي على عناصر متعددة في جملة واحدة؟

نعم. تم تدريب نماذج NER الحديثة لاستخراج عدة كيانات غذائية من عبارة واحدة. قول "سلطة دجاج مشوي مع أفوكادو، طماطم كرزية، وصلصة بلسمية" سينتج أربع أو خمس كيانات غذائية متميزة، كل منها مرتبط بإدخال قاعدة بيانات خاص به مع قيم السعرات الحرارية والماكروز الفردية.

ماذا يحدث عندما لا يكون الذكاء الاصطناعي واثقًا مما قلته؟

يستخدم النظام تقييم الثقة متعدد الطبقات. إذا انخفضت الثقة العامة إلى أقل من 0.80، سترى مطالبة تأكيد تعرض أفضل تفسير للذكاء الاصطناعي. إذا كانت أقل من 0.60، سيطلب منك التطبيق توضيحًا — على سبيل المثال، "هل تعني رقائق البطاطس أم البطاطس المقلية؟" هذه الطريقة تقلل من كل من التسجيلات الخاطئة والانقطاعات غير الضرورية.

هل يعمل تسجيل الصوت بدون اتصال بالإنترنت؟

يمكن لنماذج ASR الحديثة على الجهاز تحويل الكلام إلى نص دون اتصال بالإنترنت. ومع ذلك، تتطلب مراحل ربط البيانات والتوضيح عادةً اتصالًا بالخادم للوصول إلى قاعدة بيانات التغذية الكاملة. تقوم بعض التطبيقات، بما في ذلك Nutrola، بتخزين الأطعمة التي تم تسجيلها بشكل متكرر محليًا بحيث يمكن تسجيل وجباتك الأكثر شيوعًا بالصوت حتى بدون اتصال.

كيف يتعامل تسجيل الصوت مع اللهجات والمتحدثين غير الناطقين باللغة الإنجليزية؟

تم تدريب نماذج ASR الحالية مثل Whisper على بيانات كلام متعددة اللغات ومتنوعة تغطي مجموعة واسعة من اللهجات. عادةً ما تكون معدلات خطأ الكلمات للغة الإنجليزية ذات اللهجات أعلى من 2 إلى 5 نقاط مئوية مقارنةً بالناطقين الأصليين، لكن مفردات الطعام المحددة — التي تكون موحدة إلى حد كبير — تميل إلى التعرف عليها بشكل أكثر موثوقية من الكلام العام. يساهم تحسين النماذج على الصوت في مجال الطعام في تضييق فجوة الدقة.

ما هي تقنية معالجة اللغة الطبيعية التي تدعم تسجيل الطعام بالصوت؟

تستخدم السلسلة نماذج قائمة على المحولات في كل مرحلة تقريبًا. يستخدم التعرف التلقائي على الكلام نماذج المحولات من نوع المشفر-المفسر (مماثلة لهندسة Whisper). تستخدم التعرف على النية وNER نماذج من عائلة BERT المحسّنة. تستخدم التوضيح ورابط البيانات تضمينات الجمل للبحث الدلالي. توفر النماذج اللغوية الكبيرة تصحيحًا محادثاتيًا وفهمًا بدون تدريب لوصفات الطعام الجديدة.

هل يمكنني تصحيح وجبة تم تسجيلها بالصوت بعد ذلك؟

نعم. تدعم أنظمة تسجيل الصوت التي تحتوي على مساعدين مدعومين من LLM تصحيحات طبيعية. يمكنك أن تقول "غير الأرز إلى أرز قرنبيط" أو "احذف الجبنة من آخر وجبة لي" وسيفهم الذكاء الاصطناعي ذلك كنية تصحيح ويقوم بتحديث الإدخال الحالي بدلاً من إنشاء إدخال جديد. يدعم مساعد Nutrola الذكي للتغذية هذا التدفق التحريري المحادثاتي.

ما مدى سرعة تسجيل الطعام بالصوت من الكلام إلى الإدخال المسجل؟

تتراوح فترة التأخير من النهاية إلى النهاية لوصف وجبة نموذجية بين 1.5 إلى 3 ثوانٍ. يستغرق ASR من 0.3 إلى 0.8 ثانية لعبارة قصيرة. تضيف NER والتوضيح من 0.2 إلى 0.5 ثانية. تستغرق ربط البيانات وتقييم الثقة من 0.3 إلى 0.7 ثانية أخرى. تمثل فترة التأخير في الشبكة باقي الوقت. النتيجة هي تجربة تسجيل تبدو شبه فورية.

هل تسجيل الصوت أفضل من تسجيل الصور لتتبع السعرات الحرارية؟

لا توجد طريقة أفضل بشكل عالمي. يتفوق تسجيل الصوت عندما يمكنك وصف المكونات بدقة — للوجبات المنزلية، والأطباق المختلطة، والأطعمة التي تبدو متشابهة ولكن تختلف غذائيًا (مثل الحليب الكامل مقابل الحليب الخالي من الدسم). يتفوق تسجيل الصور للأطعمة المميزة بصريًا حيث يكون حجم الحصة هو المتغير الرئيسي. يوفر استخدام كلا الطريقتين معًا تتبعًا شاملاً، ولهذا السبب تدعم Nutrola تسجيل الصور، والصوت، والرموز الشريطية، والإدخال اليدوي في تطبيق واحد بدءًا من 2.50 يورو شهريًا مع تجربة مجانية لمدة 3 أيام.

مستعد لتحويل تتبع تغذيتك؟

انضم إلى الآلاف الذين حولوا رحلتهم الصحية مع Nutrola!

Download on theApp Store

GET IT ONGoogle Play