علم تتبع السعرات الحرارية باستخدام الذكاء الاصطناعي: كيف تعمل تقنية التعرف على الصور

12 أبريل 2026

شرح تقني لعملية رؤية الكمبيوتر وراء تتبع السعرات الحرارية المدعوم بالذكاء الاصطناعي: تصنيف الصور، كشف الكائنات، تقسيم المعاني، تقدير العمق، تقدير الحجم، ومطابقة البيانات. يتضمن جداول دقة حسب التقنية ومراجع للأبحاث المنشورة.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

عندما تقوم بالتقاط صورة لوجبتك ويقوم تطبيق تتبع السعرات الحرارية بتحديد الطعام وتقدير محتواه الغذائي في ثوانٍ، فإن هذه النتيجة هي ناتج عملية رؤية كمبيوتر متعددة المراحل تشمل تصنيف الصور، كشف الكائنات، تقدير حجم الحصة، ومطابقة البيانات. كل مرحلة تقدم قيود دقة خاصة بها ومصادر خطأ. فهم كيفية عمل هذه العملية، وأين يمكن أن تتعطل، أمر ضروري لتقييم ما إذا كان تتبع السعرات الحرارية المدعوم بالذكاء الاصطناعي أداة موثوقة لمراقبة النظام الغذائي.

تقدم هذه المقالة تحليلاً تقنيًا لعملية رؤية الكمبيوتر وراء التعرف على الطعام، تغطي الهياكل المعمارية للتعلم الآلي، معايير الدقة المنشورة، الدور الحاسم لقاعدة البيانات الغذائية وراء الذكاء الاصطناعي، والحالة الحالية للعلم.

عملية تتبع السعرات الحرارية بالذكاء الاصطناعي: ست مراحل

التعرف على الطعام المدعوم بالذكاء الاصطناعي ليس تقنية واحدة. بل هو عملية تتكون من مراحل معالجة متتابعة، يجب أن تؤدي كل منها بشكل مناسب لكي تكون تقديرات السعرات الحرارية النهائية ذات معنى.

المرحلة	المهمة التقنية	التحدي الرئيسي	مساهمة الخطأ
1. معالجة الصور	تطبيع الإضاءة، الدقة، الاتجاه	ظروف التصوير المتغيرة في العالم الحقيقي	منخفضة (محلولة جيدًا)
2. كشف الطعام	تحديد مناطق الطعام في الصورة	تعدد الأطعمة، تداخل العناصر، الحجب الجزئي	معتدلة
3. تصنيف الطعام	تحديد ما هو كل عنصر غذائي	التشابه البصري بين الأطعمة (أنواع الأرز، الأجبان)	معتدلة إلى عالية
4. تقدير الحصة	تحديد كمية كل طعام موجودة	عدم وجود مرجع مقياس مطلق في معظم الصور	عالية
5. مطابقة البيانات	ربط الطعام المحدد بإدخال في قاعدة البيانات الغذائية	المطابقات الغامضة، اختلافات طرق التحضير	منخفضة إلى معتدلة (تعتمد على قاعدة البيانات)
6. حساب العناصر الغذائية	ضرب الحصة × العناصر الغذائية لكل وحدة	خطأ مركب من جميع المراحل السابقة	يعتمد على دقة العملية

المرحلة 1: معالجة الصور

قبل أن يحدث أي تعرف على الطعام، يجب تطبيع الصورة الخام. يتضمن ذلك التعديل لـ:

اختلاف الإضاءة. الصور الملتقطة تحت إضاءة فلورية، أو متوهجة، أو طبيعية، أو فلاش تنتج ملفات تعريف لونية مختلفة لنفس الطعام. تستخدم خطوط معالجة الصور الحديثة خوارزميات ثبات اللون والتطبيع المتعلم لتقليل الأخطاء الناتجة عن الإضاءة.
الدقة والصيغة. الصور من أجهزة مختلفة لها دقات مختلفة. تقوم عملية المعالجة بإعادة تحجيم الصور إلى أبعاد إدخال قياسية (عادةً 224×224 أو 384×384 بكسل لنماذج التصنيف، أعلى لنماذج الكشف).
الاتجاه. قد يتم التقاط الصور من أعلى مباشرة (من الأعلى، وهو مثالي لتقدير الحصة) أو من زوايا. يقوم التطبيع الهندسي بتعديل زاوية العرض عند الإمكان.

تعتبر هذه المرحلة محلاً جيدًا من قبل التكنولوجيا الحالية وتساهم بخطأ ضئيل في العملية العامة.

المرحلة 2: كشف الطعام (كشف الكائنات)

يجيب كشف الطعام على السؤال: "أين توجد عناصر الطعام في هذه الصورة؟" هذه مشكلة كشف كائنات، وتصبح معقدة عندما تحتوي صورة واحدة على عدة عناصر غذائية على طبق واحد أو عبر أطباق متعددة.

الهياكل المستخدمة

YOLO (You Only Look Once). عائلة كاشفات YOLO (YOLOv5، YOLOv8، والإصدارات اللاحقة) تعالج الصورة بالكامل في تمريرة واحدة، مما ينتج عنه مربعات حدود وتوقعات الفئات في نفس الوقت. يُفضل YOLO في أنظمة التعرف على الطعام الإنتاجية لسرعته في الوقت الحقيقي، حيث يحقق عادةً أوقات استدلال أقل من 50 مللي ثانية على الأجهزة المحمولة.

Faster R-CNN. كاشف من مرحلتين يقترح أولاً مناطق الاهتمام ثم يصنف كل منطقة. يحقق Faster R-CNN دقة أعلى قليلاً من الكاشفات ذات المرحلة الواحدة في المشاهد المعقدة ولكن على حساب زيادة وقت الاستدلال.

DETR (Detection Transformer). كاشف يعتمد على التحويلات من أبحاث Facebook AI يستخدم آليات الانتباه للتنبؤ مباشرةً بمربعات حدود الكائنات دون اقتراحات مرجعية. يتعامل DETR مع العناصر الغذائية المتداخلة والمخفية بشكل أفضل من الطرق المعتمدة على الاقتراحات، مما يجعله مناسبًا لمشاهد الوجبات المعقدة.

تحديات الكشف في صور الطعام

يقدم كشف الطعام تحديات فريدة مقارنة بكشف الكائنات العامة:

لا توجد حدود واضحة. غالبًا ما تلمس الأطعمة على الطبق أو تتداخل (صلصة على المعكرونة، جبن على السلطة). على عكس السيارات أو المشاة، نادرًا ما تحتوي العناصر الغذائية على حواف واضحة.
تقديم متغير. يمكن أن يبدو نفس الطعام مختلفًا تمامًا اعتمادًا على طريقة التحضير، أسلوب التقديم، والأطعمة المرافقة.
اختلاف الحجم. قد يظهر لوزة واحدة وبيتزا كاملة في نفس صورة الوجبة، مما يتطلب الكشف عبر نطاق واسع من أحجام الكائنات.

وجد Aguilar وآخرون (2018) في دراسة نشرت في Multimedia Tools and Applications أن دقة كشف الطعام (المقاسة بواسطة متوسط الدقة) تراوحت بين 60 إلى 85 بالمئة اعتمادًا على تعقيد المشهد. حققت الصور الفردية معدلات كشف تزيد عن 90 بالمئة، بينما انخفضت الوجبات المعقدة التي تحتوي على خمسة عناصر أو أكثر إلى أقل من 70 بالمئة.

المرحلة 3: تصنيف الطعام (تصنيف الصور)

بمجرد اكتشاف عناصر الطعام وتحديد مواقعها، يجب تصنيف كل منطقة مكتشفة: هل هو دجاج، سمك، توفو، أم تمبيه؟ هذه مشكلة تصنيف صور، وهي المرحلة الأكثر بحثًا في عملية التعرف على الطعام.

الهياكل المستخدمة

الشبكات العصبية التلافيفية (CNNs). كانت هياكل ResNet وEfficientNet وInception هي العمود الفقري لأبحاث تصنيف الطعام. تستخرج هذه النماذج ميزات بصرية هرمية (الملمس، الشكل، أنماط اللون) من خلال طبقات تلافيفية متتالية. استخدم Meyers وآخرون (2015) في ورقة Im2Calories من Google بنية قائمة على Inception لتصنيف الطعام وأبلغوا عن دقة أعلى بنسبة 79 بالمئة تقريبًا على مجموعة بيانات غذائية تحتوي على 2500 فئة.

محولات الرؤية (ViT). تم تقديمها من قبل Dosovitskiy وآخرون (2021)، تطبق محولات الرؤية آلية الانتباه الذاتي من معالجة اللغة الطبيعية على التعرف على الصور. تقسم ViTs الصور إلى قطع وتتعامل معها كسلاسل، مما يمكّن النموذج من التقاط سياق الصورة الكلي الذي قد تفوته CNNs ذات المجالات الاستقبالية المحدودة. أبلغت الأعمال الحديثة في تصنيف الطعام باستخدام هياكل ViT وSwin Transformer عن تحسينات تتراوح بين 3 إلى 7 نقاط مئوية مقارنة بأسس CNN على معايير التعرف على الطعام القياسية.

الهياكل الهجينة. غالبًا ما تجمع الأنظمة الإنتاجية الحديثة بين استخراج ميزات CNN والتفكير القائم على المحولات، مستفيدة من نقاط القوة في كلا النهجين.

دقة التصنيف حسب فئة الطعام

تختلف دقة التصنيف بشكل كبير حسب نوع الطعام.

فئة الطعام	دقة أعلى نموذجية	التحدي الرئيسي
الفواكه الكاملة (تفاح، موز، برتقال)	90–95%	تميز بصري عالي
البروتينات ذات المكون الواحد (ستيك، شريحة سمك)	80–90%	اختلافات طرق الطهي
الحبوب والنشويات (أرز، مكرونة، خبز)	75–85%	مظهر مشابه عبر الأنواع
الأطباق المختلطة (قلي، طاجن، كاري)	55–70%	تركيبة المكونات غير مرئية من السطح
المشروبات	40–60%	سوائل متطابقة بصريًا مع تركيبات مختلفة
الصلصات والتوابل	30–50%	مظهر بصري مشابه، كثافة سعرات حرارية مختلفة جدًا

تم تجميع البيانات من Meyers وآخرون (2015)، Bossard وآخرون (2014)، وThames وآخرون (2021).

تكون تحديات التصنيف أكثر حدة بالنسبة للأطعمة التي تبدو متشابهة ولكن لها ملفات غذائية مختلفة تمامًا. الأرز الأبيض وأرز القرنبيط متشابهان بصريًا لكنهما يختلفان بعامل خمسة في كثافة السعرات الحرارية. الحليب الكامل والحليب الخالي من الدسم لا يمكن تمييزهما بصريًا. لا يمكن تمييز المشروبات الغازية العادية والحمية من خلال المظهر فقط.

مجموعات البيانات المرجعية

Food-101 (Bossard وآخرون، 2014). 101 فئة طعام مع 1000 صورة لكل منها. تعتبر المعايير الأكثر استخدامًا لأبحاث تصنيف الطعام. تحقق النماذج الحديثة المتطورة دقة أعلى من 95 بالمئة على هذه المعايير، على الرغم من أن العدد النسبي الصغير من الفئات (101) يجعلها أقل تمثيلًا لتنوع العالم الحقيقي.

ISIA Food-500 (Min وآخرون، 2020). 500 فئة طعام مع حوالي 400,000 صورة. تمثل تنوع الطعام في العالم بشكل أفضل. دقة أعلى نموذج على هذه المعايير أقل بكثير، عادةً 65-80 بالمئة.

UEC Food-256 (Kawano وYanagida، 2015). 256 فئة طعام يابانية. توضح تحدي التعرف على الطعام الثقافي، حيث تؤدي النماذج المدربة على مجموعات بيانات الطعام الغربية أداءً ضعيفًا على المأكولات الآسيوية والعكس صحيح.

المرحلة 4: تقدير حجم الحصة

يُعتبر تقدير الحصة الحلقة الأضعف في عملية تتبع السعرات الحرارية بالذكاء الاصطناعي. حتى إذا تم تحديد الطعام بشكل صحيح، فإن تقدير الحصة غير الصحيح يترجم مباشرةً إلى عدد غير صحيح من السعرات الحرارية.

التقنيات

توسيع كائن مرجعي. تطلب بعض التطبيقات من المستخدمين تضمين كائن مرجعي (بطاقة ائتمان، عملة، أو إبهام المستخدم) في الصورة. توفر الأبعاد المعروفة للكائن المرجعي مرجع مقياس لتقدير أبعاد الطعام. قيم Dehais وآخرون (2017) طرق الكائن المرجعي ووجدوا أن أخطاء تقدير الحصة تراوحت بين 15-25 بالمئة عندما كان الكائن المرجعي موجودًا.

تقدير العمق. توفر أنظمة الكاميرات الاستريو (عدستين) أو مستشعرات LiDAR (المتاحة على بعض الهواتف الذكية) معلومات عمق تمكّن من إعادة بناء ثلاثية الأبعاد لسطح الطعام. بالاقتران مع افتراضات حول هندسة الحاوية وكثافة الطعام، يمكّن بيانات العمق من التقدير الحجمي. أفاد Meyers وآخرون (2015) بأن التقدير القائم على العمق قلل من أخطاء الحصة مقارنةً بالطرق ذات الصورة الواحدة، لكن مستشعرات العمق غير متاحة على جميع الأجهزة.

تقدير العمق الأحادي. يمكن للنماذج المدربة على تقدير العمق من الصور الفردية تقريب هندسة الطعام ثلاثية الأبعاد دون أجهزة متخصصة. الدقة أقل من مستشعرات العمق الفيزيائية ولكنها قابلة للتطبيق على أي كاميرا هاتف ذكي.

تقدير الحجم المتعلم. النماذج المدربة من البداية على مجموعات بيانات من صور الطعام المقترنة بأحجام معروفة يمكنها توقع حجم الحصة مباشرةً دون إعادة بناء ثلاثية الأبعاد صريحة. قيم Thames وآخرون (2021) مثل هذه النماذج وأبلغوا عن أخطاء تقدير الحصة المتوسطة تتراوح بين 20-40 بالمئة.

جدول دقة تقدير الحصة

الطريقة	متوسط الخطأ المطلق	تتطلب أجهزة خاصة	المرجع
كائن مرجعي (بطاقة ائتمان)	15–25%	لا (فقط الكائن المرجعي)	Dehais وآخرون (2017)
عمق الكاميرا الاستريو	12–20%	نعم (كاميرا مزدوجة)	Meyers وآخرون (2015)
عمق LiDAR	10–18%	نعم (هاتف مزود بـ LiDAR)	معايير غير منشورة حديثًا
تقدير العمق الأحادي (ML)	20–35%	لا	Thames وآخرون (2021)
الحجم المتعلم (من البداية)	20–40%	لا	Thames وآخرون (2021)
تقدير المستخدم الذاتي (بدون ذكاء اصطناعي)	20–50%	لا	Williamson وآخرون (2003)

يوضح الجدول أن جميع الطرق الآلية تتفوق على تقدير الإنسان غير المدعوم (Williamson وآخرون، 2003، Obesity Research)، لكن لا تحقق أي منها أخطاء أقل من 10 بالمئة بشكل مستمر. للتوضيح، تعني خطأ تقدير الحصة بنسبة 25 بالمئة على وجبة تحتوي على 400 سعر حراري انحرافًا قدره 100 سعر حراري، وهو ما يكفي لإلغاء عجز سعرات حرارية معتدل إذا تراكم عبر وجبات متعددة.

المرحلة 5: مطابقة البيانات — الخطوة الحاسمة

تعتبر هذه المرحلة الأقل اهتمامًا في المناقشات التقنية لكنها تؤثر بشكل كبير على الدقة النهائية. بعد أن يحدد الذكاء الاصطناعي الطعام ويقدر حجمه، يجب أن يطابق الطعام المحدد بإدخال في قاعدة بيانات غذائية لاسترجاع قيم السعرات والعناصر الغذائية.

تعتمد جودة هذه المطابقة تمامًا على جودة قاعدة البيانات الأساسية. إذا حدد الذكاء الاصطناعي بشكل صحيح "صدر دجاج مشوي، 150 جرام" لكنه قام بمطابقته بإدخال في قاعدة بيانات جماعية يسرد 130 سعر حراري لكل 100 جرام (مقابل القيمة التي حددتها USDA البالغة 165 سعر حراري لكل 100 جرام)، فإن تقدير السعرات النهائية سيكون منخفضًا بنسبة 27 بالمئة، ليس لأن الذكاء الاصطناعي فشل، ولكن لأن قاعدة البيانات وراءه غير دقيقة.

هذه هي الفكرة الأساسية التي تميز بين تطبيقات تتبع السعرات الحرارية بالذكاء الاصطناعي: دقة التعرف على الطعام بالذكاء الاصطناعي مفيدة فقط بقدر جودة قاعدة البيانات الغذائية وراءها.

مقارنة مطابقة البيانات

تطبيق تتبع الذكاء الاصطناعي	التعرف على الطعام	قاعدة البيانات الخلفية	الموثوقية العامة
Nutrola	التعرف على الصور + الصوت	1.8 مليون إدخال موثق من USDA	عالية في التعرف + عالية في دقة البيانات
Cal AI	تقدير الصور بالذكاء الاصطناعي	قاعدة بيانات خاصة (شفافية محدودة)	معتدلة في التعرف + دقة بيانات غير مؤكدة
التطبيقات التي تضيف الذكاء الاصطناعي إلى قاعدة بيانات جماعية	التعرف على الصور	إدخالات جماعية، غير موثقة	معتدلة في التعرف + دقة بيانات منخفضة

تم تصميم بنية Nutrola خصيصًا لمعالجة هذه الاعتماد الحاسم. تتعامل ميزات التعرف على الصور وتسجيل الصوت بالذكاء الاصطناعي مع مراحل التعرف وتقدير الحصة، بينما تضمن قاعدة البيانات التي تحتوي على 1.8 مليون إدخال موثق من قبل أخصائيي التغذية، المستمدة من USDA FoodData Central، أن البيانات الغذائية المرتبطة بكل طعام محدد دقيقة علميًا. يعني هذا الفصل في المهام أن التحسينات في التعرف على الطعام بالذكاء الاصطناعي تترجم مباشرة إلى تحسينات في دقة التتبع، دون أن تتأثر بأخطاء قاعدة البيانات في المراحل التالية.

متطلبات بيانات التدريب

يتطلب تدريب نموذج التعرف على الطعام مجموعات بيانات كبيرة وموسومة من صور الطعام. تؤثر جودة وتنوع بيانات التدريب بشكل مباشر على أداء النموذج.

حجم مجموعة البيانات. عادةً ما يتم تدريب نماذج التعرف على الطعام المتطورة على مجموعات بيانات تحتوي على 100,000 إلى عدة ملايين من الصور الموسومة. استخدمت Im2Calories من Google (Meyers وآخرون، 2015) مجموعة بيانات خاصة تحتوي على ملايين من صور الطعام. مجموعات البيانات المتاحة للجمهور مثل Food-101 (101,000 صورة) وISIA Food-500 (400,000 صورة) أصغر بكثير.

جودة العلامات. يجب أن تكون كل صورة تدريب موسومة بدقة بفئة الطعام. تؤدي بيانات التدريب الموسومة بشكل خاطئ إلى نماذج تتعلم ارتباطات غير صحيحة. بالنسبة لصور الطعام، تتطلب العلامات خبرة في المجال لأن الأطعمة المتشابهة بصريًا (الأرز الياسمين مقابل الأرز البسمتي، السمكة الجروبر مقابل السمكة القد) يصعب تمييزها على غير الخبراء.

متطلبات التنوع. يجب أن تمثل بيانات التدريب التنوع الكامل لتقديم الطعام: المأكولات المختلفة، أساليب التقديم، ظروف الإضاءة، زوايا الكاميرا، وأحجام الحصص. تؤدي النماذج المدربة أساسًا على صور الطعام الغربية أداءً ضعيفًا على المأكولات الآسيوية أو الأفريقية أو الشرق أوسطية.

علامات الحصة. لتدريب تقدير الحصة، يجب أن تكون الصور مقترنة بقياسات الوزن الحقيقية. يتطلب إنشاء هذه العلامات تصوير الأطعمة قبل وبعد وزنها، وهي عملية تتطلب جهدًا كبيرًا مما يحد من حجم مجموعات بيانات تدريب تقدير الحصة.

مشكلة الخطأ المركب

أهم مفهوم تقني في تتبع السعرات الحرارية بالذكاء الاصطناعي هو الخطأ المركب. كل مرحلة من العملية تضيف عدم يقين، وهذه الشكوك تتضاعف.

اعتبر وجبة من السلمون المشوي مع الأرز والبروكلي:

دقة الكشف: 90% (تم تحديد كل عنصر غذائي بشكل صحيح).
دقة التصنيف: 85% (تم تحديد كل عنصر بشكل صحيح).
دقة تقدير الحصة: 75% (الحصة ضمن 25% من الفعلي).
دقة مطابقة البيانات: 95% (لقاعدة بيانات موثوقة) أو 80% (لقاعدة بيانات جماعية).

احتمالية النجاح المجمعة لجميع المراحل لجميع العناصر الغذائية الثلاثة:

مع قاعدة بيانات موثوقة: (0.90 × 0.85 × 0.75 × 0.95)^3 = 0.548^3 = 16.5% فرصة أن تكون جميع العناصر الثلاثة دقيقة تمامًا.
مع قاعدة بيانات جماعية: (0.90 × 0.85 × 0.75 × 0.80)^3 = 0.459^3 = 9.7% فرصة أن تكون جميع العناصر الثلاثة دقيقة تمامًا.

توضح هذه الحسابات لماذا يجعل الخطأ المركب الدقة المثالية غير قابلة للتحقيق مع التكنولوجيا الحالية. ومع ذلك، فإنها تظهر أيضًا أن تحسين أي مرحلة فردية يحسن العملية العامة. تعتبر مرحلة مطابقة البيانات هي الأسهل للتحسين (استخدام قاعدة بيانات موثوقة بدلاً من جماعية) وتوفر تحسينًا ملحوظًا في الدقة مع كل وجبة.

الحالة الحالية للتكنولوجيا المتطورة والقيود

ما يعمل بشكل جيد

التعرف على العناصر الفردية. تحديد عنصر غذائي واحد، مصور بوضوح من مأكولات معروفة، يحقق دقة تزيد عن 90 بالمئة مع الهياكل الحديثة.
الأطعمة الشائعة. الأطعمة الأكثر استهلاكًا تحتوي على بيانات تدريب وفيرة ويتم التعرف عليها بشكل موثوق.
تعزيز الرمز الشريطي. عندما يمكن تحديد طعام معبأ بواسطة الرمز الشريطي بدلاً من الصورة، تقترب دقة التعرف من 100 بالمئة (تقتصر فقط على قابلية قراءة الرمز الشريطي).

ما يزال يمثل تحديًا

الأطباق المختلطة. الحساء، الطاجن، الأطباق المقلية، وغيرها من الأطباق المختلطة حيث لا يمكن فصل المكونات الفردية بصريًا تظل صعبة. يمكن للنموذج تقدير الطبق الكلي ولكن ليس تركيبته المحددة.
المكونات المخفية. الزيوت، الزبدة، السكر، والصلصات المضافة أثناء الطهي لها تأثير كبير على السعرات الحرارية ولكن غالبًا ما تكون غير مرئية في الطبق النهائي. يبدو أن طبق الخضار المقلي المطبوخ في ملعقتين من الزيت مشابه لطبق مطبوخ برذاذ الطهي، لكن الفرق في السعرات الحرارية يبلغ حوالي 240 سعر حراري.
دقة الحصة. يظل التقدير الحجمي من الصور ثنائية الأبعاد الحلقة الأضعف، مع أخطاء تتراوح بين 20-40 بالمئة كونها نموذجية للطرق الحالية.
تنوع الطعام الثقافي. تؤدي النماذج المدربة على المأكولات الغربية أداءً ضعيفًا على المأكولات الآسيوية، الأفريقية، الشرق أوسطية، والأمريكية اللاتينية، التي تمثل جزءًا كبيرًا من استهلاك الطعام العالمي.

الأسئلة الشائعة

ما مدى دقة تتبع السعرات الحرارية المعتمد على الصور بالذكاء الاصطناعي؟

تحقق أنظمة التعرف على الطعام بالذكاء الاصطناعي الحالية دقة في التعرف على الطعام تتراوح بين 75-95 بالمئة للعناصر الفردية من فئات الطعام الممثلة جيدًا. ومع ذلك، يضيف تقدير الحصة خطأً كبيرًا (20-40 بالمئة وفقًا لـ Thames وآخرون، 2021). تعتمد دقة تقدير السعرات النهائية على التأثير المركب لدقة التعرف، دقة الحصة، ودقة قاعدة البيانات وراء المطابقة. التطبيقات مثل Nutrola التي تجمع بين التعرف بالذكاء الاصطناعي مع قاعدة بيانات موثوقة مرتبطة بـ USDA تقلل من مكون خطأ قاعدة البيانات.

ما هي نماذج التعلم الآلي التي تستخدمها تطبيقات التعرف على الطعام؟

تستخدم معظم أنظمة التعرف على الطعام الإنتاجية الشبكات العصبية التلافيفية (ResNet، EfficientNet) أو محولات الرؤية (ViT، Swin Transformer) للتصنيف، وYOLO أو DETR للكشف، ونماذج منفصلة لتقدير الحصة. التفاصيل المحددة للهياكل والتدريب تعتبر ملكية لمعظم التطبيقات التجارية.

هل يمكن للذكاء الاصطناعي التمييز بين الأطعمة المتشابهة مثل الأرز الأبيض وأرز القرنبيط؟

لا يزال هذا يمثل تحديًا كبيرًا. الأطعمة المتشابهة بصريًا ذات الملفات الغذائية المختلفة هي قيود معروفة في التعرف على الطعام باستخدام رؤية الكمبيوتر. يمكن للنماذج تعلم إشارات بصرية دقيقة (الملمس، هيكل الحبة) التي تميز بعض الأطعمة المتشابهة، لكن الدقة تنخفض بشكل كبير في هذه الحالات. هذه هي إحدى الأسباب التي تجعل التعرف بالذكاء الاصطناعي يجب أن يقترن بتأكيد المستخدم وقاعدة بيانات موثوقة بدلاً من استخدامها كنظام مستقل تمامًا.

لماذا تعتبر قاعدة البيانات وراء التعرف على الطعام بالذكاء الاصطناعي مهمة؟

تحدد التعرف على الطعام بالذكاء الاصطناعي ما هو الطعام. تحدد قاعدة البيانات القيم الغذائية المرتبطة بهذا الطعام. حتى إذا كان التعرف على الطعام مثاليًا، فإن تقديرات السعرات الحرارية غير الدقيقة تنتج عن إدخال قاعدة البيانات الخاطئ. تضمن قاعدة بيانات موثوقة مرتبطة بـ USDA FoodData Central (مثل إدخالات Nutrola البالغة 1.8 مليون) أن الأطعمة المحددة بدقة تتطابق مع بيانات غذائية دقيقة علميًا. لهذا السبب تعتبر جودة قاعدة البيانات بنفس أهمية جودة نموذج الذكاء الاصطناعي لدقة التتبع العامة.

كيف سيتحسن تتبع السعرات الحرارية بالذكاء الاصطناعي في المستقبل؟

ستدفع ثلاث مجالات من البحث النشط تحسينات: (1) ستؤدي مجموعات بيانات التدريب الأكبر والأكثر تنوعًا إلى تحسين دقة التصنيف عبر المأكولات العالمية؛ (2) ستحسن مستشعرات العمق LiDAR والتصوير متعدد الكاميرات تقدير الحصة؛ (3) ستقلل النماذج متعددة الوسائط التي تجمع بين التعرف البصري مع سياق النص/الصوت (ما يقوله المستخدم عن ما يأكله) من الغموض. يجسد الجمع بين الذكاء الاصطناعي للصورة وتسجيل الصوت في Nutrola بالفعل هذا النهج متعدد الوسائط، مستخدمًا كلاً من المدخلات البصرية واللغوية لتحسين دقة التعرف على الطعام.

مستعد لتحويل تتبع تغذيتك؟

انضم إلى الآلاف الذين حولوا رحلتهم الصحية مع Nutrola!

Download on theApp Store

GET IT ONGoogle Play