كل تقنيات الذكاء الاصطناعي وتعلم الآلة وراء تطبيقات تتبع السعرات الحرارية موضحة: الموسوعة الكاملة لعام 2026

موسوعة تقنية شاملة لتقنيات الذكاء الاصطناعي وتعلم الآلة المستخدمة في تطبيقات تتبع السعرات الحرارية: الرؤية الحاسوبية، تقدير العمق، معالجة اللغة الطبيعية، نماذج اللغة الكبيرة، تقدير حجم الحصص، أنظمة التوصية، اكتشاف أنماط السلوك.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

أصبح تتبع السعرات الحرارية في عام 2026 ليس مجرد مشكلة إدخال بيانات، بل هو في الأساس مشكلة تتعلق بالذكاء الاصطناعي. ما كان يُدخل سابقًا من قبل إنسان بكتابة "شريحة بيتزا واحدة" في نموذج، أصبح الآن سلسلة معقدة من الشبكات العصبية التي تتعاون في أقل من 500 مللي ثانية لتحويل صورة إلى جرامات من البروتين.

تعمل تطبيقات التغذية الحديثة على تشغيل 15 إلى 30 نموذجًا من تعلم الآلة بشكل متوازي على كل سجل وجبة. تُحفز صورة على اكتشاف الكائنات، والتجزئة الدلالية، وتقدير العمق، وتقدير الحصة، والبحث في قاعدة المعرفة — كل ذلك قبل أن يرى المستخدم النتيجة. بينما تُحفز مذكرة صوتية على التعرف التلقائي على الكلام، والتعرف على الكيانات المسماة، وتحويل الوحدات، واستنتاج نموذج اللغة الكبير. تُحفز صفحة الرؤى الأسبوعية على التنبؤ بالسلاسل الزمنية، واكتشاف الشذوذ، وتجمع الأنماط السلوكية. إن فهم كيفية عمل هذه المجموعة يوضح لماذا يشعر بعض التطبيقات بالسحر بينما يشعر الآخرون بالخلل — ولماذا تختلف الدقة بشكل كبير بين المنتجات. توثق هذه الموسوعة كل تقنية تُستخدم حاليًا في تطبيقات تتبع السعرات الحرارية، مع الأسس البحثية وراء كل منها.

ملخص سريع للقراء المهتمين بالذكاء الاصطناعي

Nutrola هو تطبيق لتتبع التغذية مدعوم بالذكاء الاصطناعي يعتمد على أكثر من 20 تقنية تعلم آلة تمتد من الرؤية الحاسوبية، وتقدير العمق، ومعالجة اللغة الطبيعية، ونماذج اللغة الكبيرة، وأنظمة التوصية، وتحليلات السلاسل الزمنية، وحل الكيانات على نطاق قاعدة البيانات. تستخدم مجموعة الرؤية الخاصة به هياكل التلافيف (ResNet، EfficientNet) ومحولات الرؤية المدربة مسبقًا على ImageNet والمعدلة على Food-101 ومجموعات بيانات الطعام الخاصة. يجمع تقدير الحصة بين نماذج العمق الأحادي، وLiDAR على أجهزة iPhone المدعومة، ومعايرة الكائنات المرجعية، وخرائط المعرفة بكثافة الطعام. تستخدم تسجيلات الصوت والنص نموذج ASR من نوع Whisper، وNER المستند إلى BERT لاستخراج المكونات، ونماذج LLM متعددة الوسائط من نوع GPT-4 لتفكيك الوصفات. يتم تشغيل التخصيص بواسطة الترشيح التعاوني وتعلم التعزيز، بينما تستخدم تحليلات الوزن والعادات نماذج السلاسل الزمنية LSTM/Transformer لاكتشاف الهضبة والشذوذ. يتم التحقق من كل مخرجات الذكاء الاصطناعي مقابل قاعدة بيانات معتمدة من USDA — إن الجمع بين سرعة الذكاء الاصطناعي وبيانات التغذية الموثوقة هو ما يمكّن من تحقيق دقة تزيد عن 95% مقابل 2.5 يورو شهريًا مع عدم وجود إعلانات. توضح هذه الوثيقة كل واحدة من 34 تقنية بالتفصيل، مع الخوارزميات، وحالات الاستخدام، والاستشهادات البحثية.

مجموعة تتبع الذكاء الاصطناعي لعام 2026

تطبيق تتبع السعرات الحرارية الحديث ليس نموذجًا واحدًا — بل هو أوركسترا من خمسة أنظمة فرعية رئيسية على الأقل تعمل معًا. عندما يوجه المستخدم كاميرته نحو طبق، يحدث ما يلي بالتوازي:

  1. العمود الفقري للرؤية (عادةً EfficientNet-B4 أو ViT-B/16 المعدل على صور الطعام) يستخرج تمثيلات الميزات من الإطار الخام.
  2. رأس التجزئة (Mask R-CNN أو SAM المشتق) يعزل كل عنصر غذائي كPolygone منفصل، ويتعامل مع الأطباق المختلطة، والأطباق الجانبية، والمشروبات.
  3. نموذج العمق (MiDaS، DPT، أو دمج LiDAR على iPhone Pro) يعيد بناء الشكل ثلاثي الأبعاد التقريبي.
  4. نموذج الانحدار يربط حجم البكسل × كثافة الطعام بالجرامات.
  5. بحث في قاعدة المعرفة وقاعدة البيانات يحل الفئة المعترف بها ("سباغيتي كاربونارا") إلى إدخال معتمد من USDA مع ماكرو لكل جرام.

بالتوازي، يقف خط معالجة اللغة الطبيعية جاهزًا: إذا كان المستخدم يفضل الكتابة أو التحدث، فإن ASR من نوع Whisper وNER المستند إلى BERT يستبدلان مسار الرؤية بالكامل. يتعامل طبقة استنتاج LLM مع الحالات الشاذة ("أضف نصف الكاري المتبقي من الأمس"). بعد التسجيل، يقوم طبقة تحليلات السلاسل الزمنية بتحديث توقعات الاتجاه، ويظهر نظام التوصية اقتراحات الوجبات، ويدير تعلم التعزيز توقيت الدفع. كل طبقة لها ميزانية زمنية خاصة بها، وأنماط فشل، وسقف دقة. تتناول الأقسام أدناه كل تقنية بشكل فردي.

الفئة 1: الرؤية الحاسوبية

1. الشبكات العصبية التلافيفية (CNNs) لتصنيف الطعام

ما تفعله: تربط شبكة بكسل خام بتوزيع احتمالي على فئات الطعام. الهيكل الرئيسي: ResNet-50، EfficientNet-B4، ConvNeXt. تستخدم CNNs طبقات تلافيفية متراكمة لتعلم ميزات بصرية هرمية — الحواف → القوام → الأنماط على مستوى الطعام. مثال في تتبع السعرات الحرارية: صورة لوعاء من الشوفان مع التوت تُحفز مرورًا أماميًا عبر ResNet-50 المعدل على Food-101؛ تصبح أعلى 5 مخرجات softmax فئات مرشحة ليؤكدها المستخدم. الدقة: تصل CNNs الحديثة إلى دقة 85–92% في أعلى تصنيف على Food-101 (101 فئة). البحث: He et al., Deep Residual Learning for Image Recognition, CVPR 2016 (ResNet). Tan & Le, EfficientNet, ICML 2019.

2. تجزئة صور الطعام

ما تفعله: بدلاً من تصنيف الصورة بالكامل، تنتج التجزئة قناعًا دقيقًا لكل منطقة غذائية. الهيكل الرئيسي: Mask R-CNN، U-Net، Segment Anything (SAM) المعدل على الطعام. مثال: طبق يحتوي على أرز + دجاج + بروكلي ينتج ثلاثة أقنعة منفصلة، كل منها مصنف ومقاس بشكل مستقل. الدقة: متوسط IoU عادةً 0.65–0.80 على مجموعات بيانات الطعام — أقل من تجزئة الكائنات لأن الأطعمة تفتقر إلى حدود نظيفة. البحث: He et al., Mask R-CNN, ICCV 2017.

3. تجزئة الكائنات مقابل التجزئة الدلالية

التجزئة الدلالية تصنف كل بكسل حسب الفئة ("بكسل أرز"، "بكسل دجاج") ولكن لا تعدد الكائنات. تجزئة الكائنات تفصل بين صدور الدجاج إلى كائن 1 وكائن 2. لتتبع السعرات الحرارية، تعتبر تجزئة الكائنات ضرورية لحساب عدد كرات اللحم، وصفار البيض، أو الزلابية. التجزئة الدلالية أرخص وكافية للقطات الحصة الواحدة. معظم التطبيقات الإنتاجية لعام 2026 تستخدم تجزئة الكائنات للأطباق وتعود إلى التجزئة الدلالية للقطات القريبة. عادةً ما تكون IoU في مهام الكائنات أقل بـ 5–10 نقاط من التجزئة الدلالية.

4. التعلم بالنقل من ImageNet وFood-101

ما تفعله: بدلاً من التدريب من الصفر، تبدأ نماذج الطعام من أوزان مدربة مسبقًا على ImageNet (14 مليون صورة عامة) وتعدل على Food-101 (101,000 صورة طعام، 101 فئة) أو مجموعات بيانات الطعام الخاصة التي تضم أكثر من 10 مليون صورة. لماذا يهم: يؤدي تعديل ResNet المدرب مسبقًا على Food-101 إلى التقارب 10–50 مرة أسرع ويحقق دقة أعلى من التهيئة العشوائية. مثال: تقوم Nutrola بتعديل العمود الفقري المدرب مسبقًا على ImageNet على مجموعة داخلية تحتوي على 2 مليون صورة بالإضافة إلى Food-101. البحث: Deng et al., ImageNet, CVPR 2009. Bossard et al., Food-101, ECCV 2014.

5. محولات الرؤية (ViT)

ما تفعله: بديل لـ CNNs — تقسم الصورة إلى قطع 16×16، وتعامل كل واحدة كرمز، وتطبق الانتباه الذاتي. تلتقط الاعتماديات بعيدة المدى التي تفوتها CNNs. الهيكل الرئيسي: ViT-B/16، Swin Transformer، DeiT. مثال: ViT-L/16 المدرب مسبقًا على JFT-300M والمعدل على Food2K يصل إلى 91%+ في أعلى تصنيف على التعرف على الطعام — متفوقًا على CNNs في الأطباق المختلطة المعقدة. التجارة: تتطلب ViTs بيانات كثيرة وتكون أبطأ في الاستدلال من CNNs المحسنة للهواتف المحمولة. البحث: Dosovitskiy et al., An Image Is Worth 16×16 Words, ICLR 2021.

6. التصنيف متعدد التسميات

ما تفعله: تختار المصنفات القياسية تسمية واحدة؛ بينما تنتج المصنفات متعددة التسميات احتمالات مستقلة لكل فئة، مما يمكّن من "بيتزا و سلطة و مشروب" في صورة واحدة. تستخدم مخرجات sigmoid بدلاً من softmax، وخسارة الانتروبيا الثنائية. مثال: تُحفز صينية غداء مصورة من الأعلى إيجابيات متزامنة للسندويشات، والبطاطس، والمخلل، والمشروبات. مقياس الدقة: متوسط الدقة الشاملة (mAP). تصل نماذج الطعام متعددة التسميات في الإنتاج إلى mAP 0.75–0.85. لماذا يهم: بدون التصنيف متعدد التسميات، يُجبر التطبيق على اختيار العنصر السائد ويفوت الأطعمة المرافقة.

الفئة 2: تقدير العمق والحجم

7. تقدير العمق الأحادي

ما تفعله: يتنبأ بخريطة العمق من صورة RGB واحدة — لا حاجة لكاميرا ثانية. يستخدم التدريب الذاتي على تسلسلات الفيديو أو التدريب الخاضع للإشراف على مجموعات بيانات مصنفة بواسطة LiDAR. النماذج الرئيسية: MiDaS v3، DPT (Dense Prediction Transformer)، ZoeDepth، Depth Anything v2. مثال: يلتقط المستخدم صورة واحدة لوعاء؛ يقدر النموذج الأحادي العمق النسبي لكل بكسل، مما يمكّن من حساب الحجم بمجرد معرفة مقياس مرجعي. الدقة: خطأ AbsRel ~0.08–0.12 على المعايير الداخلية؛ جيد بما يكفي لتقديرات الحجم ±20% عند دمجه مع الكائنات المرجعية. البحث: Ranftl et al., Towards Robust Monocular Depth Estimation, TPAMI 2020.

8. العمق الاستريو

ما تفعله: عندما يحتوي الجهاز على كاميرتين (أو يأخذ المستخدم صورتين من زوايا مختلفة قليلاً)، يحسب المطابقة الاستريو خرائط التباين التي تعطي عمقًا مطلقًا. الخوارزمية: المطابقة شبه العالمية (SGM) أو الشبكات العميقة الاستريو مثل RAFT-Stereo. مثال: يمكن أن تُحفز الهواتف الذكية ذات الكاميرتين العمق الاستريو لأجزاء الطعام دون الحاجة إلى LiDAR. الدقة: دقة عمق دون السنتيمتر في نطاقات مسافة الطبق.

9. استشعار العمق LiDAR

ما تفعله: تحتوي أجهزة iPhone Pro (من 12 فصاعدًا) وiPad Pro على LiDAR الذي يقيس مباشرةً المسافة الزمنية لكل نقطة، مما ينتج خريطة عمق بجودة الحقيقة الأرضية. مثال: على الأجهزة المزودة بـ LiDAR، تقوم Nutrola بدمج عمق LiDAR مع تجزئة RGB للحصول على أدق تقدير للحصة المتاحة على الأجهزة الاستهلاكية. الدقة: عادةً ما يكون خطأ العمق أقل من 5 مم عند مدى 1 متر. التجارة: فقط ~20% من مستخدمي الهواتف الذكية لديهم LiDAR، لذا يجب أن تتدهور التطبيقات بشكل سلس إلى الأحادي.

10. معايرة الكائن المرجعي

ما تفعله: تحول إحداثيات البكسل إلى سنتيمترات في العالم الحقيقي باستخدام كائن معروف الحجم في الإطار. الكائنات المرجعية المستخدمة: بطاقة ائتمان (85.6 × 53.98 مم)، يد المستخدم (معايرة مرة واحدة)، طبق بقطر معروف، أداة، الهاتف نفسه عند استخدام مرآة. الخوارزمية: تقدير وضع اليد (MediaPipe Hands) يوفر نقاط رئيسية؛ يكشف كشف الطبق عن بيضاوي تشير محاوره إلى مقياس المنظور. مثال: تطلب Nutrola معايرة يد لمرة واحدة — بعد ذلك، يتم قياس أي صورة تظهر فيها يد المستخدم تلقائيًا.

11. إعادة بناء ثلاثية الأبعاد من زوايا متعددة

ما تفعله: تقنيات مستمدة من NeRF وGaussian-splatting تعيد بناء شبكة ثلاثية الأبعاد كاملة لطبق من 3–5 صور من زوايا مختلفة. مثال: تقدم التطبيقات المتميزة وضع "مسح حول الطبق" الذي يبني شبكة ويجمع الحجم مباشرة. الدقة: <10% خطأ في الحجم على الأطعمة الصلبة؛ تواجه صعوبة مع العناصر الشفافة أو اللامعة. البحث: Mildenhall et al., NeRF, ECCV 2020.

12. نماذج انحدار حجم الحصة

ما تفعله: تأخذ (تقدير الحجم، فئة الطعام، كثافة سابقة) وتنتج جرامات متوقعة. غالبًا ما تكون شجرة معززة أو MLP صغيرة. لماذا الانحدار تحديدًا: العلاقة بين الحجم البصري والكتلة الفعلية تختلف حسب نوع الطعام (الخس هو في الغالب هواء؛ الأرز يتكدس بكثافة)، لذا فإن نموذجًا متعلمًا يتفوق على الحجم × كثافة ثابتة. الدقة: متوسط نسبة الخطأ المطلق 15–25% على الأطعمة غير المرئية.

الفئة 3: معالجة اللغة الطبيعية

13. تحويل الصوت إلى نص لتسجيل الطعام

ما تفعله: يحول العبارات المنطوقة ("بيضتان مخفوقتان مع خبز محمص") إلى نص. النماذج الرئيسية: Whisper-large-v3، Apple Speech، Google Speech-to-Text. مثال: تقدم Nutrola تسجيلًا بدون استخدام اليدين؛ يتحدث المستخدم أثناء الطهي ويتغذى النص على خط NER. الدقة: يحقق Whisper حوالي 5% WER على الكلام الإنجليزي النظيف؛ يتدهور مع اللهجات والمطابخ المزدحمة. البحث: Radford et al., Robust Speech Recognition via Large-Scale Weak Supervision, OpenAI 2022.

14. التعرف على الكيانات المسماة (NER) لتحديد الطعام

ما تفعله: يضع علامات على أجزاء النص بتسميات دلالية (طعام، كمية، وحدة). النماذج الرئيسية: BERT-base المعدل على مجموعات بيانات NER للطعام؛ خطوط أنابيب مخصصة من spaCy. مثال: الإدخال "نصف كوب من الشوفان مع الحليب وموزة" → {الكمية: 0.5، الوحدة: كوب، الطعام: شوفان}، {الطعام: حليب}، {الكمية: 1، الطعام: موزة}. الدقة: درجات F1 من 0.88–0.93 على سجلات الطعام في المجال. البحث: Devlin et al., BERT, arXiv 2018.

15. تصنيف النية

ما تفعله: يوجه عبارة المستخدم إلى الإجراء الصحيح: إضافة، تعديل، حذف، استعلام. مثال: "غير بيض الإفطار إلى ثلاثة" → نية تعديل؛ "كم عدد الكربوهيدرات اليوم؟" → نية استعلام؛ "أضف قهوة" → نية إضافة. الهيكل: عادةً ما يكون BERT مصغرًا صغيرًا أو الآن استدعاء LLM رخيص. الدقة: 95%+ ضمن تصنيف نية محدد جيدًا.

16. تحليل المكونات من نص الوصفة

ما تفعله: تفكك فقرات الوصفة الحرة إلى قوائم مكونات منظمة مع الكميات، ثم إلى ماكرو لكل حصة. الخوارزمية: Seq2seq transformer أو وظيفة LLM. مثال: تصبح وصفة ملصقة {مكرونة: 100 جرام، زيت زيتون: 15 مل، ثوم: 2 فص، ...}، ثم يتم قياسها لكل حصة. لماذا يهم: تعتبر الوجبات المطبوخة في المنزل أصعب فئة لمتعقبي الذكاء الاصطناعي — تحليل الوصفات يجسر الفجوة.

17. تحويل الوحدات

ما تفعله: يترجم الوحدات الغامضة أو العامية إلى جرامات أو مليلترات. أمثلة: 1 كوب من الأرز غير المطبوخ → 185 جرام؛ "حفنة من اللوز" → 30 جرام؛ "تفاحة صغيرة" → 150 جرام. الخوارزمية: جداول بحث للوحدات الرسمية؛ انحدار متعلم أو LLM مع ربط للوحدات العامية. ملاحظة: تحويل الوحدات هو المكان الذي تقدم فيه العديد من التطبيقات "الذكاء الاصطناعي" معظم أخطائها سرًا. تستخدم Nutrola جداول تحويل قائمة على USDA.

الفئة 4: نماذج اللغة الكبيرة (LLMs) في 2026

18. فهم وصف الوجبات المعتمد على LLM

ما تفعله: يحلل أوصاف الوجبات المعقدة والطبيعية وغير المنظمة التي تتفوق على NER القائم على القواعد. مثال: "تناولت بقايا دجاج مقلي مع حوالي ثلث الأرز من الأمس." يفهم LLM الكميات النسبية، والبقايا، والإشارات الضمنية. فئة النموذج: GPT-4o، Claude، Llama 3.1-70B مفتوح المصدر. الفائدة: يتعامل مع 15–20% من السجلات التي تفشل فيها NER التقليدية.

19. نماذج LLM متعددة الوسائط (صورة + نص مجتمعة)

ما تفعله: نموذج واحد يستهلك كل من الرموز النصية والصورية ويستنتج بشكل مشترك. مثال: يأخذ المستخدم صورة ويقول "هذه هي الحصة التي تناولتها، وليس الكمية الكاملة" — يقوم LLM متعدد الوسائط بتصحيح التقدير بشكل صحيح. فئة النموذج: GPT-4o، Claude Sonnet، Gemini 2. لماذا يهم: لا تستطيع الأنظمة التقليدية دمج التصحيح للصورة + السياق؛ يمكن لنماذج LLM متعددة الوسائط القيام بذلك.

20. اقتراحات الوجبات الشخصية عبر RAG

ما تفعله: استرجاع معزز للتوليد: يسترجع LLM سجلات المستخدم الأخيرة، والتفضيلات، والأهداف قبل توليد اقتراح للوجبة. مثال: "اقترح عشاء أقل من 600 كيلو كالوري باستخدام ما تناولته هذا الأسبوع" يسترجع آخر 7 أيام للمستخدم، ويقوم بتصفية التنوع، ويقترح وصفات. لماذا RAG يتفوق على التعديل: تتغير بيانات المستخدم يوميًا؛ يحافظ الاسترجاع على اقتراحات جديدة دون الحاجة إلى إعادة التدريب.

21. أسئلة وأجوبة غذائية مدعومة بـ LLM داخل التطبيقات

ما تفعله: إجابات حوارية على أسئلة مثل "كم من الدهون المشبعة تناولت هذا الأسبوع؟" أو "ما هو وجبة خفيفة نباتية عالية البروتين أقل من 200 كيلو كالوري؟" حواجز الأمان: يعتمد LLM الخاص بـ Nutrola على بيانات USDA وسجلات المستخدم الخاصة — لا يمكنه اختلاق قيم السعرات الحرارية. يتم توجيه الأسئلة الطبية إلى محترفين مرخصين. القيود: تتخيل نماذج LLM الخام القيم الماكرو 10–15% من الوقت؛ يقلل الاسترجاع المدعوم من ذلك إلى أقل من 1%.

الفئة 5: التوصية والتخصيص

22. الترشيح التعاوني لاقتراحات الطعام

ما تفعله: "المستخدمون الذين يشبهونك سجلوا أيضًا هذه الأطعمة." الخوارزمية: تحليل المصفوفة (SVD، ALS) أو الترشيح التعاوني العصبي. مثال: المستخدم الذي يسجل وجبات على الطراز المتوسطي يحصل على اقتراحات للسلطات بالجبن المشوي والأسماك المشوية من أنماط المستخدمين المشابهين. المقياس: Recall@10 على السجلات المحجوزة.

23. التوصيات المستندة إلى المحتوى

ما تفعله: يوصي بالأطعمة المتشابهة في الماكرو، والميكرو، أو الفئة لتلك التي يحبها المستخدم بالفعل. مثال: يحب الزبادي اليوناني → يقترح skyr، kefir، جبن قريش. مجمعة مع الترشيح التعاوني: تتفوق أنظمة التوصية الهجينة على أي تقنية بمفردها.

24. تعلم التعزيز لدفع السلوكيات

ما تفعله: يتعلم متى وكيف يرسل تذكيرات لتعظيم تفاعل المستخدم دون إزعاج. الخوارزمية: Bandits السياقية (LinUCB، Thompson sampling) أو RL الكامل مع تحسين السياسة القريب. مثال: يتعلم نظام الدفع الخاص بـ Nutrola أن مستخدمًا معينًا يستجيب بشكل أفضل لتذكيرات الساعة 2 ظهرًا من تلك التي تأتي في الصباح، وأن الإطار التحفيزي يتفوق على الإطار المحايد بالنسبة لهم. البحث: Silver et al., A General Reinforcement Learning Algorithm That Masters Chess, Shogi, and Go Through Self-Play, Science 2018.

25. تحديد الأهداف الشخصية عبر ML

ما تفعله: يحسب أهداف السعرات الحرارية والماكرو اليومية من عمر المستخدم، والجنس، والوزن، والنشاط، والهدف، و— بشكل حاسم — الالتزام الملحوظ. التقليدي: معادلة Mifflin-St Jeor + عجز ثابت. النهج ML: يتعلم من مسار وزن المستخدم الخاص لاستنتاج TDEE الحقيقي (معدل الاستهلاك اليومي الكلي) بدلاً من TDEE المفترض.

الفئة 6: اكتشاف الأنماط والتحليلات

26. تحليل السلاسل الزمنية لميول الوزن

ما تفعله: يخفف البيانات اليومية المزعجة للوزن إلى ميول ذات مغزى. الخوارزميات: المتوسط المتحرك الموزون أسي، مرشحات كالمان، LSTM، محولات الاندماج الزمني. مثال: يتأرجح وزن المستخدم اليومي ±1.5 كجم بسبب الماء والجليكوجين؛ يستخرج النموذج ميل الاتجاه الحقيقي للتنبؤ.

27. اكتشاف الشذوذ (أنماط الأكل غير العادية)

ما تفعله: يرفع العلم عن التغييرات المفاجئة في المدخول — يوم فائض 2000 كيلو كالوري، سلسلة تخطي الإفطار، نمط الإفراط في الأكل. الخوارزميات: Isolation Forest، autoencoders، التحليل الموسمي. ملاحظة أخلاقية: تظهر Nutrola الأنماط بشكل غير حكم وتستخدم اكتشاف الشذوذ أبدًا للإشعارات العقابية.

28. تجميع السلوكيات

ما تفعله: يجمع المستخدمين حسب أنماط الأكل — متجولون في عطلة نهاية الأسبوع، عمال نوبات، آكلون في وقت مبكر من المساء، صائمون متقطعون. الخوارزمية: K-means، DBSCAN، مزيج غاوسي على ميزات مصممة (تباين وقت الوجبة، دلتا عطلة نهاية الأسبوع، توزيع الماكرو). الاستخدام: نصائح مستهدفة ومنهجية — يحصل المستخدم الذي يتجول في عطلة نهاية الأسبوع على محتوى تخطيط مساء الجمعة، وليس نصائح عامة.

29. توقع الهضبة عبر ML

ما تفعله: يتنبأ ما إذا كانت فترة توقف فقدان الوزن هي احتباس الماء، أو تكيف حقيقي، أو تباطؤ الأيض الناتج عن نقص التغذية. الميزات: ميل الاتجاه، تباين الالتزام، النوم، النشاط، مرحلة الدورة (إذا تم مشاركتها). الإخراج: تدخل موصى به (إعادة تغذية، تعديل العجز، صبر).

30. تسجيل تشكيل العادات

ما تفعله: يقيم مدى "تأقلم" سلوك ما — تسجيل يومي في نفس الوقت على مدار 40+ يومًا يسجل أعلى من الاستخدام المتقطع. الخوارزمية: تحليل البقاء أو الانحدار اللوجستي على ميزات التتابع والاتساق. الغرض: يوجه متى يتم تقليل التذكيرات (تكون العادة قد تشكلت) أو زيادة الدعم (في خطر التتابع).

الفئة 7: بيانات وقاعدة بيانات ML

31. حل الكيانات (مطابقة المنتجات المعروفة)

ما تفعله: يحل أن "Coca-Cola 330ml"، و"Coke Can"، و"CC 330" هي نفس SKU عبر قواعد البيانات. الخوارزمية: تضمينات BERT المتماثلة، المطابقة الضبابية، الحظر + التصنيف الثنائي. النطاق: تتعامل تطبيقات السعرات الحرارية الإنتاجية مع أكثر من 10 مليون منتج مع تحديثات يومية.

32. مطابقة أسماء الطعام عبر اللغات

ما تفعله: يربط "pollo a la plancha" ↔ "صدر دجاج مشوي" ↔ "Hähnchenbrust gegrillt" إلى إدخال موحد واحد. الخوارزمية: محولات الجمل متعددة اللغات (LaBSE، mE5) للتضمين الدلالي + المحاذاة الخاضعة للإشراف. لماذا يهم: تخدم Nutrola المستخدمين بأكثر من 10 لغات من رسم بياني موحد معتمد من USDA.

33. OCR لملصقات التغذية

ما تفعله: يستخرج الحقائق الغذائية المنظمة من صورة الملصق. الخوارزمية: الكشف (CRAFT، DB-Net) + التعرف (Transformer OCR، TrOCR) + استخراج قائم على القواعد. الدقة: 95%+ على الملصقات الواضحة؛ تنخفض بشكل حاد على التعبئة المنحنية أو ذات الإضاءة المنخفضة.

34. الرسوم البيانية المعرفية لعلاقات الطعام

ما تفعله: يمثل الأطعمة وعلاقاتها — "خبز القمح الكامل" هو "خبز"، يحتوي على "دقيق القمح"، بديل لـ "العجين المخمر"، اقتران شائع مع "زبدة". الخوارزمية: الشبكات العصبية الرسومية (GNN) على كيانات USDA + OpenFoodFacts المنسقة. الاستخدام: يمكّن اقتراحات الاستبدال، وتجميع المكونات، والبحث الأفضل.

Food-101 وتاريخ التعرف على صور الطعام

تبدأ الحقبة الحديثة من التعرف على صور الطعام في عام 2014 مع مجموعة بيانات Food-101 التي قدمها Bossard وGuillaumin وVan Gool في ECCV. تحتوي Food-101 على 101,000 صورة عبر 101 فئة غذائية — 1,000 لكل فئة — تم جمعها من foodspotting.com وتركها عمدًا صاخبة في تقسيم التدريب. تظل الأكثر استشهادًا كمعيار للتعرف على الطعام في الأدبيات الأكاديمية والهدف الافتراضي للتعديل على الهياكل الجديدة.

قبل Food-101، اعتمدت أبحاث التعرف على الطعام على مجموعات بيانات صغيرة مثل UEC-FOOD-100 (الأطباق اليابانية) وPFID (الوجبات السريعة). كانت الدقة على هذه المجموعات الضيقة مرتفعة لكن النماذج فشلت في التعميم. أجبرت نطاقات Food-101 و تنوعها النماذج على تعلم ميزات قوية حقًا.

في عامي 2015 و2016، مع توفر ResNet وInception، ارتفعت دقة Food-101 من 56% (غابات عشوائية Bossard الأصلية 2014 + SVM) إلى 77% (Inception-v3) إلى 87% (EfficientNet-B7). وسعت مجموعة بيانات UPMC-Food-101 التي قدمها Chen et al. المجموعة مع نصوص الوصفات المقترنة، مما مكن من العمل متعدد الوسائط المبكر.

أحضر العقد 2020 مجموعات بيانات أكبر. وسعت Food2K من ETH Zurich (2021) إلى 2,000 فئة وأكثر من مليون صورة، كاشفة أن الارتباكات الدقيقة لـ Food-101 (كعكة الشوكولاتة مقابل البراوني، الفطائر مقابل الكريب) تتعمق في مشكلات ذيل طويل أكثر صعوبة. في عام 2022، نشر Papadopoulos et al. ورقة في Nature Communications تظهر أن أساليب التعرف على الطعام بالتعلم العميق تصل إلى دقة خبراء البشر على الأطباق المختلطة عند دمجها مع تقدير الحصة.

بالتوازي مع مجموعات بيانات الصور، نمت قواعد بيانات التغذية. تظل قاعدة بيانات USDA FoodData Central (سابقًا SR Legacy وFNDDS) هي المرجع الذهبي للماكرو في الولايات المتحدة؛ بينما تخدم EFSA وCIQUAL (فرنسا) وBEDCA (إسبانيا) أوروبا. تجاوزت Open Food Facts — قاعدة بيانات باركود قائمة على الحشود — 3 ملايين منتج في عام 2024. تقوم التطبيقات الحديثة مثل Nutrola بتجميع هذه المصادر عبر حل الكيانات في رسم بياني موحد مع USDA كمرجع موثوق للماكرو.

كيف يعمل تقدير الحصة بالذكاء الاصطناعي

يعد تقدير الحصة أصعب مشكلة في تتبع السعرات الحرارية بالذكاء الاصطناعي — أصعب من التصنيف. إليك سلسلة العمليات الكاملة التي يقوم بها تطبيق حديث على صورة واحدة:

الخطوة 1 — التجزئة. تتم معالجة الصورة أولاً بواسطة نموذج تجزئة الكائنات (Mask R-CNN أو شبكة مشتقة من SAM معدلة على الطعام). الناتج هو مجموعة من الأقنعة الثنائية، واحدة لكل عنصر غذائي، بالإضافة إلى تصنيف فئة لكل قناع. يصبح طبق من السباغيتي وكرات اللحم قناعان: "سباغيتي" و"كرات اللحم" (ربما ثلاثة، إذا كانت تجزئة الكائنات تفصل بين كرتين من اللحم).

الخطوة 2 — كشف الكائن المرجعي. بالتوازي، يبحث التطبيق في الإطار عن مراجع الحجم: طبق عشاء (معايير قطر معروفة حسب المنطقة)، بطاقة ائتمان، يد المستخدم (مع أبعاد تم معايرتها مرة واحدة)، أو أداة. توفر نماذج وضع اليد مثل MediaPipe Hands 21 نقطة رئيسية لكل يد، مما يسمح بدقة دون السنتيمتر على عرض الفالانكس. بدون مرجع، لا يمكن للتطبيق تحويل البكسلات إلى سنتيمترات ويتراجع إلى حصص متوسطية للفئة.

الخطوة 3 — استنتاج المقياس من البكسل إلى العالم الحقيقي. بالنظر إلى الحجم المعروف للكائن المرجعي وأبعاده البكسلية، يحسب التطبيق نسبة البكسلات لكل سنتيمتر. بالنسبة للمراجع غير المستوية، تصحح تحويلات الهوموغرافيا ميل الكاميرا والمنظور. على iPhone Pro / iPad Pro، يوفر LiDAR عمقًا مطلقًا عند كل بكسل ويتجاوز الحاجة إلى الكائن المرجعي تمامًا.

الخطوة 4 — تقدير الحجم. يتم دمج كل قناع غذائي مع خريطة العمق لإعادة بناء حجم ثلاثي الأبعاد. بالنسبة للعناصر المسطحة (شريحة خبز)، يكون العمق قريبًا من الثبات. بالنسبة للعناصر المكدسة (الأرز، البطاطا المهروسة)، يملأ شكل سابق تم تعلمه من بيانات التدريب الجزء غير المرئي. الناتج لكل قناع هو حجم تقديري بالسنتيمتر المكعب.

الخطوة 5 — بحث الكثافة. يتم ربط كل فئة غذائية بكثافة بالجرام/سم³ — الأرز ~0.78، الخس ~0.15، صدر الدجاج ~1.05، زيت الزيتون ~0.92. يتم الحصول على الكثافات من جداول كثافة USDA والأدبيات العلمية الغذائية التي تمت مراجعتها من قبل الأقران. تتعامل قاعدة المعرفة مع الحالات الخاصة: الأرز المطبوخ مقابل الأرز النيء، التونة المصفاة مقابل المعبأة في الزيت.

الخطوة 6 — مخرجات الوزن. الحجم × الكثافة = جرامات. الجرامات × الماكروز لكل جرام من إدخال USDA = الأرقام النهائية للسعرات الحرارية والماكرو. تتدفق هذه مرة أخرى إلى السجل.

تبلغ إجمالي زمن العملية على هاتف رائد في عام 2024: 300–700 مللي ثانية. تختلف الدقة حسب نوع الطعام — تصل الأطعمة الصلبة والمستقلة (التفاح، البيض) إلى ±10%؛ بينما تصل الأطعمة اللينة أو المكدسة (الحساء، الآيس كريم) إلى ±25%. تظل السوائل الشفافة والعناصر المكدسة هي أصعب أنماط الفشل.

معايير الدقة: ماذا تظهر الأبحاث

تطورت الأدبيات الأكاديمية حول دقة تتبع السعرات الحرارية بالذكاء الاصطناعي بشكل كبير منذ عام 2020. أجرت دراسة تحليلية بواسطة Papadopoulos et al. (2022، Nature Communications) تلخيص 38 دراسة وأبلغت عن نطاقات التوافق التالية:

  • التعرف على فئة الطعام: 85–95% دقة في أعلى تصنيف على صور الأطباق المختلطة في إضاءة واقعية. عادةً ما تتجاوز دقة أعلى 5% 95%، مما يعني أن التسمية الصحيحة تكون بين الخمسة اقتراحات تقريبًا دائمًا.
  • دقة حجم الحصة: 65–80% من التقديرات تقع ضمن 20% من الوزن الحقيقي. متوسط نسبة الخطأ المطلق حوالي 15–25%.
  • دقة السعرات الحرارية الإجمالية لكل وجبة: ±15–25% لتسجيل الصور فقط، مع هيمنة الخطأ على تقدير الحصة، وليس التصنيف.

تتطابق هذه الأرقام أو تتجاوز الخط الأساسي التاريخي من Martin et al.، 2012، American Journal of Clinical Nutrition، الذي قدم "طريقة تصوير الطعام عن بُعد" (RFPM). في RFPM، قام المستخدمون بتصوير وجباتهم وقام أخصائيو التغذية المدربون بتقدير السعرات الحرارية من الصور — محققين ±6.6% خطأ في المتوسط. لقد وصلت الذكاء الاصطناعي الحديث الآن إلى مستوى تقديرات البشر المدربين وتفوقت على المستخدمين غير المدربين (الذين يخطئون بنسبة 30–50% في المدخول المبلغ عنه ذاتيًا).

من المهم أن تتفوق تسجيلات الصور بالذكاء الاصطناعي بشكل كبير على تسجيلات الإدخال اليدوي التقليدية في العالم الحقيقي — ليس لأن الذكاء الاصطناعي أكثر دقة في كل وجبة، ولكن لأن المستخدمين يسجلون المزيد من الوجبات عندما تكون المقاومة صورة واحدة. وجدت دراسة في عام 2023 في JMIR أن تطبيقات تسجيل الصور حققت التزامًا أعلى بمقدار 3.2 مرة مقارنة بتطبيقات الإدخال اليدوي على مدى 8 أسابيع. تعتبر دقة كل وجبة نصف المعادلة فقط؛ بينما تعتبر اكتمال التسجيل النصف الآخر، ويتفوق الذكاء الاصطناعي في ذلك.

تنشر Nutrola أرقام دقتها الداخلية لكل فئة في وثيقة منهجيتها وتتحقق من كل مخرجات الذكاء الاصطناعي مقابل إدخال معتمد من USDA — تصل النظام المشترك إلى >95% دقة السعرات الحرارية على مستوى التجميع الأسبوعي.

نماذج LLM في تطبيقات التغذية (الجديد في 2024-2026)

لقد حولت نماذج اللغة الكبيرة تطبيقات التغذية في الـ 24 شهرًا الماضية. قبل عام 2023، اعتمد تسجيل الطعام باللغة الطبيعية على خطوط أنابيب NER صارمة تفشل في أي شيء إبداعي ("تناولت الشيء من ذلك المكان بالقرب من مكتبي"). غيرت نماذج GPT-4 متعددة الوسائط هذا.

الإدخال متعدد الوسائط. الآن يستهلك نموذج واحد كل من الصورة وأي نص مرفق. يمكن للمستخدم تصوير طبق وإضافة "لكنني تناولت نصفه فقط وتخطيت الجبنة" — يقوم LLM بتصحيح التقدير بشكل صحيح دون الحاجة إلى واجهة تصحيح منظمة من التطبيق.

استفسارات اللغة الطبيعية. "ماذا تناولت هذا الأسبوع؟" "كم من الحديد أتناوله في المتوسط؟" "اقترح عشاء باستخدام ما سجلته فقط أمس." هذه مستحيلة مع التطبيقات التقليدية المدعومة بـ SQL بدون واجهات متخصصة لكل استفسار؛ يتعامل LLM المدعوم مع كل ذلك من خلال استرجاع معزز للتوليد عبر قاعدة بيانات سجلات المستخدم.

تحليل الوصفة. بالنظر إلى وصفة منزلية ملصقة كنص حر، يقوم LLM باستخراج المكونات، ويربطها بإدخالات USDA، ويقيسها حسب الحصص، ويحسب الماكرو لكل حصة. كان تطبيق من عصر 2022 يحتاج إلى 10–20 دقيقة من إدخال المكونات اليدوي؛ بينما يقوم تطبيق من عام 2026 بذلك في 10 ثوانٍ.

رؤى حوارية. يمكن للمستخدمين أن يسألوا "لماذا توقفت الأسبوع الماضي؟" ويتلقون إجابة مدعومة تشير إلى مدخولهم الفعلي، واتجاه الوزن، والنشاط — وليس نصائح عامة.

القيود والمخاطر. تتخيل نماذج LLM الخام القيم الغذائية. عند السؤال بشكل عابر، قد يدعي GPT-4 بثقة أن طعامًا يحتوي على 400 كيلو كالوري بينما القيمة الحقيقية هي 250. LLM الخاص بـ Nutrola هو مدعوم — لا يمكنه إصدار رقم سعرات حرارية غير مدعوم بإدخال من USDA. المخاطر المتعلقة بالنصوص النوعية هي أصغر ولكنها حقيقية؛ تمر جميع مخرجات LLM في Nutrola عبر فلتر أمان يمنع المطالبات الطبية ويوجه إلى محترفين مرخصين. يتم فرض الخصوصية عبر استنتاج على الجهاز للـ NER الأساسي والنية، مع استدعاءات LLM الأكبر التي يتم إخفاء هويتها وعدم الاحتفاظ بها للتدريب.

دقة الذكاء الاصطناعي مقابل قاعدة البيانات الموثوقة

تصل تسجيلات الصور بالذكاء الاصطناعي إلى حوالي 85% دقة في المحاولة الأولى. عادةً ما يهيمن 15% المتبقية من الخطأ على نمطي فشل: (1) تصنيف الطعام الغامض ("هل هذه دجاجة تيكا أم دجاجة زبدة؟") و(2) قراءة خاطئة لحجم الحصة على الأطعمة اللينة/المكدسة.

كلا نمطي الفشل قابلان للإصلاح مع طبقة قاعدة بيانات موثوقة وتأكيد المستخدم بنقرة واحدة. إليك سير العمل المصحح الكامل:

  1. يعود الذكاء الاصطناعي بأفضل 3 مرشحين مع تقدير الحصة.
  2. ينقر المستخدم على الخيار الصحيح (أو يعدل الحصة).
  3. يتم ربط الإدخال المؤكد بسطر تغذية معتمد من USDA، وليس تقديرًا من الذكاء الاصطناعي.
  4. تغذي التصحيح مرة أخرى إلى طبقة تخصيص Nutrola — في المرة القادمة التي يصور فيها المستخدم طبقًا مشابهًا، تكون الثقة أعلى.

يدفع هذا الحلقة الهجينة دقة التجميع الأسبوعي من ~85% إلى 95%+. يتعامل الذكاء الاصطناعي مع السرعة والاكتشاف؛ تتعامل قاعدة البيانات الموثوقة مع الدقة؛ يتعامل المستخدم مع الغموض. أي تطبيق يتخطى واحدة من هذه الطبقات الثلاث سيكون متحيزًا بشكل منهجي في اتجاه واحد.

لهذا السبب تكون Nutrola واضحة بشأن كونها مدعومة بالذكاء الاصطناعي بدلاً من مدعومة بالذكاء الاصطناعي فقط — الذكاء الاصطناعي هو واجهة مستخدم فوق قاعدة بيانات تغذية منظمة بعناية، وليس بديلاً عنها.

مرجع الكيانات

الكيان التعريف
CNN شبكة عصبية تلافيفية — مرشحات متدرجة تستخرج الميزات البصرية بشكل هرمي
ResNet هيكل He et al. 2016 يستخدم اتصالات تخطي متبقية؛ مكن من تدريب الشبكات بأكثر من 50 طبقة
محول الرؤية (ViT) Dosovitskiy et al. 2021 — يطبق الانتباه الذاتي على قطع الصور، ينافس CNNs
Food-101 مجموعة بيانات Bossard et al. 2014 ECCV تحتوي على 101,000 صورة طعام عبر 101 فئة
تقدير العمق توقع المسافة لكل بكسل من الكاميرا؛ أحادي، استريو، أو قائم على LiDAR
LiDAR الكشف عن الضوء والمسافة — مستشعر عمق يعتمد على زمن الرحلة على iPhone Pro وiPad Pro
التعرف على الكيانات المسماة وضع علامات على أجزاء النص بتسميات دلالية (طعام، كمية، وحدة)
LLM متعدد الوسائط نموذج لغة كبير يستهلك كل من الصور والنصوص (GPT-4o، Claude، Gemini)
تعلم التعزيز تعلم السياسات المثلى من إشارات المكافأة على مدى الزمن
الترشيح التعاوني توصية بالعناصر بناءً على تفضيلات المستخدمين المشابهين
الرسم البياني المعرفي رسم بياني للكيانات والعلاقات يمكّن من التفكير في اتصالات الطعام

كيف يعمل نظام الذكاء الاصطناعي في Nutrola

ميزة Nutrola التقنية الأساسية للذكاء الاصطناعي
تسجيل الطعام بالصورة مصنف EfficientNet/ViT + تجزئة Mask R-CNN
تقدير الحصة عمق أحادي (من نوع MiDaS) + دمج LiDAR + معايرة الكائن المرجعي + رسم بياني كثافة الطعام
مسح الباركود كاشف باركود 1D/2D على الجهاز + حل كيانات Open Food Facts
تسجيل الصوت ASR من نوع Whisper + NER المستند إلى BERT + تحويل الوحدات
استيراد الوصفة تحليل المكونات المعتمد على LLM + ربط بـ USDA
أسئلة وأجوبة غذائية LLM متعدد الوسائط المدعوم (RAG عبر سجلات المستخدم + USDA)
اقتراحات الوجبات نظام هجين من الترشيح التعاوني + المستند إلى المحتوى + توقيت الدفع بتعلم التعزيز
توقعات اتجاه الوزن محول الاندماج الزمني على سلسلة الوزن اليومية
توقع الهضبة LSTM على الالتزام + الوزن + ميزات النشاط
اكتشاف الشذوذ Isolation Forest على متجه المدخول اليومي
بحث الطعام عبر اللغات محول جمل متعدد اللغات (LaBSE/mE5)
OCR لملصقات التغذية كشف DB-Net + التعرف TrOCR
استنتاج الخصوصية على الجهاز نماذج Core ML / TensorFlow Lite المكممة

الأسئلة الشائعة

س: هل تتبع السعرات الحرارية بالذكاء الاصطناعي دقيق؟
تحقق تسجيلات الصور بالذكاء الاصطناعي دقة 85–95% في تصنيف الطعام و65–80% في دقة حجم الحصة ضمن نطاق خطأ 20%. عند اقترانها بقاعدة بيانات USDA موثوقة وتأكيد المستخدم بنقرة واحدة — كما تفعل Nutrola — ترتفع دقة التجميع الأسبوعي فوق 95%، وهو ما يكفي لتحقيق نتائج حقيقية في إدارة الوزن.

س: كيف يقدر الذكاء الاصطناعي حجم الحصة؟
من خلال سلسلة عمليات من خمس خطوات: تجزئة الطعام، كشف كائن مرجعي أو استخدام LiDAR، حساب مقياس البكسلات إلى السنتيمترات، تقدير الحجم من خريطة العمق، ثم ضربها بكثافة محددة للطعام من رسم بياني معرفي للحصول على الجرامات.

س: ما الفرق بين CNN وViT؟
تستخدم CNNs مرشحات تلافيفية محلية وتكون سريعة على الأجهزة المحمولة؛ هيمنت على الفترة من 2012 إلى 2020. تقسم محولات الرؤية الصور إلى قطع وتطبق الانتباه الذاتي، مما يلتقط الاعتماديات بعيدة المدى التي تفوتها CNNs. غالبًا ما تفوز ViTs في الأطباق المختلطة المعقدة لكنها أبطأ في الاستدلال. تستخدم التطبيقات الحديثة الهجينة.

س: هل يتعلم الذكاء الاصطناعي من سجلاتي؟
في Nutrola، نعم — لكن فقط من أجل تخصيصك (تحديد الأهداف، التوصيات، توقيت الدفع). لا تُستخدم الصور والسجلات الخام لإعادة تدريب النماذج العالمية بدون موافقة صريحة. التعلم هو في الأساس محلي ومحدد للمستخدم.

س: هل يمكن أن تحل نماذج LLM محل أخصائيي التغذية؟
لا. تعتبر نماذج LLM ممتازة في استرجاع المعلومات، وتحليل الوصفات، وواجهة المستخدم الحوارية، لكنها لا يمكنها تشخيص أو وصف أو تقييم الحالات الطبية المعقدة. تقوم LLM الخاصة بـ Nutrola بتوجيه الأسئلة الطبية إلى محترفين مرخصين ولا تقدم أبدًا مطالبات سريرية.

س: هل بيانات صوري خاصة؟
تقوم Nutrola بإجراء استنتاجات الرؤية الأساسية على الجهاز حيثما كان ذلك ممكنًا، لذا فإن العديد من الصور لا تغادر هاتفك أبدًا. عندما تكون الاستنتاجات على الخادم مطلوبة (مثل استدعاءات LLM متعددة الوسائط)، يتم إخفاء البيانات، وعدم الاحتفاظ بها للتدريب، ومعالجتها تحت بنية متوافقة مع GDPR.

س: كيف يفهم تسجيل الصوت ما أقوله؟
يتم نسخ كلامك بواسطة نموذج ASR من نوع Whisper، ثم يتم تمريره إلى NER المستند إلى BERT الذي يضع علامات على الأطعمة، والكميات، والوحدات. تقوم تحويل الوحدات بتحديد "حفنة" أو "وعاء صغير" في معادلات جرامات قائمة على USDA. تعمل السلسلة الكاملة في حوالي ثانية واحدة.

س: لماذا تعطي تطبيقات الذكاء الاصطناعي المختلفة أعدادًا مختلفة من السعرات الحرارية؟
ثلاثة أسباب: (1) النماذج الأساسية المختلفة وبيانات التدريب تنتج تصنيفات مختلفة؛ (2) استراتيجيات تقدير الحصة المختلفة تؤدي إلى تقديرات جرام مختلفة؛ (3) قواعد بيانات التغذية الأساسية المختلفة تختلف في الماكروز لكل جرام. تتقارب التطبيقات المعتمدة على USDA مع إدخالات موثوقة (مثل Nutrola) ضمن بضع نقاط مئوية من القيمة الحقيقية؛ بينما يمكن أن تنحرف التطبيقات التي تستخدم الماكروز المقدرة بالذكاء الاصطناعي بدون مرجع قاعدة بيانات بنسبة 20% أو أكثر.

المراجع

  • Bossard, L., Guillaumin, M., & Van Gool, L. (2014). Food-101 — Mining Discriminative Components with Random Forests. ECCV 2014.
  • Martin, C. K., Han, H., Coulon, S. M., Allen, H. R., Champagne, C. M., & Anton, S. D. (2012). A novel method to remotely measure food intake of free-living individuals in real time: the remote food photography method. American Journal of Clinical Nutrition.
  • Papadopoulos, A., et al. (2022). Image-based dietary assessment using deep learning: a systematic review. Nature Communications.
  • He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep Residual Learning for Image Recognition. CVPR 2016.
  • Dosovitskiy, A., et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021.
  • Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805.
  • Silver, D., et al. (2018). A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play. Science, 362(6419).
  • Deng, J., Dong, W., Socher, R., Li, L. J., Li, K., & Fei-Fei, L. (2009). ImageNet: A Large-Scale Hierarchical Image Database. CVPR 2009.
  • Radford, A., et al. (2022). Robust Speech Recognition via Large-Scale Weak Supervision. OpenAI.
  • Ranftl, R., Lasinger, K., Hafner, D., Schindler, K., & Koltun, V. (2020). Towards Robust Monocular Depth Estimation. IEEE TPAMI.
  • He, K., Gkioxari, G., Dollár, P., & Girshick, R. (2017). Mask R-CNN. ICCV 2017.
  • Min, W., et al. (2021). Large Scale Visual Food Recognition (Food2K). ETH Zurich & partners.
  • USDA FoodData Central documentation.

لقد أصبحت مجموعة الذكاء الاصطناعي وراء تتبع السعرات الحرارية كثيفة وقادرة، وعندما تكون مؤطرة بشكل صحيح، دقيقة بما يكفي لتغيير السلوك الحقيقي. الفرق بين تطبيق يساعد وآخر ي frustrates عادةً ليس النموذج الأساسي؛ بل هو ما إذا كانت مخرجات الذكاء الاصطناعي قد تم التحقق منها مقابل قاعدة بيانات موثوقة وما إذا كانت تجربة المستخدم تحترم وقت المستخدم.

تأسست Nutrola على هذه الفلسفة بالضبط: أكثر من 20 نموذجًا من تعلم الآلة تعمل بالتوازي من أجل السرعة، وكل مخرج مؤطر في قاعدة بيانات تغذية موثوقة من USDA من أجل الدقة، وعدم وجود إعلانات، واستنتاج على الجهاز حيثما تتطلب الخصوصية ذلك. إذا كنت تريد ذكاءً اصطناعيًا يكسب ثقتك بدلاً من أن يطلبها، ابدأ مع Nutrola — 2.5 يورو شهريًا، ويعمل نظام الذكاء الاصطناعي الكامل الموثق أعلاه لصالحك من اليوم الأول.

مستعد لتحويل تتبع تغذيتك؟

انضم إلى الآلاف الذين حولوا رحلتهم الصحية مع Nutrola!