من مختبر البحث إلى هاتفك: الرؤية الحاسوبية وراء تقنيات التعرف على الطعام الحديثة
الذكاء الاصطناعي الذي يحدد غداءك بدأ كبحث أكاديمي. إليك رحلة التطور من إنجازات الرؤية الحاسوبية الأكاديمية إلى تقنية التعرف على الطعام في جيبك.
التقنية التي تتيح لك التقاط صورة لعشائك ورؤية تفاصيل السعرات الحرارية على الفور لم تظهر من فراغ. إنها نتاج عقود من الأبحاث الأكاديمية، والعديد من الأوراق المنشورة، وتدفق مستمر من الإنجازات في مجالات الرؤية الحاسوبية والتعلم العميق. ما بدأ كمشكلة بحثية متخصصة في مختبرات الجامعات أصبح ميزة يستخدمها الملايين يوميًا دون تفكير.
تتبع هذه المقالة الرحلة الكاملة للذكاء الاصطناعي في التعرف على الطعام، بدءًا من جذوره في الأبحاث الأساسية للرؤية الحاسوبية وصولاً إلى تحديد الطعام في الوقت الحقيقي على هاتفك. على طول الطريق، سنلقي نظرة على الأوراق الرئيسية، ومجموعات البيانات المرجعية، والتحديات المستمرة، والهندسة المطلوبة لتحويل نتائج المختبرات إلى منتج موثوق للمستهلكين.
الشرارة التي غيرت كل شيء: ImageNet وثورة التعلم العميق
لفهم كيفية عمل التعرف على الطعام اليوم، يجب أن تبدأ بمسابقة لم يكن لها علاقة بالطعام.
تحدي ImageNet للتعرف على الصور على نطاق واسع
في عام 2009، أصدرت فيفي لي وفريقها في جامعة ستانفورد مجموعة بيانات ImageNet، التي تحتوي على أكثر من 14 مليون صورة منظمة في أكثر من 20,000 فئة. طلب تحدي ImageNet للتعرف على الصور على نطاق واسع (ILSVRC) من الباحثين بناء أنظمة يمكنها تصنيف الصور إلى 1,000 فئة من الكائنات، من الطائرات إلى الحمار الوحشي. لعدة سنوات، استخدمت أفضل الأنظمة ميزات مصممة يدويًا وتقنيات تعلم آلي تقليدية، محققة معدلات خطأ في المراكز الخمسة الأولى تتراوح بين 25 إلى 28 بالمئة.
ثم جاء عام 2012.
دخل أليكس كريزيفسكي، وإيليا سوتسكي، وجيفري هينتون شبكة عصبية عميقة أطلقوا عليها اسم AlexNet. حققت معدل خطأ في المراكز الخمسة الأولى بلغ 15.3 بالمئة، متفوقة على المركز الثاني بأكثر من 10 نقاط مئوية. لم يكن هذا تحسينًا تدريجيًا، بل كان تحولًا جذريًا يشير إلى وصول التعلم العميق كنهج مهيمن في مجال الرؤية الحاسوبية.
تعتبر الورقة البحثية "تصنيف ImageNet باستخدام الشبكات العصبية التلافيفية العميقة" (Krizhevsky et al., 2012) واحدة من أكثر الأوراق استشهادًا بها في علوم الحاسوب. امتد تأثيرها إلى ما هو أبعد من تحدي ImageNet. بدأ الباحثون في كل فرع من فروع الرؤية الحاسوبية، بما في ذلك التعرف على الطعام، في استكشاف كيفية تطبيق الشبكات العصبية التلافيفية العميقة على مشاكلهم الخاصة.
لماذا كانت ImageNet 2012 مهمة للتعرف على الطعام
قبل AlexNet، اعتمدت أنظمة التعرف على الطعام على ميزات مصممة يدويًا: مثل مخططات الألوان، ووصف الملمس مثل الأنماط الثنائية المحلية (LBP)، وميزات الشكل المستخرجة باستخدام خوارزميات مثل SIFT (تحويل الميزات غير القابلة للتغيير). كانت هذه الطرق تعاني من صعوبة في التعميم. كانت الأنظمة المدربة على التعرف على البيتزا باستخدام ميزات اللون والملمس تفشل عند تقديم بيتزا تحتوي على مكونات غير مألوفة أو إضاءة غير عادية.
غيرت الشبكات العصبية التلافيفية العميقة المعادلة بشكل جذري. بدلاً من الحاجة إلى تعريف الباحثين يدويًا للميزات البصرية المهمة، تعلمت الشبكة الميزات التمييزية مباشرة من البيانات. وهذا يعني أنه مع وجود عدد كافٍ من صور التدريب، يمكن للشبكة العصبية التلافيفية أن تتعلم التعرف على الطعام في مجموعة واسعة من الظروف، متجاوزة التغيرات في الإضاءة، والزوايا، والتقديم، والإعداد التي قد تعيق الطرق المصممة يدويًا.
سلسلة من التحسينات: من 2013 إلى 2020
أنتجت السنوات التي تلت AlexNet سلسلة سريعة من الابتكارات المعمارية، كل منها يدفع الدقة إلى أعلى ويجعل النشر أكثر عملية:
| السنة | المعمارية | المساهمة الرئيسية | معدل خطأ ImageNet في المراكز الخمسة الأولى |
|---|---|---|---|
| 2012 | AlexNet | أثبتت فعالية الشبكات العصبية العميقة على نطاق واسع | 15.3% |
| 2014 | VGGNet | أظهرت أن العمق (16-19 طبقة) يحسن الدقة | 7.3% |
| 2014 | GoogLeNet (Inception) | استخراج ميزات متعددة المقاييس مع حساب فعال | 6.7% |
| 2015 | ResNet | اتصالات متبقية تتيح شبكات ب152 طبقة | 3.6% |
| 2017 | SENet | آليات انتباه القناة | 2.3% |
| 2019 | EfficientNet | التحجيم المركب لتحقيق توازن مثالي بين الدقة والكفاءة | 2.0% |
| 2020 | Vision Transformer (ViT) | تطبيق الانتباه الذاتي على أجزاء الصور | 1.8% |
تم اعتماد كل من هذه المعماريات بسرعة من قبل الباحثين في مجال التعرف على الطعام، الذين استخدموها كأعمدة لنماذج مخصصة للطعام.
مجموعة بيانات Food-101: توفير معيار مشترك للباحثين
يمكن لمصنفات الصور العامة المدربة على ImageNet تمييز البيتزا عن السيارة، لكن تمييز بيتزا مارغريتا عن بيتزا بيضاء يتطلب مستوى أعلى بكثير من التمييز البصري. كانت مجتمع أبحاث التعرف على الطعام بحاجة إلى مجموعة بيانات كبيرة خاصة بها.
بوسارد وآخرون وولادة Food-101
في عام 2014، نشر لوكاس بوسارد، وماثيو غيلاومين، ولوك فان غول من ETH زيورخ الورقة "Food-101 -- استخراج المكونات التمييزية باستخدام الغابات العشوائية" في المؤتمر الأوروبي للرؤية الحاسوبية (ECCV). قدموا مجموعة بيانات Food-101: 101,000 صورة تغطي 101 فئة غذائية، مع 1,000 صورة لكل فئة. تم جمع الصور عمدًا من مصادر حقيقية (Foodspotting، منصة اجتماعية لمشاركة الطعام) بدلاً من إعدادات المختبرات المسيطر عليها، مما يعني أنها تضمنت الضوضاء والتنوع والعيوب في صور الطعام الحقيقية.
أسست Food-101 معيارًا مشتركًا سمح للباحثين بمقارنة أساليبهم مباشرة. حققت الورقة الأصلية دقة 50.76 بالمئة في التصنيف باستخدام نهج الغابات العشوائية مع ميزات مصممة يدويًا. خلال عام واحد، كانت الأساليب القائمة على التعلم العميق تتجاوز 70 بالمئة. بحلول عام 2018، كانت النماذج المبنية على معماريات مثل Inception وResNet تتجاوز 90 بالمئة في دقة التصنيف على Food-101.
مجموعات بيانات غذائية أخرى مهمة
كانت Food-101 هي المعيار الأكثر استخدامًا، لكن مجتمع البحث أنتج عدة مجموعات بيانات أخرى دفعت المجال إلى الأمام:
UEC-Food100 وUEC-Food256 (2012، 2014): تم تطويرها من قبل جامعة الاتصالات الكهربائية في اليابان، وركزت هذه المجموعات على المأكولات اليابانية وقدمت تعليقات توضيحية لصناديق الحدود للكشف عن الأطعمة المتعددة. وسعت UEC-Food256 التغطية إلى 256 فئة تشمل العديد من المأكولات الآسيوية.
VIREO Food-172 (2016): أنشأتها جامعة مدينة هونغ كونغ، تضمنت هذه المجموعة 172 فئة من الطعام الصيني مع تعليقات توضيحية للمكونات، مما يمكّن البحث في التعرف على المكونات.
Nutrition5k (2021): طورتها أبحاث Google، هذه المجموعة ربطت صور الطعام مع قياسات غذائية دقيقة تم الحصول عليها باستخدام قياس السعرات الحرارية. مع 5,006 طبق طعام واقعي وعدد السعرات الحرارية المعتمدة في المختبر، قدمت Nutrition5k مجموعة بيانات حقيقية لتدريب وتقييم أنظمة تقدير الحصص.
Food2K (2021): معيار كبير يحتوي على 2,000 فئة غذائية وأكثر من مليون صورة، مصمم لدفع التعرف على الطعام نحو نطاق التعرف على الكائنات العامة.
MAFood-121 (2019): ركزت على التعرف على الطعام متعدد الصفات، بما في ذلك نوع المطبخ وطريقة الإعداد إلى جانب فئة الطعام، مما يعكس الحاجة الواقعية لفهم ليس فقط ما هو الطعام ولكن كيف تم إعداده.
كانت توفر هذه المجموعات البيانات أمرًا حيويًا. في التعلم الآلي، غالبًا ما تكون جودة وحجم بيانات التدريب أكثر أهمية من بنية النموذج. كل مجموعة بيانات جديدة وسعت نطاق الأطعمة والمأكولات والظروف البصرية التي يمكن للنماذج التعلم منها.
لماذا يعتبر الطعام أصعب من "الكشف عن الكائنات" العادي
اكتشف الباحثون العاملون في التعرف على الطعام بسرعة أن الطعام يقدم تحديات فريدة لا تنشأ في الكشف عن الكائنات العامة. فهم هذه التحديات يوضح لماذا قد يواجه نظام يمكنه التعرف بشكل موثوق على السيارات والكلاب والمباني صعوبة مع طبق من الطعام.
مشكلة التباين داخل الفئة
يبدو أن كلبًا من نوع "غولدن ريتريفر" هو نفسه سواء كان جالسًا أو يجري أو نائمًا. لكن السلطة يمكن أن تبدو كأي شيء تقريبًا. السلطة اليونانية، السلطة القيصرية، سلطة والدورف، وسلطة الكينوا بالكرنب تشترك في نفس تصنيف "السلطة" لكن ليس لديها أي شيء مشترك بصريًا. هذا التباين داخل الفئة شديد بالنسبة لفئات الطعام ويتجاوز بكثير ما تجده في معظم مهام التعرف على الكائنات.
من ناحية أخرى، فإن التشابه بين الفئات أيضًا مرتفع. يمكن أن يبدو وعاء من حساء الطماطم ووعاء من الكاري الأحمر متشابهين تقريبًا من الأعلى. تشترك الأرز المقلي والبلاوف في خصائص بصرية. قد يكون من الصعب التمييز بين بار البروتين والبراوني في صورة. الحدود البصرية بين فئات الطعام غالبًا ما تكون غير واضحة بطريقة لا تكون الحدود بين السيارات والشاحنات كذلك.
الطبيعة القابلة للتشويه للطعام
معظم الكائنات التي يتم تدريب أنظمة الرؤية الحاسوبية على التعرف عليها لها هيكل هندسي ثابت. الكرسي له أرجل ومقعد وظهر. بينما الطعام، بالمقابل، قابل للتشويه، وغير محدد، وغير متوقع في تقديمه البصري. لا يمتلك طبق من البطاطس المهروسة شكلًا ثابتًا. يمكن تقديم المعكرونة بعدد لا نهائي من التكوينات. حتى نفس الوصفة التي يعدها شخصان مختلفان يمكن أن تبدو مختلفة تمامًا.
تؤدي هذه القابلية للتشويه إلى أن الميزات المعتمدة على الشكل، والتي تكون قوية في الكشف عن الكائنات الصلبة، تساهم بشكل نسبي ضئيل في التعرف على الطعام. يجب أن تعتمد النماذج بشكل أكبر على اللون والملمس والإشارات السياقية.
التداخل والأطباق المختلطة
في صورة وجبة نموذجية، تتداخل الأطعمة وتغطي بعضها البعض. تغطي الصلصة اللحم. تذوب الجبنة فوق الخضار. يجلس الأرز تحت الحساء. هذه الأنماط من التداخل ليست فقط شائعة؛ بل هي القاعدة. يجب أن يكون نظام التعرف على الطعام قويًا أمام الرؤية الجزئية بطريقة أكثر تطلبًا من، على سبيل المثال، الكشف عن المشاة في مشهد شارع.
تقدم الأطباق المختلطة مشكلة أصعب. يلف البوريتو مكوناته داخل التورتيلا، مما يجعلها غير مرئية. يمزج السموذي الفواكه ومكونات أخرى في سائل متجانس. تجمع الكسرولة مكونات متعددة في كتلة بصرية واحدة. بالنسبة لهذه الأطعمة، يجب أن يعتمد التعرف على المظهر الشامل والارتباطات المتعلمة بدلاً من التعرف على المكونات الفردية.
الإضاءة وتنوع البيئة
تُلتقط صور الطعام في ظروف متغيرة بشكل كبير. تتراوح إضاءة المطاعم من الفلورسنت الساطعة إلى ضوء الشموع الخافت. تحتوي المطابخ المنزلية على درجات حرارة لونية غير متناسقة. تغير التصوير الفلاش اللون الظاهر للطعام. تبدو الصور الملتقطة في الهواء الطلق في يوم مشمس مختلفة تمامًا عن الصور الملتقطة في مكتب مظلم. يؤثر هذا التنوع في ظروف التصوير بشكل كبير على الميزات المعتمدة على اللون، ونظرًا لأن اللون هو أحد أقوى الإشارات لتحديد الطعام، فإنه يخلق تحديًا كبيرًا.
مشكلة تقدير الحصص: حيث تصبح الأبحاث صعبة حقًا
تحديد نوع الطعام الموجود في الطبق هو نصف المشكلة فقط. ليكون مفيدًا لتتبع التغذية، يجب على النظام أيضًا تقدير كمية كل طعام موجود. هذه هي مشكلة تقدير الحصص، وما زالت واحدة من أكثر المجالات نشاطًا وتحديًا في أبحاث الحوسبة الغذائية.
لماذا يعتبر تقدير الحصص صعبًا بشكل أساسي
تتجاهل الصورة ثنائية الأبعاد معلومات العمق. بدون معرفة المسافة من الكاميرا إلى الطبق، أو حجم الطبق، أو ارتفاع كومة الطعام، من المستحيل استعادة الحجم الفعلي للطعام من قياسات البكسل وحدها. هذه ليست قيودًا على الذكاء الاصطناعي الحالي. إنها حقيقة رياضية من الهندسة الإسقاطية. يمكن أن تنتج وعاء صغير قريب من الكاميرا ووعاء كبير بعيدًا صورًا متطابقة.
استكشف الباحثون عدة طرق للتغلب على هذه القيود:
طرق الكائن المرجعي: تطلب بعض الأنظمة من المستخدم تضمين كائن مرجعي معروف (عملة، بطاقة ائتمان، طبق معين) في الإطار. من خلال قياس أبعاد الكائن المعروف بالبكسل مقارنة بحجمه في العالم الحقيقي، يمكن للنظام تقدير المقياس. استخدم نظام TADA (التقييم الغذائي التلقائي ثلاثي الأبعاد) الذي تم تطويره في جامعة بوردو علامة مميزة (نمط رقعة الشطرنج) لهذا الغرض. بينما كانت دقيقة، فإن هذه الطريقة تضيف احتكاكًا يجعلها غير عملية للاستخدام اليومي.
تقدير العمق من الصور الأحادية: يمكن للشبكات العصبية تقدير خرائط العمق من الصور الفردية من خلال الاستفادة من المعرفة المكتسبة حول المشاهد النموذجية. طبقت الأبحاث من مجموعات في جامعة بيتسبرغ وجامعة جورجيا التقنية تقدير العمق الأحادي على صور الطعام، محققة تقديرات الحجم ضمن 15 إلى 25 بالمئة من الحقيقة الأرضية في ظروف محكومة.
إعادة البناء من زوايا متعددة: تطلبت بعض أنظمة البحث من المستخدمين التقاط الطعام من زوايا متعددة، مما يمكّن إعادة البناء ثلاثي الأبعاد. بينما تكون هذه الطريقة أكثر دقة، فإنها تضيف احتكاكًا مرة أخرى. أظهرت أبحاث فنج وآخرون (2019) أن حتى عرضين يمكن أن يحسنا بشكل كبير من دقة تقدير الحجم.
الاحتمالات المتعلمة للحصص: بدلاً من محاولة استعادة الحجم الفعلي، تتعلم بعض الأنظمة التوزيعات الإحصائية لأحجام الحصص النموذجية لكل فئة غذائية. إذا كان النظام يعرف أن الحصة المتوسطة من الأرز الأبيض المطبوخ تزن حوالي 158 جرامًا، فيمكنه استخدام هذه المعرفة جنبًا إلى جنب مع الإشارات البصرية حول الحجم النسبي للطعام في الصورة لإنتاج تقدير معقول.
الأوراق الرئيسية في تقدير الحصص
حققت عدة أوراق تقدمًا في حالة الفن في تقدير الحصص:
- اقترح مايرز وآخرون (2015)، "Im2Calories: نحو دفتر غذائي تلقائي باستخدام رؤية الهاتف المحمول"، من أبحاث Google، استخدام شبكة عصبية تقدير محتوى السعرات الحرارية مباشرة من صور الطعام، متجاوزة تقدير الحجم الصريح.
- قدم فنج وآخرون (2019)، "تقنية تقدير الطاقة الغذائية التلقائية المستندة إلى الصور من البداية إلى النهاية بناءً على خرائط توزيع الطاقة المتعلمة"، خرائط توزيع الطاقة التي تتنبأ بكثافة السعرات الحرارية لكل بكسل.
- قدم ثايمز وآخرون (2021)، "Nutrition5k: نحو فهم غذائي تلقائي للطعام العام"، أول مجموعة بيانات على نطاق واسع مع حقائق غذائية تم التحقق منها باستخدام قياس السعرات الحرارية، مما يمكّن من تقييم أكثر صرامة لأنظمة تقدير الحصص.
- أظهر لو وآخرون (2020) أن الجمع بين تقسيم الطعام وتقدير العمق ينتج تقديرات الحصص مع خطأ مطلق متوسط أقل من 20 بالمئة لفئات الطعام الشائعة.
الفجوة بين دقة البحث والأداء في العالم الحقيقي
واحدة من أهم المواضيع وأقلها مناقشة في الذكاء الاصطناعي للتعرف على الطعام هي الفجوة بين الأداء في المعايير والأداء في العالم الحقيقي. فهم هذه الفجوة أمر حاسم لتحديد توقعات واقعية حول ما يمكن وما لا يمكن أن تفعله تقنية التعرف على الطعام.
ظروف المعايير مقابل الواقع
تبلغ دقة الأوراق البحثية عادةً عن دقة على مجموعات اختبار منسقة مأخوذة من نفس توزيع بيانات التدريب. تبدو دقة Food-101 البالغة 93 بالمئة مثيرة للإعجاب، لكنها تعني أن النموذج تم اختباره على صور من نفس المصدر وظروف مماثلة لصور التدريب الخاصة به. عند نشره في العالم الحقيقي، تنخفض الدقة لعدة أسباب:
تحول التوزيع: يلتقط المستخدمون صورًا بكاميرات وزوايا وتركيبات مختلفة عن تلك الممثلة في بيانات التدريب. سيؤدي نموذج تم تدريبه بشكل أساسي على صور الطعام الملتقطة من الأعلى من مدونات الطعام إلى أداء أقل عندما يلتقط المستخدم صورة مائلة باستخدام فلاش الهاتف في مطعم مضاء بشكل خافت.
الأطعمة النادرة: تغطي مجموعات البيانات المرجعية مجموعة محدودة من الفئات. تحتوي Food-101 على 101 فئة؛ بينما تحتوي Food2K على 2,000. لكن نظام التعرف على الطعام العالمي الحقيقي يجب أن يتعامل مع عشرات الآلاف من الأطباق. عادةً ما تكون الأداء على الأطعمة النادرة أو الثقافية أقل بكثير من المتوسطات المبلغ عنها.
الوجبات المركبة: تقيم معظم المعايير تصنيف الطعام الفردي. تحتوي الوجبات الحقيقية على أطعمة متعددة على طبق واحد، مما يتطلب الكشف والتقسيم والتصنيف في نفس الوقت. تكون دقة الأطعمة المتعددة أقل باستمرار من دقة الأطعمة الفردية.
تراكم أخطاء تقدير الحصص: حتى الأخطاء الصغيرة في التعرف على الطعام تتراكم عند دمجها مع تقدير الحصص. إذا أخطأ النظام في التعرف على الكينوا كأنها كسكس (وهو تشابه بصري محتمل)، فإنه يطبق الكثافة الغذائية الخاطئة على تقدير حجمه، مما يؤدي إلى أخطاء في كل من تحليل المغذيات والسعرات الحرارية.
قياس الفجوة
تشير الأبحاث المنشورة إلى نطاقات الأداء التقريبية التالية:
| المهمة | دقة المعايير | دقة العالم الحقيقي |
|---|---|---|
| تصنيف الطعام الفردي (الأعلى-1) | 88-93% | 70-82% |
| تصنيف الطعام الفردي (الأعلى-5) | 96-99% | 88-94% |
| الكشف عن الأطعمة المتعددة لكل عنصر | 75-85% | 60-75% |
| تقدير الحصص (ضمن 20% من الحقيقة) | 65-75% | 45-60% |
| تقدير السعرات الحرارية من البداية إلى النهاية (ضمن 20%) | 55-65% | 35-50% |
تسلط هذه الأرقام الضوء على حقيقة مهمة: الذكاء الاصطناعي للتعرف على الطعام جيد ويتحسن، لكنه ليس بديلاً عن القياس الدقيق. إنه أداة تقلل بشكل كبير من الاحتكاك مع قبول هامش معروف من الخطأ.
جدول زمني للإنجازات الرئيسية
يلخص الجدول الزمني التالي المعالم الرئيسية في الرحلة من أبحاث الرؤية الحاسوبية العامة إلى تقنية التعرف على الطعام في هاتفك:
2009 -- إصدار مجموعة بيانات ImageNet. تنشر فيفي لي وفريقها في ستانفورد مجموعة بيانات ImageNet، مما يوفر المعيار الكبير الذي سيغذي ثورة التعلم العميق.
2012 -- فوز AlexNet في ILSVRC. يظهر كريزيفسكي وسوتسكي وهينتون أن الشبكات العصبية التلافيفية العميقة تتفوق بشكل كبير على الأساليب التقليدية في تصنيف الصور. يبدأ عصر التعلم العميق.
2012 -- نشر UEC-Food100. واحدة من أولى مجموعات بيانات صور الطعام على نطاق واسع، تركز على المأكولات اليابانية، وتؤسس التعرف على الطعام كمشكلة بحثية متميزة.
2014 -- إصدار مجموعة بيانات Food-101. ينشر بوسارد وآخرون في ETH زيورخ المعيار الذي سيصبح مجموعة البيانات القياسية لتقييم أبحاث التعرف على الطعام.
2014 -- GoogLeNet وVGGNet. تظهر معماريتان مؤثرتان أن الشبكات الأعمق والأكثر تعقيدًا تحسن دقة التصنيف بشكل كبير. يتم اعتماد كلاهما بسرعة من قبل الباحثين في مجال التعرف على الطعام.
2015 -- تقديم ResNet. يقدم هي وآخرون في أبحاث مايكروسوفت اتصالات متبقية، مما يتيح الشبكات التي تحتوي على أكثر من 100 طبقة. تصبح ResNet العمود الفقري الأكثر استخدامًا في أنظمة التعرف على الطعام لعدة سنوات قادمة.
2015 -- نشر ورقة Im2Calories. تظهر أبحاث Google تقدير السعرات الحرارية من صور الطعام من البداية إلى النهاية، مما يثبت أن مسار الصورة إلى التغذية هو اتجاه بحث قابل للتطبيق.
2016 -- نضوج الكشف عن الكائنات في الوقت الحقيقي. تمكّن YOLO (ريدمن وآخرون، 2016) وSSD (ليو وآخرون، 2016) الكشف عن الكائنات المتعددة في الوقت الحقيقي، مما يجعل من الممكن الكشف عن عدة أطعمة على طبق في أقل من ثانية.
2017 -- يصبح التعلم الانتقالي ممارسة قياسية. يتقارب مجتمع البحث على منهجية شائعة: التدريب المسبق على ImageNet، والتعديل على مجموعات بيانات الطعام. تحقق هذه الطريقة دقة Food-101 فوق 88 بالمئة.
2019 -- نشر EfficientNet. يقدم تان ولي في Google التحجيم المركب، مما ينتج نماذج أكثر دقة وكفاءة من سابقتها. يجعل هذا التعرف على الطعام عالي الدقة ممكنًا على الأجهزة المحمولة دون الحاجة إلى معالجة سحابية.
2020 -- نشر Vision Transformers (ViT). يظهر دوسوفيتسكي وآخرون في Google أن معمارية المحولات، التي تم تطويرها في الأصل لمعالجة اللغة الطبيعية، يمكن أن تتطابق أو تتجاوز الشبكات العصبية التلافيفية في تصنيف الصور. يفتح هذا آفاقًا جديدة لأبحاث التعرف على الطعام.
2021 -- إصدار مجموعة بيانات Nutrition5k. تنشر أبحاث Google مجموعة بيانات تحتوي على حقائق غذائية تم التحقق منها باستخدام قياس السعرات الحرارية، مما يوفر المعيار الأول الصارم لتقييم تقدير التغذية من البداية إلى النهاية.
2022-2024 -- ظهور النماذج الأساسية. تمكّن نماذج الرؤية واللغة الكبيرة المدربة مسبقًا مثل CLIP (رادفورد وآخرون، 2021) والنماذج اللاحقة من التعرف على الطعام في وضع عدم الاتصال أو القليل من التدريب، مما يسمح للأنظمة بتحديد فئات الطعام التي لم يتم تدريبها عليها بشكل صريح.
2025-2026 -- يصبح الاستدلال على الجهاز هو المعيار. تتيح التقدم في ضغط النموذج، والتكميم، ووحدات المعالجة العصبية المحمولة (NPUs) تشغيل نماذج التعرف على الطعام بالكامل على الجهاز، مما يلغي التأخير ومخاوف الخصوصية المرتبطة بالمعالجة السحابية.
كيف تسد Nutrola الفجوة بين البحث والممارسة
الأبحاث الأكاديمية الموصوفة أعلاه ضرورية لكنها ليست كافية لبناء نظام للتعرف على الطعام يعمل بشكل موثوق للناس في ظروف حقيقية. الفجوة بين نشر ورقة بدقة 93 بالمئة على Food-101 وإصدار منتج يثق به المستخدمون في تتبع تغذيتهم اليومية ضخمة. هنا تصبح الهندسة، واستراتيجية البيانات، وتصميم يركز على المستخدم بنفس أهمية بنية النموذج.
التدريب على توزيعات بيانات المستخدمين الحقيقية
تأتي مجموعات البيانات الأكاديمية من مدونات الطعام، ووسائل التواصل الاجتماعي، وجلسات التصوير المسيطر عليها. صور المستخدمين الحقيقية أكثر فوضى: وجبات مأكولة جزئيًا، خلفيات مزدحمة، إضاءة ضعيفة، زوايا غير عادية، وأطباق متعددة في الإطار. تدرب Nutrola نماذجها على توزيعات بيانات تعكس أنماط الاستخدام الفعلية، بما في ذلك الصور الحقيقية غير المثالية التي يلتقطها المستخدمون. هذا يغلق جزءًا كبيرًا من فجوة تحول التوزيع.
التعلم المستمر وحلقات التغذية الراجعة
سوف تتدهور النموذج الثابت المدرب مرة واحدة والمطبق مع تغير سلوك المستخدم واتجاهات الطعام. تنفذ Nutrola خطوط تعلم مستمرة تتضمن تصحيحات المستخدمين وتعليقاتهم. عندما يصحح المستخدم خطأ في التعرف، يتم تجميع تلك الإشارة (مع حماية الخصوصية) واستخدامها لتحسين أداء النموذج على الأطعمة والظروف المحددة حيث تكون الأخطاء أكثر شيوعًا.
الجمع بين إشارات متعددة
بدلاً من الاعتماد فقط على التصنيف البصري، تجمع Nutrola بين التعرف القائم على الصور مع الإشارات السياقية لتحسين الدقة. توقيت اليوم، والمنطقة الجغرافية، وتاريخ الوجبات الأخيرة، وتفضيلات المستخدم كلها تعمل كأولويات تساعد في توضيح الأطعمة المتشابهة بصريًا. وعاء من السائل الأحمر المصور في الإفطار في أمريكا الشمالية من المرجح أن يكون عصير طماطم بدلاً من غازباتشو، ويمكن للنظام استخدام هذا السياق لإجراء توقعات أفضل.
التواصل بوضوح حول الثقة
واحدة من أهم قرارات التصميم هي كيفية التواصل بشأن عدم اليقين. عندما يكون النموذج واثقًا، تقدم Nutrola التعرف مباشرة. عندما تكون الثقة أقل، يقدم النظام خيارات متعددة ويطلب من المستخدم التأكيد. يحترم هذا النمط التفاعلي القيود الجوهرية للتكنولوجيا بينما لا يزال يقلل من الاحتكاك مقارنة بالتسجيل اليدوي. بدلاً من التظاهر بالكمال، يكون النظام شفافًا بشأن متى يحتاج إلى المساعدة.
تحسين الدقة الغذائية، وليس فقط دقة التصنيف
تقيس المعايير الأكاديمية دقة التصنيف: هل حدد النموذج الطعام بشكل صحيح؟ لكن لتتبع التغذية، فإن المقياس ذي الصلة هو الدقة الغذائية: ما مدى قرب تقدير السعرات الحرارية ومحتوى المغذيات من القيم الحقيقية؟ تعمل Nutrola على تحسين هذا المقياس النهائي. إن الخلط بين نوعين من الأطعمة المتشابهة بصريًا مع ملفات غذائية متشابهة (الأرز الأبيض مقابل الأرز الياسمين) يكون أقل أهمية بكثير من الخلط بين نوعين من الأطعمة المتشابهة بصريًا مع ملفات غذائية مختلفة تمامًا (مفتاح عادي مقابل مفتاح بروتين). يتم ضبط النظام لتقليل الأخطاء التي لها أكبر تأثير على التقديرات الغذائية.
الحدود البحثية: ماذا يأتي بعد ذلك
تستمر أبحاث التعرف على الطعام في التقدم. هناك عدة اتجاهات بحث نشطة لديها القدرة على سد الفجوة بين دقة المختبر والأداء في العالم الحقيقي:
التعرف على المكونات على المستوى الفردي: الانتقال من تصنيف الأطباق إلى التعرف على المكونات الفردية داخل الطبق. يمكّن هذا من تقدير غذائي أكثر دقة للأطعمة المركبة ويدعم التحقق من القيود الغذائية (مثل الكشف عن مسببات الحساسية).
إعادة بناء الطعام ثلاثي الأبعاد من الصور الفردية: تشير التقدم في مجالات الحقول الإشعاعية العصبية (NeRFs) وإعادة البناء ثلاثي الأبعاد الأحادي إلى أنه سيكون من الممكن قريبًا إعادة بناء نموذج ثلاثي الأبعاد دقيق نسبيًا لوجبة من صورة واحدة، مما يحسن بشكل كبير من تقدير الحصص.
نماذج الطعام الشخصية: تدريب نماذج تتكيف مع الوجبات النموذجية للمستخدمين، والمطاعم المفضلة، وأنماط الطهي. يمكن أن تحقق نموذج يعرف أنك تتناول نفس الإفطار كل يوم من أيام الأسبوع دقة قريبة من الكمال من خلال التخصيص.
التفكير متعدد الوسائط: الجمع بين التعرف البصري مع النصوص (أوصاف القوائم، أسماء الوصفات) والصوت (أوصاف الوجبات الصوتية) لبناء أنظمة فهم الطعام الأكثر قوة.
التعلم الفيدرالي للطعام: تدريب نماذج التعرف على الطعام عبر أجهزة العديد من المستخدمين دون مركزية البيانات الخام، مما يحافظ على الخصوصية بينما يستفيد من بيانات التدريب المتنوعة في العالم الحقيقي.
الأسئلة الشائعة
ما مدى دقة التعرف على الطعام بالذكاء الاصطناعي اليوم مقارنة بأخصائي التغذية البشري؟
بالنسبة للأطعمة الشائعة الملتقطة في ظروف جيدة، يتطابق التعرف على الطعام بالذكاء الاصطناعي أو يتجاوز سرعة أخصائي التغذية البشري ويحقق دقة تعريف مماثلة. يمكن لأخصائي التغذية المسجل عادةً التعرف على عنصر غذائي من صورة بدقة تتراوح بين 85 إلى 95 بالمئة. تحقق الأنظمة الحالية معدلات مشابهة لفئات الطعام الممثلة جيدًا. ومع ذلك، لا يزال أخصائيو التغذية يتفوقون على الذكاء الاصطناعي في الأطعمة النادرة أو الغامضة، والأطباق الثقافية المحددة، وتقدير الحصص. الميزة العملية للذكاء الاصطناعي هي السرعة والتوافر: يوفر تقديرًا فوريًا على مدار الساعة، بينما تقتصر استشارات أخصائي التغذية على أوقات محددة وتكون مكلفة.
ما هي مجموعة بيانات Food-101 ولماذا هي مهمة؟
Food-101 هي مجموعة بيانات مرجعية تحتوي على 101,000 صورة تغطي 101 فئة غذائية، نشرتها مجموعة من الباحثين في ETH زيورخ في عام 2014. إنها مهمة لأنها قدمت أول معيار معتمد على نطاق واسع لتقييم نماذج التعرف على الطعام. قبل Food-101، اختبر الباحثون أنظمتهم على مجموعات بيانات خاصة أو صغيرة، مما جعل من المستحيل مقارنة النتائج. مكنت Food-101 من أبحاث قابلة للتكرار وسرعت التقدم في دقة تصنيف الطعام، من حوالي 50 بالمئة في عام 2014 إلى أكثر من 93 بالمئة بحلول عام 2020.
لماذا يعتبر الطعام أصعب في التعرف عليه من الكائنات الأخرى؟
يقدم الطعام عدة تحديات نادرة في التعرف على الكائنات العامة: تباين بصري شديد داخل نفس فئة الطعام (فكر في جميع الأشياء المسماة "سلطة")، تشابه بصري عالٍ بين فئات الطعام المختلفة (حساء الطماطم مقابل الكاري الأحمر)، أشكال قابلة للتشويه وغير محددة، تداخل متكرر من الصلصات والتوابل، وتنوع واسع في أساليب التحضير عبر الثقافات. بالإضافة إلى ذلك، يجب التعرف على الطعام وقياسه (تقدير الحصص)، مما يضيف بُعدًا لا تتطلبه معظم مهام التعرف على الكائنات.
كيف يساعد التعلم الانتقالي في التعرف على الطعام؟
يتضمن التعلم الانتقالي أخذ شبكة عصبية تم تدريبها مسبقًا على مجموعة بيانات عامة كبيرة (عادةً ImageNet) وتعديلها على مجموعة بيانات صغيرة مخصصة للطعام. يعمل هذا لأن الميزات البصرية الأساسية التي تم تعلمها من ImageNet (الحواف، والملمس، والألوان، والأشكال) مفيدة على نطاق واسع وتنتقل جيدًا إلى صور الطعام. تحتاج فقط الميزات العليا، المحددة للطعام، إلى التعلم من الصفر. يقلل التعلم الانتقالي بشكل كبير من كمية بيانات التدريب المحددة للطعام المطلوبة وعادةً ما يحسن الدقة بمقدار 10 إلى 20 نقطة مئوية مقارنة بالتدريب من الصفر.
هل يمكن للذكاء الاصطناعي تقدير أحجام الحصص من صورة واحدة؟
يمكن للذكاء الاصطناعي تقدير أحجام الحصص من صورة واحدة، ولكن مع عدم يقين كبير. بدون معلومات العمق، لا يمكن للصورة ثنائية الأبعاد تحديد حجم الطعام بدقة. تجمع الأنظمة الحديثة بين الاحتمالات المتعلمة للحصص (المعرفة الإحصائية لأحجام الحصص النموذجية)، والإشارات الحجمية النسبية (مقارنة الطعام بالطبق أو كائنات أخرى)، وتقدير العمق الأحادي لإنتاج تقديرات عادةً ما تكون ضمن 15 إلى 30 بالمئة من الحجم الحقيقي. هذا دقيق بما يكفي ليكون مفيدًا للتتبع اليومي ولكنه ليس دقيقًا بما يكفي للتقييم الغذائي السريري.
ما الفرق بين تصنيف الطعام وكشف الطعام؟
يخصص تصنيف الطعام علامة واحدة لصورة كاملة (تحتوي هذه الصورة على بيتزا). يكشف كشف الطعام ويحدد مواقع عدة عناصر غذائية داخل صورة، ويرسم صناديق حول كل عنصر ويصنفها بشكل مستقل (تحتوي هذه الصورة على بيتزا في الزاوية العليا اليسرى، وسلطة في الزاوية السفلى اليمنى، وعصا خبز على طول القمة). الكشف هو مهمة أصعب ولكنه ضروري لصور الوجبات الحقيقية، التي تحتوي تقريبًا دائمًا على عناصر غذائية متعددة.
كيف تستخدم Nutrola هذا البحث؟
تستفيد Nutrola من جميع أبحاث التعرف على الطعام الأكاديمية الموصوفة في هذه المقالة، من خلال دمج المعماريات الحديثة، والتدريب على بيانات متنوعة من العالم الحقيقي، وتحسين الدقة الغذائية بدلاً من مجرد دقة التصنيف. يجمع النظام بين التعرف البصري مع الإشارات السياقية وتعليقات المستخدمين لتقديم دقة تتجاوز ما تحققه أي ورقة بحثية واحدة بشكل منفصل. تساهم Nutrola أيضًا في مجتمع البحث من خلال نشر نتائج الأداء في التعرف على الطعام في العالم الحقيقي والتحديات المرتبطة بنشر هذه الأنظمة على نطاق واسع.
هل سيصبح الذكاء الاصطناعي للتعرف على الطعام دقيقًا بنسبة 100 بالمئة؟
من غير المرجح أن تكون الدقة الكاملة ممكنة لعدة أسباب. بعض الأطعمة غير قابلة للتمييز بصريًا (مثل السكر الأبيض والملح، على سبيل المثال). تقدير الحصص من الصور ثنائية الأبعاد له قيود رياضية أساسية. وتنوع المأكولات العالمية يعني أن هناك دائمًا أطعمة نادرة ذات بيانات تدريب محدودة. ومع ذلك، فإن السؤال ذي الصلة ليس ما إذا كانت التكنولوجيا مثالية، ولكن ما إذا كانت مفيدة. بمستويات الدقة الحالية، يقلل الذكاء الاصطناعي للتعرف على الطعام بالفعل من الاحتكاك في تسجيل الطعام بنسبة تتراوح بين 70 إلى 80 بالمئة مقارنة بالإدخال اليدوي، وتستمر الدقة في التحسن مع كل جيل من النماذج وبيانات التدريب.
الخاتمة
الذكاء الاصطناعي للتعرف على الطعام في هاتفك هو نتاج رحلة بحث تمتد لأكثر من عقد من الزمان. بدأت بانفراجة في تصنيف الصور في تحدي ImageNet لعام 2012، واكتسبت تركيزًا من خلال مجموعات بيانات مخصصة للطعام مثل Food-101، وواجهت التحديات الفريدة للطعام كمجال بصري، وتدريجيًا سدت الفجوة بين المعايير الأكاديمية والأداء في العالم الحقيقي.
تلك الرحلة لم تنته بعد. لا تزال تقديرات الحصص مشكلة بحث مفتوحة. تحتاج فئات الطعام النادرة إلى تغطية أفضل. تستمر الدقة في العالم الحقيقي في التراجع عن دقة المعايير بفارق كبير. لكن الاتجاه واضح: كل عام يجلب نماذج أفضل، وبيانات تدريب أغنى، وأساليب أكثر تعقيدًا للتحديات الصعبة.
توجد Nutrola عند تقاطع هذا البحث واحتياجات الناس العملية لفهم ما يأكلونه. من خلال البقاء قريبة من حافة الأبحاث الأكاديمية مع الحفاظ على تركيز لا يتزعزع على الأداء في العالم الحقيقي، نعمل على جعل وعد تتبع التغذية السهل والدقيق واقعًا للجميع.
مستعد لتحويل تتبع تغذيتك؟
انضم إلى الآلاف الذين حولوا رحلتهم الصحية مع Nutrola!