מהמעבדה למחקר אל הטלפון שלך: הראייה הממוחשבת מאחורי זיהוי המזון המודרני
הבינה המלאכותית שמזהה את ארוחת הצהריים שלך התחילה כמחקר אקדמי. כאן תמצאו את המסע מה breakthroughs בראייה ממוחשבת לטכנולוגיית זיהוי המזון בכיס שלכם.
הטכנולוגיה שמאפשרת לך לצלם את הערב שלך ולראות מיד את פיצול הקלוריות שלו לא צצה משום מקום. מדובר בתוצר של עשרות שנות מחקר אקדמי, אינספור מאמרים שפורסמו, ושפע של breakthroughs בראייה ממוחשבת ולמידה עמוקה. מה שהחל כבעיה מחקרית נישה במעבדות האוניברסיטה הפך לתכונה שמיליוני אנשים משתמשים בה כל יום מבלי לחשוב פעמיים.
מאמר זה עוקב אחרי המסע המלא של בינה מלאכותית לזיהוי מזון, מהשורשים שלה במחקר בראייה ממוחשבת בסיסית ועד לזיהוי המזון בזמן אמת שמתרחש בטלפון שלך. בדרך, נבחן את המאמרים המרכזיים, את מערכי הנתונים הסטנדרטיים, את האתגרים המתמשכים, ואת ההנדסה הנדרשת כדי להפוך תוצאות מעבדה למוצר צרכני אמין.
הניצוץ ששינה הכל: ImageNet ומהפכת הלמידה העמוקה
כדי להבין כיצד זיהוי המזון עובד היום, צריך להתחיל בתחרות שלא הייתה קשורה למזון.
אתגר זיהוי הוויזואלי בקנה מידה גדול של ImageNet
ב-2009, פיי-פיי לי וצוותה בסטנפורד פרסמו את ImageNet, מערך נתונים של יותר מ-14 מיליון תמונות מאורגנות ליותר מ-20,000 קטגוריות. אתגר ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ביקש מהחוקרים לבנות מערכות שיכולות לסווג תמונות ל-1,000 קטגוריות אובייקטים, מטוסים ועד זברות. במשך כמה שנים, המערכות הטובות ביותר השתמשו בתכונות שנוצרו ביד ובטכניקות למידת מכונה מסורתיות, והשיגו שיעורי שגיאות של 25 עד 28 אחוזים.
ואז הגיע 2012.
אלכס קריז'בסקי, איליה סוצקבר וג'פרי הינטון נכנסו עם רשת עצבית קונבולוציונית עמוקה בשם AlexNet. היא השיגה שיעור שגיאות של 15.3 אחוזים, והביסה את המקום השני ביותר מ-10 אחוזים. זו לא הייתה שיפור incremental. זו הייתה מהפכה שסימנה את הגעתה של הלמידה העמוקה כגישה הדומיננטית בראייה ממוחשבת.
המאמר "ImageNet Classification with Deep Convolutional Neural Networks" (קריז'בסקי ואחרים, 2012) הוא אחד המאמרים המצוטטים ביותר בכל מדעי המחשב. השפעתו חרגה הרבה מעבר לאתגר ImageNet. חוקרים בכל תתי התחומים של ראייה ממוחשבת, כולל זיהוי מזון, החלו מיד לחקור כיצד ניתן ליישם רשתות עצביות קונבולוציוניות עמוקות על בעיות ספציפיות שלהם.
מדוע ImageNet 2012 הייתה חשובה עבור מזון
לפני AlexNet, מערכות זיהוי מזון התבססו על תכונות שנוצרו ביד: היסטוגרמות צבע, תיאורי טקסטורה כמו Local Binary Patterns (LBP), ותכונות מבוססות צורה שהופקו באמצעות אלגוריתמים כמו SIFT (Scale-Invariant Feature Transform). גישות אלו התקשו להכליל. מערכת שאומנה לזהות פיצה באמצעות תכונות צבע וטקסטורה הייתה נכשלת כאשר הוצגה לפיצה עם תוספת לא מוכרת או תאורה יוצאת דופן.
רשתות CNN עמוקות שינו את המשוואה באופן יסודי. במקום לדרוש מהחוקרים להגדיר ידנית אילו תכונות ויזואליות חשובות, הרשת למדה תכונות הבחנה ישירות מהנתונים. זה אומר שכאשר יש מספיק תמונות אימון, CNN יכולה ללמוד לזהות מזון במגוון רחב של תנאים, להתמודד עם שינויים בתאורה, זווית, צלחות והכנה שיכולים להכשיל גישות שנוצרו ביד.
סדרת השיפורים: 2013 עד 2020
השנים שלאחר AlexNet ייצרו רצף מהיר של חידושים ארכיטקטוניים, כל אחד מהם דחף את הדיוק למעלה והפך את ההפעלה ליותר מעשית:
| שנה | ארכיטקטורה | תרומה מרכזית | שיעור שגיאות Top-5 ב-ImageNet |
|---|---|---|---|
| 2012 | AlexNet | הוכיח ש-CNN עמוקות בקנה מידה | 15.3% |
| 2014 | VGGNet | הראה שעמק (16-19 שכבות) משפר דיוק | 7.3% |
| 2014 | GoogLeNet (Inception) | הפקת תכונות במגוון סקאלות עם חישוב יעיל | 6.7% |
| 2015 | ResNet | חיבורים שאריים המאפשרים רשתות של 152 שכבות | 3.6% |
| 2017 | SENet | מנגנוני תשומת לב לערוצים | 2.3% |
| 2019 | EfficientNet | קנה מידה משולב עבור אופטימיזציה של דיוק/יעילות | 2.0% |
| 2020 | Vision Transformer (ViT) | תשומת לב עצמית המיועדת לפיסות תמונה | 1.8% |
כל אחת מהארכיטקטורות הללו אומצה במהירות על ידי חוקרי זיהוי המזון, שהשתמשו בהן כבסיסים למודלים ספציפיים למזון.
מערך הנתונים Food-101: מתן מדד משותף לחוקרים
מכונות זיהוי תמונות כלליות שאומנו על ImageNet יכולות להבחין בין פיצה לרכב, אך הבחנה בין פיצה מרגריטה לפיצה ביאנקה דורשת רמה הרבה יותר עדינה של הבחנה ויזואלית. קהילת המחקר של זיהוי המזון הייתה זקוקה למערך נתונים בקנה מידה גדול משלה.
בוסארד ואחרים ולידת Food-101
ב-2014, לוקאס בוסארד, מתיו גואילומין ולוק ואן גול מאוניברסיטת ETH ציריך פרסמו את "Food-101 -- Mining Discriminative Components with Random Forests" בכנס האירופי לראייה ממוחשבת (ECCV). הם הציגו את מערך הנתונים Food-101: 101,000 תמונות spanning 101 קטגוריות מזון, עם 1,000 תמונות לכל קטגוריה. התמונות נאספו במכוון ממקורות בעולם האמיתי (Foodspotting, פלטפורמת שיתוף מזון חברתית) ולא מסביבות מעבדה מבוקרות, מה שאומר שהן כוללות את הרעש, השונות והחסרונות של תמונות מזון אמיתיות.
Food-101 הקים מדד משותף שאפשר לחוקרים להשוות את הגישות שלהם ישירות. המאמר המקורי השיג 50.76 אחוז דיוק top-1 באמצעות גישת יערות אקראיים עם תכונות שנוצרו ביד. בתוך שנה, גישות למידה עמוקה החלו לעבור את ה-70 אחוז. עד 2018, מודלים שנבנו על ארכיטקטורות כמו Inception ו-ResNet עברו את ה-90 אחוז דיוק top-1 על Food-101.
מערכי נתונים חשובים נוספים למזון
Food-101 היה המדד הנפוץ ביותר, אך קהילת המחקר יצרה מספר מערכי נתונים נוספים שהקידמו את התחום:
UEC-Food100 ו-UEC-Food256 (2012, 2014): פותחו על ידי אוניברסיטת אלקטרו-תקשורת ביפן, מערכי נתונים אלו התמקדו במטבח היפני והציגו אנוטציות של תיבות גבול לזיהוי מזון מרובה. UEC-Food256 הרחיב את הכיסוי ל-256 קטגוריות spanning מספר מטבחים אסייתיים.
VIREO Food-172 (2016): נוצר על ידי אוניברסיטת העיר הונג קונג, מערך נתונים זה כלל 172 קטגוריות מזון סיני יחד עם אנוטציות מרכיבים, מה שאפשר מחקר על זיהוי ברמת המרכיב.
Nutrition5k (2021): פותח על ידי Google Research, מערך נתונים זה צימד תמונות מזון עם מדידות תזונתיות מדויקות שהושגו באמצעות קלורימטריה. עם 5,006 צלחות ארוחה מציאותיות וספירות קלוריות מאושרות במעבדה, Nutrition5k סיפק מערך נתונים של אמת לאימון והערכה של מערכות הערכת מנות.
Food2K (2021): מדד בקנה מידה גדול המכיל 2,000 קטגוריות מזון ויותר ממיליון תמונות, שנועד לקדם את זיהוי המזון לקנה המידה של זיהוי אובייקטים כלליים.
MAFood-121 (2019): התמקד בזיהוי מזון עם מספר תכונות, כולל סוג המטבח ושיטת ההכנה לצד קטגוריית המזון, משקף את הצורך בעולם האמיתי להבין לא רק מהו המזון אלא גם כיצד הוא הוכן.
זמינותם של מערכי נתונים אלו הייתה חיונית. בלמידת מכונה, איכות והיקף נתוני האימון לרוב חשובים יותר מהארכיטקטורה של המודל. כל מערך נתונים חדש הרחיב את טווח המזון, המטבחים, והתנאים הוויזואליים שמודלים יכולים ללמוד מהם.
מדוע מזון קשה יותר מזיהוי אובייקטים "רגילים"
חוקרים שעובדים בזיהוי מזון גילו במהרה כי מזון מציב אתגרים ייחודיים שלא מתעוררים בזיהוי אובייקטים כלליים. הבנת האתגרים הללו מסבירה מדוע מערכת שיכולה לזהות באופן אמין מכוניות, כלבים ובניינים עשויה להיתקל בקשיים עם צלחת מזון.
בעיית השונות הפנימית
רטריבר זהב נראה כמו רטריבר זהב אם הוא יושב, רץ או ישן. אך סלט יכול להיראות כמעט כמו כל דבר. סלט יווני, סלט קיסר, סלט וולדורף, וסלט קייל-קינואה חולקים את אותה קטגוריית תווית "סלט" אך כמעט ואין להם דבר במשותף מבחינה ויזואלית. השונות הפנימית הזו קיצונית עבור קטגוריות מזון ומעבר למה שנמצא ברוב משימות זיהוי האובייקטים.
מנגד, הדמיון הבין-קטגורייתי גם הוא גבוה. קערת מרק עגבניות וקערת קארי אדום יכולות להיראות כמעט זהות מלמעלה. אורז מטוגן ופלאף חולקים מאפיינים ויזואליים. חטיף חלבון ובראוני עשויים להיות בלתי ניתנים להבחנה בתמונה. הגבולות הוויזואליים בין קטגוריות המזון לעיתים קרובות מטושטשים בדרך שבה הגבולות בין מכוניות למשאיות אינם.
הטבע המעוות של המזון
רוב האובייקטים שמערכות הראייה הממוחשבת מאומנות לזהות יש להם מבנה גיאומטרי עקבי. לכיסא יש רגליים, מושב, וגבה. המזון, לעומת זאת, הוא מעוות, אמורפי ולא צפוי בהצגתו הוויזואלית. מנת פירה אין לה צורה עקבית. פסטה יכולה להיות מונחת במגוון אינסופי של קונפיגורציות. אפילו אותה מתכון שהוכן על ידי שני אנשים שונים יכול להיראות שונה באופן משמעותי.
המעוותות הזו אומרת שתכונות מבוססות צורה, שהן חזקות בזיהוי אובייקטים קשיחים, תורמות יחסית מעט לזיהוי מזון. המודלים חייבים להסתמך יותר על צבע, טקסטורה ורמזים הקשריים.
חפיפות ומנות מעורבות
בתמונה טיפוסית של ארוחה, מזונות חופפים ומסתירים זה את זה. רוטב מכסה בשר. גבינה נמסה על ירקות. אורז נמצא מתחת לתבשיל. דפוסי החפיפה הללו אינם רק נפוצים; הם הנורמה. מערכת זיהוי מזון חייבת להיות עמידה בפני נראות חלקית בדרך שהיא הרבה יותר תובענית מאשר, למשל, זיהוי הולכי רגל בסצנה עירונית.
מנות מעורבות מציבות בעיה קשה עוד יותר. בוריטו עוטף את מרכיביו בתוך טורטיה, מה שהופך אותם לבלתי נראים. סמוזי מערבב פירות ומרכיבים אחרים לתוך נוזל הומוגני. קאסרולה משלבת מספר מרכיבים לתוך מסה ויזואלית אחת. עבור מזונות אלו, הזיהוי חייב להסתמך על הופעה הוליסטית ואסוציאציות נלמדות במקום לזהות מרכיבים בודדים.
שינויים בתאורה ובסביבה
תמונות מזון מצולמות בתנאים משתנים באופן קיצוני. תאורת מסעדות נעה בין פלורסנטית בהירה לאור נרות עמום. מטבחים ביתיים מציגים טמפרטורת צבע לא עקבית. צילום פלאש משנה את צבע המזון המופיע. תמונות שצולמו בחוץ ביום שמש נראות שונה לחלוטין מתמונות שצולמו במשרד חשוך. השונות הזו בתנאי הצילום משפיעה באופן דרמטי על תכונות מבוססות צבע, וכיוון שצבע הוא אחד מהרמזים החזקים ביותר לזיהוי מזון, זה יוצר אתגר משמעותי.
בעיית הערכת המנות: היכן שהמחקר הופך לקשה באמת
זיהוי מהו המזון בצלחת הוא רק חצי מהבעיה. כדי להיות שימושי למעקב תזונתי, המערכת חייבת גם להעריך כמה מכל מזון נוכח. זו בעיית הערכת המנות, והיא נותרה אחת מהתחומים הפעילים והאתגרים הגדולים ביותר במחקר מחשוב המזון.
מדוע הערכת המנות קשה באופן יסודי
תמונה דו-ממדית אחת זורקת מידע על עומק. ללא ידיעה על המרחק בין המצלמה לצלחת, גודל הצלחת או גובה ערימת המזון, בלתי אפשרי לשחזר את הנפח הפיזי האמיתי של המזון ממדידות פיקסלים בלבד. זו לא מגבלה של AI הנוכחי. זו מציאות מתמטית של גיאומטריה פרויקטיבית. קערה קטנה קרובה למצלמה וקערה גדולה רחוקה מייצרות תמונות זהות.
חוקרים חקרו מספר גישות כדי לעקוף את המגבלה הזו:
שיטות אובייקט ייחוס: חלק מהמערכות מבקשות מהמשתמש לכלול אובייקט ייחוס ידוע (מטבע, כרטיס אשראי, צלחת ספציפית) במסגרת. על ידי מדידת ממדי הפיקסלים של האובייקט הידוע מול גודלו בעולם האמיתי, המערכת יכולה להעריך את הקנה מידה. מערכת TADA (Three-Dimensional Automatic Dietary Assessment) שפותחה באוניברסיטת פרדו השתמשה בסימן ייחוס (דפוס לוח שחמט) למטרה זו. למרות הדיוק, גישה זו מוסיפה חיכוך שהופך אותה לבלתי מעשית לשימוש יומיומי.
הערכת עומק מתמונות מונוקולריות: רשתות עצביות יכולות להעריך מפות עומק מתמונות בודדות על ידי ניצול ידע נלמד על סצנות טיפוסיות. מחקר מקבוצות באוניברסיטת פיטסבורג וג'ורג'יה טק יישם הערכת עומק מונוקולרית על תמונות מזון, והשיג הערכות נפח בטווח של 15 עד 25 אחוזים מהאמת המוחלטת בתנאים מבוקרים.
שחזור מבט מרובה: חלק ממערכות המחקר מבקשות מהמשתמשים לתפוס את המזון מכמה זוויות, מה שמאפשר שחזור תלת-ממדי. למרות שזה מדויק יותר, זה שוב מוסיף חיכוך. מחקר של פאנג ואחרים (2019) הראה שגם שתי זוויות יכולות לשפר באופן משמעותי את דיוק הערכת הנפח.
העדפות מנות נלמדות: במקום לנסות לשחזר את הנפח הפיזי המדויק, חלק מהמערכות לומדות התפלגויות סטטיסטיות של גדלי מנות טיפוסיים עבור כל קטגוריית מזון. אם המערכת יודעת שהמנה הממוצעת של אורז מבושל היא כ-158 גרם, היא יכולה להשתמש בהעדפה זו בשילוב עם רמזים ויזואליים לגבי גודל המזון בתמונה כדי להפיק הערכה סבירה.
מאמרים מרכזיים בהערכת מנות
מספר מאמרים קידמו את מצב האמנות בהערכת מנות:
- מאיירס ואחרים (2015), "Im2Calories: Towards an Automated Mobile Vision Food Diary," מ-Google Research, הציעו להשתמש ב-CNN כדי להעריך את תוכן הקלוריות ישירות מתמונות מזון, תוך עקיפת הערכת נפח מפורשת.
- פאנג ואחרים (2019), "An End-to-End Image-Based Automatic Food Energy Estimation Technique Based on Learned Energy Distribution Maps," הציגו מפות התפלגות אנרגיה שמנבאות צפיפות קלוריות לכל פיקסל.
- ת'יימס ואחרים (2021), "Nutrition5k: Towards Automatic Nutritional Understanding of Generic Food," סיפקו את מערך הנתונים הראשון בקנה מידה גדול עם אמת תזונתית מאושרת קלורימטרית, מה שאפשר הערכה מדויקת יותר של מערכות הערכת מנות.
- לו ואחרים (2020) הראו ששילוב של סגמנטציה של מזון עם הערכת עומק מניב הערכות מנות עם שגיאה ממוצעת מתחת ל-20 אחוז עבור קטגוריות מזון נפוצות.
הפער בין דיוק המחקר לביצועים בעולם האמיתי
אחד הנושאים החשובים והפחות מדוברים ב-AI לזיהוי מזון הוא הפער בין ביצועי מדד לביצועים בעולם האמיתי. הבנת הפער הזה היא קריטית כדי לקבוע ציפיות ריאליות לגבי מה טכנולוגיית זיהוי המזון יכולה ולא יכולה לעשות.
תנאי מדד מול מציאות
מאמרי מחקר מדווחים בדרך כלל על דיוק על סטי בדיקות שנבחרו בקפידה שנלקחו מאותה הפצה כמו נתוני האימון. דיוק של 93 אחוזים ב-Food-101 נשמע מרשים, אך זה אומר שהמודל נבדק על תמונות מאותו מקור ובתנאים דומים לאלה של תמונות האימון שלו. כאשר הוא מופעל בעולם האמיתי, הדיוק יורד ממספר סיבות:
שינוי הפצה: משתמשים מצלמים תמונות עם מצלמות שונות, תאורה, זוויות והרכבים שאינם מיוצגים בנתוני האימון. מודל שאומן בעיקר על תמונות מזון מלמעלה מבלוגי מזון ייכשל כאשר משתמש מצליח לצלם תמונה מוטה עם פלאש טלפון במסעדה חשוכה.
מזונות עם זנב ארוך: מערכי נתונים מדדיים מכסים קבוצת קטגוריות מוגבלת. ל-Food-101 יש 101 קטגוריות; ל-Food2K יש 2,000. אך מערכת זיהוי מזון באמת גלובלית חייבת להתמודד עם עשרות אלפי מנות. הביצועים על מזונות נדירים או ספציפיים תרבותית בדרך כלל נמוכים בהרבה מהממוצעים המדווחים.
מנות מורכבות: רוב המדדים מעריכים סיווג מזון בודד. ארוחות אמיתיות מכילות מספר מזונות על צלחת אחת, מה שדורש זיהוי, סגמנטציה וסיווג בו זמנית. הדיוק במזון מרובה נמוך באופן עקבי יותר מאשר הדיוק במזון בודד.
הצטברות שגיאות בהערכת מנות: אפילו שגיאות קטנות בזיהוי המזון מצטברות כאשר משולבות עם הערכת מנות. אם המערכת טועה בזיהוי קינואה כקוסקוס (בלבול ויזואלי אפשרי), היא מיישמת את הצפיפות התזונתית השגויה על הערכת הנפח שלה, מה שמוביל לשגיאות הן בה breakdown של מקרו-נוטריינטים והן בספירת הקלוריות.
כימות הפער
מחקר שפורסם מציע את טווחי הביצועים המשויכים הבאים:
| משימה | דיוק מדד | דיוק בעולם האמיתי |
|---|---|---|
| סיווג מזון בודד (top-1) | 88-93% | 70-82% |
| סיווג מזון בודד (top-5) | 96-99% | 88-94% |
| זיהוי מזון מרובה פר פריט | 75-85% | 60-75% |
| הערכת מנות (בתוך 20% מהאמת) | 65-75% | 45-60% |
| הערכת קלוריות מקצה לקצה (בתוך 20%) | 55-65% | 35-50% |
מספרים אלו מדגישים אמת חשובה: AI לזיהוי מזון הוא טוב וממשיך להשתפר, אך הוא עדיין לא תחליף למדידה קפדנית. זהו כלי שמפחית באופן דרמטי חיכוך תוך קבלת מרווח שגיאה ידוע.
ציר זמן של breakthroughs מרכזיים
הציר זמן הבא מסכם את הצמתים המרכזיים במסע מהמחקר הכללי בראייה ממוחשבת לטכנולוגיית זיהוי המזון בטלפון שלך:
2009 -- מערך הנתונים ImageNet שוחרר. פיי-פיי לי וצוותה בסטנפורד מפרסמים את מערך הנתונים ImageNet, המספק את המדד בקנה מידה גדול שידלק את מהפכת הלמידה העמוקה.
2012 -- AlexNet מנצח את ILSVRC. קריז'בסקי, סוצקבר והינטון מראים שרשתות עצביות קונבולוציוניות עמוקות עולות בהרבה על גישות מסורתיות בזיהוי תמונות. עידן הלמידה העמוקה מתחיל.
2012 -- UEC-Food100 פורסם. אחד ממערכי הנתונים הראשונים בתמונות מזון בקנה מידה גדול, המתמקד במטבח היפני, מקים את זיהוי המזון כבעיה מחקרית נפרדת.
2014 -- מערך הנתונים Food-101 שוחרר. בוסארד ואחרים ב-ETH ציריך מפרסמים את המדד שיהפוך לסטנדרט להערכת מחקר זיהוי המזון.
2014 -- GoogLeNet ו-VGGNet. שתי הארכיטקטורות המשפיעות מראות שעמוקות ועיצובים מתקדמים משפרים באופן משמעותי את דיוק הסיווג. שתיהן מאומצות במהירות על ידי חוקרי זיהוי המזון.
2015 -- ResNet הוצג. הוא ואחרים ב-Microsoft Research מציגים חיבורים שאריים, המאפשרים רשתות עם יותר מ-100 שכבות. ResNet הופך להיות הבסיס הנפוץ ביותר במערכות זיהוי המזון בשנים הבאות.
2015 -- מאמר Im2Calories פורסם. Google Research מדגימה הערכת קלוריות מקצה לקצה מתמונות מזון, מה שמקנה לכיוון ישיר של תמונה לתזונה ככיוון מחקר בר קיימא.
2016 -- זיהוי אובייקטים בזמן אמת מתבגר. YOLO (רדמון ואחרים, 2016) ו-SSD (ליו ואחרים, 2016) מאפשרים זיהוי מרובה אובייקטים בזמן אמת, מה שהופך את זיהוי מספר פריטי מזון על צלחת בפחות משנייה לאפשרי.
2017 -- למידת העברה הופכת לנוהל סטנדרטי. קהילת המחקר מתכנסת על מתודולוגיה משותפת: הכשרה מראש על ImageNet, התאמה על מערכי נתונים מזון. גישה זו משיגה דיוק של מעל 88 אחוזים ב-Food-101.
2019 -- EfficientNet פורסם. טאן ולי ב-Google מציגים קנה מידה משולב, מייצרים מודלים שהם גם מדויקים יותר וגם יעילים יותר מקודמיהם. זה מאפשר זיהוי מזון מדויק גבוה על חומרה ניידת ללא חישוב בענן.
2020 -- Vision Transformers (ViT) פורסם. דוסוביצקי ואחרים ב-Google מראים שארכיטקטורות טרנספורמר, שפותחו במקור לעיבוד שפה טבעית, יכולות להתאים או לעלות על CNNs בזיהוי תמונות. זה פותח דרכים חדשות למחקר זיהוי המזון.
2021 -- מערך הנתונים Nutrition5k שוחרר. Google Research מפרסמת מערך נתונים עם אמת תזונתית מאושרת קלורימטרית, מה שמספק את המדד הראשון הקפדני להערכת הערכה תזונתית מקצה לקצה.
2022-2024 -- מודלים בסיסיים עולים. מודלים גדולים מראש כמו CLIP (רדפורד ואחרים, 2021) ומודלים שלאחר מכן מאפשרים זיהוי מזון בזיהוי אפס וזיהוי מועט, מה שמאפשר למערכות לזהות קטגוריות מזון שמעולם לא הוכשרו עליהן במפורש.
2025-2026 -- חישוב במכשירים הופך לסטנדרט. התקדמות בצפיפות מודלים, כימות, ו-NPUs (יחידות עיבוד נוירוניות) ניידות מאפשרות למודלים לזיהוי מזון לפעול לחלוטין במכשירים, מה שמבטל את בעיות ההשהיה והפרטיות הקשורות לעיבוד בענן.
כיצד Nutrola סוגרת את הפער בין מחקר לפרקטיקה
המחקר האקדמי המתואר לעיל הוא חיוני אך לא מספיק לבניית מערכת זיהוי מזון שעובדת באופן אמין עבור אנשים אמיתיים בתנאים אמיתיים. הפער בין פרסום מאמר עם 93 אחוז דיוק ב-Food-101 לבין שיגור מוצר שהמשתמשים סומכים עליו במעקב התזונה היומיומי שלהם הוא עצום. כאן ההנדסה, אסטרטגיית הנתונים, ועיצוב ממוקד משתמש הופכים חשובים כמו ארכיטקטורת המודל.
הכשרה על הפצות נתוני משתמשים אמיתיות
מערכי נתונים אקדמיים נאספים מבלוגי מזון, רשתות חברתיות, ומפגשי צילום מבוקרים. תמונות משתמשים אמיתיות הן מבולגנות יותר: מנות חצי אכולות, רקעים עמוסים, תאורה גרועה, זוויות יוצאות דופן, מספר צלחות במסגרת. Nutrola מאמנת את המודלים שלה על הפצות נתונים שמשקפות את דפוסי השימוש האמיתיים, כולל את התמונות הלא מושלמות מהעולם האמיתי שהמשתמשים מצלמים בפועל. זה סוגר חלק משמעותי מהפער בשינוי ההפצה.
למידה מתמשכת ומעגלי משוב
מודל סטטי שאומן פעם אחת ונפרס יתדרדר ככל שהתנהגות המשתמשים ומגמות המזון משתנות. Nutrola מיישמת צינורות למידה מתמשכים שמשלבים תיקונים ומשוב מהמשתמשים. כאשר משתמש מתקן זיהוי שגוי, האות הזה נאסף (עם הגנות פרטיות) ומשמש לשיפור ביצועי המודל על המזונות והתנאים שבהם השגיאות נפוצות ביותר.
שילוב של מספר רמזים
במקום להסתמך רק על סיווג ויזואלי, Nutrola משלבת זיהוי מבוסס תמונה עם רמזים הקשריים כדי לשפר את הדיוק. זמן היום, אזור גיאוגרפי, היסטוריית הארוחות האחרונות, והעדפות המשתמש משמשים כולם כהעדפות שעוזרות להבחין בין מזונות דומים ויזואלית. קערת נוזל אדום שצולמה בארוחת בוקר בצפון אמריקה סביר להניח שהיא מיץ עגבניות ולא גזפצ'ו, והמערכת יכולה להשתמש בהקשר הזה כדי לבצע תחזיות טובות יותר.
תקשורת כנה של ביטחון
אחת מההחלטות העיצוביות החשובות ביותר היא כיצד לתקשר אי-ודאות. כאשר המודל בטוח, Nutrola מציגה את הזיהוי שלה ישירות. כאשר הביטחון נמוך יותר, המערכת מציגה מספר אפשרויות ומבקשת מהמשתמש לאשר. דפוס אינטראקציה זה מכבד את המגבלות הטבעיות של הטכנולוגיה תוך הפחתת החיכוך בהשוואה לרישום ידני. במקום לנסות להיראות מושלמת, המערכת שקופה לגבי מתי היא זקוקה לעזרה.
אופטימיזציה לדיוק תזונתי, לא רק לדיוק סיווג
מדדי אקדמיה מודדים דיוק סיווג: האם המודל זיהה נכון את המזון? אך עבור מעקב תזונתי, המדד הרלוונטי הוא דיוק תזונתי: עד כמה קרוב תוכן הקלוריות והמקרו-נוטריינטים המוערך לערכים האמיתיים? Nutrola אופטימיזציה עבור מדד זה. בלבול בין שני מזונות דומים ויזואלית עם פרופילים תזונתיים דומים (אורז לבן מול אורז יסמין) חשוב הרבה פחות מאשר בלבול בין שני מזונות דומים ויזואלית עם פרופילים תזונתיים שונים מאוד (מאפה רגיל מול מאפה חלבון). המערכת מכוונת למזער שגיאות שיש להן את ההשפעה הגדולה ביותר על הערכות תזונתיות.
גבול המחקר: מה קורה הלאה
מחקר זיהוי המזון ממשיך להתקדם. מספר כיווני מחקר פעילים עשויים לסגור עוד יותר את הפער בין דיוק מעבדה לביצועים בעולם האמיתי:
זיהוי ברמת המרכיב: מעבר מסיווג ברמת המנה לזיהוי מרכיבים בודדים בתוך מנה. זה מאפשר הערכה תזונתית מדויקת יותר עבור מזונות מורכבים ותומך בבדיקת הגבלות תזונתיות (זיהוי אלרגנים, למשל).
שחזור מזון תלת-ממדי מתמונות בודדות: התקדמויות בשדות קרינה נוירוניים (NeRFs) ושחזור תלת-ממדי מונוקולרי מצביעות על כך שקרוב לוודאי שניתן יהיה לשחזר מודל תלת-ממדי מדויק למדי של ארוחה מתמונה בודדת, מה שישפר משמעותית את הערכת המנות.
מודלים מותאמים אישית למזון: הכשרת מודלים שמתאימים למנות טיפוסיות של משתמשים, מסעדות מועדפות, וסגנונות בישול. מודל שיודע שאתה אוכל את אותו ארוחת בוקר בכל יום שני יכול להשיג דיוק כמעט מושלם דרך התאמה אישית.
הסקת מסקנות מרובות-מודלים: שילוב זיהוי ויזואלי עם טקסט (תיאורי תפריט, שמות מתכונים) ואודיו (תיאורים קוליים של מנות) כדי לבנות מערכות הבנה מזון יותר עמידות.
למידה פדרטיבית למזון: הכשרת מודלים לזיהוי מזון על פני מכשירים של משתמשים רבים מבלי למרכז נתונים גולמיים, שומרת על פרטיות תוך עדיין נהנית מנתוני אימון מגוונים מהעולם האמיתי.
שאלות נפוצות
עד כמה מדויק זיהוי המזון של AI היום בהשוואה לדיאטנית אנושית?
עבור מזונות נפוצים שצולמו בתנאים טובים, זיהוי המזון של AI תואם או עולה על מהירות של דיאטנית אנושית ומשיג דיוק זיהוי דומה. דיאטנית רשומה יכולה בדרך כלל לזהות פריט מזון מתמונה עם דיוק של 85 עד 95 אחוזים. מערכות AI הנוכחיות משיגות שיעורים דומים עבור קטגוריות מזון מיוצגות היטב. עם זאת, דיאטניות עדיין outperform AI על מזונות נדירים או מעורפלים, מנות ספציפיות תרבותית, והערכת מנות. היתרון המעשי של AI הוא מהירות וזמינות: היא מספקת הערכה מיידית 24/7, בעוד שהתייעצויות עם דיאטניות מוגבלות ויקרות.
מהו מערך הנתונים Food-101 ולמה הוא חשוב?
Food-101 הוא מערך נתונים של 101,000 תמונות spanning 101 קטגוריות מזון, שפורסם על ידי חוקרים ב-ETH ציריך ב-2014. הוא חשוב כי הוא סיפק את הסטנדרט הראשון שנעשה בו שימוש נרחב להערכת מודלים לזיהוי מזון. לפני Food-101, חוקרים ניסו את המערכות שלהם על מערכי נתונים פרטיים או בקנה מידה קטן, מה שהפך את ההשוואה לתוצאות לבלתי אפשרית. Food-101 אפשר מחקר ניתן לשחזור ודחף התקדמות מהירה בדיוק סיווג המזון, מ-50 אחוזים ב-2014 ליותר מ-93 אחוזים עד 2020.
מדוע קשה יותר לזהות מזון מאשר אובייקטים אחרים?
מזון מציב מספר אתגרים שהם נדירים בזיהוי אובייקטים כלליים: שונות ויזואלית קיצונית בתוך אותה קטגוריית מזון (חשבו על כל הדברים שנקראים "סלט"), דמיון ויזואלי גבוה בין קטגוריות מזון שונות (מרק עגבניות מול קארי אדום), צורות מעוותות ואמורפיות, חפיפות תכופות מרוטבים ותוספות, ושונות רחבה בסגנונות הכנה בין תרבויות. בנוסף, המזון חייב להיות גם מזוהה וגם כמותי (הערכת מנות), מה שמוסיף ממד שלא רוב משימות זיהוי אובייקטים אינן דורשות.
כיצד למידת העברה מסייעת בזיהוי מזון?
למידת העברה כוללת לקיחת רשת עצבית שהוכשרה מראש על מערך נתונים כללי גדול (בדרך כלל ImageNet) והתאמתה על מערך נתונים ספציפי למזון קטן יותר. זה עובד כי תכונות הוויזואליות הנמוכות שנלמדות מ-ImageNet (קווים, טקסטורות, צבעים, צורות) הן שימושיות באופן רחב ומועברות היטב לתמונות מזון. רק התכונות הגבוהות יותר, הספציפיות למזון, צריכות להילמד מאפס. למידת העברה מפחיתה באופן דרמטי את כמות נתוני האימון הספציפיים למזון הנדרשים ומביאה בדרך כלל לשיפור דיוק של 10 עד 20 אחוזים בהשוואה לאימון מאפס.
האם AI יכול להעריך גדלי מנות מתמונה בודדת?
AI יכול להעריך גדלי מנות מתמונה בודדת, אך עם אי-ודאות משמעותית. ללא מידע על עומק, תמונה דו-ממדית אינה יכולה לקבוע במדויק את הנפח של המזון. מערכות מודרניות משלבות העדפות מנות נלמדות (ידע סטטיסטי על גדלי מנות טיפוסיים), רמזי גודל יחסיים (השוואת המזון לצלחת או לאובייקטים אחרים), והערכת עומק מונוקולרית כדי להפיק הערכות שבדרך כלל נמצאות בטווח של 15 עד 30 אחוזים מהנפח האמיתי. זה מדויק מספיק כדי להיות שימושי למעקב יומי אך לא מדויק מספיק להערכה תזונתית קלינית.
מה ההבדל בין סיווג מזון לזיהוי מזון?
סיווג מזון מקצה תווית אחת לכל התמונה (התמונה הזו מכילה פיצה). זיהוי מזון מזהה וממקם מספר פריטי מזון בתוך התמונה, מצייר תיבות גבול סביב כל פריט ומסווג אותם באופן עצמאי (התמונה הזו מכילה פיצה בצד השמאלי העליון, סלט בצד הימני התחתון, ולחם עליון). זיהוי הוא משימה קשה יותר אך הכרחית עבור תמונות ארוחה אמיתיות, שמכילות כמעט תמיד מספר פריטי מזון.
כיצד Nutrola עושה שימוש במחקר זה?
Nutrola בונה על כל גוף המחקר האקדמי לזיהוי מזון המתואר במאמר זה, משלבת ארכיטקטורות מהשורה הראשונה, מאמנת על נתונים מגוונים מהעולם האמיתי, ומאופטימיזציה לדיוק תזונתי ולא רק לדיוק סיווג. המערכת משלבת זיהוי ויזואלי עם רמזים הקשריים ומשוב מהמשתמשים כדי לספק דיוק שעולה על מה שמאמר מחקר בודד משיג בבידוד. Nutrola גם תורמת חזרה לקהילת המחקר על ידי פרסום ממצאים על ביצועי זיהוי המזון בעולם האמיתי והאתגרים של פריסת מערכות אלו בקנה מידה.
האם AI לזיהוי מזון אי פעם יהיה מדויק ב-100 אחוז?
דיוק מושלם הוא לא סביר ממספר סיבות. חלק מהמזונות הם באמת בלתי ניתנים להבחנה ויזואלית (סוכר לבן ומלח, למשל). הערכת מנות מתמונות דו-ממדיות יש לה מגבלות מתמטיות יסודיות. והמגוון של מטבחים עולמיים פירושו שתמיד יהיו מזונות עם זנב ארוך עם נתוני אימון מוגבלים. עם זאת, השאלה הרלוונטית היא לא אם הטכנולוגיה מושלמת אלא אם היא שימושית. ברמות הדיוק הנוכחיות, זיהוי המזון של AI כבר מפחית את החיכוך של רישום מזון ב-70 עד 80 אחוזים בהשוואה לכניסה ידנית, והדיוק ממשיך להשתפר עם כל דור של מודלים ונתוני אימון.
מסקנה
הבינה המלאכותית לזיהוי המזון בטלפון שלך היא תוצר של מסע מחקר שנמשך יותר מעשור. הוא החל עם breakthrough בזיהוי תמונות באתגר ImageNet של 2012, קיבל מיקוד דרך מערכי נתונים ספציפיים למזון כמו Food-101, התמודד עם האתגרים הייחודיים של מזון כתחום ויזואלי, והדרגה גשר בין מדדי אקדמיה לביצועים בעולם האמיתי.
המסע הזה רחוק מלהסתיים. הערכת המנות נותרה בעיה פתוחה במחקר. קטגוריות מזון עם זנב ארוך זקוקות לכיסוי טוב יותר. הדיוק בעולם האמיתי ממשיך להישאר מאחור לעומת דיוק המדד במרווח משמעותי. אך המסלול ברור: כל שנה מביאה מודלים טובים יותר, נתוני אימון עשירים יותר, וגישות מתקדמות יותר לבעיות הקשות.
Nutrola קיימת בצומת הזה של מחקר זה והצרכים המעשיים של אנשים המנסים להבין מה הם אוכלים. על ידי שמירה על קרבה לקצה החיתוך של מחקר אקדמי תוך שמירה על מיקוד בלתי מתפשר בביצועים בעולם האמיתי, אנו עובדים כדי להפוך את ההבטחה של מעקב תזונתי מדויק וללא מאמץ למציאות עבור כולם.
מוכנים לשנות את מעקב התזונה שלכם?
הצטרפו לאלפים ששינו את מסע הבריאות שלהם עם Nutrola!