शोध प्रयोगशाला से आपके फोन तक: आधुनिक खाद्य पहचान के पीछे की कंप्यूटर दृष्टि
आपके लंच की पहचान करने वाली AI एक शोध पत्र से शुरू हुई थी। यहां अकादमिक कंप्यूटर दृष्टि में हुई प्रगति से लेकर आपके जेब में मौजूद खाद्य पहचान तकनीक तक की यात्रा है।
जिस तकनीक से आप अपने डिनर की फोटो खींचकर तुरंत उसकी कैलोरी जानकारी देख सकते हैं, वह अचानक नहीं आई। यह दशकों के अकादमिक शोध, अनगिनत प्रकाशित पत्रों और कंप्यूटर दृष्टि और गहरे शिक्षण में लगातार हुई प्रगति का परिणाम है। जो एक समय विश्वविद्यालयों की प्रयोगशालाओं में एक विशेष शोध समस्या थी, वह अब एक ऐसी सुविधा बन गई है जिसका उपयोग लाखों लोग हर दिन बिना किसी संदेह के करते हैं।
यह लेख खाद्य पहचान AI की पूरी यात्रा को दर्शाता है, इसके मूल कंप्यूटर दृष्टि अनुसंधान से लेकर आपके फोन पर चलने वाली वास्तविक समय खाद्य पहचान तक। इस यात्रा में, हम महत्वपूर्ण शोध पत्रों, बेंचमार्क डेटासेट, लगातार चुनौतियों और प्रयोगशाला के परिणामों को एक विश्वसनीय उपभोक्ता उत्पाद में बदलने के लिए आवश्यक इंजीनियरिंग पर ध्यान देंगे।
वह चिंगारी जिसने सब कुछ बदल दिया: ImageNet और गहरे शिक्षण का क्रांति
आज खाद्य पहचान कैसे काम करती है, इसे समझने के लिए आपको एक प्रतियोगिता से शुरुआत करनी होगी जिसका खाद्य से कोई लेना-देना नहीं था।
ImageNet बड़े पैमाने पर दृश्य पहचान चुनौती
2009 में, फेई-फेई ली और उनकी टीम ने स्टैनफोर्ड में ImageNet जारी किया, जो 14 मिलियन से अधिक छवियों का एक डेटासेट था जिसे 20,000 से अधिक श्रेणियों में व्यवस्थित किया गया था। संबंधित ImageNet बड़े पैमाने पर दृश्य पहचान चुनौती (ILSVRC) ने शोधकर्ताओं से ऐसे सिस्टम बनाने के लिए कहा जो 1,000 वस्तु श्रेणियों में छवियों को वर्गीकृत कर सकें, जैसे कि हवाई जहाज से लेकर ज़ेब्रा तक। कई वर्षों तक, सबसे अच्छे सिस्टम ने हस्तनिर्मित विशेषताओं और पारंपरिक मशीन लर्निंग तकनीकों का उपयोग किया, जो शीर्ष-5 त्रुटि दरों को लगभग 25 से 28 प्रतिशत तक पहुंचाते थे।
फिर 2012 आया।
एलेक्स क्रिज़ेव्स्की, इल्या सुत्सकेवर और जेफ्री हिन्टन ने एक गहरे संकुचन तंत्रिका नेटवर्क में प्रवेश किया जिसे उन्होंने AlexNet कहा। इसने 15.3 प्रतिशत की शीर्ष-5 त्रुटि दर हासिल की, जो दूसरे स्थान के प्रवेश को 10 प्रतिशत अंक से अधिक से पीछे छोड़ दिया। यह कोई साधारण सुधार नहीं था। यह एक पैराडाइम शिफ्ट था जिसने गहरे शिक्षण के कंप्यूटर दृष्टि में प्रमुख दृष्टिकोण के रूप में आगमन का संकेत दिया।
पत्र, "ImageNet Classification with Deep Convolutional Neural Networks" (Krizhevsky et al., 2012), कंप्यूटर विज्ञान में सबसे अधिक उद्धृत पत्रों में से एक है। इसका प्रभाव ImageNet चुनौती से कहीं आगे बढ़ गया। कंप्यूटर दृष्टि के हर उपक्षेत्र के शोधकर्ताओं, जिसमें खाद्य पहचान भी शामिल है, ने तुरंत यह पता लगाना शुरू किया कि गहरे संकुचन तंत्रिका नेटवर्क को उनके विशिष्ट समस्याओं पर कैसे लागू किया जा सकता है।
खाद्य के लिए ImageNet 2012 का महत्व
AlexNet से पहले, खाद्य पहचान प्रणाली हस्तनिर्मित विशेषताओं पर निर्भर करती थीं: रंग की ऐतिहासिकता, स्थानीय बाइनरी पैटर्न (LBP) जैसे बनावट वर्णनकर्ता, और SIFT (स्केल-इनवेरिएंट फीचर ट्रांसफॉर्म) जैसे एल्गोरिदम का उपयोग करके निकाले गए आकार-आधारित विशेषताएँ। ये दृष्टिकोण सामान्यीकरण में संघर्ष करते थे। एक प्रणाली जो रंग और बनावट की विशेषताओं का उपयोग करके पिज्जा पहचानने के लिए प्रशिक्षित थी, वह एक अज्ञात टॉपिंग या असामान्य रोशनी के साथ प्रस्तुत किए जाने पर असफल हो जाती।
गहरे CNN ने समीकरण को मौलिक रूप से बदल दिया। इसके बजाय कि शोधकर्ताओं को यह मैन्युअल रूप से परिभाषित करना पड़े कि कौन सी दृश्य विशेषताएँ महत्वपूर्ण हैं, नेटवर्क ने डेटा से सीधे विभेदक विशेषताएँ सीखी। इसका मतलब था कि यदि पर्याप्त प्रशिक्षण छवियाँ दी जाएँ, तो एक CNN विभिन्न परिस्थितियों में खाद्य पहचानने के लिए सीख सकता था, जैसे कि रोशनी, कोण, प्लेटिंग और तैयारी में भिन्नताएँ जो हस्तनिर्मित दृष्टिकोणों को पराजित कर सकती थीं।
सुधारों की श्रंखला: 2013 से 2020
AlexNet के बाद के वर्षों ने आर्किटेक्चरल नवाचारों की तेजी से श्रृंखला का उत्पादन किया, प्रत्येक ने सटीकता को बढ़ाया और तैनाती को अधिक व्यावहारिक बनाया:
| वर्ष | आर्किटेक्चर | प्रमुख योगदान | ImageNet शीर्ष-5 त्रुटि |
|---|---|---|---|
| 2012 | AlexNet | बड़े पैमाने पर गहरे CNNs का प्रमाण | 15.3% |
| 2014 | VGGNet | दिखाया कि गहराई (16-19 परतें) सटीकता में सुधार करती है | 7.3% |
| 2014 | GoogLeNet (Inception) | कुशल गणना के साथ बहु-स्तरीय विशेषता निष्कर्षण | 6.7% |
| 2015 | ResNet | 152-परत नेटवर्क की अनुमति देने वाले अवशिष्ट कनेक्शन | 3.6% |
| 2017 | SENet | चैनल ध्यान तंत्र | 2.3% |
| 2019 | EfficientNet | इष्टतम सटीकता/प्रभावशीलता व्यापार के लिए यौगिक स्केलिंग | 2.0% |
| 2020 | Vision Transformer (ViT) | छवि पैच पर आत्म-ध्यान लागू किया | 1.8% |
इनमें से प्रत्येक आर्किटेक्चर को खाद्य पहचान शोधकर्ताओं द्वारा तेजी से अपनाया गया, जिन्होंने उन्हें खाद्य-विशिष्ट मॉडलों के लिए आधार के रूप में उपयोग किया।
Food-101 डेटासेट: शोधकर्ताओं को एक सामान्य बेंचमार्क प्रदान करना
ImageNet पर प्रशिक्षित सामान्य-उद्देश्य छवि वर्गीकरणकर्ता एक पिज्जा और एक कार के बीच अंतर कर सकते थे, लेकिन पिज्जा मारgherita और पिज्जा बियंका के बीच अंतर करने के लिए एक बहुत ही बारीक दृश्य भेद की आवश्यकता होती है। खाद्य पहचान शोध समुदाय को अपने स्वयं के बड़े पैमाने पर डेटासेट की आवश्यकता थी।
बॉसार्ड एट अल. और Food-101 का जन्म
2014 में, लुकास बॉसार्ड, मैथ्यू गुइलौमिन, और लुक वान गूल ने ETH ज्यूरिख से "Food-101 -- Mining Discriminative Components with Random Forests" को यूरोपीय सम्मेलन पर प्रस्तुत किया। उन्होंने Food-101 डेटासेट पेश किया: 101 खाद्य श्रेणियों में फैले 101,000 छवियाँ, प्रत्येक श्रेणी में 1,000 छवियाँ। ये छवियाँ जानबूझकर वास्तविक दुनिया के स्रोतों (Foodspotting, एक सामाजिक खाद्य-साझाकरण प्लेटफ़ॉर्म) से एकत्रित की गई थीं, न कि नियंत्रित प्रयोगशाला सेटिंग्स से, जिसका अर्थ है कि इनमें वास्तविक खाद्य फोटो की शोर, भिन्नता और अपूर्णता शामिल थी।
Food-101 ने एक सामान्य बेंचमार्क स्थापित किया जिसने शोधकर्ताओं को अपने दृष्टिकोणों की सीधी तुलना करने की अनुमति दी। मूल पत्र ने हस्तनिर्मित विशेषताओं के साथ एक यादृच्छिक वन दृष्टिकोण का उपयोग करके 50.76 प्रतिशत शीर्ष-1 सटीकता प्राप्त की। एक वर्ष के भीतर, गहरे शिक्षण दृष्टिकोण 70 प्रतिशत को पार कर गए। 2018 तक, Inception और ResNet जैसी आर्किटेक्चर पर आधारित मॉडल Food-101 पर 90 प्रतिशत से अधिक शीर्ष-1 सटीकता प्राप्त कर चुके थे।
अन्य महत्वपूर्ण खाद्य डेटासेट
Food-101 सबसे व्यापक रूप से उपयोग किया जाने वाला बेंचमार्क था, लेकिन शोध समुदाय ने कई अन्य डेटासेट भी बनाए जो क्षेत्र को आगे बढ़ाने में मदद करते हैं:
UEC-Food100 और UEC-Food256 (2012, 2014): जापान के इलेक्ट्रो-कम्युनिकेशंस विश्वविद्यालय द्वारा विकसित, ये डेटासेट जापानी व्यंजनों पर केंद्रित थे और बहु-खाद्य पहचान के लिए बॉक्सिंग एनोटेशन पेश किए। UEC-Food256 ने कई एशियाई व्यंजनों में 256 श्रेणियों तक कवरेज का विस्तार किया।
VIREO Food-172 (2016): हांगकांग के सिटी यूनिवर्सिटी द्वारा बनाया गया, इस डेटासेट में 172 चीनी खाद्य श्रेणियाँ और सामग्री एनोटेशन शामिल थे, जो सामग्री-स्तरीय पहचान में शोध को सक्षम बनाते थे।
Nutrition5k (2021): Google रिसर्च द्वारा विकसित, इस डेटासेट ने खाद्य छवियों को सटीक पोषण मापों के साथ जोड़ा जो कैलोरीमेट्री का उपयोग करके प्राप्त किए गए थे। 5,006 यथार्थवादी भोजन प्लेटों और प्रयोगशाला-प्रमाणित कैलोरी गिनती के साथ, Nutrition5k ने भाग का अनुमान लगाने वाली प्रणालियों के लिए एक ग्राउंड ट्रुथ डेटासेट प्रदान किया।
Food2K (2021): 2,000 खाद्य श्रेणियों और एक मिलियन से अधिक छवियों वाला एक बड़े पैमाने पर बेंचमार्क, जिसे खाद्य पहचान को सामान्य वस्तु पहचान के पैमाने की ओर बढ़ाने के लिए डिज़ाइन किया गया था।
MAFood-121 (2019): बहु-विशेषता खाद्य पहचान पर केंद्रित, जिसमें खाद्य श्रेणी के साथ-साथ व्यंजन प्रकार और तैयारी विधि शामिल हैं, जो यह दर्शाता है कि न केवल यह समझना आवश्यक है कि खाद्य क्या है, बल्कि इसे कैसे तैयार किया गया है।
इन डेटासेट की उपलब्धता आवश्यक थी। मशीन लर्निंग में, प्रशिक्षण डेटा की गुणवत्ता और पैमाना अक्सर मॉडल आर्किटेक्चर की तुलना में अधिक महत्वपूर्ण होता है। प्रत्येक नया डेटासेट खाद्य, व्यंजनों और दृश्य परिस्थितियों की श्रृंखला का विस्तार करता है जिससे मॉडल सीख सकते हैं।
खाद्य पहचान "सामान्य" वस्तु पहचान से कठिन क्यों है
खाद्य पहचान में काम कर रहे शोधकर्ताओं ने जल्दी ही यह पता लगाया कि खाद्य विशेष चुनौतियाँ प्रस्तुत करता है जो सामान्य वस्तु पहचान में उत्पन्न नहीं होती हैं। इन चुनौतियों को समझना यह बताता है कि एक प्रणाली जो कारों, कुत्तों और इमारतों की पहचान कर सकती है, वह एक प्लेट खाद्य के साथ क्यों संघर्ष कर सकती है।
अंतर्वर्गीय भिन्नता की समस्या
एक गोल्डन रिट्रीवर बैठा हो, दौड़ रहा हो या सो रहा हो, वह गोल्डन रिट्रीवर ही दिखता है। लेकिन एक सलाद लगभग किसी भी चीज़ की तरह दिख सकता है। एक ग्रीक सलाद, एक सीज़र सलाद, एक वाल्डॉर्फ सलाद, और एक काले-क्विनोआ सलाद सभी "सलाद" की समान श्रेणी में आते हैं लेकिन इनमें से कोई भी दृश्य रूप से समान नहीं होता। खाद्य श्रेणियों के लिए यह अंतर्वर्गीय भिन्नता अत्यधिक है और अधिकांश वस्तु पहचान कार्यों में जो पाया जाता है उससे कहीं अधिक है।
इसके विपरीत, अंतर्वर्गीय समानता भी उच्च है। एक टमाटर का सूप और एक लाल करी ऊपर से लगभग समान दिख सकते हैं। तले हुए चावल और पुलाव में दृश्य विशेषताएँ साझा होती हैं। एक प्रोटीन बार और एक ब्राउनी फोटो में भेद करना मुश्किल हो सकता है। खाद्य श्रेणियों के बीच दृश्य सीमाएँ अक्सर धुंधली होती हैं जिस तरह से कारों और ट्रकों के बीच सीमाएँ नहीं होतीं।
खाद्य की विकृत प्रकृति
ज्यादातर वस्तुएँ जिनकी पहचान के लिए कंप्यूटर दृष्टि प्रणालियों को प्रशिक्षित किया जाता है, उनकी ज्यामितीय संरचना स्थिर होती है। एक कुर्सी में पैर, एक सीट और एक पीठ होती है। इसके विपरीत, खाद्य विकृत, अमूर्त और दृश्य प्रस्तुति में अप्रत्याशित होता है। मैश किए हुए आलू की एक सर्विंग का कोई स्थिर आकार नहीं होता। पास्ता को अनंत संख्या में कॉन्फ़िगरेशन में परोसा जा सकता है। यहां तक कि एक ही नुस्खा जिसे दो अलग-अलग लोगों द्वारा तैयार किया गया है, वह काफी अलग दिख सकता है।
इस विकृतता का मतलब है कि आकार-आधारित विशेषताएँ, जो कठोर वस्तु पहचान के लिए शक्तिशाली होती हैं, खाद्य पहचान में अपेक्षाकृत कम योगदान करती हैं। मॉडल को रंग, बनावट और संदर्भ संकेतों पर अधिक निर्भर रहना पड़ता है।
ओक्लूजन और मिश्रित व्यंजन
एक सामान्य भोजन फोटो में, खाद्य एक-दूसरे पर ओक्लूड होते हैं। सॉस मांस को ढकता है। पनीर सब्जियों पर पिघलता है। चावल एक स्टू के नीचे होता है। ये ओक्लूजन पैटर्न केवल सामान्य नहीं हैं; वे मानक हैं। एक खाद्य पहचान प्रणाली को आंशिक दृश्यता के प्रति मजबूत होना चाहिए, जो उदाहरण के लिए, सड़क दृश्य में पैदल चलने वालों की पहचान करने की तुलना में कहीं अधिक मांगलिक है।
मिश्रित व्यंजन एक और कठिन समस्या प्रस्तुत करते हैं। एक बुरिटो अपने सामग्री को टॉरटिला के अंदर लपेटता है, जिससे वे अदृश्य हो जाते हैं। एक स्मूदी फलों और अन्य सामग्री को एक समान तरल में मिलाती है। एक कैसरोल कई सामग्री को एकल दृश्य द्रव्यमान में मिलाता है। इन खाद्य पदार्थों के लिए, पहचान को समग्र रूप और सीखी गई संघों पर निर्भर रहना चाहिए, न कि व्यक्तिगत घटकों की पहचान पर।
रोशनी और पर्यावरणीय भिन्नता
खाद्य फोटो अत्यधिक भिन्न परिस्थितियों में ली जाती हैं। रेस्तरां की रोशनी उज्ज्वल फ्लोरोसेंट से लेकर मंद मोमबत्ती की रोशनी तक होती है। घरेलू रसोई में रंग तापमान असंगत होता है। फ्लैश फोटोग्राफी खाद्य के रंग को बदल देती है। धूप वाले दिन बाहर ली गई तस्वीरें एक मंद कार्यालय में ली गई तस्वीरों से बिल्कुल अलग दिखती हैं। ये इमेजिंग परिस्थितियों में भिन्नता रंग-आधारित विशेषताओं को नाटकीय रूप से प्रभावित करती है, और चूंकि रंग खाद्य पहचान के लिए सबसे मजबूत संकेतों में से एक है, यह एक महत्वपूर्ण चुनौती पैदा करता है।
भाग का अनुमान लगाने की समस्या: जहां शोध वास्तव में कठिन होता है
एक प्लेट पर खाद्य की पहचान करना केवल आधी समस्या है। पोषण ट्रैकिंग के लिए उपयोगी होने के लिए, एक प्रणाली को यह भी अनुमान लगाना चाहिए कि प्रत्येक खाद्य की मात्रा कितनी है। यह भाग अनुमान लगाने की समस्या है, और यह खाद्य कंप्यूटिंग अनुसंधान के सबसे सक्रिय और चुनौतीपूर्ण क्षेत्रों में से एक बना हुआ है।
भाग अनुमान लगाना मौलिक रूप से कठिन क्यों है
एकल 2D फोटो गहराई की जानकारी को नष्ट कर देती है। बिना यह जाने कि कैमरा से प्लेट की दूरी, प्लेट का आकार, या खाद्य ढेर की ऊँचाई क्या है, केवल पिक्सेल मापों से खाद्य की वास्तविक भौतिक मात्रा को पुनः प्राप्त करना असंभव है। यह वर्तमान AI की एक सीमा नहीं है। यह प्रोजेक्टिव ज्यामिति की एक गणितीय वास्तविकता है। एक छोटा कटोरा जो कैमरे के करीब है और एक बड़ा कटोरा जो दूर है, एक समान छवियाँ उत्पन्न करते हैं।
शोधकर्ताओं ने इस सीमा को पार करने के लिए कई दृष्टिकोणों का पता लगाया है:
संदर्भ वस्तु विधियाँ: कुछ प्रणालियाँ उपयोगकर्ता से एक ज्ञात संदर्भ वस्तु (एक सिक्का, एक क्रेडिट कार्ड, एक विशिष्ट प्लेट) को फ्रेम में शामिल करने के लिए कहती हैं। ज्ञात वस्तु के पिक्सेल आयामों को इसके वास्तविक आकार के खिलाफ मापकर, प्रणाली स्केल का अनुमान लगा सकती है। Purdue विश्वविद्यालय में विकसित TADA (Three-Dimensional Automatic Dietary Assessment) प्रणाली ने इस उद्देश्य के लिए एक फिडुसियल मार्कर (एक चेकर्ड पैटर्न) का उपयोग किया। जबकि यह सटीक है, यह एक ऐसा तरीका है जो दैनिक उपभोक्ता उपयोग के लिए व्यावहारिक नहीं बनाता।
मोनोकुलर छवियों से गहराई का अनुमान: न्यूरल नेटवर्क एकल छवियों से गहराई मानचित्रों का अनुमान लगा सकते हैं, सामान्य दृश्यों के बारे में सीखी गई प्राथमिकताओं का उपयोग करके। पिट्सबर्ग विश्वविद्यालय और जॉर्जिया टेक के समूहों के शोध ने खाद्य छवियों पर मोनोकुलर गहराई के अनुमान का उपयोग किया, नियंत्रित परिस्थितियों में ग्राउंड ट्रुथ के 15 से 25 प्रतिशत के भीतर मात्रा के अनुमान प्राप्त किए।
मल्टी-व्यू पुनर्निर्माण: कुछ शोध प्रणालियाँ उपयोगकर्ताओं से खाद्य को कई कोणों से कैप्चर करने के लिए कहती हैं, जिससे 3D पुनर्निर्माण संभव होता है। जबकि यह अधिक सटीक है, यह फिर से एक बाधा जोड़ता है। फांग एट अल. (2019) के शोध ने प्रदर्शित किया कि यहां तक कि दो दृश्य भी मात्रा के अनुमान की सटीकता को काफी बढ़ा सकते हैं।
सीखे गए भाग प्राथमिकताएँ: सटीक भौतिक मात्रा को पुनः प्राप्त करने के बजाय, कुछ प्रणालियाँ प्रत्येक खाद्य श्रेणी के लिए सामान्य भाग आकारों के सांख्यिकीय वितरण को सीखती हैं। यदि प्रणाली जानती है कि पके हुए सफेद चावल की मध्य सर्विंग लगभग 158 ग्राम है, तो यह इस प्राथमिकता का उपयोग कर सकती है, साथ ही छवि में खाद्य के सापेक्ष आकार के संकेतों के साथ मिलाकर एक उचित अनुमान उत्पन्न कर सकती है।
प्रमुख भाग अनुमान पत्र
कई पत्रों ने भाग अनुमान में प्रगति की है:
- मेयर्स एट अल. (2015), "Im2Calories: Towards an Automated Mobile Vision Food Diary," Google रिसर्च से, ने खाद्य छवियों से सीधे कैलोरी सामग्री का अनुमान लगाने के लिए CNN का उपयोग करने का प्रस्ताव रखा, स्पष्ट मात्रा अनुमान को बायपास करते हुए।
- फांग एट अल. (2019), "An End-to-End Image-Based Automatic Food Energy Estimation Technique Based on Learned Energy Distribution Maps," ने ऊर्जा वितरण मानचित्रों को पेश किया जो प्रति-पिक्सेल कैलोरी घनत्व की भविष्यवाणी करते हैं।
- थेम्स एट अल. (2021), "Nutrition5k: Towards Automatic Nutritional Understanding of Generic Food," ने कैलोरीमेट्री-प्रमाणित पोषण ग्राउंड ट्रुथ के साथ पहला बड़े पैमाने पर डेटासेट प्रदान किया, जो भाग अनुमान प्रणालियों के अधिक कठोर मूल्यांकन को सक्षम बनाता है।
- लु एट अल. (2020) ने प्रदर्शित किया कि खाद्य विभाजन को गहराई के अनुमान के साथ मिलाने से सामान्य खाद्य श्रेणियों के लिए 20 प्रतिशत से कम की औसत त्रुटि के साथ भाग के अनुमान प्राप्त होते हैं।
शोध सटीकता और वास्तविक दुनिया के प्रदर्शन के बीच का अंतर
खाद्य पहचान AI में सबसे महत्वपूर्ण और कम चर्चा किए गए विषयों में से एक बेंचमार्क प्रदर्शन और वास्तविक दुनिया के प्रदर्शन के बीच का अंतर है। इस अंतर को समझना यह निर्धारित करने के लिए महत्वपूर्ण है कि खाद्य पहचान तकनीक क्या कर सकती है और क्या नहीं कर सकती।
बेंचमार्क परिस्थितियाँ बनाम वास्तविकता
शोध पत्र आमतौर पर उन क्यूरेटेड परीक्षण सेटों पर सटीकता की रिपोर्ट करते हैं जो प्रशिक्षण डेटा के समान वितरण से निकाले जाते हैं। Food-101 की 93 प्रतिशत सटीकता प्रभावशाली लगती है, लेकिन इसका मतलब है कि मॉडल को उन छवियों पर परीक्षण किया गया था जो उसके प्रशिक्षण छवियों के समान स्रोत और समान परिस्थितियों से थीं। जब इसे वास्तविक दुनिया में लागू किया जाता है, तो सटीकता कई कारणों से गिर जाती है:
वितरण परिवर्तन: उपयोगकर्ता उन कैमरों, रोशनी, कोणों और रचनाओं के साथ फोटो लेते हैं जो प्रशिक्षण डेटा में दर्शाए गए हैं। एक मॉडल जो मुख्य रूप से खाद्य ब्लॉग से ऊपर की ओर खाद्य फोटो पर प्रशिक्षित है, वह तब कम प्रदर्शन करेगा जब उपयोगकर्ता एक झुकी हुई फोटो लेता है जिसमें फोन की फ्लैश एक मंद रेस्तरां में होती है।
लंबी-पूंछ खाद्य पदार्थ: बेंचमार्क डेटासेट सीमित श्रेणियों को कवर करते हैं। Food-101 में 101 श्रेणियाँ हैं; Food2K में 2,000 हैं। लेकिन एक वास्तव में वैश्विक खाद्य पहचान प्रणाली को हजारों व्यंजनों को संभालना चाहिए। दुर्लभ या सांस्कृतिक रूप से विशिष्ट खाद्य पदार्थों पर प्रदर्शन आमतौर पर रिपोर्ट किए गए औसत से बहुत कम होता है।
संयुक्त भोजन: अधिकांश बेंचमार्क एकल खाद्य वर्गीकरण का मूल्यांकन करते हैं। वास्तविक भोजन में एक ही प्लेट पर कई खाद्य होते हैं, जिन्हें एक साथ पहचानना, विभाजन करना और वर्गीकृत करना आवश्यक होता है। बहु-खाद्य सटीकता हमेशा एकल-खाद्य सटीकता से कम होती है।
भाग अनुमान त्रुटि का संचय: खाद्य पहचान में छोटी त्रुटियाँ भी भाग अनुमान के साथ मिलकर बड़ी त्रुटियाँ उत्पन्न कर सकती हैं। यदि प्रणाली क्विनोआ को कूसकूस के रूप में गलती करती है (जो एक संभावित दृश्य भ्रम है), तो यह अपने मात्रा अनुमान पर गलत पोषण घनत्व लागू करती है, जिससे मैक्रोन्यूट्रिएंट ब्रेकडाउन और कैलोरी गिनती दोनों में त्रुटियाँ होती हैं।
अंतर को मापना
प्रकाशित शोध निम्नलिखित अनुमानित प्रदर्शन रेंज का सुझाव देता है:
| कार्य | बेंचमार्क सटीकता | वास्तविक दुनिया की सटीकता |
|---|---|---|
| एकल खाद्य वर्गीकरण (शीर्ष-1) | 88-93% | 70-82% |
| एकल खाद्य वर्गीकरण (शीर्ष-5) | 96-99% | 88-94% |
| प्रति वस्तु बहु-खाद्य पहचान | 75-85% | 60-75% |
| भाग अनुमान (सत्य के 20% के भीतर) | 65-75% | 45-60% |
| अंत-से-अंत कैलोरी अनुमान (20% के भीतर) | 55-65% | 35-50% |
ये आंकड़े एक महत्वपूर्ण सत्य को उजागर करते हैं: खाद्य पहचान AI अच्छी है और बेहतर हो रही है, लेकिन यह अभी तक सावधानीपूर्वक माप के लिए एक विकल्प नहीं है। यह एक ऐसा उपकरण है जो ज्ञात त्रुटि के मार्जिन को स्वीकार करते हुए खाद्य लॉगिंग में बाधा को नाटकीय रूप से कम करता है।
प्रमुख प्रगति का समयरेखा
निम्नलिखित समयरेखा सामान्य कंप्यूटर दृष्टि अनुसंधान से आपके फोन में खाद्य पहचान तकनीक तक की यात्रा में प्रमुख मील के पत्थरों का सारांश प्रस्तुत करती है:
2009 -- ImageNet डेटासेट जारी। फेई-फेई ली और टीम ने स्टैनफोर्ड में ImageNet डेटासेट प्रकाशित किया, जो बड़े पैमाने पर बेंचमार्क प्रदान करता है जो गहरे शिक्षण क्रांति को बढ़ावा देगा।
2012 -- AlexNet ILSVRC जीतता है। क्रिज़ेव्स्की, सुत्सकेवर, और हिन्टन ने दिखाया कि गहरे संकुचन तंत्रिका नेटवर्क पारंपरिक दृष्टिकोणों की तुलना में छवि वर्गीकरण में नाटकीय रूप से बेहतर प्रदर्शन करते हैं। गहरे शिक्षण का युग शुरू होता है।
2012 -- UEC-Food100 प्रकाशित। जापानी व्यंजनों पर केंद्रित खाद्य छवि डेटासेट में से एक, खाद्य पहचान को एक विशिष्ट शोध समस्या के रूप में स्थापित करता है।
2014 -- Food-101 डेटासेट जारी। बॉसार्ड एट अल. ने ETH ज्यूरिख में उस बेंचमार्क को प्रकाशित किया जो खाद्य पहचान अनुसंधान के लिए मानक मूल्यांकन डेटासेट बन जाएगा।
2014 -- GoogLeNet और VGGNet। दो प्रभावशाली आर्किटेक्चर ने दिखाया कि गहरी और अधिक जटिल नेटवर्क डिज़ाइन वर्गीकरण सटीकता को महत्वपूर्ण रूप से सुधारते हैं। दोनों खाद्य पहचान शोधकर्ताओं द्वारा तेजी से अपनाए जाते हैं।
2015 -- ResNet पेश किया गया। Microsoft रिसर्च में हे एट अल. ने अवशिष्ट कनेक्शन पेश किए, जो 100+ परतों वाले नेटवर्क को सक्षम बनाते हैं। ResNet अगले कई वर्षों तक खाद्य पहचान प्रणालियों में सबसे अधिक उपयोग किया जाने वाला बैकबोन बन जाता है।
2015 -- Im2Calories पत्र प्रकाशित। Google रिसर्च ने खाद्य छवियों से अंत-से-अंत कैलोरी अनुमान को प्रदर्शित किया, एक व्यवहार्य शोध दिशा के रूप में सीधे छवि से पोषण पाइपलाइन स्थापित की।
2016 -- वास्तविक समय वस्तु पहचान परिपक्व होती है। YOLO (Redmon एट अल., 2016) और SSD (Liu एट अल., 2016) वास्तविक समय में बहु-ऑब्जेक्ट पहचान को सक्षम बनाते हैं, जिससे एक प्लेट पर कई खाद्य पदार्थों का पता लगाना संभव हो जाता है।
2017 -- ट्रांसफर लर्निंग मानक प्रथा बन जाती है। शोध समुदाय एक सामान्य पद्धति पर एकत्रित होता है: ImageNet पर पूर्व-प्रशिक्षित करना, खाद्य डेटासेट पर फाइन-ट्यून करना। यह दृष्टिकोण Food-101 सटीकता को 88 प्रतिशत से ऊपर प्राप्त करता है।
2019 -- EfficientNet प्रकाशित। टैन और ले ने Google में यौगिक स्केलिंग पेश की, जिससे ऐसे मॉडल बने जो अपने पूर्ववर्तियों की तुलना में अधिक सटीक और अधिक प्रभावी होते हैं। यह मोबाइल हार्डवेयर पर उच्च-सटीकता खाद्य पहचान को संभव बनाता है बिना क्लाउड इनफरेंस के।
2020 -- Vision Transformers (ViT) प्रकाशित। डोसोवित्स्की एट अल. ने Google में दिखाया कि ट्रांसफार्मर आर्किटेक्चर, जो मूल रूप से प्राकृतिक भाषा प्रसंस्करण के लिए विकसित किए गए थे, छवि वर्गीकरण में CNNs के बराबर या उससे बेहतर प्रदर्शन कर सकते हैं। यह खाद्य पहचान अनुसंधान के लिए नए रास्ते खोलता है।
2021 -- Nutrition5k डेटासेट जारी। Google रिसर्च ने कैलोरीमेट्री-प्रमाणित पोषण ग्राउंड ट्रुथ के साथ डेटासेट प्रकाशित किया, जो अंत-से-अंत पोषण अनुमान के मूल्यांकन के लिए पहला कठोर बेंचमार्क प्रदान करता है।
2022-2024 -- फाउंडेशन मॉडल उभरते हैं। CLIP (Radford एट अल., 2021) और बाद के मॉडल जैसे बड़े पूर्व-प्रशिक्षित दृष्टि-भाषा मॉडल शून्य-शॉट और कुछ-शॉट खाद्य पहचान को सक्षम बनाते हैं, जिससे सिस्टम उन खाद्य श्रेणियों की पहचान कर सकते हैं जिन पर उन्हें कभी भी स्पष्ट रूप से प्रशिक्षित नहीं किया गया था।
2025-2026 -- ऑन-डिवाइस इनफरेंस मानक बन जाता है। मॉडल संकुचन, क्वांटाइजेशन, और मोबाइल न्यूरल प्रोसेसिंग यूनिट (NPUs) में प्रगति खाद्य पहचान मॉडलों को पूरी तरह से डिवाइस पर चलाने की अनुमति देती है, जिससे क्लाउड प्रोसेसिंग से संबंधित लेटेंसी और गोपनीयता चिंताओं को समाप्त किया जा सकता है।
Nutrola कैसे शोध और प्रथा के बीच का अंतर पाटता है
उपरोक्त अकादमिक शोध आवश्यक है लेकिन यह एक खाद्य पहचान प्रणाली बनाने के लिए पर्याप्त नहीं है जो वास्तविक लोगों के लिए वास्तविक परिस्थितियों में विश्वसनीय रूप से काम करे। Food-101 पर 93 प्रतिशत सटीकता वाले एक पत्र को प्रकाशित करने और एक उत्पाद को शिप करने के बीच का अंतर विशाल है जिस पर उपयोगकर्ता अपने दैनिक पोषण ट्रैकिंग के लिए भरोसा करते हैं। यहीं पर इंजीनियरिंग, डेटा रणनीति और उपयोगकर्ता-केंद्रित डिज़ाइन मॉडल आर्किटेक्चर के रूप में महत्वपूर्ण हो जाते हैं।
वास्तविक उपयोगकर्ता डेटा वितरण पर प्रशिक्षण
अकादमिक डेटासेट खाद्य ब्लॉग, सोशल मीडिया और नियंत्रित फोटोग्राफी सत्रों से क्यूरेट किए जाते हैं। वास्तविक उपयोगकर्ता फोटो अधिक अव्यवस्थित होते हैं: आंशिक रूप से खाए गए भोजन, अव्यवस्थित पृष्ठभूमियाँ, खराब रोशनी, असामान्य कोण, फ्रेम में कई प्लेटें। Nutrola अपने मॉडलों को डेटा वितरण पर प्रशिक्षित करता है जो वास्तविक उपयोग पैटर्न को दर्शाता है, जिसमें वे अपूर्ण, वास्तविक दुनिया की छवियाँ शामिल हैं जो उपयोगकर्ता वास्तव में कैप्चर करते हैं। यह वितरण परिवर्तन के अंतर के एक महत्वपूर्ण हिस्से को बंद करता है।
निरंतर सीखना और फीडबैक लूप
एक स्थिर मॉडल जो एक बार प्रशिक्षित होता है और तैनात होता है, उपयोगकर्ता व्यवहार और खाद्य प्रवृत्तियों के बदलने के साथ खराब हो जाएगा। Nutrola निरंतर सीखने की पाइपलाइनों को लागू करता है जो उपयोगकर्ता सुधारों और फीडबैक को शामिल करती हैं। जब एक उपयोगकर्ता एक गलत पहचान को सही करता है, तो वह संकेत (गोपनीयता सुरक्षा के साथ) संचित किया जाता है और उस विशिष्ट खाद्य और परिस्थितियों पर मॉडल प्रदर्शन में सुधार के लिए उपयोग किया जाता है जहाँ त्रुटियाँ सबसे सामान्य होती हैं।
कई संकेतों का संयोजन
Nutrola केवल दृश्य वर्गीकरण पर निर्भर रहने के बजाय, सटीकता में सुधार के लिए छवि-आधारित पहचान को संदर्भ संकेतों के साथ जोड़ता है। दिन का समय, भौगोलिक क्षेत्र, हाल का भोजन इतिहास, और उपयोगकर्ता प्राथमिकताएँ सभी पूर्वानुमान के रूप में कार्य करती हैं जो दृश्य रूप से समान खाद्य पदार्थों को स्पष्ट करने में मदद करती हैं। एक सुबह के समय उत्तरी अमेरिका में खींची गई लाल तरल की एक कटोरी अधिक संभावना है कि वह टमाटर का रस हो, न कि गज़पाचो, और प्रणाली उस संदर्भ का उपयोग बेहतर भविष्यवाणियाँ करने के लिए कर सकती है।
अनिश्चितता का ईमानदार संचार
एक सबसे महत्वपूर्ण डिज़ाइन निर्णय यह है कि अनिश्चितता को कैसे संप्रेषित किया जाए। जब मॉडल आत्मविश्वासी होता है, Nutrola अपनी पहचान सीधे प्रस्तुत करता है। जब आत्मविश्वास कम होता है, तो प्रणाली कई विकल्प प्रस्तुत करती है और उपयोगकर्ता से पुष्टि करने के लिए कहती है। यह इंटरैक्शन पैटर्न प्रौद्योगिकी की अंतर्निहित सीमाओं का सम्मान करता है जबकि फिर भी मैनुअल लॉगिंग की तुलना में बाधा को कम करता है। यह प्रणाली को पूर्णता का दिखावा करने के बजाय, यह स्पष्ट करती है कि इसे कब मदद की आवश्यकता है।
केवल वर्गीकरण सटीकता नहीं, पोषण सटीकता के लिए अनुकूलन
अकादमिक बेंचमार्क वर्गीकरण सटीकता को मापते हैं: क्या मॉडल ने खाद्य को सही ढंग से पहचाना? लेकिन पोषण ट्रैकिंग के लिए, प्रासंगिक मीट्रिक पोषण सटीकता है: अनुमानित कैलोरी और मैक्रोन्यूट्रिएंट सामग्री कितनी सही है। Nutrola इस डाउनस्ट्रीम मीट्रिक के लिए अनुकूलित करता है। दो दृश्य रूप से समान खाद्य पदार्थों के बीच भ्रम जो समान पोषण प्रोफाइल रखते हैं (सफेद चावल बनाम जैस्मीन चावल) की तुलना में बहुत कम महत्वपूर्ण है, जबकि दो दृश्य रूप से समान खाद्य पदार्थों के बीच भ्रम जो बहुत अलग पोषण प्रोफाइल रखते हैं (एक सामान्य मफिन बनाम एक प्रोटीन मफिन) अधिक महत्वपूर्ण है। प्रणाली को पोषण अनुमान पर सबसे बड़ा प्रभाव डालने वाली त्रुटियों को न्यूनतम करने के लिए ट्यून किया गया है।
शोध सीमा: आगे क्या आता है
खाद्य पहचान अनुसंधान में प्रगति जारी है। कई सक्रिय शोध दिशाएँ हैं जिनमें प्रयोगशाला की सटीकता और वास्तविक दुनिया के प्रदर्शन के बीच के अंतर को और बंद करने की क्षमता है:
सामग्री-स्तरीय पहचान: व्यंजन-स्तरीय वर्गीकरण से आगे बढ़कर एक व्यंजन के भीतर व्यक्तिगत सामग्री की पहचान करना। यह मिश्रित खाद्य पदार्थों के लिए अधिक सटीक पोषण अनुमान को सक्षम बनाता है और आहार प्रतिबंधों की जांच का समर्थन करता है (उदाहरण के लिए, एलर्जेन पहचान)।
एकल छवियों से 3D खाद्य पुनर्निर्माण: न्यूरल रेडियंस फील्ड (NeRFs) और मोनोकुलर 3D पुनर्निर्माण में प्रगति यह सुझाव देती है कि एकल फोटो से भोजन का एक उचित सटीक 3D मॉडल पुनर्निर्माण करना जल्द ही संभव होगा, जिससे भाग अनुमान में काफी सुधार होगा।
व्यक्तिगत खाद्य मॉडल: ऐसे मॉडल का प्रशिक्षण जो व्यक्तिगत उपयोगकर्ताओं के सामान्य भोजन, पसंदीदा रेस्तरां और खाना पकाने की शैलियों के अनुसार अनुकूलित होते हैं। एक मॉडल जो जानता है कि आप हर सप्ताह के दिन एक ही नाश्ता करते हैं, व्यक्तिगतकरण के माध्यम से लगभग पूर्ण सटीकता प्राप्त कर सकता है।
मल्टी-मोडल तर्क: दृश्य पहचान को पाठ (मेनू विवरण, नुस्खा नाम) और ऑडियो (भोजन का वॉयस विवरण) के साथ मिलाकर अधिक मजबूत खाद्य समझ प्रणाली बनाना।
खाद्य के लिए संघीय शिक्षण: कई उपयोगकर्ताओं के उपकरणों पर खाद्य पहचान मॉडलों को प्रशिक्षित करना बिना कच्चे डेटा को केंद्रीकृत किए, गोपनीयता को बनाए रखते हुए विविध वास्तविक दुनिया के प्रशिक्षण डेटा से लाभ उठाना।
अक्सर पूछे जाने वाले प्रश्न
आज AI खाद्य पहचान मानव आहार विशेषज्ञ की तुलना में कितनी सटीक है?
सामान्य खाद्य पदार्थों के लिए जो अच्छे परिस्थितियों में फोटो खींचे गए हैं, AI खाद्य पहचान मानव आहार विशेषज्ञ की गति से मेल खाती है या उसे पार कर जाती है और पहचान सटीकता में तुलनीय होती है। एक पंजीकृत आहार विशेषज्ञ आमतौर पर 85 से 95 प्रतिशत सटीकता के साथ एक फोटो से खाद्य पदार्थ की पहचान कर सकता है। वर्तमान AI सिस्टम अच्छी तरह से प्रस्तुत खाद्य श्रेणियों के लिए समान दरें प्राप्त करते हैं। हालांकि, आहार विशेषज्ञ अभी भी दुर्लभ या अस्पष्ट खाद्य पदार्थों, सांस्कृतिक रूप से विशिष्ट व्यंजनों, और भाग अनुमान में AI से बेहतर प्रदर्शन करते हैं। AI का व्यावहारिक लाभ गति और उपलब्धता है: यह 24/7 तत्काल अनुमान प्रदान करता है, जबकि आहार विशेषज्ञ की परामर्श सीमित और महंगे होते हैं।
Food-101 डेटासेट क्या है और यह क्यों महत्वपूर्ण है?
Food-101 एक बेंचमार्क डेटासेट है जिसमें 101 खाद्य श्रेणियों में फैली 101,000 छवियाँ हैं, जिसे 2014 में ETH ज्यूरिख के शोधकर्ताओं द्वारा प्रकाशित किया गया था। यह महत्वपूर्ण है क्योंकि इसने खाद्य पहचान मॉडलों के मूल्यांकन के लिए पहला व्यापक रूप से अपनाया गया मानक प्रदान किया। Food-101 से पहले, शोधकर्ता अपने सिस्टम का परीक्षण निजी या छोटे पैमाने पर डेटासेट पर करते थे, जिससे परिणामों की तुलना करना असंभव हो जाता था। Food-101 ने पुनरुत्पादित अनुसंधान को सक्षम किया और खाद्य वर्गीकरण सटीकता में तेजी से प्रगति को बढ़ावा दिया, जो 2014 में लगभग 50 प्रतिशत से बढ़कर 2020 तक 93 प्रतिशत से अधिक हो गया।
खाद्य पहचान अन्य वस्तुओं की तुलना में कठिन क्यों है?
खाद्य में कई चुनौतियाँ होती हैं जो सामान्य वस्तु पहचान में दुर्लभ होती हैं: एक ही खाद्य श्रेणी के भीतर अत्यधिक दृश्य भिन्नता (सोचें कि "सलाद" के नाम से कितनी चीजें हैं), विभिन्न खाद्य श्रेणियों के बीच उच्च दृश्य समानता (टमाटर का सूप बनाम लाल करी), विकृत और अमूर्त आकार, सॉस और टॉपिंग से लगातार ओक्लूजन, और संस्कृतियों में तैयारी शैलियों में व्यापक भिन्नता। इसके अलावा, खाद्य की पहचान और मात्रात्मकता (भाग अनुमान) दोनों की आवश्यकता होती है, जो अधिकांश वस्तु पहचान कार्यों की आवश्यकता नहीं होती है।
ट्रांसफर लर्निंग खाद्य पहचान में कैसे मदद करता है?
ट्रांसफर लर्निंग में एक न्यूरल नेटवर्क को एक बड़े सामान्य उद्देश्य डेटासेट (आमतौर पर ImageNet) पर पूर्व-प्रशिक्षित करना और इसे छोटे खाद्य-विशिष्ट डेटासेट पर फाइन-ट्यून करना शामिल है। यह काम करता है क्योंकि ImageNet से सीखी गई निम्न-स्तरीय दृश्य विशेषताएँ (किनारे, बनावट, रंग, आकार) व्यापक रूप से उपयोगी होती हैं और खाद्य छवियों पर अच्छी तरह से स्थानांतरित होती हैं। केवल उच्च-स्तरीय, खाद्य-विशिष्ट विशेषताओं को ही फिर से सीखने की आवश्यकता होती है। ट्रांसफर लर्निंग खाद्य-विशिष्ट प्रशिक्षण डेटा की मात्रा को नाटकीय रूप से कम करता है और आमतौर पर इसे शून्य से प्रशिक्षण की तुलना में 10 से 20 प्रतिशत अंक तक सटीकता में सुधार करता है।
क्या AI एकल फोटो से भाग के आकार का अनुमान लगा सकता है?
AI एकल फोटो से भाग के आकार का अनुमान लगा सकता है, लेकिन महत्वपूर्ण अनिश्चितता के साथ। गहराई की जानकारी के बिना, एक 2D फोटो खाद्य की मात्रा को सटीक रूप से निर्धारित नहीं कर सकता। आधुनिक प्रणालियाँ सीखे गए भाग प्राथमिकताओं (सामान्य सर्विंग आकारों के सांख्यिकीय ज्ञान), सापेक्ष आकार संकेतों (खाद्य को प्लेट या अन्य वस्तुओं के साथ तुलना करके), और मोनोकुलर गहराई के अनुमान को मिलाकर अनुमान उत्पन्न करती हैं जो आमतौर पर सत्य भाग आकार के 15 से 30 प्रतिशत के भीतर होती हैं। यह दैनिक ट्रैकिंग के लिए उपयोगी होने के लिए पर्याप्त सटीक है लेकिन नैदानिक आहार मूल्यांकन के लिए पर्याप्त सटीक नहीं है।
खाद्य वर्गीकरण और खाद्य पहचान में क्या अंतर है?
खाद्य वर्गीकरण एक संपूर्ण छवि को एकल लेबल असाइन करता है (यह छवि पिज्जा है)। खाद्य पहचान छवि के भीतर कई खाद्य पदार्थों की पहचान और स्थानीयकरण करती है, प्रत्येक वस्तु के चारों ओर बॉक्स खींचती है और उन्हें स्वतंत्र रूप से वर्गीकृत करती है (यह छवि ऊपर बाईं ओर पिज्जा, नीचे दाईं ओर सलाद, और ऊपर की ओर एक ब्रेडस्टिक है)। पहचान एक कठिन कार्य है लेकिन वास्तविक भोजन फोटो के लिए आवश्यक है, जो लगभग हमेशा कई खाद्य पदार्थों को शामिल करते हैं।
Nutrola इस शोध का उपयोग कैसे करता है?
Nutrola इस लेख में वर्णित अकादमिक खाद्य पहचान अनुसंधान के पूरे शरीर पर आधारित है, जो अत्याधुनिक आर्किटेक्चर को शामिल करता है, विविध वास्तविक दुनिया के डेटा पर प्रशिक्षण देता है, और केवल वर्गीकरण सटीकता के बजाय पोषण सटीकता के लिए अनुकूलित करता है। प्रणाली दृश्य पहचान को संदर्भ संकेतों और उपयोगकर्ता फीडबैक के साथ मिलाकर सटीकता प्रदान करती है जो किसी भी एकल शोध पत्र में प्राप्त सटीकता से अधिक होती है। Nutrola शोध समुदाय को वास्तविक दुनिया की खाद्य पहचान प्रदर्शन और इन प्रणालियों को बड़े पैमाने पर लागू करने की चुनौतियों पर निष्कर्ष प्रकाशित करके भी योगदान देता है।
क्या खाद्य पहचान AI कभी 100 प्रतिशत सटीक होगी?
पूर्ण सटीकता असंभव है कई कारणों से। कुछ खाद्य पदार्थ वास्तव में दृश्य रूप से अदृश्य होते हैं (जैसे सफेद चीनी और नमक)। 2D छवियों से भाग अनुमान लगाने में मौलिक गणितीय सीमाएँ होती हैं। और वैश्विक व्यंजनों की विविधता का मतलब है कि हमेशा लंबी-पूंछ खाद्य पदार्थ होंगे जिनका प्रशिक्षण डेटा सीमित होगा। हालांकि, प्रासंगिक प्रश्न यह नहीं है कि क्या तकनीक पूर्ण है, बल्कि यह है कि क्या यह उपयोगी है। वर्तमान सटीकता स्तरों पर, AI खाद्य पहचान पहले से ही मैनुअल प्रविष्टि की तुलना में खाद्य लॉगिंग की बाधा को 70 से 80 प्रतिशत तक कम कर देती है, और सटीकता प्रत्येक पीढ़ी के मॉडल और प्रशिक्षण डेटा के साथ बेहतर होती जा रही है।
निष्कर्ष
आपके फोन में खाद्य पहचान AI एक शोध यात्रा का परिणाम है जो एक दशक से अधिक समय तक फैली हुई है। यह 2012 के ImageNet चुनौती में छवि वर्गीकरण में एक प्रगति के साथ शुरू हुआ, खाद्य-विशिष्ट डेटासेट जैसे Food-101 के माध्यम से ध्यान केंद्रित किया, खाद्य को एक दृश्य डोमेन के रूप में अद्वितीय चुनौतियों का सामना किया, और धीरे-धीरे अकादमिक बेंचमार्क और वास्तविक दुनिया के प्रदर्शन के बीच के अंतर को पाट दिया।
यह यात्रा अभी खत्म नहीं हुई है। भाग अनुमान एक खुला शोध समस्या बना हुआ है। लंबी-पूंछ खाद्य श्रेणियों को बेहतर कवरेज की आवश्यकता है। वास्तविक दुनिया की सटीकता अभी भी बेंचमार्क सटीकता से महत्वपूर्ण अंतर से पीछे है। लेकिन प्रवृत्ति स्पष्ट है: प्रत्येक वर्ष बेहतर मॉडल, समृद्ध प्रशिक्षण डेटा, और कठिन समस्याओं के लिए अधिक जटिल दृष्टिकोण लाता है।
Nutrola इस शोध और उन व्यावहारिक आवश्यकताओं के बीच मौजूद है जो लोगों को यह समझने में मदद करती हैं कि वे क्या खाते हैं। अकादमिक शोध की अग्रिम पंक्ति के करीब रहते हुए, जबकि वास्तविक दुनिया के प्रदर्शन पर निरंतर ध्यान केंद्रित करते हुए, हम प्रयास कर रहे हैं कि सहज, सटीक पोषण ट्रैकिंग की वादा सभी के लिए वास्तविकता बने।
क्या आप अपने पोषण ट्रैकिंग को बदलने के लिए तैयार हैं?
उन हजारों में शामिल हों जिन्होंने Nutrola के साथ अपनी स्वास्थ्य यात्रा को बदल दिया!