Od výzkumné laboratoře k vašemu telefonu: Počítačové vidění za moderním rozpoznáváním potravin
AI, která identifikuje váš oběd, začala jako výzkumný článek. Zde je cesta od akademických průlomů v počítačovém vidění k technologii rozpoznávání potravin ve vaší kapse.
Technologie, která vám umožňuje vyfotit večeři a okamžitě vidět její kalorické složení, nevznikla z ničeho. Je výsledkem desetiletí akademického výzkumu, nespočetného množství publikovaných článků a stálého přílivu průlomů v oblasti počítačového vidění a hlubokého učení. To, co začalo jako okrajový výzkumný problém na univerzitních laboratořích, se stalo funkcí, kterou každý den používají miliony lidí bez jakéhokoli přemýšlení.
Tento článek sleduje celou cestu AI pro rozpoznávání potravin, od jejích kořenů v základním výzkumu počítačového vidění až po real-time identifikaci potravin na vašem telefonu. Během této cesty se podíváme na klíčové články, benchmarkové datové sady, trvalé výzvy a inženýrství potřebné k tomu, aby se laboratorní výsledky proměnily v spolehlivý spotřebitelský produkt.
Jiskra, která změnila vše: ImageNet a revoluce hlubokého učení
Abychom pochopili, jak dnes funguje rozpoznávání potravin, musíme začít u soutěže, která neměla nic společného s jídlem.
Velká výzva ImageNet pro vizuální rozpoznávání
V roce 2009 vydala Fei-Fei Li a její tým na Stanfordu dataset ImageNet, který obsahoval více než 14 milionů obrázků uspořádaných do více než 20 000 kategorií. Související Velká výzva ImageNet pro vizuální rozpoznávání (ILSVRC) vyzvala výzkumníky, aby vybudovali systémy schopné klasifikovat obrázky do 1 000 kategorií objektů, od letadel po zebry. Po několik let nejlepší systémy používaly ručně vytvářené rysy a tradiční techniky strojového učení, dosahující chybovosti v top-5 kolem 25 až 28 procent.
Pak přišel rok 2012.
Alex Krizhevsky, Ilya Sutskever a Geoffrey Hinton představili hlubokou konvoluční neuronovou síť, kterou nazvali AlexNet. Dosáhla chybovosti v top-5 15,3 procenta, čímž porazila druhé místo o více než 10 procentních bodů. To nebylo jen postupné zlepšení. Byla to změna paradigmatu, která signalizovala příchod hlubokého učení jako dominantního přístupu k počítačovému vidění.
Článek "Klasifikace ImageNet s hlubokými konvolučními neuronovými sítěmi" (Krizhevsky et al., 2012) je jedním z nejcitovanějších článků v celé oblasti informatiky. Jeho dopad přesáhl rámec výzvy ImageNet. Výzkumníci ve všech podoblastech počítačového vidění, včetně rozpoznávání potravin, okamžitě začali zkoumat, jak by hluboké konvoluční neuronové sítě mohly být aplikovány na jejich specifické problémy.
Proč byl rok 2012 pro potraviny důležitý
Před AlexNetem se systémy pro rozpoznávání potravin spoléhaly na ručně navržené rysy: histogramy barev, texturové popisy jako Local Binary Patterns (LBP) a rysy založené na tvaru extrahované pomocí algoritmů jako SIFT (Scale-Invariant Feature Transform). Tyto přístupy měly potíže s generalizací. Systém vyškolený k rozpoznávání pizzy pomocí barevných a texturových rysů by selhal, když by byl předložen pizze s neznámým toppingem nebo v neobvyklém osvětlení.
Hluboké CNN zásadně změnily situaci. Místo toho, aby výzkumníci museli ručně definovat, jaké vizuální rysy jsou důležité, síť se naučila diskriminační rysy přímo z dat. To znamenalo, že při dostatečném počtu tréninkových obrázků se CNN mohla naučit rozpoznávat potraviny za širokého spektra podmínek, zvládající variace v osvětlení, úhlu, servírování a přípravě, které by ručně navržené přístupy nezvládly.
Kaskáda zlepšení: 2013 až 2020
Roky následující po AlexNetu přinesly rychlou řadu architektonických inovací, z nichž každá zvyšovala přesnost a usnadňovala nasazení:
| Rok | Architektura | Klíčový přínos | Chyba ImageNet Top-5 |
|---|---|---|---|
| 2012 | AlexNet | Prokázal hluboké CNN v měřítku | 15.3% |
| 2014 | VGGNet | Ukázal, že hloubka (16-19 vrstev) zvyšuje přesnost | 7.3% |
| 2014 | GoogLeNet (Inception) | Víceúrovňové extrakce rysů s efektivním výpočtem | 6.7% |
| 2015 | ResNet | Reziduální spojení umožňující sítě s 152 vrstvami | 3.6% |
| 2017 | SENet | Mechanismy pozornosti kanálů | 2.3% |
| 2019 | EfficientNet | Kompozitní škálování pro optimální vyvážení přesnosti a efektivity | 2.0% |
| 2020 | Vision Transformer (ViT) | Sebe-pozornost aplikovaná na obrazové segmenty | 1.8% |
Každá z těchto architektur byla rychle přijata výzkumníky v oblasti rozpoznávání potravin, kteří je použili jako základ pro modely specifické pro potraviny.
Dataset Food-101: Poskytování společného benchmarku pro výzkumníky
Obecné klasifikátory obrazů vyškolené na ImageNetu mohly rozlišit pizzu od auta, ale rozlišování mezi pizzou margherita a pizzou bianca vyžaduje mnohem jemnější úroveň vizuální diskriminace. Komunita výzkumníků v oblasti rozpoznávání potravin potřebovala vlastní velkou datovou sadu.
Bossard et al. a vznik Food-101
V roce 2014 publikovali Lukas Bossard, Matthieu Guillaumin a Luc Van Gool z ETH Curych článek "Food-101 -- Mining Discriminative Components with Random Forests" na Evropské konferenci o počítačovém vidění (ECCV). Představili dataset Food-101: 101 000 obrázků pokrývajících 101 kategorií potravin, s 1 000 obrázky na kategorii. Obrázky byly záměrně shromážděny z reálných zdrojů (Foodspotting, sociální platforma pro sdílení jídla) namísto kontrolovaných laboratorních podmínek, což znamenalo, že zahrnovaly šum, variaci a nedokonalosti reálných fotografií potravin.
Food-101 vytvořil společný benchmark, který umožnil výzkumníkům přímo porovnávat své přístupy. Původní článek dosáhl 50,76 procenta přesnosti top-1 pomocí přístupu s náhodnými lesy a ručně navrženými rysy. Během jednoho roku začaly přístupy založené na hlubokém učení překračovat 70 procent. Do roku 2018 modely postavené na architekturách jako Inception a ResNet překračovaly 90 procent přesnosti top-1 na Food-101.
Další důležité datové sady potravin
Food-101 byla nejširší používaná benchmarková sada, ale výzkumná komunita vytvořila několik dalších datasetů, které posunuly obor vpřed:
UEC-Food100 a UEC-Food256 (2012, 2014): Vyvinuté Univerzitou elektrokomunikací v Japonsku, tyto datové sady se zaměřily na japonskou kuchyni a zavedly anotace o ohraničujících boxech pro detekci více potravin. UEC-Food256 rozšířil pokrytí na 256 kategorií pokrývajících více asijských kuchyní.
VIREO Food-172 (2016): Vytvořeno Městskou univerzitou v Hongkongu, tato datová sada zahrnovala 172 kategorií čínských potravin spolu s anotacemi ingrediencí, což umožnilo výzkum zaměřený na rozpoznávání na úrovni ingrediencí.
Nutrition5k (2021): Vyvinutá Google Research, tato datová sada spojila obrázky potravin s přesnými nutričními měřeními získanými pomocí kalorimetrie. S 5 006 realistickými talíři jídel a laboratorně ověřenými kalorickými hodnotami poskytla Nutrition5k základní datovou sadu pro trénink a hodnocení systémů odhadu porcí.
Food2K (2021): Velká benchmarková sada obsahující 2 000 kategorií potravin a více než milion obrázků, navržená tak, aby posunula rozpoznávání potravin na úroveň obecného rozpoznávání objektů.
MAFood-121 (2019): Zaměřena na rozpoznávání potravin s více atributy, včetně typu kuchyně a metody přípravy vedle kategorie potravin, odrážející skutečnou potřebu porozumět nejen tomu, co jídlo je, ale také jak bylo připraveno.
Dostupnost těchto datových sad byla zásadní. V oblasti strojového učení často záleží na kvalitě a rozsahu tréninkových dat více než na architektuře modelu. Každá nová datová sada rozšířila spektrum potravin, kuchyní a vizuálních podmínek, ze kterých se modely mohly učit.
Proč je rozpoznávání potravin obtížnější než "běžná" detekce objektů
Výzkumníci pracující v oblasti rozpoznávání potravin rychle zjistili, že potraviny představují jedinečné výzvy, které se v obvyklé detekci objektů nevyskytují. Pochopení těchto výzev vysvětluje, proč systém, který dokáže spolehlivě identifikovat auta, psy a budovy, může mít potíže s talířem jídla.
Problém intra-kategoriální variace
Zlatý retrívr vypadá jako zlatý retrívr, ať už sedí, běží nebo spí. Ale salát může vypadat téměř jako cokoli. Řecký salát, Caesar salát, Waldorf salát a salát z quinoi a kapusty sdílejí stejnou kategorii "salát", ale vizuálně mají téměř nic společného. Tato intra-kategoriální variace je pro potravinové kategorie extrémní a daleko přesahuje to, co najdete v většině úloh rozpoznávání objektů.
Naopak, inter-kategoriální podobnost je také vysoká. Miska rajčatové polévky a miska červeného kari mohou vypadat téměř identicky zhora. Smažená rýže a pilaf sdílejí vizuální charakteristiky. Proteinová tyčinka a brownie mohou být na fotografii nerozeznatelné. Vizuální hranice mezi kategoriemi potravin jsou často rozmazané způsobem, který hranice mezi auty a náklaďáky nejsou.
Deformovatelná povaha potravin
Většina objektů, které jsou trénovány v systémech počítačového vidění, má konzistentní geometrickou strukturu. Židle má nohy, sedadlo a opěradlo. Potraviny jsou naopak deformovatelné, amorfní a nepředvídatelné ve svém vizuálním zobrazení. Porce bramborové kaše nemá žádný konzistentní tvar. Těstoviny mohou být servírovány v nekonečném počtu konfigurací. Dokonce i stejný recept připravený dvěma různými lidmi může vypadat podstatně jinak.
Tato deformovatelnost znamená, že rysy založené na tvaru, které jsou mocné pro detekci pevných objektů, přispívají k rozpoznávání potravin relativně málo. Modely se musí více spoléhat na barvu, texturu a kontextové nápovědy.
Okkluze a smíšená jídla
Na typické fotografii jídla se potraviny překrývají a zakrývají navzájem. Omáčka pokrývá maso. Sýr se rozpouští přes zeleninu. Rýže leží pod dušeným pokrmem. Tyto vzory okkluze nejsou jen běžné; jsou normou. Systém pro rozpoznávání potravin musí být robustní vůči částečné viditelnosti způsobem, který je mnohem náročnější než například detekce chodců na ulici.
Smíšená jídla představují ještě větší problém. Burrito obaluje své ingredience uvnitř tortilly, což je činí neviditelnými. Smoothie míchá ovoce a další ingredience do homogenní tekutiny. Zapečené jídlo kombinuje více ingrediencí do jedné vizuální hmoty. U těchto potravin musí rozpoznávání spoléhat na celkový vzhled a naučené asociace spíše než na identifikaci jednotlivých komponentů.
Osvětlení a variace prostředí
Fotografie potravin jsou pořizovány za velmi proměnlivých podmínek. Osvětlení v restauracích se pohybuje od jasného fluorescenčního po tlumené svíčkové. Domácí kuchyně mají nekonzistentní barevnou teplotu. Blesková fotografie mění zjevnou barvu potravin. Fotografie pořízené venku za slunečného dne nevypadají vůbec jako fotografie pořízené v tmavé kanceláři. Tato variace v podmínkách snímání dramaticky ovlivňuje rysy založené na barvě, a protože barva je jedním z nejsilnějších signálů pro identifikaci potravin, vytváří to značnou výzvu.
Problém odhadu porcí: Kde se výzkum stává opravdu obtížným
Identifikace toho, co je na talíři, je jen polovina problému. Aby byl systém užitečný pro sledování výživy, musí také odhadnout, kolik každé potraviny je přítomno. To je problém odhadu porcí a zůstává jednou z nejaktivnějších a nejnáročnějších oblastí výzkumu v oblasti potravinových technologií.
Proč je odhad porcí zásadně obtížný
Jedna 2D fotografie vyřazuje informace o hloubce. Bez znalosti vzdálenosti od kamery k talíři, velikosti talíře nebo výšky hromady jídla není možné získat skutečný fyzický objem potravin pouze z měření pixelů. To není omezení současné AI. Je to matematická realita projektivní geometrie. Malá miska blízko kamery a velká miska daleko produkují identické obrázky.
Výzkumníci prozkoumali několik přístupů, jak se s tímto omezením vyrovnat:
Metody referenčního objektu: Některé systémy žádají uživatele, aby do záběru zahrnuli známý referenční objekt (minci, kreditní kartu, konkrétní talíř). Měřením pixelových rozměrů známého objektu vůči jeho skutečné velikosti může systém odhadnout měřítko. Systém TADA (Three-Dimensional Automatic Dietary Assessment) vyvinutý na Purdue University použil fiducial marker (šachovnicový vzor) pro tento účel. Ačkoli je to přesné, tento přístup přidává tření, které činí jeho každodenní použití nepraktickým.
Odhad hloubky z monokulárních obrázků: Neuronové sítě mohou odhadovat hloubkové mapy z jednotlivých obrázků tím, že využívají naučené předpoklady o typických scénách. Výzkum skupin na University of Pittsburgh a Georgia Tech aplikoval monokulární odhad hloubky na obrázky potravin, dosahující odhadů objemu v rozmezí 15 až 25 procent od skutečnosti za kontrolovaných podmínek.
Rekonstrukce z více úhlů: Některé výzkumné systémy žádají uživatele, aby zachytili jídlo z více úhlů, což umožňuje 3D rekonstrukci. Ačkoli je to přesnější, opět to přidává tření. Výzkum Fang et al. (2019) ukázal, že i dva pohledy mohou výrazně zlepšit přesnost odhadu objemu.
Naučené předpoklady o porcích: Místo pokusu o obnovení přesného fyzického objemu se některé systémy učí statistické rozdělení typických velikostí porcí pro každou kategorii potravin. Pokud systém ví, že medián porce vařené bílé rýže je přibližně 158 gramů, může tuto prioritu kombinovat s vizuálními signály o relativní velikosti potraviny na obrázku, aby vytvořil rozumný odhad.
Klíčové články o odhadu porcí
Několik článků posunulo stav techniky v odhadu porcí:
- Meyers et al. (2015), "Im2Calories: Towards an Automated Mobile Vision Food Diary," z Google Research, navrhli použití CNN k odhadu kalorického obsahu přímo z obrázků potravin, čímž se vyhnuli explicitnímu odhadu objemu.
- Fang et al. (2019), "An End-to-End Image-Based Automatic Food Energy Estimation Technique Based on Learned Energy Distribution Maps," představili mapy energetického rozložení, které předpovídají hustotu kalorií na pixel.
- Thames et al. (2021), "Nutrition5k: Towards Automatic Nutritional Understanding of Generic Food," poskytli první velkou datovou sadu s kalorimetricky ověřenou nutriční pravdou, což umožnilo rigoróznější hodnocení systémů odhadu porcí.
- Lu et al. (2020) prokázali, že kombinace segmentace potravin s odhadem hloubky přináší odhady porcí s průměrnou absolutní chybou pod 20 procent pro běžné kategorie potravin.
Mezera mezi přesností výzkumu a výkonem v reálném světě
Jedním z nejdůležitějších a nejméně diskutovaných témat v AI pro rozpoznávání potravin je mezera mezi benchmarkovým výkonem a výkonem v reálném světě. Pochopení této mezery je klíčové pro nastavení realistických očekávání ohledně toho, co technologie rozpoznávání potravin může a nemůže udělat.
Podmínky benchmarku vs. realita
Výzkumné články obvykle uvádějí přesnost na kurátorských testovacích sadách, které pocházejí ze stejné distribuce jako tréninková data. Přesnost Food-101 93 procent vypadá impozantně, ale znamená to, že model byl testován na obrázcích ze stejného zdroje a v podobných podmínkách jako jeho tréninkové obrázky. Při nasazení v reálném světě přesnost klesá z několika důvodů:
Posun distribuce: Uživatelé fotografují s různými fotoaparáty, osvětlením, úhly a kompozicemi, než jaké jsou zastoupeny v tréninkových datech. Model vyškolený převážně na snímcích jídla z výše z food blogů bude podávat horší výkon, když uživatel pořídí nakloněný snímek s bleskem v špatně osvětlené restauraci.
Dlouhé ocasy potravin: Benchmarkové datové sady pokrývají omezený soubor kategorií. Food-101 má 101 kategorií; Food2K má 2 000. Ale skutečně globální systém rozpoznávání potravin musí zvládat desítky tisíc pokrmů. Výkon u vzácných nebo kulturně specifických potravin je obvykle mnohem nižší než uváděné průměry.
Složená jídla: Většina benchmarků hodnotí klasifikaci jednotlivých potravin. Skutečná jídla obsahují více potravin na jednom talíři, což vyžaduje detekci, segmentaci a klasifikaci současně. Přesnost více potravin je konzistentně nižší než přesnost jednotlivých potravin.
Kumulace chyb v odhadu porcí: I malé chyby v identifikaci potravin se kumulují, když se kombinují s odhadem porcí. Pokud systém zamění quinou za kuskus (což je plausibilní vizuální záměna), aplikuje nesprávnou nutriční hustotu na svůj odhad objemu, což vede k chybám jak v rozložení makroživin, tak v počtu kalorií.
Kvantifikace mezery
Publikovaný výzkum naznačuje následující přibližné rozsahy výkonu:
| Úkol | Přesnost benchmarku | Přesnost v reálném světě |
|---|---|---|
| Klasifikace jednotlivé potraviny (top-1) | 88-93% | 70-82% |
| Klasifikace jednotlivé potraviny (top-5) | 96-99% | 88-94% |
| Detekce více potravin na položku | 75-85% | 60-75% |
| Odhad porcí (do 20% od pravdy) | 65-75% | 45-60% |
| Odhad kalorií end-to-end (do 20%) | 55-65% | 35-50% |
Tato čísla zdůrazňují důležitou pravdu: AI pro rozpoznávání potravin je dobrá a zlepšuje se, ale zatím není náhradou za pečlivé měření. Je to nástroj, který dramaticky snižuje tření, přičemž akceptuje známou marži chyby.
Časová osa klíčových průlomů
Následující časová osa shrnuje hlavní milníky na cestě od obecného výzkumu počítačového vidění k technologii rozpoznávání potravin ve vašem telefonu:
2009 -- Vydání datasetu ImageNet. Fei-Fei Li a tým na Stanfordu publikují dataset ImageNet, poskytující velký benchmark, který podpoří revoluci hlubokého učení.
2012 -- AlexNet vyhrává ILSVRC. Krizhevsky, Sutskever a Hinton prokazují, že hluboké konvoluční neuronové sítě dramaticky překonávají tradiční přístupy v klasifikaci obrázků. Začíná éra hlubokého učení.
2012 -- Publikace UEC-Food100. Jedna z prvních velkých datových sad obrázků potravin, zaměřená na japonskou kuchyni, ustanovuje rozpoznávání potravin jako samostatný výzkumný problém.
2014 -- Vydání datasetu Food-101. Bossard et al. z ETH Curych publikují benchmark, který se stane standardní hodnotící sadou pro výzkum rozpoznávání potravin.
2014 -- GoogLeNet a VGGNet. Dvě vlivné architektury dokazují, že hlubší a sofistikovanější návrhy sítí výrazně zvyšují přesnost klasifikace. Obě jsou rychle přijaty výzkumníky v oblasti rozpoznávání potravin.
2015 -- Představení ResNet. He et al. z Microsoft Research představují reziduální spojení, umožňující sítě s více než 100 vrstvami. ResNet se stává nejvíce používaným základem v systémech rozpoznávání potravin po několik následujících let.
2015 -- Publikace článku Im2Calories. Google Research prokazuje end-to-end odhad kalorií z obrázků potravin, čímž se zavádí přímá cesta od obrázku k výživě jako životaschopný výzkumný směr.
2016 -- Real-time detekce objektů se vyvíjí. YOLO (Redmon et al., 2016) a SSD (Liu et al., 2016) umožňují real-time detekci více objektů, což činí možné detekovat více potravin na talíři za méně než jednu sekundu.
2017 -- Transfer learning se stává standardní praxí. Výzkumná komunita se sjednocuje na společné metodologii: předtrénovat na ImageNetu, jemně doladit na datových sadách potravin. Tento přístup dosahuje přesnosti Food-101 nad 88 procent.
2019 -- Publikace EfficientNet. Tan a Le z Google představují kompozitní škálování, produkující modely, které jsou jak přesnější, tak efektivnější než jejich předchůdci. To činí vysokou přesnost rozpoznávání potravin proveditelnou na mobilním hardwaru bez cloudového inference.
2020 -- Publikace Vision Transformers (ViT). Dosovitskiy et al. z Google prokazují, že transformační architektury, původně vyvinuté pro zpracování přirozeného jazyka, mohou dosáhnout nebo překonat CNN v klasifikaci obrázků. To otevírá nové cesty pro výzkum rozpoznávání potravin.
2021 -- Vydání datasetu Nutrition5k. Google Research publikuje datovou sadu s kalorimetricky ověřenou nutriční pravdou, poskytující první rigorózní benchmark pro hodnocení end-to-end nutričního odhadu.
2022-2024 -- Vznik základních modelů. Velké předtrénované modely pro zpracování obrazu a jazyka, jako je CLIP (Radford et al., 2021) a následné modely, umožňují rozpoznávání potravin v režimu zero-shot a few-shot, což umožňuje systémům identifikovat kategorie potravin, na které nikdy nebyly explicitně trénovány.
2025-2026 -- Inference na zařízení se stává standardem. Pokroky v kompresi modelů, kvantizaci a mobilních neuronových procesorových jednotkách (NPU) umožňují modelům rozpoznávání potravin běžet zcela na zařízení, což eliminuje latenci a obavy o soukromí spojené s cloudovým zpracováním.
Jak Nutrola překonává mezeru mezi výzkumem a praxí
Akademický výzkum popsaný výše je nezbytný, ale nestačí k vytvoření systému rozpoznávání potravin, který funguje spolehlivě pro skutečné lidi za skutečných podmínek. Mezera mezi publikováním článku s 93 procenty přesnosti na Food-101 a dodáním produktu, kterému uživatelé důvěřují při sledování své každodenní výživy, je obrovská. Zde se inženýrství, datová strategie a design zaměřený na uživatele stávají stejně důležitými jako architektura modelu.
Trénink na skutečných uživatelských datech
Akademické datové sady jsou kurátorovány z food blogů, sociálních médií a kontrolovaných fotografických sezení. Skutečné uživatelské fotografie jsou chaotičtější: částečně snědená jídla, přeplněné pozadí, špatné osvětlení, neobvyklé úhly, více talířů v záběru. Nutrola trénuje své modely na datových distribucích, které odrážejí skutečné vzorce používání, včetně nedokonalých, reálných obrázků, které uživatelé skutečně zachycují. Tím se uzavírá významná část mezery v posunu distribuce.
Nepřetržité učení a zpětné vazby
Statický model, který je jednou vyškolen a nasazen, se zhoršuje, jak se mění chování uživatelů a trendy v potravinách. Nutrola implementuje kontinuální učební pipeline, které zahrnují uživatelské opravy a zpětnou vazbu. Když uživatel opraví nesprávnou identifikaci, tento signál je agregován (s ochranou soukromí) a používá se k zlepšení výkonu modelu na konkrétních potravinách a podmínkách, kde jsou chyby nejčastější.
Kombinace více signálů
Místo spoléhání se pouze na vizuální klasifikaci, Nutrola kombinuje rozpoznávání založené na obrázcích s kontextovými signály pro zlepšení přesnosti. Čas dne, geografická oblast, nedávná historie jídel a preference uživatelů slouží jako priority, které pomáhají rozlišovat vizuálně podobné potraviny. Miska červené tekutiny vyfotografovaná ráno v Severní Americe je pravděpodobněji rajčatový džus než gazpacho, a systém může tuto kontextovou informaci využít k lepšímu předpovídání.
Upřímná komunikace o důvěře
Jedním z nejdůležitějších rozhodnutí v designu je, jak komunikovat nejistotu. Když je model jistý, Nutrola přímo prezentuje svou identifikaci. Když je důvěra nižší, systém nabízí více možností a žádá uživatele o potvrzení. Tento vzor interakce respektuje inherentní omezení technologie, zatímco stále snižuje tření ve srovnání s manuálním zaznamenáváním. Místo toho, aby se tvářil jako dokonalý, je systém transparentní, když potřebuje pomoc.
Optimalizace pro nutriční přesnost, nejen pro přesnost klasifikace
Akademické benchmarky měří přesnost klasifikace: rozpoznal model správně potravinu? Ale pro sledování výživy je relevantní metrikou nutriční přesnost: jak blízko je odhadovaný obsah kalorií a makroživin skutečným hodnotám? Nutrola optimalizuje pro tuto dolní metrikou. Záměna dvou vizuálně podobných potravin se podobnými nutričními profily (bílá rýže vs. jasmínová rýže) má mnohem menší význam než záměna dvou vizuálně podobných potravin s velmi odlišnými nutričními profily (běžný muffin vs. proteinový muffin). Systém je laděn tak, aby minimalizoval chyby, které mají největší dopad na nutriční odhady.
Výzkumná hranice: Co přijde dál
Výzkum rozpoznávání potravin pokračuje v pokroku. Několik aktivních výzkumných směrů má potenciál dále uzavřít mezeru mezi laboratorní přesností a výkonem v reálném světě:
Rozpoznávání na úrovni ingrediencí: Přesun od klasifikace na úrovni pokrmu k identifikaci jednotlivých ingrediencí v pokrmu. To umožňuje přesnější nutriční odhady pro složená jídla a podporuje kontrolu dietních omezení (například detekci alergenů).
3D rekonstrukce potravin z jednotlivých obrázků: Pokroky v neuronových poli záření (NeRF) a monokulární 3D rekonstrukci naznačují, že brzy bude možné rekonstruovat poměrně přesný 3D model jídla z jediné fotografie, což podstatně zlepší odhad porcí.
Personalizované potravinové modely: Trénink modelů, které se přizpůsobují typickým jídlům jednotlivých uživatelů, preferovaným restauracím a stylům vaření. Model, který ví, že každé ráno jíte stejnou snídani, může dosáhnout téměř dokonalé přesnosti díky personalizaci.
Víceúrovňové uvažování: Kombinace vizuálního rozpoznávání s textem (popisy menu, názvy receptů) a zvukem (hlasové popisy jídel) pro vytvoření robustnějších systémů pro porozumění potravinám.
Federované učení pro potraviny: Trénink modelů pro rozpoznávání potravin napříč mnoha zařízeními uživatelů, aniž by se centralizovala surová data, což zachovává soukromí, zatímco stále těží z různorodých reálných tréninkových dat.
Často kladené otázky
Jak přesné je dnes AI rozpoznávání potravin ve srovnání s lidským dietologem?
Pro běžné potraviny fotografované za dobrých podmínek odpovídá AI rozpoznávání potravin rychlostí nebo překonává lidského dietologa a dosahuje srovnatelné přesnosti identifikace. Registrovaný dietolog obvykle dokáže identifikovat potravinový produkt z fotografie s přesností 85 až 95 procent. Současné AI systémy dosahují podobných sazeb pro dobře zastoupené kategorie potravin. Nicméně dietologové stále překonávají AI u vzácných nebo nejednoznačných potravin, kulturně specifických pokrmů a odhadu porcí. Praktickou výhodou AI je rychlost a dostupnost: poskytuje okamžitý odhad 24/7, zatímco konzultace s dietologem jsou omezené a drahé.
Co je dataset Food-101 a proč je důležitý?
Food-101 je benchmarková datová sada obsahující 101 000 obrázků pokrývajících 101 kategorií potravin, publikovaná výzkumníky z ETH Curych v roce 2014. Je důležitá, protože poskytla první široce přijatý standard pro hodnocení modelů rozpoznávání potravin. Před Food-101 testovali výzkumníci své systémy na soukromých nebo malých datových sadách, což znemožňovalo porovnávat výsledky. Food-101 umožnil reprodukovatelný výzkum a urychlil pokrok v přesnosti klasifikace potravin z přibližně 50 procent v roce 2014 na více než 93 procent do roku 2020.
Proč je potraviny obtížnější rozpoznat než jiné objekty?
Potraviny představují několik výzev, které jsou vzácné v obvyklém rozpoznávání objektů: extrémní vizuální variace uvnitř stejné kategorie potravin (myslete na všechny věci nazývané "salát"), vysoká vizuální podobnost mezi různými kategoriemi potravin (rajčatová polévka vs. červené kari), deformovatelné a amorfní tvary, častá okkluze od omáček a polev a široká variace v přípravných stylech napříč kulturami. Kromě toho musí být potraviny nejen identifikovány, ale také kvantifikovány (odhady porcí), což přidává dimenzi, kterou většina úloh rozpoznávání objektů nevyžaduje.
Jak transfer learning pomáhá s rozpoznáváním potravin?
Transfer learning zahrnuje převzetí neuronové sítě, která byla předtrénována na velké datové sadě pro obecné účely (typicky ImageNet), a jemné doladění na menší datové sadě specifické pro potraviny. To funguje, protože nízkoúrovňové vizuální rysy naučené z ImageNetu (hrany, textury, barvy, tvary) jsou široce užitečné a dobře se přenášejí na obrázky potravin. Pouze vyšší úrovně, specifické pro potraviny, je třeba se učit od nuly. Transfer learning dramaticky snižuje množství specifických tréninkových dat potřebných pro potraviny a obvykle zlepšuje přesnost o 10 až 20 procentních bodů ve srovnání s tréninkem od nuly.
Může AI odhadnout velikosti porcí z jediné fotografie?
AI může odhadnout velikosti porcí z jediné fotografie, ale s významnou nejistotou. Bez informací o hloubce nemůže 2D fotografie přesně určit objem potravin. Moderní systémy kombinují naučené předpoklady o porcích (statistické znalosti typických velikostí porcí), relativní velikostní signály (porovnání potravin s talířem nebo jinými objekty) a monokulární odhad hloubky, aby vytvořily odhady, které jsou obvykle v rozmezí 15 až 30 procent od skutečné velikosti porce. To je dostatečně přesné pro každodenní sledování, ale ne dostatečně přesné pro klinické dietní hodnocení.
Jaký je rozdíl mezi klasifikací potravin a detekcí potravin?
Klasifikace potravin přiřazuje jediné označení celému obrázku (tento obrázek obsahuje pizzu). Detekce potravin identifikuje a lokalizuje více potravinových položek v rámci obrázku, kreslí ohraničující boxy kolem každé položky a klasifikuje je nezávisle (tento obrázek obsahuje pizzu v levém horním rohu, salát v pravém dolním rohu a chleba podél vrchu). Detekce je obtížnější úkol, ale je nezbytná pro skutečné fotografie jídel, které téměř vždy obsahují více potravinových položek.
Jak Nutrola využívá tento výzkum?
Nutrola staví na celém těle akademického výzkumu rozpoznávání potravin popsaného v tomto článku, integruje nejmodernější architektury, trénuje na různorodých reálných datech a optimalizuje pro nutriční přesnost spíše než pouze pro přesnost klasifikace. Systém kombinuje vizuální rozpoznávání s kontextovými signály a uživatelskou zpětnou vazbou, aby dosáhl přesnosti, která překonává to, co jakýkoli jednotlivý výzkumný článek dosahuje v izolaci. Nutrola také přispívá zpět do výzkumné komunity publikováním zjištění o výkonu rozpoznávání potravin v reálném světě a výzvách nasazení těchto systémů v měřítku.
Bude AI pro rozpoznávání potravin někdy 100 procentně přesná?
Dokonalá přesnost je nepravděpodobná z několika důvodů. Některé potraviny jsou skutečně vizuálně nerozeznatelné (bílý cukr a sůl, například). Odhad porcí z 2D obrázků má základní matematická omezení. A rozmanitost globálních kuchyní znamená, že vždy budou existovat dlouhé ocasy potravin s omezenými tréninkovými daty. Nicméně relevantní otázka není, zda je technologie dokonalá, ale zda je užitečná. Při současných úrovních přesnosti již AI rozpoznávání potravin snižuje tření při zaznamenávání potravin o 70 až 80 procent ve srovnání s manuálním zadáváním, a přesnost se s každou generací modelů a tréninkových dat nadále zlepšuje.
Závěr
AI pro rozpoznávání potravin ve vašem telefonu je výsledkem výzkumné cesty, která trvá více než deset let. Začala průlomem v klasifikaci obrázků na výzvě ImageNet v roce 2012, získala zaměření prostřednictvím specifických datových sad jako Food-101, čelila jedinečným výzvám potravin jako vizuální domény a postupně překonala mezeru mezi akademickými benchmarky a výkonem v reálném světě.
Tato cesta však zdaleka nekončí. Odhad porcí zůstává otevřeným výzkumným problémem. Kategorii dlouhých ocasů potravin je třeba lépe pokrýt. Přesnost v reálném světě stále zaostává za benchmarkovou přesností o významnou marži. Ale trajektorie je jasná: každý rok přináší lepší modely, bohatší tréninková data a sofistikovanější přístupy k těžkým problémům.
Nutrola existuje na pomezí tohoto výzkumu a praktických potřeb lidí, kteří se snaží porozumět tomu, co jedí. Tím, že zůstáváme blízko špičky akademického výzkumu a zároveň se neúnavně zaměřujeme na výkon v reálném světě, pracujeme na tom, abychom udělali slib bezproblémového a přesného sledování výživy realitou pro každého.
Připraveni proměnit sledování výživy?
Přidejte se k tisícům, kteří svou cestu ke zdraví proměnili s Nutrola!