Fra Forskningslaboratorium til Din Telefon: Computervisionen Bag Moderne Fødevarer Genkendelse

AI'en, der identificerer din frokost, startede som en forskningsartikel. Her er rejsen fra akademiske gennembrud inden for computervision til fødevarer genkendelsesteknologi i din lomme.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Teknologien, der lader dig tage et billede af din middag og straks se kalorieindholdet, er ikke dukket op af den blå luft. Den er resultatet af årtiers akademisk forskning, utallige publicerede artikler og en konstant strøm af gennembrud inden for computervision og dyb læring. Hvad der begyndte som et nicheforskningsemne i universitetslaboratorier, er blevet en funktion, som millioner af mennesker bruger hver dag uden at tænke over det.

Denne artikel følger hele rejsen for fødevarer genkendelse AI, fra dens rødder i grundlæggende computervision forskning til den realtids fødevarer identifikation, der kører på din telefon. Undervejs vil vi se på de vigtigste artikler, benchmark-datasæt, de vedholdende udfordringer og den ingeniørkunst, der kræves for at omsætte laboratorieresultater til et pålideligt forbrugerprodukt.

Gnisten, der Ændrede Alt: ImageNet og Dyb Læring Revolutionen

For at forstå, hvordan fødevarer genkendelse fungerer i dag, skal man starte med en konkurrence, der ikke havde noget med mad at gøre.

ImageNet Large Scale Visual Recognition Challenge

I 2009 udgav Fei-Fei Li og hendes team ved Stanford ImageNet, et datasæt med over 14 millioner billeder organiseret i mere end 20.000 kategorier. Den tilknyttede ImageNet Large Scale Visual Recognition Challenge (ILSVRC) bad forskere om at bygge systemer, der kunne klassificere billeder i 1.000 objektkategorier, fra fly til zebraer. I flere år brugte de bedste systemer håndlavede funktioner og traditionelle maskinlæringsteknikker, hvilket resulterede i top-5 fejlprocenter på omkring 25 til 28 procent.

Så kom 2012.

Alex Krizhevsky, Ilya Sutskever og Geoffrey Hinton deltog med et dybt konvolutionelt neuralt netværk, de kaldte AlexNet. Det opnåede en top-5 fejlrate på 15,3 procent, hvilket knuste andenpladsen med mere end 10 procentpoint. Dette var ikke en inkrementel forbedring. Det var et paradigmeskifte, der signalerede ankomsten af dyb læring som den dominerende tilgang til computervision.

Artiklen "ImageNet Classification with Deep Convolutional Neural Networks" (Krizhevsky et al., 2012) er en af de mest citerede artikler inden for datalogi. Dens indflydelse strakte sig langt ud over ImageNet-udfordringen. Forskere i alle underfelter af computervision, herunder fødevarer genkendelse, begyndte straks at udforske, hvordan dybe konvolutionelle neurale netværk kunne anvendes på deres specifikke problemer.

Hvorfor ImageNet 2012 Betydede Noget for Fødevarer

Før AlexNet var fødevarer genkendelsessystemer afhængige af håndlavede funktioner: farvehistogrammer, teksturdeskriptorer som Local Binary Patterns (LBP) og formbaserede funktioner udvundet ved hjælp af algoritmer som SIFT (Scale-Invariant Feature Transform). Disse tilgange havde svært ved at generalisere. Et system trænet til at genkende pizza ved hjælp af farve- og teksturfunktioner ville fejle, når det blev præsenteret for en pizza med en ukendt topping eller usædvanlig belysning.

Dyb CNN ændrede fundamentalt ligningen. I stedet for at kræve, at forskere manuelt definerede, hvilke visuelle funktioner der var vigtige, lærte netværket diskriminerende funktioner direkte fra data. Det betød, at givet tilstrækkelige træningsbilleder kunne en CNN lære at genkende mad under en bred vifte af betingelser, håndtere variationer i belysning, vinkel, anretning og tilberedning, som ville overmande håndlavede tilgange.

Kaskaden af Forbedringer: 2013 til 2020

Årene efter AlexNet producerede en hurtig række arkitektoniske innovationer, der hver især skubbede nøjagtigheden højere og gjorde implementeringen mere praktisk:

År Arkitektur Nøglebidrag ImageNet Top-5 Fejl
2012 AlexNet Beviste dybe CNN'er i stor skala 15.3%
2014 VGGNet Viste, at dybde (16-19 lag) forbedrer nøjagtigheden 7.3%
2014 GoogLeNet (Inception) Multi-skala funktionsekstraktion med effektiv beregning 6.7%
2015 ResNet Residualforbindelser, der muliggør 152-lags netværk 3.6%
2017 SENet Kanal opmærksomhedsmekanismer 2.3%
2019 EfficientNet Kompound skalering for optimal nøjagtighed/effektivitet 2.0%
2020 Vision Transformer (ViT) Selvopmærksomhed anvendt på billedpatches 1.8%

Hver af disse arkitekturer blev hurtigt adopteret af forskere inden for fødevarer genkendelse, som brugte dem som grundlag for fødevarerspecifikke modeller.

Food-101 Datasættet: Giver Forskere et Fælles Benchmark

Generelle billedklassifikatorer trænet på ImageNet kunne skelne mellem en pizza og en bil, men at skelne mellem pizza margherita og pizza bianca kræver et meget finere niveau af visuel diskrimination. Forskningen inden for fødevarer genkendelse havde brug for sit eget store datasæt.

Bossard et al. og Fødevarer-101s Fødselsdag

I 2014 offentliggjorde Lukas Bossard, Matthieu Guillaumin og Luc Van Gool fra ETH Zürich "Food-101 -- Mining Discriminative Components with Random Forests" ved den Europæiske Konference om Computervision (ECCV). De introducerede Food-101 datasættet: 101.000 billeder, der spænder over 101 fødevarekategorier, med 1.000 billeder pr. kategori. Billederne blev bevidst indsamlet fra virkelige kilder (Foodspotting, en social maddelingsplatform) frem for kontrollerede laboratorieindstillinger, hvilket betød, at de inkluderede støj, variation og ufuldkommenhed fra virkelige madbilleder.

Food-101 etablerede et fælles benchmark, der gjorde det muligt for forskere at sammenligne deres tilgange direkte. Den oprindelige artikel opnåede 50,76 procent top-1 nøjagtighed ved hjælp af en random forest tilgang med håndlavede funktioner. Inden for et år begyndte dyb læring tilgange at overgå 70 procent. I 2018 oversteg modeller bygget på arkitekturer som Inception og ResNet 90 procent top-1 nøjagtighed på Food-101.

Andre Vigtige Fødevarer Datasæt

Food-101 var det mest anvendte benchmark, men forskningssamfundet producerede flere andre datasæt, der skubbede feltet fremad:

UEC-Food100 og UEC-Food256 (2012, 2014): Udviklet af University of Electro-Communications i Japan, fokuserede disse datasæt på japansk køkken og introducerede bounding box annotationer til multi-fødevarer detektion. UEC-Food256 udvidede dækningen til 256 kategorier, der spænder over flere asiatiske køkkener.

VIREO Food-172 (2016): Oprettet af City University of Hong Kong, inkluderede dette datasæt 172 kinesiske fødevarekategorier sammen med ingrediensannotationer, hvilket muliggør forskning i ingrediensniveau genkendelse.

Nutrition5k (2021): Udviklet af Google Research, parrede dette datasæt madbilleder med præcise ernæringsmålinger opnået ved hjælp af kalorimetri. Med 5.006 realistiske måltidsplader og laboratorieverificerede kalorieantal, gav Nutrition5k et grundsandhed datasæt til træning og evaluering af portionsestimeringssystemer.

Food2K (2021): Et stort benchmark, der indeholder 2.000 fødevarekategorier og over en million billeder, designet til at skubbe fødevarer genkendelse mod skalaen af generel objektgenkendelse.

MAFood-121 (2019): Fokuseret på multi-attribut fødevarer genkendelse, herunder køkken type og tilberedningsmetode sammen med fødevarekategori, hvilket afspejler det virkelige behov for at forstå ikke kun hvad en fødevare er, men hvordan den blev tilberedt.

Tilgængeligheden af disse datasæt var essentiel. I maskinlæring betyder kvaliteten og skalaen af træningsdata ofte mere end modelarkitekturen. Hvert nyt datasæt udvidede rækken af fødevarer, køkkener og visuelle betingelser, som modeller kunne lære fra.

Hvorfor Fødevarer Er Sværere End "Regelmæssig" Objekt Detektion

Forskere, der arbejder med fødevarer genkendelse, opdagede hurtigt, at mad præsenterer unikke udfordringer, der ikke opstår i generel objekt detektion. At forstå disse udfordringer forklarer, hvorfor et system, der kan identificere biler, hunde og bygninger pålideligt, måske kæmper med en tallerken mad.

Problemet med Intra-Klasse Variation

En golden retriever ser ud som en golden retriever, uanset om den sidder, løber eller sover. Men en salat kan se ud som næsten alt. En græsk salat, en Caesar salat, en Waldorf salat og en kale-quinoa salat deler den samme labelkategori af "salat", men har næsten intet visuelt til fælles. Denne intra-klasse variation er ekstrem for fødevarekategorier og langt overstiger, hvad man finder i de fleste objektgenkendelsesopgaver.

Omvendt er inter-klasse lighed også høj. En skål tomatsuppe og en skål rød karry kan se næsten identiske ud fra oven. Stegte ris og pilaf deler visuelle karakteristika. En proteinbar og en brownie kan være umulige at skelne i et foto. De visuelle grænser mellem fødevarekategorier er ofte uklare på en måde, som grænserne mellem biler og lastbiler ikke er.

Den Deformable Natur af Fødevarer

De fleste objekter, som computervisionssystemer er trænet til at genkende, har en konsekvent geometrisk struktur. En stol har ben, et sæde og en ryg. Mad, derimod, er deformabel, amorf og uforudsigelig i sin visuelle præsentation. En portion kartoffelmos har ingen konsekvent form. Pasta kan anrettes på uendeligt mange måder. Selv den samme opskrift tilberedt af to forskellige personer kan se væsentligt forskellig ud.

Denne deformabilitet betyder, at formbaserede funktioner, som er kraftfulde til stiv objekt detektion, bidrager relativt lidt til fødevarer genkendelse. Modeller må i højere grad stole på farve, tekstur og kontekstuelle signaler.

Okklusion og Blandede Retter

I et typisk måltidsfoto overlapper og dækker fødevarer hinanden. Sauce dækker kød. Ost smelter over grøntsager. Ris sidder under en gryderet. Disse okklusionsmønstre er ikke bare almindelige; de er normen. Et fødevarer genkendelsessystem skal være robust over for delvis synlighed på en måde, der er langt mere krævende end for eksempel at detektere fodgængere i en gadescene.

Blandede retter præsenterer et endnu sværere problem. En burrito pakker sine ingredienser ind i en tortilla, hvilket gør dem usynlige. En smoothie blander frugter og andre ingredienser til en homogen væske. En gryderet kombinerer flere ingredienser til en enkelt visuel masse. For disse fødevarer skal genkendelse stole på helhedsindtrykket og lærte associationer snarere end at identificere individuelle komponenter.

Belysning og Miljøvariation

Madbilleder tages under vildt varierende forhold. Restaurantbelysning spænder fra klart fluorescerende lys til dæmpet stearinlys. Hjemmekøkkener har inkonsistent farvetemperatur. Blitzfotografi ændrer den tilsyneladende farve af mad. Billeder taget udendørs på en solrig dag ser slet ikke ud som billeder taget i et dunkelt kontor. Denne variation i billedforhold påvirker farvebaserede funktioner dramatisk, og da farve er et af de stærkeste signaler for fødevarer identifikation, skaber det en betydelig udfordring.

Problemet med Portionsestimering: Hvor Forskning Bliver Rigtig Svær

At identificere, hvilken mad der er på en tallerken, er kun halvdelen af problemet. For at være nyttig til ernæringssporing skal et system også estimere, hvor meget af hver fødevare der er til stede. Dette er portionsestimeringsproblemet, og det forbliver et af de mest aktive og udfordrende områder inden for fødevarer computing forskning.

Hvorfor Portionsestimering Fundamentalt Er Svært

Et enkelt 2D-foto kasserer dybdeinformation. Uden at vide afstanden fra kameraet til tallerkenen, størrelsen på tallerkenen eller højden af en madbunke er det umuligt at genskabe det sande fysiske volumen af mad ud fra pixelmålinger alene. Dette er ikke en begrænsning af den nuværende AI. Det er en matematisk realitet i projektiv geometri. En lille skål tæt på kameraet og en stor skål langt væk producerer identiske billeder.

Forskere har udforsket flere tilgange for at omgå denne begrænsning:

Referenceobjektmetoder: Nogle systemer beder brugeren om at inkludere et kendt referenceobjekt (en mønt, et kreditkort, en specifik tallerken) i billedet. Ved at måle det kendte objekts pixelmål i forhold til dets virkelige størrelse kan systemet estimere skala. TADA (Three-Dimensional Automatic Dietary Assessment) systemet udviklet ved Purdue University brugte et fiducial marker (et ternet mønster) til dette formål. Selvom det er præcist, tilføjer denne tilgang friktion, der gør det upraktisk til daglig brug.

Dybdeestimering fra monokulare billeder: Neurale netværk kan estimere dybdekort fra enkeltbilleder ved at udnytte lærte priors om typiske scener. Forskning fra grupper ved University of Pittsburgh og Georgia Tech har anvendt monokulær dybdeestimering på madbilleder og opnået volumenestimater inden for 15 til 25 procent af grundsandheden under kontrollerede forhold.

Multi-view rekonstruktion: Nogle forskningssystemer beder brugerne om at tage billeder af mad fra flere vinkler, hvilket muliggør 3D-rekonstruktion. Selvom det er mere præcist, tilføjer dette igen friktion. Forskning af Fang et al. (2019) viste, at selv to visninger kan forbedre volumenestimeringsnøjagtigheden betydeligt.

Lærte portionspriors: I stedet for at forsøge at genskabe det nøjagtige fysiske volumen, lærer nogle systemer statistiske fordelinger af typiske portionsstørrelser for hver fødevarekategori. Hvis systemet ved, at den median portion af kogt hvid ris er cirka 158 gram, kan det bruge denne prior sammen med visuelle signaler om den relative størrelse af maden i billedet til at producere et rimeligt estimat.

Nøgleartikler om Portionsestimering

Flere artikler har fremmet state-of-the-art inden for portionsestimering:

  • Meyers et al. (2015), "Im2Calories: Towards an Automated Mobile Vision Food Diary," fra Google Research, foreslog at bruge en CNN til at estimere kalorieindhold direkte fra madbilleder, hvilket omgår eksplicit volumenestimering.
  • Fang et al. (2019), "An End-to-End Image-Based Automatic Food Energy Estimation Technique Based on Learned Energy Distribution Maps," introducerede energifordelingskort, der forudsiger per-pixel kalorie tæthed.
  • Thames et al. (2021), "Nutrition5k: Towards Automatic Nutritional Understanding of Generic Food," gav det første store datasæt med kalorimetri-verificeret ernæringsgrundsandhed, hvilket muliggør en mere stringent evaluering af portionsestimeringssystemer.
  • Lu et al. (2020) demonstrerede, at kombinationen af fødevarer segmentering med dybdeestimering giver portionsestimater med en gennemsnitlig absolut fejl under 20 procent for almindelige fødevarekategorier.

Kløften Mellem Forskningsnøjagtighed og Virkelighedens Præstation

Et af de vigtigste og mindst diskuterede emner inden for fødevarer genkendelse AI er kløften mellem benchmarkpræstation og virkelighedens præstation. At forstå denne kløft er afgørende for at sætte realistiske forventninger til, hvad fødevarer genkendelsesteknologi kan og ikke kan gøre.

Benchmarkforhold vs. Virkelighed

Forskningsartikler rapporterer typisk nøjagtighed på kuraterede testdatasæt trukket fra den samme distribution som træningsdataene. Food-101 nøjagtighed på 93 procent lyder imponerende, men det betyder, at modellen blev testet på billeder fra den samme kilde og under lignende forhold som dens træningsbilleder. Når den implementeres i den virkelige verden, falder nøjagtigheden af flere grunde:

Distributionsskift: Brugere tager billeder med forskellige kameraer, belysning, vinkler og kompositioner end dem, der er repræsenteret i træningsdataene. En model, der primært er trænet på overhead madbilleder fra madblogs, vil underpræstere, når en bruger tager et skråt billede med en telefonblitz i en svagt oplyst restaurant.

Langhalede fødevarer: Benchmarkdatasæt dækker et begrænset sæt kategorier. Food-101 har 101 kategorier; Food2K har 2.000. Men et virkelig globalt fødevarer genkendelsessystem skal håndtere titusindvis af retter. Præstationen på sjældne eller kulturelt specifikke fødevarer er typisk meget lavere end de rapporterede gennemsnit.

Sammensatte måltider: De fleste benchmarks evaluerer enkeltføde klassifikation. Virkelige måltider indeholder flere fødevarer på en enkelt tallerken, hvilket kræver detektion, segmentering og klassifikation samtidig. Multi-føde nøjagtighed er konsekvent lavere end enkelt-føde nøjagtighed.

Fejl i portionsestimering: Selv små fejl i fødevarer identifikation akkumuleres, når de kombineres med portionsestimering. Hvis systemet forveksler quinoa med couscous (en plausibel visuel forvirring), anvender det den forkerte ernæringsmæssige tæthed på sit volumenestimat, hvilket resulterer i fejl i både makronæringsstofopdeling og kalorieantal.

Kvantificering af Kløften

Publiceret forskning antyder følgende omtrentlige præstationsområder:

Opgave Benchmark Nøjagtighed Virkelighedens Nøjagtighed
Enkel føde klassifikation (top-1) 88-93% 70-82%
Enkel føde klassifikation (top-5) 96-99% 88-94%
Multi-føde detektion pr. item 75-85% 60-75%
Portionsestimering (inden for 20% af sandheden) 65-75% 45-60%
End-to-end kalorie estimering (inden for 20%) 55-65% 35-50%

Disse tal fremhæver en vigtig sandhed: fødevarer genkendelse AI er god og bliver bedre, men det er endnu ikke en erstatning for omhyggelig måling. Det er et værktøj, der dramatisk reducerer friktionen, mens det accepterer en kendt fejlmargin.

En Tidslinje for Nøglegennembrud

Følgende tidslinje opsummerer de vigtigste milepæle i rejsen fra generel computervision forskning til fødevarer genkendelsesteknologien i din telefon:

2009 -- ImageNet datasæt udgivet. Fei-Fei Li og teamet ved Stanford offentliggør ImageNet datasættet, der giver det store benchmark, der vil drive dyb læring revolutionen.

2012 -- AlexNet vinder ILSVRC. Krizhevsky, Sutskever og Hinton demonstrerer, at dybe konvolutionelle neurale netværk dramatisk overgår traditionelle tilgange til billedklassifikation. Dyb læring æraen begynder.

2012 -- UEC-Food100 offentliggjort. Et af de første store fødevarebilleddatasæt, fokuseret på japansk køkken, etablerer fødevarer genkendelse som et distinkt forskningsproblem.

2014 -- Food-101 datasæt udgivet. Bossard et al. ved ETH Zürich offentliggør benchmarket, der vil blive den standard evalueringsdatasæt for fødevarer genkendelse forskning.

2014 -- GoogLeNet og VGGNet. To indflydelsesrige arkitekturer demonstrerer, at dybere og mere sofistikerede netværksdesigns væsentligt forbedrer klassifikationsnøjagtigheden. Begge bliver hurtigt adopteret af forskere inden for fødevarer genkendelse.

2015 -- ResNet introduceres. He et al. ved Microsoft Research introducerer residualforbindelser, der muliggør netværk med 100+ lag. ResNet bliver det mest anvendte backbone i fødevarer genkendelsessystemer i de næste flere år.

2015 -- Im2Calories artikel offentliggjort. Google Research demonstrerer end-to-end kalorie estimering fra madbilleder, hvilket etablerer den direkte billede-til-ernæring pipeline som en levedygtig forskningsretning.

2016 -- Realtids objekt detektion modnes. YOLO (Redmon et al., 2016) og SSD (Liu et al., 2016) muliggør realtids multi-objekt detektion, hvilket gør det muligt at detektere flere fødevarer på en tallerken på under et sekund.

2017 -- Transfer learning bliver standardpraksis. Forskningfællesskabet konvergerer om en fælles metode: fortræning på ImageNet, finjustering på fødevaredatasæt. Denne tilgang opnår Food-101 nøjagtighed over 88 procent.

2019 -- EfficientNet offentliggjort. Tan og Le ved Google introducerer kompound skalering, hvilket producerer modeller, der er både mere nøjagtige og mere effektive end forgængerne. Dette gør høj-nøjagtighed fødevarer genkendelse muligt på mobilhardware uden cloud inference.

2020 -- Vision Transformers (ViT) offentliggjort. Dosovitskiy et al. ved Google demonstrerer, at transformerarkitekturer, der oprindeligt blev udviklet til naturlig sprogbehandling, kan matche eller overgå CNN'er i billedklassifikation. Dette åbner nye veje for fødevarer genkendelse forskning.

2021 -- Nutrition5k datasæt udgivet. Google Research offentliggør et datasæt med kalorimetri-verificeret ernæringsgrundsandhed, hvilket giver det første strenge benchmark for evaluering af end-to-end ernæringsestimering.

2022-2024 -- Foundation modeller dukker op. Store foruddannede vision-sprogmodeller som CLIP (Radford et al., 2021) og efterfølgende modeller muliggør zero-shot og few-shot fødevarer genkendelse, hvilket gør det muligt for systemer at identificere fødevarekategorier, de aldrig blev eksplicit trænet på.

2025-2026 -- On-device inference bliver standard. Fremskridt inden for modelkomprimering, kvantisering og mobile neurale behandlingsenheder (NPU'er) gør det muligt for fødevarer genkendelsesmodeller at køre helt på enheden, hvilket eliminerer latens og privatlivsproblemer forbundet med cloudbehandling.

Hvordan Nutrola Brobygger Kløften Mellem Forskning og Praksis

Den akademiske forskning, der er beskrevet ovenfor, er nødvendig, men ikke tilstrækkelig for at bygge et fødevarer genkendelsessystem, der fungerer pålideligt for rigtige mennesker under virkelige forhold. Kløften mellem at offentliggøre en artikel med 93 procent nøjagtighed på Food-101 og at levere et produkt, som brugerne har tillid til til deres daglige ernæringssporing, er enorm. Her bliver ingeniørkunst, datastrategi og brugercentreret design lige så vigtigt som modelarkitektur.

Træning på Rigtige Brugerdata Distributioner

Akademiske datasæt er kurateret fra madblogs, sociale medier og kontrollerede fotografisessioner. Rigtige brugerfotos er mere rodet: delvist spiste måltider, rodede baggrunde, dårlig belysning, usædvanlige vinkler, flere tallerkener i billedet. Nutrola træner sine modeller på datadistributioner, der afspejler faktiske brugs mønstre, herunder de ufuldkomne, virkelige billeder, som brugerne faktisk tager. Dette lukker en betydelig del af distributionsskiftkløften.

Kontinuerlig Læring og Feedbacksløjfer

En statisk model, der trænes én gang og implementeres, vil forringes, efterhånden som brugeradfærd og madtrends ændrer sig. Nutrola implementerer kontinuerlige læringspipelines, der inkorporerer brugerrettelser og feedback. Når en bruger retter en fejlagtig identifikation, bliver det signal aggregeret (med privatlivsbeskyttelse) og brugt til at forbedre modelpræstationen på de specifikke fødevarer og betingelser, hvor fejl er mest almindelige.

Kombination af Flere Signaler

I stedet for kun at stole på visuel klassifikation kombinerer Nutrola billede-baseret genkendelse med kontekstuelle signaler for at forbedre nøjagtigheden. Tidspunkt på dagen, geografisk region, nylig måltidshistorik og brugerpræferencer fungerer alle som priors, der hjælper med at adskille visuelt lignende fødevarer. En skål rød væske fotograferet til morgenmad i Nordamerika er mere tilbøjelig til at være tomatjuice end gazpacho, og systemet kan bruge den kontekst til at lave bedre forudsigelser.

Ærlig Kommunikation af Tillid

En af de vigtigste designbeslutninger er, hvordan man kommunikerer usikkerhed. Når modellen er sikker, præsenterer Nutrola sin identifikation direkte. Når tilliden er lavere, præsenterer systemet flere muligheder og beder brugeren om at bekræfte. Dette interaktionsmønster respekterer teknologiens iboende begrænsninger, mens det stadig reducerer friktionen sammenlignet med manuel registrering. I stedet for at lade som om det er perfekt, er systemet gennemsigtigt omkring, hvornår det har brug for hjælp.

Optimering for Ernæringsmæssig Nøjagtighed, Ikke Bare Klassifikationsnøjagtighed

Akademiske benchmarks måler klassifikationsnøjagtighed: identificerede modellen korrekt maden? Men for ernæringssporing er den relevante måleenhed ernæringsmæssig nøjagtighed: hvor tæt er det estimerede kalorie- og makronæringsstofindhold på de sande værdier? Nutrola optimerer for denne downstream-metrik. En forvirring mellem to visuelt lignende fødevarer med lignende ernæringsprofiler (hvid ris vs. jasminris) betyder langt mindre end en forvirring mellem to visuelt lignende fødevarer med meget forskellige ernæringsprofiler (en almindelig muffin vs. en protein muffin). Systemet er justeret til at minimere fejl, der har den største indvirkning på ernæringsestimater.

Forskningens Grænse: Hvad Kommer Næste

Fødevarer genkendelse forskning fortsætter med at udvikle sig. Flere aktive forskningsretninger har potentiale til yderligere at lukke kløften mellem laboratorienøjagtighed og virkelighedens præstation:

Ingrediensniveau genkendelse: Gå videre fra ret-niveau klassifikation til at identificere individuelle ingredienser inden for en ret. Dette muliggør mere præcise ernæringsestimater for sammensatte fødevarer og understøtter kontrol af diætbegrænsninger (allergen detektion, for eksempel).

3D madrekonstruktion fra enkeltbilleder: Fremskridt inden for neurale strålingsfelter (NeRFs) og monokulær 3D rekonstruktion antyder, at det snart vil være muligt at rekonstruere en rimeligt præcis 3D-model af et måltid fra et enkelt fotografi, hvilket væsentligt forbedrer portionsestimering.

Personlige fødevaremodeller: Træning af modeller, der tilpasser sig individuelle brugeres typiske måltider, foretrukne restauranter og tilberedningsstile. En model, der ved, at du spiser den samme morgenmad hver hverdag, kan opnå næsten perfekt nøjagtighed gennem personalisering.

Multi-modal ræsonnering: Kombinere visuel genkendelse med tekst (menu beskrivelser, opskriftsnavne) og lyd (stemmeskildringer af måltider) for at bygge mere robuste fødevarer forståelsessystemer.

Fødereret læring for fødevarer: Træning af fødevarer genkendelsesmodeller på tværs af mange brugeres enheder uden at centralisere rådata, hvilket bevarer privatlivets fred, mens man stadig drager fordel af forskelligartede virkelige træningsdata.

Ofte Stillede Spørgsmål

Hvor nøjagtig er AI fødevarer genkendelse i dag sammenlignet med en menneskelig diætist?

For almindelige fødevarer fotograferet under gode forhold matcher AI fødevarer genkendelse eller overgår hastigheden af en menneskelig diætist og opnår sammenlignelig identifikationsnøjagtighed. En registreret diætist kan typisk identificere en fødevare fra et foto med 85 til 95 procent nøjagtighed. Nuværende AI-systemer opnår lignende rater for godt repræsenterede fødevarekategorier. Dog overgår diætister stadig AI på sjældne eller tvivlsomme fødevarer, kulturelt specifikke retter og portionsestimering. Den praktiske fordel ved AI er hastighed og tilgængelighed: det giver et øjeblikkeligt estimat 24/7, mens diætistkonsultationer er begrænsede og dyre.

Hvad er Food-101 datasættet, og hvorfor betyder det noget?

Food-101 er et benchmark datasæt med 101.000 billeder, der spænder over 101 fødevarekategorier, offentliggjort af forskere ved ETH Zürich i 2014. Det betyder noget, fordi det gav den første bredt accepterede standard for evaluering af fødevarer genkendelsesmodeller. Før Food-101 testede forskere deres systemer på private eller småskala datasæt, hvilket gjorde det umuligt at sammenligne resultater. Food-101 muliggør reproducerbar forskning og driver hurtig fremgang i fødevarer klassifikationsnøjagtighed, fra omkring 50 procent i 2014 til over 93 procent i 2020.

Hvorfor er mad sværere at genkende end andre objekter?

Mad præsenterer flere udfordringer, der er sjældne i generel objektgenkendelse: ekstrem visuel variation inden for den samme fødevarekategori (tænk på alle de ting, der kaldes "salat"), høj visuel lighed mellem forskellige fødevarekategorier (tomatsuppe vs. rød karry), deformable og amorfe former, hyppig okklusion fra saucer og toppings, og bred variation i tilberedningsstile på tværs af kulturer. Derudover skal mad både identificeres og kvantificeres (portionsestimering), hvilket tilføjer en dimension, som de fleste objektgenkendelsesopgaver ikke kræver.

Hvordan hjælper transfer learning med fødevarer genkendelse?

Transfer learning involverer at tage et neuralt netværk, der er foruddannet på et stort generelt datasæt (typisk ImageNet), og finjustere det på et mindre fødevare-specifikt datasæt. Dette fungerer, fordi de lav-niveau visuelle funktioner, der er lært fra ImageNet (kanter, teksturer, farver, former), er bredt nyttige og overføres godt til madbilleder. Kun de højere niveau, fødevare-specifikke funktioner skal læres fra bunden. Transfer learning reducerer dramatisk mængden af fødevare-specifik træningsdata, der er nødvendig, og forbedrer typisk nøjagtigheden med 10 til 20 procentpoint sammenlignet med træning fra bunden.

Kan AI estimere portionsstørrelser fra et enkelt foto?

AI kan estimere portionsstørrelser fra et enkelt foto, men med meningsfuld usikkerhed. Uden dybdeinformation kan et 2D-foto ikke præcist bestemme volumen af mad. Moderne systemer kombinerer lærte portionspriors (statistisk viden om typiske portionsstørrelser), relative størrelsessignaler (sammenligning af mad med tallerkenen eller andre objekter) og monokulær dybdeestimering for at producere estimater, der typisk ligger inden for 15 til 30 procent af den sande portionsstørrelse. Dette er præcist nok til at være nyttigt til daglig sporing, men ikke præcist nok til klinisk diætvurdering.

Hvad er forskellen mellem fødevarer klassifikation og fødevarer detektion?

Fødevarer klassifikation tildeler en enkelt label til et helt billede (dette billede indeholder pizza). Fødevarer detektion identificerer og lokaliserer flere fødevarer inden for et billede, tegner bounding boxes omkring hver genstand og klassificerer dem uafhængigt (dette billede indeholder pizza i øverste venstre, salat i nederste højre og en brødstang langs toppen). Detektion er en sværere opgave, men er nødvendig for rigtige måltidsbilleder, som næsten altid indeholder flere fødevarer.

Hvordan bruger Nutrola denne forskning?

Nutrola bygger videre på hele den akademiske forskning inden for fødevarer genkendelse, der er beskrevet i denne artikel, ved at inkorporere state-of-the-art arkitekturer, træne på forskelligartede virkelige data og optimere for ernæringsmæssig nøjagtighed snarere end blot klassifikationsnøjagtighed. Systemet kombinerer visuel genkendelse med kontekstuelle signaler og brugerfeedback for at levere nøjagtighed, der overstiger, hvad nogen enkelt forskningsartikel opnår i isolation. Nutrola bidrager også tilbage til forskningssamfundet ved at offentliggøre fund om virkelige præstationer inden for fødevarer genkendelse og udfordringerne ved at implementere disse systemer i stor skala.

Vil fødevarer genkendelse AI nogensinde være 100 procent nøjagtig?

Perfekt nøjagtighed er usandsynlig af flere grunde. Nogle fødevarer er virkelig visuelt uadskillelige (hvid sukker og salt, for eksempel). Portionsestimering fra 2D-billeder har fundamentale matematiske begrænsninger. Og variationen af globale køkkener betyder, at der altid vil være langhalede fødevarer med begrænset træningsdata. Men det relevante spørgsmål er ikke, om teknologien er perfekt, men om den er nyttig. På nuværende nøjagtighedsniveauer reducerer AI fødevarer genkendelse allerede friktionen ved madregistrering med 70 til 80 procent sammenlignet med manuel indtastning, og nøjagtigheden fortsætter med at forbedre sig med hver generation af modeller og træningsdata.

Konklusion

Den fødevarer genkendelse AI, der findes i din telefon, er resultatet af en forskningsrejse, der strækker sig over mere end et årti. Den begyndte med et gennembrud inden for billedklassifikation ved 2012 ImageNet-udfordringen, fik fokus gennem fødevarer-specifikke datasæt som Food-101, konfronterede de unikke udfordringer ved mad som visuel domæne og gradvist broede kløften mellem akademiske benchmarks og virkelighedens præstation.

Den rejse er langt fra slut. Portionsestimering forbliver et åbent forskningsproblem. Langhalede fødevarekategorier har brug for bedre dækning. Virkelighedens nøjagtighed fortsætter med at være bag benchmarknøjagtigheden med en betydelig margin. Men retningen er klar: hvert år bringer bedre modeller, rigere træningsdata og mere sofistikerede tilgange til de svære problemer.

Nutrola eksisterer i krydsfeltet mellem denne forskning og de praktiske behov hos mennesker, der prøver at forstå, hvad de spiser. Ved at holde sig tæt på den nyeste akademiske forskning, mens vi opretholder et utrætteligt fokus på virkelighedens præstation, arbejder vi på at gøre løftet om problemfri, nøjagtig ernæringssporing til en realitet for alle.

Klar til at forvandle din ernæringsregistrering?

Bliv en del af de tusindvis, der har forvandlet deres sundhedsrejse med Nutrola!