Fra forskningslaboratorium til telefonen din: Datamaskinsyn bak moderne matgjenkjenning
AI-en som identifiserer lunsjen din startet som en forskningsartikkel. Her er reisen fra akademiske gjennombrudd innen datamaskinsyn til matgjenkjenningsteknologien i lommen din.
Teknologien som lar deg ta et bilde av middagen din og umiddelbart se kaloriinnholdet, har ikke dukket opp av ingenting. Den er resultatet av tiår med akademisk forskning, utallige publiserte artikler og en jevn strøm av gjennombrudd innen datamaskinsyn og dyp læring. Det som begynte som et nisje forskningsproblem i universitetslaboratorier, har blitt en funksjon som millioner av mennesker bruker hver dag uten å tenke over det.
Denne artikkelen følger hele reisen til matgjenkjennings-AI, fra dens røtter i grunnleggende forskning på datamaskinsyn til sanntids matidentifikasjon som kjører på telefonen din. Underveis vil vi se på de viktigste artiklene, benchmark-datasett, vedvarende utfordringer og ingeniørarbeidet som kreves for å omdanne laboratorieresultater til et pålitelig forbrukerprodukt.
Gnisten som endret alt: ImageNet og dyp læringsrevolusjonen
For å forstå hvordan matgjenkjenning fungerer i dag, må vi starte med en konkurranse som ikke hadde noe med mat å gjøre.
ImageNet Large Scale Visual Recognition Challenge
I 2009 ga Fei-Fei Li og teamet hennes ved Stanford ut ImageNet, et datasett med over 14 millioner bilder organisert i mer enn 20 000 kategorier. Den tilknyttede ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ba forskere om å bygge systemer som kunne klassifisere bilder i 1 000 objektkategorier, fra fly til sebraer. I flere år brukte de beste systemene håndlagde funksjoner og tradisjonelle maskinlæringsteknikker, med en top-5 feilrate på rundt 25 til 28 prosent.
Så kom 2012.
Alex Krizhevsky, Ilya Sutskever og Geoffrey Hinton deltok med et dypt konvolusjonelt nevralt nettverk de kalte AlexNet. Det oppnådde en top-5 feilrate på 15,3 prosent, og knuste andremann med mer enn 10 prosentpoeng. Dette var ikke en inkrementell forbedring. Det var et paradigmeskifte som signaliserte ankomsten av dyp læring som den dominerende tilnærmingen til datamaskinsyn.
Artikkelen "ImageNet Classification with Deep Convolutional Neural Networks" (Krizhevsky et al., 2012) er en av de mest siterte artiklene innen datavitenskap. Dens innvirkning strakte seg langt utover ImageNet-utfordringen. Forskere innen alle delområder av datamaskinsyn, inkludert matgjenkjenning, begynte umiddelbart å utforske hvordan dype konvolusjonelle nevrale nettverk kunne anvendes på sine spesifikke problemer.
Hvorfor ImageNet 2012 betydde noe for mat
Før AlexNet var matgjenkjenningssystemer avhengige av håndlagde funksjoner: fargehistogrammer, teksturbeskrivelser som Local Binary Patterns (LBP), og formbaserte funksjoner hentet fra algoritmer som SIFT (Scale-Invariant Feature Transform). Disse tilnærmingene hadde vansker med å generalisere. Et system trent til å gjenkjenne pizza ved hjelp av farge- og teksturfunksjoner ville feile når det ble presentert for en pizza med en ukjent topping eller uvanlig belysning.
Dype CNN-er endret ligningen fundamentalt. I stedet for å kreve at forskere manuelt definerte hvilke visuelle funksjoner som betydde noe, lærte nettverket diskriminerende funksjoner direkte fra data. Dette betydde at gitt nok treningsbilder, kunne en CNN lære å gjenkjenne mat under et bredt spekter av forhold, og håndtere variasjoner i belysning, vinkel, anretning og tilberedning som ville overvinne håndlagde tilnærminger.
Strømmen av forbedringer: 2013 til 2020
Årene etter AlexNet produserte en rask rekke arkitektoniske innovasjoner, hver av dem presset nøyaktigheten høyere og gjorde distribusjon mer praktisk:
| År | Arkitektur | Nøkkelbidrag | ImageNet Top-5 Feil |
|---|---|---|---|
| 2012 | AlexNet | Beviste dype CNN-er i stor skala | 15.3% |
| 2014 | VGGNet | Viste at dybde (16-19 lag) forbedrer nøyaktighet | 7.3% |
| 2014 | GoogLeNet (Inception) | Multi-skala funksjonsutvinning med effektiv beregning | 6.7% |
| 2015 | ResNet | Residualforbindelser som muliggjør 152-lags nettverk | 3.6% |
| 2017 | SENet | Kanaloppmerksomhetsmekanismer | 2.3% |
| 2019 | EfficientNet | Kompound skalering for optimal nøyaktighet/effektivitet | 2.0% |
| 2020 | Vision Transformer (ViT) | Selvoppmerksomhet anvendt på bildepatcher | 1.8% |
Hver av disse arkitekturene ble raskt adoptert av forskere innen matgjenkjenning, som brukte dem som ryggradsmodeller for matspesifikke modeller.
Food-101 datasettet: Gi forskere et felles benchmark
Generelle bildeklassifiseringssystemer trent på ImageNet kunne skille en pizza fra en bil, men å skille pizza margherita fra pizza bianca krever et mye finere nivå av visuell diskriminering. Forskermiljøet for matgjenkjenning trengte sitt eget storskala datasett.
Bossard et al. og fødselen av Food-101
I 2014 publiserte Lukas Bossard, Matthieu Guillaumin og Luc Van Gool fra ETH Zürich "Food-101 -- Mining Discriminative Components with Random Forests" på den europeiske konferansen for datamaskinsyn (ECCV). De introduserte Food-101 datasettet: 101 000 bilder som spenner over 101 matkategorier, med 1 000 bilder per kategori. Bildene ble bevisst samlet fra virkelige kilder (Foodspotting, en sosial plattform for deling av mat) i stedet for kontrollerte laboratorieinnstillinger, noe som betydde at de inkluderte støy, variasjon og imperfeksjoner fra virkelige matbilder.
Food-101 etablerte et felles benchmark som gjorde det mulig for forskere å sammenligne tilnærmingene sine direkte. Den opprinnelige artikkelen oppnådde 50,76 prosent top-1 nøyaktighet ved hjelp av en random forest-tilnærming med håndlagde funksjoner. Innen ett år hadde dype læringstilnærminger overgått 70 prosent. Innen 2018 hadde modeller bygget på arkitekturer som Inception og ResNet overgått 90 prosent top-1 nøyaktighet på Food-101.
Andre viktige matdatasett
Food-101 var det mest brukte benchmarket, men forskermiljøet produserte flere andre datasett som drev feltet fremover:
UEC-Food100 og UEC-Food256 (2012, 2014): Utviklet av University of Electro-Communications i Japan, fokuserte disse datasettene på japansk mat og introduserte bounding box-annotasjoner for multi-matdeteksjon. UEC-Food256 utvidet dekningen til 256 kategorier som spenner over flere asiatiske kjøkken.
VIREO Food-172 (2016): Opprettet av City University of Hong Kong, inkluderte dette datasettet 172 kinesiske matkategorier sammen med ingrediensannotasjoner, noe som muliggjorde forskning på gjenkjenning på ingrediensnivå.
Nutrition5k (2021): Utviklet av Google Research, parret dette datasettet matbilder med presise ernæringsmålinger oppnådd ved hjelp av kalorimetri. Med 5 006 realistiske måltidsplater og laboratorieverifiserte kaloritall, ga Nutrition5k et grunnlag for å trene og evaluere porsjonsestimeringssystemer.
Food2K (2021): Et storskala benchmark som inneholder 2 000 matkategorier og over én million bilder, designet for å presse matgjenkjenning mot skalaen av generell objektgjenkjenning.
MAFood-121 (2019): Fokuserte på multi-attributt matgjenkjenning, inkludert kjøkken type og tilberedningsmetode sammen med matkategori, og reflekterte det virkelige behovet for å forstå ikke bare hva en matrett er, men hvordan den ble tilberedt.
Tilgjengeligheten av disse datasettene var avgjørende. I maskinlæring betyr kvaliteten og omfanget av treningsdata ofte mer enn modellarkitekturen. Hvert nytt datasett utvidet rekkevidden av matvarer, kjøkken og visuelle forhold som modeller kunne lære av.
Hvorfor mat er vanskeligere enn "vanlig" objektgjenkjenning
Forskere som arbeider med matgjenkjenning oppdaget raskt at mat presenterer unike utfordringer som ikke oppstår i generell objektgjenkjenning. Å forstå disse utfordringene forklarer hvorfor et system som kan identifisere biler, hunder og bygninger pålitelig, kan slite med en tallerken mat.
Problemet med intra-klasse variasjon
En golden retriever ser ut som en golden retriever, enten den sitter, løper eller sover. Men en salat kan se ut som nesten hva som helst. En gresk salat, en Caesar-salat, en Waldorf-salat og en kale-quinoa-salat deler samme etikettkategori av "salat", men har nesten ingenting visuelt til felles. Denne intra-klasse variasjonen er ekstrem for matkategorier og langt større enn det man finner i de fleste objektgjenkjenningsoppgaver.
Omvendt er inter-klasse likhet også høy. En bolle med tomatsuppe og en bolle med rød curry kan se nesten identiske ut ovenfra. Stekt ris og pilaf deler visuelle kjennetegn. En proteinbar og en brownie kan være uadskillelige på et bilde. De visuelle grensene mellom matkategorier er ofte uklare på en måte som grensene mellom biler og lastebiler ikke er.
Den deformable naturen til mat
De fleste objekter som datamaskinsynssystemer er trent til å gjenkjenne har en konsistent geometrisk struktur. En stol har ben, sete og rygg. Mat, derimot, er deformabel, amorf og uforutsigbar i sin visuelle presentasjon. En porsjon potetmos har ingen konsistent form. Pasta kan anrettes på uendelig mange måter. Selv den samme oppskriften tilberedt av to forskjellige personer kan se betydelig forskjellig ut.
Denne deformabiliteten betyr at formbaserte funksjoner, som er kraftige for stiv objektgjenkjenning, bidrar relativt lite til matgjenkjenning. Modeller må stole mer på farge, tekstur og kontekstuelle ledetråder.
Okklusjon og blandede retter
I et typisk måltidsbilde overlapper og okkluderer matvarer hverandre. Saus dekker kjøtt. Ost smelter over grønnsaker. Ris ligger under en gryte. Disse okklusjonsmønstrene er ikke bare vanlige; de er normen. Et matgjenkjenningssystem må være robust mot delvis synlighet på en måte som er langt mer krevende enn for eksempel å oppdage fotgjengere i en gatebilde.
Blandede retter presenterer et enda vanskeligere problem. En burrito pakker ingrediensene sine inne i en tortilla, noe som gjør dem usynlige. En smoothie blander frukt og andre ingredienser til en homogen væske. En gryterett kombinerer flere ingredienser til en enkelt visuell masse. For disse matvarene må gjenkjenning stole på helhetlig utseende og lærte assosiasjoner i stedet for å identifisere individuelle komponenter.
Belysning og miljømessig variasjon
Matbilder tas under svært variable forhold. Restaurantbelysning varierer fra sterkt fluorescerende til dempet stearinlysbelysning. Hjemmekjøkken har inkonsistent fargetemperatur. Blitsfotografi endrer den tilsynelatende fargen på maten. Bilder tatt utendørs på en solfylt dag ser helt annerledes ut enn bilder tatt i et svakt opplyst kontor. Denne variasjonen i bildeforhold påvirker fargebaserte funksjoner dramatisk, og siden farge er en av de sterkeste ledetrådene for matidentifikasjon, skaper det en betydelig utfordring.
Problemet med porsjonsestimering: Der forskningen blir virkelig vanskelig
Å identifisere hvilken mat som er på en tallerken er bare halve problemet. For å være nyttig for ernæringssporing må et system også estimere hvor mye av hver matvare som er til stede. Dette er porsjonsestimeringsproblemet, og det forblir et av de mest aktive og utfordrende områdene innen matdatabehandling.
Hvorfor porsjonsestimering er fundamentalt vanskelig
Et enkelt 2D-foto kaster bort dybdeinformasjon. Uten å vite avstanden fra kameraet til tallerkenen, størrelsen på tallerkenen eller høyden på en matstabel, er det umulig å gjenskape det sanne fysiske volumet av mat fra pikselmålinger alene. Dette er ikke en begrensning av dagens AI. Det er en matematisk realitet av prosjektiv geometri. En liten bolle nær kameraet og en stor bolle langt unna produserer identiske bilder.
Forskere har utforsket flere tilnærminger for å omgå denne begrensningen:
Referanseobjektmetoder: Noen systemer ber brukeren om å inkludere et kjent referanseobjekt (en mynt, et kredittkort, en spesifikk tallerken) i bildet. Ved å måle det kjente objektets pikselmål mot dets virkelige størrelse, kan systemet estimere skala. TADA (Three-Dimensional Automatic Dietary Assessment) systemet utviklet ved Purdue University brukte et fiducial marker (et sjakkbrettmønster) for dette formålet. Selv om det er nøyaktig, legger denne tilnærmingen til friksjon som gjør den upraktisk for daglig forbruk.
Dybdeestimering fra monokulære bilder: Nevrale nettverk kan estimere dybdekart fra enkeltbilder ved å utnytte lærte priori om typiske scener. Forskning fra grupper ved University of Pittsburgh og Georgia Tech har anvendt monokulær dybdeestimering på matbilder, og oppnådd volumestimater innen 15 til 25 prosent av bakkenivå i kontrollerte forhold.
Multi-vy rekonstruksjon: Noen forskningssystemer ber brukere om å ta bilder av maten fra flere vinkler, noe som muliggjør 3D-rekonstruksjon. Selv om dette er mer nøyaktig, legger det igjen til friksjon. Forskning av Fang et al. (2019) demonstrerte at selv to visninger kan forbedre volumestimeringsnøyaktigheten betydelig.
Lærte porsjonspriorer: I stedet for å prøve å gjenskape nøyaktig fysisk volum, lærer noen systemer statistiske fordelinger av typiske porsjonsstørrelser for hver matkategori. Hvis systemet vet at medianserveringen av kokt hvit ris er omtrent 158 gram, kan det bruke denne prioren kombinert med visuelle ledetråder om den relative størrelsen på maten i bildet for å produsere et rimelig estimat.
Nøkkelartikler om porsjonsestimering
Flere artikler har fremmet tilstanden innen porsjonsestimering:
- Meyers et al. (2015), "Im2Calories: Towards an Automated Mobile Vision Food Diary," fra Google Research, foreslo å bruke en CNN for å estimere kaloriinnhold direkte fra matbilder, og omgå eksplisitt volumestimering.
- Fang et al. (2019), "An End-to-End Image-Based Automatic Food Energy Estimation Technique Based on Learned Energy Distribution Maps," introduserte energifordelingskart som forutsier per-piksel kalori tetthet.
- Thames et al. (2021), "Nutrition5k: Towards Automatic Nutritional Understanding of Generic Food," ga det første storskala datasettet med kalorimetri-verifisert ernæringsgrunnlag, noe som muliggjorde mer rigorøs evaluering av porsjonsestimeringssystemer.
- Lu et al. (2020) demonstrerte at kombinasjonen av matsegmentering med dybdeestimering gir porsjonsestimater med en gjennomsnittlig absolutt feil under 20 prosent for vanlige matkategorier.
Gapet mellom forskningsnøyaktighet og virkelighetsytelse
Et av de viktigste og minst diskuterede temaene innen matgjenkjennings-AI er gapet mellom benchmarkytelse og virkelighetsytelse. Å forstå dette gapet er avgjørende for å sette realistiske forventninger til hva matgjenkjenningsteknologi kan og ikke kan gjøre.
Benchmarkforhold vs. virkelighet
Forskningsartikler rapporterer vanligvis nøyaktighet på kuraterte testsett trukket fra samme distribusjon som treningsdataene. Food-101 nøyaktighet på 93 prosent høres imponerende ut, men det betyr at modellen ble testet på bilder fra samme kilde og lignende forhold som treningsbildene. Når den distribueres i den virkelige verden, faller nøyaktigheten av flere grunner:
Distribusjonsforskyvning: Brukere tar bilder med forskjellige kameraer, belysning, vinkler og komposisjoner enn de som er representert i treningsdataene. En modell trent primært på oversiktsbilder av mat fra matblogger vil prestere dårligere når en bruker tar et skrått bilde med telefonblits i en svakt opplyst restaurant.
Langhalede matvarer: Benchmarkdatasett dekker et begrenset sett med kategorier. Food-101 har 101 kategorier; Food2K har 2 000. Men et virkelig globalt matgjenkjenningssystem må håndtere titusenvis av retter. Ytelsen på sjeldne eller kulturelt spesifikke matvarer er vanligvis mye lavere enn rapporterte gjennomsnitt.
Sammensatte måltider: De fleste benchmarker evaluerer klassifisering av enkeltmat. Virkelige måltider inneholder flere matvarer på en enkelt tallerken, noe som krever deteksjon, segmentering og klassifisering samtidig. Nøyaktigheten for flere matvarer er konsekvent lavere enn for enkeltmat.
Porsjonsestimeringsfeil: Selv små feil i matidentifikasjon akkumuleres når de kombineres med porsjonsestimering. Hvis systemet forveksler quinoa med couscous (en plausibel visuell forvirring), anvender det feil næringsverdi på volumestimatet, noe som resulterer i feil både i makronæringsstofffordelingen og kaloritellingen.
Kvantifisering av gapet
Publisert forskning antyder følgende omtrentlige ytelsesområder:
| Oppgave | Benchmark Nøyaktighet | Virkelighets Nøyaktighet |
|---|---|---|
| Klassifisering av enkeltmat (top-1) | 88-93% | 70-82% |
| Klassifisering av enkeltmat (top-5) | 96-99% | 88-94% |
| Multi-matdeteksjon per element | 75-85% | 60-75% |
| Porsjonsestimering (innen 20% av sann) | 65-75% | 45-60% |
| End-to-end kaloriestimering (innen 20%) | 55-65% | 35-50% |
Disse tallene fremhever en viktig sannhet: matgjenkjennings-AI er god og blir bedre, men den er fortsatt ikke en erstatning for nøye måling. Det er et verktøy som dramatisk reduserer friksjon, samtidig som det aksepterer en kjent feilmargin.
En tidslinje for viktige gjennombrudd
Den følgende tidslinjen oppsummerer de viktigste milepælene i reisen fra generell datamaskinsynforskning til matgjenkjenningsteknologien i telefonen din:
2009 -- ImageNet datasett utgitt. Fei-Fei Li og teamet ved Stanford publiserer ImageNet datasettet, som gir det storskala benchmarket som vil drive dyp læringsrevolusjonen.
2012 -- AlexNet vinner ILSVRC. Krizhevsky, Sutskever og Hinton demonstrerer at dype konvolusjonelle nevrale nettverk dramatisk overgår tradisjonelle tilnærminger til bildeklassifisering. Dyp læringsæraen begynner.
2012 -- UEC-Food100 publisert. Et av de første storskala matbildedataene, fokusert på japansk mat, etablerer matgjenkjenning som et distinkt forskningsproblem.
2014 -- Food-101 datasett utgitt. Bossard et al. ved ETH Zürich publiserer benchmarket som vil bli standard evalueringsdatasett for matgjenkjenningsforskning.
2014 -- GoogLeNet og VGGNet. To innflytelsesrike arkitekturer demonstrerer at dypere og mer sofistikerte nettverksdesign betydelig forbedrer klassifiseringsnøyaktigheten. Begge blir raskt adoptert av forskere innen matgjenkjenning.
2015 -- ResNet introdusert. He et al. ved Microsoft Research introduserer residualforbindelser, som muliggjør nettverk med 100+ lag. ResNet blir den mest brukte ryggradsmodellen i matgjenkjenningssystemer i de neste årene.
2015 -- Im2Calories-artikkelen publisert. Google Research demonstrerer end-to-end kaloriestimering fra matbilder, og etablerer den direkte bilde-til-næring-pipelinen som en levedyktig forskningsretning.
2016 -- Sanntidsobjektgjenkjenning modnes. YOLO (Redmon et al., 2016) og SSD (Liu et al., 2016) muliggjør sanntids multi-objekt deteksjon, noe som gjør det mulig å oppdage flere matvarer på en tallerken på under ett sekund.
2017 -- Overføringslæring blir standard praksis. Forskermiljøet konvergerer mot en felles metodikk: forhåndstrening på ImageNet, finjustering på matdatasett. Denne tilnærmingen oppnår Food-101 nøyaktighet over 88 prosent.
2019 -- EfficientNet publisert. Tan og Le ved Google introduserer kompound skalering, som produserer modeller som er både mer nøyaktige og mer effektive enn forgjengerne. Dette gjør høy-nøyaktig matgjenkjenning mulig på mobilmaskinvare uten skyinformasjonsbehandling.
2020 -- Vision Transformers (ViT) publisert. Dosovitskiy et al. ved Google demonstrerer at transformerarkitekturer, opprinnelig utviklet for naturlig språkbehandling, kan matche eller overgå CNN-er på bildeklassifisering. Dette åpner nye veier for forskning innen matgjenkjenning.
2021 -- Nutrition5k datasett utgitt. Google Research publiserer et datasett med kalorimetri-verifisert ernæringsgrunnlag, noe som gir det første rigorøse benchmarket for evaluering av end-to-end ernæringsestimering.
2022-2024 -- Grunnmodeller dukker opp. Store forhåndstrente visjon-språkmodeller som CLIP (Radford et al., 2021) og påfølgende modeller muliggjør null-shot og few-shot matgjenkjenning, noe som lar systemer identifisere matkategorier de aldri ble eksplisitt trent på.
2025-2026 -- Inference på enheten blir standard. Fremskritt innen modellkomprimering, kvantisering og mobile nevrale prosesseringsenheter (NPU-er) gjør det mulig for matgjenkjenningsmodeller å kjøre helt på enheten, noe som eliminerer ventetid og personvernutfordringer knyttet til skybehandling.
Hvordan Nutrola bygger bro over gapet mellom forskning og praksis
Den akademiske forskningen beskrevet ovenfor er nødvendig, men ikke tilstrekkelig for å bygge et matgjenkjenningssystem som fungerer pålitelig for virkelige mennesker under virkelige forhold. Gapet mellom å publisere en artikkel med 93 prosent nøyaktighet på Food-101 og å levere et produkt som brukere stoler på for sin daglige ernæringssporing er enormt. Dette er hvor ingeniørarbeid, datastrategi og brukersentrert design blir like viktige som modellarkitektur.
Trening på ekte brukerdata distribusjoner
Akademiske datasett er kuratert fra matblogger, sosiale medier og kontrollerte fotograferingsøkter. Ekte brukerbilder er mer rotete: delvis spiste måltider, rotete bakgrunner, dårlig belysning, uvanlige vinkler, flere tallerkener i rammen. Nutrola trener modellene sine på datadistribusjoner som reflekterer faktiske bruks mønstre, inkludert de ufullkomne, virkelige bildene som brukerne faktisk tar. Dette lukker en betydelig del av gapet i distribusjonsforskyvning.
Kontinuerlig læring og tilbakemeldingssløyfer
En statisk modell som trenes én gang og distribueres vil forringes ettersom brukeradferd og mattrender endres. Nutrola implementerer kontinuerlige læringspipelines som inkorporerer brukerrettelser og tilbakemeldinger. Når en bruker korrigerer en feilidentifikasjon, blir det signalet aggregert (med personvernbeskyttelse) og brukt til å forbedre modellens ytelse på de spesifikke matvarene og forholdene der feil er mest vanlige.
Kombinere flere signaler
I stedet for å stole utelukkende på visuell klassifisering, kombinerer Nutrola bildebasert gjenkjenning med kontekstuelle signaler for å forbedre nøyaktigheten. Tid på dagen, geografisk region, nylig måltidshistorikk og brukerpreferanser fungerer alle som priori som hjelper til med å avklare visuelt like matvarer. En bolle med rød væske fotografert til frokost i Nord-Amerika er mer sannsynlig å være tomatjuice enn gazpacho, og systemet kan bruke den konteksten til å gjøre bedre spådommer.
Ærlig kommunikasjon av usikkerhet
En av de viktigste designbeslutningene er hvordan man kommuniserer usikkerhet. Når modellen er trygg, presenterer Nutrola identifikasjonen direkte. Når tilliten er lavere, presenterer systemet flere alternativer og ber brukeren om å bekrefte. Dette interaksjonsmønsteret respekterer de iboende begrensningene til teknologien, samtidig som det reduserer friksjonen sammenlignet med manuell logging. I stedet for å late som om den er perfekt, er systemet transparent om når det trenger hjelp.
Optimalisering for ernæringsnøyaktighet, ikke bare klassifiseringsnøyaktighet
Akademiske benchmarker måler klassifiseringsnøyaktighet: klarte modellen å identifisere maten korrekt? Men for ernæringssporing er den relevante metrikken ernæringsnøyaktighet: hvor nær er det estimerte kalori- og makronæringsinnholdet de sanne verdiene? Nutrola optimaliserer for denne nedstrømsmetrikken. En forvirring mellom to visuelt like matvarer med lignende ernæringsprofiler (hvit ris vs. jasminris) betyr langt mindre enn en forvirring mellom to visuelt like matvarer med svært forskjellige ernæringsprofiler (en vanlig muffin vs. en proteinmuffin). Systemet er justert for å minimere feil som har størst innvirkning på ernæringsestimater.
Forskningsfronten: Hva kommer neste
Forskning innen matgjenkjenning fortsetter å utvikle seg. Flere aktive forskningsretninger har potensial til å lukke gapet mellom laboratorienøyaktighet og virkelighetsytelse ytterligere:
Gjenkjenning på ingrediensnivå: Gå utover klassifisering på rettsnivå for å identifisere individuelle ingredienser i en rett. Dette muliggjør mer nøyaktig ernæringsestimering for sammensatte matvarer og støtter sjekking av kostholdsrestriksjoner (allergendeteksjon, for eksempel).
3D matrekonstruksjon fra enkeltbilder: Fremskritt innen nevrale lysfelt (NeRF) og monokulær 3D-rekonstruksjon antyder at det snart vil være mulig å rekonstruere en rimelig nøyaktig 3D-modell av et måltid fra et enkelt fotografi, noe som betydelig forbedrer porsjonsestimering.
Personlige matmodeller: Trene modeller som tilpasser seg individuelle brukeres typiske måltider, foretrukne restauranter og matlagingsstiler. En modell som vet at du spiser den samme frokosten hver ukedag kan oppnå nesten perfekt nøyaktighet gjennom personalisering.
Multi-modal resonnering: Kombinere visuell gjenkjenning med tekst (menybeskrivelser, oppskrift navn) og lyd (stemmesbeskrivelser av måltider) for å bygge mer robuste systemer for matforståelse.
Føderert læring for mat: Trene matgjenkjenningsmodeller på tvers av mange brukeres enheter uten å sentralisere rådata, og bevare personvernet samtidig som man drar nytte av mangfoldige virkelige treningsdata.
Ofte stilte spørsmål
Hvor nøyaktig er AI matgjenkjenning i dag sammenlignet med en menneskelig kostholdsveileder?
For vanlige matvarer fotografert under gode forhold matcher AI matgjenkjenning eller overgår hastigheten til en menneskelig kostholdsveileder og oppnår sammenlignbar identifikasjonsnøyaktighet. En registrert kostholdsveileder kan vanligvis identifisere en matvare fra et bilde med 85 til 95 prosent nøyaktighet. Nåværende AI-systemer oppnår lignende rater for godt representerte matkategorier. Imidlertid overgår kostholdsveiledere fortsatt AI på sjeldne eller tvetydige matvarer, kulturelt spesifikke retter og porsjonsestimering. Den praktiske fordelen med AI er hastighet og tilgjengelighet: det gir et øyeblikkelig estimat 24/7, mens konsultasjoner med kostholdsveiledere er begrensede og dyre.
Hva er Food-101 datasettet og hvorfor er det viktig?
Food-101 er et benchmarkdatasett med 101 000 bilder som spenner over 101 matkategorier, publisert av forskere ved ETH Zürich i 2014. Det er viktig fordi det ga den første bredt adopterte standarden for evaluering av matgjenkjenningsmodeller. Før Food-101 testet forskere systemene sine på private eller småskala datasett, noe som gjorde det umulig å sammenligne resultater. Food-101 muliggjorde reproducerbar forskning og drev rask fremgang i matklassifiseringsnøyaktighet, fra omtrent 50 prosent i 2014 til over 93 prosent innen 2020.
Hvorfor er mat vanskeligere å gjenkjenne enn andre objekter?
Mat presenterer flere utfordringer som er sjeldne i generell objektgjenkjenning: ekstrem visuell variasjon innen samme matkategori (tenk på alle tingene som kalles "salat"), høy visuell likhet mellom forskjellige matkategorier (tomatsuppe vs. rød curry), deformable og amorfe former, hyppig okklusjon fra sauser og toppinger, og stor variasjon i tilberedningsstiler på tvers av kulturer. I tillegg må mat både identifiseres og kvantifiseres (porsjonsestimering), noe som legger til en dimensjon som de fleste objektgjenkjenningsoppgaver ikke krever.
Hvordan hjelper overføringslæring med matgjenkjenning?
Overføringslæring innebærer å ta et nevralt nettverk forhåndstrent på et stort generelt datasett (typisk ImageNet) og finjustere det på et mindre matspesifikt datasett. Dette fungerer fordi de lavnivå visuelle funksjonene lært fra ImageNet (kanter, teksturer, farger, former) er bredt nyttige og overføres godt til matbilder. Bare de høyere nivåene, matspesifikke funksjoner må læres fra bunnen av. Overføringslæring reduserer dramatisk mengden matspesifikke treningsdata som trengs og forbedrer vanligvis nøyaktigheten med 10 til 20 prosentpoeng sammenlignet med trening fra bunnen av.
Kan AI estimere porsjonsstørrelser fra et enkelt bilde?
AI kan estimere porsjonsstørrelser fra et enkelt bilde, men med betydelig usikkerhet. Uten dybdeinformasjon kan et 2D-bilde ikke nøyaktig bestemme volumet av mat. Moderne systemer kombinerer lærte porsjonspriorer (statistisk kunnskap om typiske serveringsstørrelser), relative størrelsesledetråder (sammenligning av mat med tallerkenen eller andre objekter) og monokulær dybdeestimering for å produsere estimater som vanligvis er innen 15 til 30 prosent av den sanne porsjonsstørrelsen. Dette er nøyaktig nok til å være nyttig for daglig sporing, men ikke presist nok for klinisk kostholds vurdering.
Hva er forskjellen mellom matklassifisering og matdeteksjon?
Matklassifisering tildeler en enkelt etikett til et helt bilde (dette bildet inneholder pizza). Matdeteksjon identifiserer og lokaliserer flere matvarer innen et bilde, og trekker opp boks rundt hver gjenstand og klassifiserer dem uavhengig (dette bildet inneholder pizza øverst til venstre, salat nederst til høyre, og en brødpinne langs toppen). Deteksjon er en vanskeligere oppgave, men er nødvendig for virkelige måltidsbilder, som nesten alltid inneholder flere matvarer.
Hvordan bruker Nutrola denne forskningen?
Nutrola bygger på hele kroppen av akademisk forskning innen matgjenkjenning som beskrevet i denne artikkelen, og inkorporerer state-of-the-art arkitekturer, trener på mangfoldige virkelige data, og optimaliserer for ernæringsnøyaktighet i stedet for bare klassifiseringsnøyaktighet. Systemet kombinerer visuell gjenkjenning med kontekstuelle signaler og bruker tilbakemeldinger for å levere nøyaktighet som overgår det som noen enkelt forskningsartikkel oppnår i isolasjon. Nutrola bidrar også tilbake til forskningsmiljøet ved å publisere funn om virkelige ytelsesresultater for matgjenkjenning og utfordringene med å distribuere disse systemene i stor skala.
Vil matgjenkjennings-AI noen gang være 100 prosent nøyaktig?
Perfekt nøyaktighet er usannsynlig av flere grunner. Noen matvarer er genuint visuelt uadskillelige (hvit sukker og salt, for eksempel). Porsjonsestimering fra 2D-bilder har fundamentale matematiske begrensninger. Og variasjonen av globale kjøkken betyr at det alltid vil være langhalede matvarer med begrenset treningsdata. Imidlertid er det relevante spørsmålet ikke om teknologien er perfekt, men om den er nyttig. På nåværende nøyaktighetsnivåer reduserer AI matgjenkjenning allerede friksjonen ved matlogging med 70 til 80 prosent sammenlignet med manuell inntasting, og nøyaktigheten fortsetter å forbedres med hver generasjon av modeller og treningsdata.
Konklusjon
Matgjenkjennings-AI-en i telefonen din er resultatet av en forskningsreise som strekker seg over mer enn et tiår. Den begynte med et gjennombrudd i bildeklassifisering ved 2012 ImageNet-utfordringen, fikk fokus gjennom matspesifikke datasett som Food-101, konfronterte de unike utfordringene med mat som et visuelt domene, og gradvis bro over gapet mellom akademiske benchmarker og virkelighetsytelse.
Den reisen er langt fra over. Porsjonsestimering forblir et åpent forskningsproblem. Langhalede matkategorier trenger bedre dekning. Virkelighetsnøyaktigheten fortsetter å ligge etter benchmarknøyaktigheten med en betydelig margin. Men banen er klar: hvert år bringer bedre modeller, rikere treningsdata og mer sofistikerte tilnærminger til de vanskelige problemene.
Nutrola eksisterer i skjæringspunktet mellom denne forskningen og de praktiske behovene til folk som prøver å forstå hva de spiser. Ved å holde seg nær den fremste forskningen samtidig som vi opprettholder et utrettelig fokus på virkelighetsytelse, jobber vi for å gjøre løftet om enkel, nøyaktig ernæringssporing til en realitet for alle.
Klar til å forvandle ernæringssporingen din?
Bli en del av tusenvis som har forvandlet helsereisen sin med Nutrola!