Tutkimuslaboratoriosta Puhelimeesi: Tietokonenäön Taustalla Modernissa Ruokantunnistuksessa

Tekoäly, joka tunnistaa lounasannoksesi, sai alkunsa tutkimuspaperista. Tässä on matka akateemisista tietokonenäön läpimurroista ruokantunnistusteknologiaan, joka on nyt taskussasi.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Teknologia, joka mahdollistaa illallisesi kuvaamisen ja kalorimäärän välittömän näkemisen, ei syntynyt tyhjästä. Se on vuosikymmenten akateemisen tutkimuksen, lukemattomien julkaistujen tutkimusten ja jatkuvien läpimurtojen tulos tietokonenäön ja syväoppimisen alalla. Se, mikä alkoi kapeana tutkimusongelmana yliopistojen laboratorioissa, on kehittynyt ominaisuudeksi, jota miljoonat ihmiset käyttävät päivittäin ilman sen kummempaa ajattelua.

Tässä artikkelissa seurataan ruokantunnistuksen tekoälyn koko matkaa sen juurista perustavanlaatuisessa tietokonenäön tutkimuksessa aina puhelimessasi toimivaan reaaliaikaiseen ruokantunnistukseen. Matkan varrella tarkastelemme keskeisiä tutkimuksia, vertailudatajoukkoja, jatkuvia haasteita ja insinöörityötä, joka tarvitaan laboratorio-olosuhteista luotettavaksi kuluttajatuotteeksi.

Kipinä, Joka Muutti Kaiken: ImageNet ja Syväoppimisen Vallankumous

Ymmärtääksesi, miten ruokantunnistus toimii tänään, sinun on aloitettava kilpailusta, joka ei liittynyt ruokaan.

ImageNetin Suuri Visuaalinen Tunnistushaaste

Vuonna 2009 Fei-Fei Li ja hänen tiiminsä Stanfordissa julkaisivat ImageNetin, datan, joka sisältää yli 14 miljoonaa kuvaa yli 20 000 kategoriassa. Liitetty ImageNetin Suuri Visuaalinen Tunnistushaaste (ILSVRC) haastoi tutkijat rakentamaan järjestelmiä, jotka pystyivät luokittelemaan kuvia 1 000 objektikategoriaan, aina lentokoneista seeprahin. Useiden vuosien ajan parhaat järjestelmät käyttivät käsin suunniteltuja ominaisuuksia ja perinteisiä koneoppimistekniikoita, saavuttaen top-5 virhetasoja noin 25–28 prosenttia.

Sitten tuli vuosi 2012.

Alex Krizhevsky, Ilya Sutskever ja Geoffrey Hinton esittivät syvän konvoluutionaalisen neuroverkon, jota he kutsuivat AlexNetiksi. Se saavutti top-5 virhetason 15,3 prosenttia, voittaen toiseksi parhaan suorituksen yli 10 prosenttiyksiköllä. Tämä ei ollut vain vähäinen parannus; se oli paradigmaattinen muutos, joka merkitsi syväoppimisen saapumista tietokonenäön hallitsevaksi lähestymistavaksi.

Tutkimuspaperi "ImageNet Classification with Deep Convolutional Neural Networks" (Krizhevsky et al., 2012) on yksi eniten viitatusta paperista koko tietojenkäsittelytieteessä. Sen vaikutus ulottui kauas ImageNet-haasteen yli. Tutkijat kaikilla tietokonenäön osa-alueilla, mukaan lukien ruokantunnistus, alkoivat välittömästi tutkia, miten syvät konvoluutionaaliset neuroverkot voisivat soveltua heidän erityisiin ongelmiinsa.

Miksi ImageNet 2012 Oli Tärkeä Ruokalle

Ennen AlexNetia ruokantunnistusjärjestelmät nojautuivat käsin suunniteltuihin ominaisuuksiin: värihistogrammeihin, tekstuurikuvastoihin kuten paikallisiin binäärikuvastoihin (LBP) ja muoto-ominaisuuksiin, jotka saatiin algoritmien kuten SIFT:n (skaala-invariantti piirteiden muunnos) avulla. Nämä lähestymistavat kamppailivat yleistämisessä. Järjestelmä, joka oli koulutettu tunnistamaan pizzaa väri- ja tekstuuriominaisuuksien avulla, epäonnistui, kun se kohtasi pizzan, jossa oli tuntematon täyte tai epätavallinen valaistus.

Syvät CNN:t muuttuivat pelin säännöiksi. Sen sijaan, että tutkijat olisivat joutuneet määrittelemään, mitkä visuaaliset ominaisuudet ovat tärkeitä, verkko oppi erottavia ominaisuuksia suoraan datasta. Tämä tarkoitti, että riittävän suuren koulutuskuvavaraston avulla CNN pystyi oppimaan tunnistamaan ruokaa laajassa valikoimassa olosuhteita, käsitellen valaistuksen, kulman, annostelun ja valmistuksen vaihteluita, jotka olisivat voittaneet käsin suunnitellut lähestymistavat.

Parannusten Kaskadi: 2013–2020

AlexNetin jälkeiset vuodet tuottivat nopean sarjan arkkitehtuurisia innovaatioita, jotka kukin nostivat tarkkuutta ja tekivät käyttöönotosta käytännöllisempää:

Vuosi Arkkitehtuuri Keskeinen Panos ImageNetin Top-5 Virhe
2012 AlexNet Todisti syvien CNN:ien toimivuuden suuressa mittakaavassa 15.3%
2014 VGGNet Näytti, että syvyys (16-19 kerrosta) parantaa tarkkuutta 7.3%
2014 GoogLeNet (Inception) Monitasoinen ominaisuuksien poiminta tehokkaalla laskennalla 6.7%
2015 ResNet Jäännösliitännät mahdollistavat 152-kerroksiset verkot 3.6%
2017 SENet Kanavahuomiomekanismit 2.3%
2019 EfficientNet Yhdistetty skaalaus optimaalisen tarkkuuden/tehokkuuden kauppana 2.0%
2020 Vision Transformer (ViT) Itsehuomio sovellettuna kuvapaloihin 1.8%

Jokainen näistä arkkitehtuureista omaksuttiin nopeasti ruokantunnistustutkijoiden keskuudessa, jotka käyttivät niitä pohjana ruokakohtaisille malleille.

Food-101 Dataset: Yhteinen Vertailupohja Tutkijoille

Yleiskäyttöiset kuvantunnistimet, jotka on koulutettu ImageNetilla, pystyivät erottamaan pizzan autosta, mutta pizzamargheritan erottaminen pizzabiancasta vaatii paljon tarkempaa visuaalista erottelua. Ruokantunnistustutkimusyhteisö tarvitsi oman laajamittaisen datan.

Bossard et al. ja Food-101:n Synty

Vuonna 2014 Lukas Bossard, Matthieu Guillaumin ja Luc Van Gool ETH Zürichistä julkaisi "Food-101 -- Mining Discriminative Components with Random Forests" Euroopan Tietokonenäkökonferenssissa (ECCV). He esittivät Food-101-datan: 101 000 kuvaa, jotka kattavat 101 ruokakategoriaa, 1 000 kuvaa per kategoria. Kuvia kerättiin tarkoituksellisesti todellisista lähteistä (Foodspotting, sosiaalinen ruokajakoalusta) eikä kontrolloiduista laboratorio-olosuhteista, mikä tarkoitti, että ne sisälsivät todellisten ruokakuvien melua, vaihtelua ja epätäydellisyyksiä.

Food-101 loi yhteisen vertailupohjan, joka mahdollisti tutkijoiden vertaavan lähestymistapojaan suoraan. Alkuperäinen tutkimus saavutti 50,76 prosentin top-1 tarkkuuden käyttämällä satunnaismetsämenetelmää käsin suunnitelluilla ominaisuuksilla. Vuodessa syväoppimislähestymistavat ylittivät 70 prosenttia. Vuoteen 2018 mennessä Inception- ja ResNet-arkkitehtuureihin perustuvat mallit ylittivät 90 prosenttia top-1 tarkkuudesta Food-101:ssä.

Muita Tärkeitä Ruokadatastoja

Food-101 oli laajimmin käytetty vertailupohja, mutta tutkimusyhteisö tuotti useita muita datastoja, jotka edistivät alaa:

UEC-Food100 ja UEC-Food256 (2012, 2014): Kehitetty Japanin Sähkökoulutusyliopistossa, nämä datastot keskittyivät japanilaiseen ruokakulttuuriin ja esittivät raja-alueannotaatioita moniruokantunnistukseen. UEC-Food256 laajensi kattavuutta 256 kategoriaan, jotka kattoivat useita aasialaisia keittiöitä.

VIREO Food-172 (2016): Hongkongin Kaupungin yliopiston luoma datasto, joka sisälsi 172 kiinalaisen ruoan kategoriaa yhdessä ainesosien annotaatioiden kanssa, mahdollisti ainesosatason tunnistuksen tutkimuksen.

Nutrition5k (2021): Google Researchin kehittämä datasto, joka yhdisti ruokakuvat tarkkoihin ravintomittauksiin, jotka saatiin kalorimetrialla. 5 006 realistista aterialautasta ja laboratoriossa vahvistetut kalorimäärät tarjosivat totuudenmukaisen dataston annosarviointijärjestelmien kouluttamiseen ja arvioimiseen.

Food2K (2021): Laajamittainen vertailupohja, joka sisältää 2 000 ruokakategoriaa ja yli miljoona kuvaa, suunniteltu viemään ruokantunnistus yleiskäyttöisen objektitunnistuksen tasolle.

MAFood-121 (2019): Keskittyi monimuotoiseen ruokantunnistukseen, mukaan lukien keittiötyyppi ja valmistusmenetelmä ruokakategorian ohella, heijastaen todellista tarvetta ymmärtää, mitä ruoka on, mutta myös miten se on valmistettu.

Näiden datastojen saatavuus oli ratkaisevan tärkeää. Koneoppimisessa koulutusdatan laatu ja laajuus ovat usein tärkeämpiä kuin mallin arkkitehtuuri. Jokainen uusi datasto laajensi ruokien, keittiöiden ja visuaalisten olosuhteiden kirjoa, joista mallit pystyivät oppimaan.

Miksi Ruoka On Vaikeampaa Tunnistaa Kuin "Tavalliset" Objektit

Ruokantunnistuksessa työskentelevät tutkijat huomasivat nopeasti, että ruoka esittää ainutlaatuisia haasteita, joita ei esiinny yleisessä objektitunnistuksessa. Näiden haasteiden ymmärtäminen selittää, miksi järjestelmä, joka voi luotettavasti tunnistaa autoja, koiria ja rakennuksia, saattaa kamppailla ruokakuvan kanssa.

Luokkavälin Muuttuvuusongelma

Kultainennoutaja näyttää kultainennoutajalta, olipa se istumassa, juoksemassa tai nukkuvana. Mutta salaatti voi näyttää melkein miltä tahansa. Kreikkalainen salaatti, Caesar-salaatti, Waldorf-salaatti ja lehtikaali-quinoa-salaatti jakavat saman "salaatti"-kategorian, mutta niillä ei ole lähes mitään visuaalista yhteyttä. Tämä luokkavälin muuttuvuus on äärimmäistä ruokakategorioissa ja ylittää kauas sen, mitä useimmissa objektitunnistustehtävissä esiintyy.

Vastaavasti luokkien välinen samankaltaisuus on myös korkea. Kulhollinen tomaattikeittoa ja kulhollinen punaista currya voivat näyttää lähes identtisiltä ylhäältä päin. Paistettu riisi ja pilaf jakavat visuaalisia piirteitä. Proteiinipatukka ja brownie saattavat olla erottamattomia kuvassa. Visuaaliset rajat ruokakategorioiden välillä ovat usein epäselviä, toisin kuin autojen ja kuorma-autojen rajat.

Ruokien Muodostuvan Luonteen

Useimmat objektit, joita tietokonenäköjärjestelmät on koulutettu tunnistamaan, omaavat johdonmukaisen geometrisen rakenteen. Tuolilla on jalat, istuin ja selkänoja. Ruoka sen sijaan on muotoutuvaa, amorfista ja arvaamatonta visuaalisessa esityksessään. Annos perunamuusia ei omaa johdonmukaista muotoa. Pastaa voidaan annostella äärettömässä määrin. Jopa sama resepti, jonka kaksi eri henkilöä on valmistanut, voi näyttää huomattavasti erilaiselta.

Tämä muotoutuvuus tarkoittaa, että muotoon perustuvat piirteet, jotka ovat tehokkaita jäykän objektin tunnistuksessa, vaikuttavat suhteellisen vähän ruokantunnistukseen. Mallien on luotettava enemmän väriin, tekstuuriin ja kontekstuaalisiin vihjeisiin.

Peittäminen ja Sekaruokien Haasteet

Tyypillisessä ateriakuvassa ruoat peittävät ja peittävät toisiaan. Kastike peittää lihaa. Juusto sulaa vihannesten päälle. Riisi on pataruoan alla. Nämä peittokuvioinnit eivät ole vain yleisiä; ne ovat normaaleja. Ruokantunnistusjärjestelmän on oltava kestävä osittaiselle näkyvyydelle tavalla, joka on paljon vaativampaa kuin esimerkiksi jalankulkijoiden tunnistaminen katunäkymässä.

Sekaruokien tunnistaminen esittää vielä suuremman ongelman. Burrito käärii ainesosat tortillan sisään, mikä tekee niistä näkymättömiä. Smoothie sekoittaa hedelmiä ja muita ainesosia homogeeniseksi nesteeksi. Kaalipata yhdistää useita ainesosia yhdeksi visuaaliseksi massaksi. Näiden ruokien osalta tunnistuksen on luotettava kokonaisvaltaiseen ulkonäköön ja opittuihin assosiaatioihin sen sijaan, että tunnistettaisiin yksittäisiä komponentteja.

Valaistus ja Ympäristömuutokset

Ruokakuvia otetaan äärettömän vaihtelevissa olosuhteissa. Ravintoloiden valaistus vaihtelee kirkkaasta fluoresoivasta hämärään kynttilävalaistukseen. Kotikeittiöissä väri lämpötila on epätasaista. Salama muuttaa ruoan ilmeistä väriä. Ulkona aurinkoisena päivänä otetut kuvat eivät näytä lainkaan samalta kuin hämärässä toimistossa otetut kuvat. Tämä kuvantamiskäytäntöjen vaihtelu vaikuttaa dramaattisesti väriin perustuvien ominaisuuksien tehokkuuteen, ja koska väri on yksi vahvimmista vihjeistä ruokantunnistuksessa, se luo merkittävän haasteen.

Annosarviointiongelma: Missä Tutkimus Todella Vaikeutuu

Ruokakuvan tunnistaminen on vain osa ongelmaa. Järjestelmän on myös arvioitava, kuinka paljon kutakin ruokaa on läsnä, jotta se olisi hyödyllinen ravitsemusseurannassa. Tämä on annosarviointiongelma, ja se on edelleen yksi aktiivisimmista ja haastavimmista alueista ruokakäyttöteknologian tutkimuksessa.

Miksi Annosarviointi On Perustavanlaatuisesti Vaikeaa

Yksi 2D-valokuva hylkää syvyystiedot. Ilman tietoa kameran ja lautasen välistä etäisyyttä, lautasen kokoa tai ruoan korkeutta on mahdotonta palauttaa ruoan todellista fyysistä tilavuutta pelkästään pikselimittausten perusteella. Tämä ei ole nykyisen tekoälyn rajoitus. Se on projektivisen geometrian matemaattinen todellisuus. Pieni kulho lähellä kameraa ja suuri kulho kaukana tuottavat identtisiä kuvia.

Tutkijat ovat tutkineet useita lähestymistapoja kiertääkseen tätä rajoitusta:

Viiteobjektimenetelmät: Jotkut järjestelmät pyytävät käyttäjää sisällyttämään kehykseen tunnetun viiteobjektin (kolikon, luottokortin, tietyn lautasen). Mittaamalla tunnetun objektin pikselimitat suhteessa sen todelliseen kokoon järjestelmä voi arvioida mittakaavan. Purdue-yliopistossa kehitetty TADA (kolmiulotteinen automaattinen ravitsemusarviointi) -järjestelmä käytti tätä tarkoitusta varten fidusiaalista merkkiä (ruudukkomallia). Vaikka tämä lähestymistapa on tarkka, se lisää kitkaa, mikä tekee siitä epäkäytännöllisen päivittäisessä kuluttajakäytössä.

Syvyyden arviointi yksisilmäisistä kuvista: Neuroverkot voivat arvioida syvyyskarttoja yksittäisistä kuvista hyödyntämällä opittuja ennakoita tyypillisistä kohtauksista. Pittsburghin yliopiston ja Georgia Techin ryhmien tutkimus on soveltanut yksisilmäistä syvyyden arviointia ruokakuviin, saavuttaen tilavuusarvioita, jotka ovat 15–25 prosenttia lähellä totuutta kontrolloiduissa olosuhteissa.

Moninäkymärakentaminen: Jotkut tutkimusjärjestelmät pyytävät käyttäjiä kuvaamaan ruokaa useista kulmista, mikä mahdollistaa 3D-rakentamisen. Vaikka tarkkuus paranee, tämä lisää jälleen kitkaa. Fang et al. (2019) osoittivat, että jopa kahden näkymän käyttäminen voi merkittävästi parantaa tilavuusarvioiden tarkkuutta.

Opitut annosennakoijat: Sen sijaan, että yritettäisiin palauttaa tarkkaa fyysistä tilavuutta, jotkut järjestelmät oppivat tilastollisia jakaumia tyypillisistä annoskokoista kullekin ruokakategoriolle. Jos järjestelmä tietää, että kypsennetyn valkoisen riisin mediaaniannos on noin 158 grammaa, se voi käyttää tätä ennakoijaa yhdessä visuaalisten vihjeiden kanssa ruoan suhteellisesta koosta kuvassa tuottaakseen kohtuullisen arvion.

Keskeiset Annosarviointitutkimukset

Useat tutkimukset ovat edistäneet annosarvioinnin tilaa:

  • Meyers et al. (2015), "Im2Calories: Towards an Automated Mobile Vision Food Diary," Google Researchista, ehdotti CNN:n käyttöä arvioimaan kalorien sisältö suoraan ruokakuvista, ohittaen eksplisiittisen tilavuusarvioinnin.
  • Fang et al. (2019), "An End-to-End Image-Based Automatic Food Energy Estimation Technique Based on Learned Energy Distribution Maps," esittivät energiajakaumakarttoja, jotka ennustavat pikselikohtaisen kalori-tiheyden.
  • Thames et al. (2021), "Nutrition5k: Towards Automatic Nutritional Understanding of Generic Food," tarjosivat ensimmäisen laajamittaisen dataston, jossa oli kalorimetrialla vahvistettu ravitsemustieto, mahdollistaen tiukemman arvioinnin annosarviointijärjestelmille.
  • Lu et al. (2020) osoittivat, että yhdistämällä ruokasegmentoinnin syvyyden arviointiin saadaan annosarvioita, joiden keskimääräinen absoluuttivirhe on alle 20 prosenttia yleisille ruokakategorioille.

Kuinka Tutkimuksen Tarkkuus Eroaa Todellisesta Suorituskyvystä

Yksi tärkeimmistä ja vähiten keskustelluista aiheista ruokantunnistus tekoälyssä on ero vertailu- ja todellisen suorituskyvyn välillä. Tämän eron ymmärtäminen on kriittistä realististen odotusten asettamiseksi siitä, mitä ruokantunnistusteknologia voi ja ei voi tehdä.

Vertailuolosuhteet vs. Todellisuus

Tutkimuspaperit raportoivat tyypillisesti tarkkuuden huolellisesti valituilla testisarjoilla, jotka on otettu samasta jakelusta kuin koulutusdata. Food-101:n 93 prosentin tarkkuus kuulostaa vaikuttavalta, mutta se tarkoittaa, että malli testattiin kuvilla, jotka olivat peräisin samasta lähteestä ja samankaltaisista olosuhteista kuin sen koulutuskuvat. Kun se otetaan käyttöön todellisessa maailmassa, tarkkuus laskee useista syistä:

Jakelun muutos: Käyttäjät ottavat kuvia eri kameroilla, valaistuksilla, kulmilla ja sommitelmilla kuin mitä koulutusdatassa on esitetty. Malli, joka on koulutettu pääasiassa ylhäältä otetuilla ruokakuvilla ruokablogeista, alisuoriutuu, kun käyttäjä ottaa vinossa olevan kuvan puhelimen salamalla hämärässä ravintolassa.

Pitkän hännän ruoat: Vertailudatastot kattavat rajoitetun joukon kategorioita. Food-101:llä on 101 kategoriaa; Food2K:lla on 2 000. Mutta todella globaalin ruokantunnistusjärjestelmän on käsiteltävä kymmeniä tuhansia ruokia. Suorituskyky harvinaisilla tai kulttuurisesti spesifisillä ruoilla on tyypillisesti paljon alhaisempi kuin ilmoitetut keskiarvot.

Sekaruokien tunnistaminen: Useimmat vertailut arvioivat yksittäisten ruokien luokittelua. Todellisissa aterioissa on useita ruokia yhdellä lautasella, mikä vaatii tunnistamista, segmentointia ja luokittelua samanaikaisesti. Moniruokien tarkkuus on johdonmukaisesti alhaisempi kuin yksittäisten ruokien tarkkuus.

Annosarvioinnin virheiden kasaantuminen: Jopa pienet virheet ruokantunnistuksessa kasaantuvat, kun niitä yhdistetään annosarviointiin. Jos järjestelmä sekoittaa kvinoan kuskusiin (mikä on mahdollinen visuaalinen sekaannus), se soveltaa väärää ravitsemustiheyttä tilavuusarvioonsa, mikä johtaa virheisiin sekä makroravinteiden jakautumisessa että kalorimäärässä.

Erojen Kvantifiointi

Julkaistut tutkimukset viittaavat seuraaviin arvioituihin suorituskykyalueisiin:

Tehtävä Vertailutarkkuus Todellinen Tarkkuus
Yksittäinen ruoan luokittelu (top-1) 88-93% 70-82%
Yksittäinen ruoan luokittelu (top-5) 96-99% 88-94%
Moniruokien tunnistus per tuote 75-85% 60-75%
Annosarviointi (20% totuuden sisällä) 65-75% 45-60%
Päältä-pohjalle kalorimäärän arviointi (20% sisällä) 55-65% 35-50%

Nämä numerot korostavat tärkeää totuutta: ruokantunnistus tekoäly on hyvä ja kehittyy, mutta se ei vielä korvaa huolellista mittaamista. Se on työkalu, joka vähentää kitkaa merkittävästi, mutta hyväksyy tunnetun virhemarginaalin.

Aikajana Keskeisistä Läpimurroista

Seuraava aikajana tiivistää tärkeimmät virstanpylväät matkalla yleisestä tietokonenäön tutkimuksesta puhelimessasi olevaan ruokantunnistusteknologiaan:

2009 -- ImageNet-datasto julkaistu. Fei-Fei Li ja tiimi Stanfordissa julkaisevat ImageNet-dataston, joka tarjoaa laajamittaisen vertailupohjan, joka ruokkii syväoppimisen vallankumousta.

2012 -- AlexNet voittaa ILSVRC:n. Krizhevsky, Sutskever ja Hinton osoittavat, että syvät konvoluutionaaliset neuroverkot ylittävät dramaattisesti perinteiset lähestymistavat kuvantunnistuksessa. Syväoppimisen aikakausi alkaa.

2012 -- UEC-Food100 julkaistu. Yksi ensimmäisistä laajamittaisista ruokakuvadatastoista, joka keskittyy japanilaiseen ruokakulttuuriin, vakiinnuttaa ruokantunnistuksen erilliseksi tutkimusongelmaksi.

2014 -- Food-101-datasto julkaistu. Bossard et al. ETH Zürichistä julkaisevat vertailupohjan, joka tulee olemaan standardi ruokantunnistustutkimuksen arviointidatasto.

2014 -- GoogLeNet ja VGGNet. Kaksi vaikutusvaltaista arkkitehtuuria osoittavat, että syvemmät ja monimutkaisempia verkkoja parantavat luokittelutarkkuutta merkittävästi. Molempia omaksutaan nopeasti ruokantunnistustutkijoiden keskuudessa.

2015 -- ResNet esitelty. He et al. Microsoft Researchista esittelevät jäännösliitännät, jotka mahdollistavat yli 100 kerroksen verkot. ResNetistä tulee seuraavien vuosien laajimmin käytetty selkäranka ruokantunnistusjärjestelmissä.

2015 -- Im2Calories-paperi julkaistu. Google Research osoittaa päältä-pohjalle kalorimäärän arvioinnin ruokakuvista, vakiinnuttaen suoran kuva-ravitsemusputken mahdollisena tutkimussuuntautumisena.

2016 -- Reaaliaikainen objektitunnistus kypsyy. YOLO (Redmon et al., 2016) ja SSD (Liu et al., 2016) mahdollistavat reaaliaikaisen moniesineiden tunnistuksen, mikä tekee mahdolliseksi tunnistaa useita ruokatuotteita lautasella alle sekunnissa.

2017 -- Siirtoulearningista tulee standardikäytäntö. Tutkimusyhteisö yhtenäistyy yhteiseen metodologiaan: esikoulutus ImageNetilla, hienosäätö ruokadatastoilla. Tämä lähestymistapa saavuttaa Food-101:n tarkkuuden yli 88 prosenttia.

2019 -- EfficientNet julkaistu. Tan ja Le Googlelta esittelevät yhdistetyn skaalaamisen, tuottaen malleja, jotka ovat sekä tarkempia että tehokkaampia kuin edeltäjänsä. Tämä tekee korkean tarkkuuden ruokantunnistuksesta mahdollisen mobiililaitteilla ilman pilvimuunnosta.

2020 -- Vision Transformers (ViT) julkaistu. Dosovitskiy et al. Googlelta osoittavat, että transformeeraukselliset arkkitehtuurit, jotka alun perin kehitettiin luonnollisen kielen käsittelyyn, voivat saavuttaa tai ylittää CNN:ien suorituskyvyn kuvantunnistuksessa. Tämä avaa uusia mahdollisuuksia ruokantunnistustutkimuksessa.

2021 -- Nutrition5k-datasto julkaistu. Google Research julkaisee dataston, jossa on kalorimetrialla vahvistettu ravitsemustieto, tarjoten ensimmäisen tiukan vertailupohjan päältä-pohjalle ravitsemusarvioinnin arvioimiseen.

2022-2024 -- Perusmallit nousevat esiin. Suuret esikoulutetut visuaalisen-kielen mallit, kuten CLIP (Radford et al., 2021) ja myöhemmät mallit, mahdollistavat nollanäytön ja vähäisen näytön ruokantunnistuksen, jolloin järjestelmät voivat tunnistaa ruokakategorioita, joita ne eivät koskaan ole saaneet erikseen koulutettavaksi.

2025-2026 -- Laitteistopohjainen päättely tulee standardiksi. Mallin purkamisen, kvantifioinnin ja mobiilisten neuroprosessoriyksiköiden (NPU) edistysaskeleet mahdollistavat ruokantunnistusmallien toimimisen kokonaan laitteistossa, mikä poistaa viiveet ja yksityisyysongelmat, jotka liittyvät pilvimuunnokseen.

Kuinka Nutrola Yhdistää Tutkimuksen ja Käytännön

Yllä kuvattu akateeminen tutkimus on tarpeellista, mutta ei riittävää, jotta voitaisiin rakentaa ruokantunnistusjärjestelmä, joka toimii luotettavasti todellisille ihmisille todellisissa olosuhteissa. Ero 93 prosentin tarkkuudella Food-101:llä julkaistun paperin ja tuotteen toimittamisen, jota käyttäjät luottavat päivittäisessä ravitsemusseurannassa, on valtava. Tässä insinööritaito, datastrategia ja käyttäjälähtöinen suunnittelu tulevat yhtä tärkeiksi kuin mallin arkkitehtuuri.

Koulutus Todellisilla Käyttäjädatanjakeluilla

Akateemiset datastot on kerätty ruokablogeista, sosiaalisesta mediasta ja kontrolloiduista valokuvaussessioista. Todelliset käyttäjäkuvat ovat sotkuisempia: osittain syötyjä aterioita, sekavia taustoja, huonoa valaistusta, epätavallisia kulmia, useita lautasia kehykseen. Nutrola kouluttaa mallejaan datanjakeluilla, jotka heijastavat todellisia käyttökuvioita, mukaan lukien epätäydellisiä, todellisia kuvia, joita käyttäjät todella ottavat. Tämä sulkee merkittävän osan jakelumuutoksen erosta.

Jatkuva Oppiminen ja Palautejärjestelmät

Staattinen malli, joka on koulutettu kerran ja otettu käyttöön, heikkenee, kun käyttäjien käyttäytyminen ja ruokatrendit muuttuvat. Nutrola toteuttaa jatkuvia oppimisputkia, jotka sisältävät käyttäjien korjauksia ja palautetta. Kun käyttäjä korjaa väärän tunnistuksen, tämä signaali kerätään (yksityisyyden suojaaminen huomioiden) ja käytetään parantamaan mallin suorituskykyä erityisesti niissä ruoissa ja olosuhteissa, joissa virheitä esiintyy yleisimmin.

Useiden Signaalien Yhdistäminen

Sen sijaan, että luotettaisiin pelkästään visuaaliseen luokitteluun, Nutrola yhdistää kuvapohjaisen tunnistuksen kontekstuaalisiin signaaleihin tarkkuuden parantamiseksi. Vuorokauden aika, maantieteellinen alue, äskettäinen ateriahistoria ja käyttäjäpreferenssit toimivat ennakoijina, jotka auttavat erottamaan visuaalisesti samankaltaisia ruokia. Kulhollinen punaista nestettä, joka on kuvattu aamiaisella Pohjois-Amerikassa, on todennäköisemmin tomaattimehua kuin gazpacho, ja järjestelmä voi käyttää tätä kontekstia tehdäkseen parempia ennusteita.

Rehellinen Luottamuksen Viestintä

Yksi tärkeimmistä suunnittelupäätöksistä on, miten viestiä epävarmuudesta. Kun malli on varma, Nutrola esittää tunnistuksensa suoraan. Kun varmuus on alhaisempi, järjestelmä esittää useita vaihtoehtoja ja pyytää käyttäjää vahvistamaan. Tämä vuorovaikutusmalli kunnioittaa teknologian sisäisiä rajoituksia, mutta vähentää silti kitkaa verrattuna manuaaliseen kirjaamiseen. Sen sijaan, että se teeskentelisi olevan täydellinen, järjestelmä on läpinäkyvä silloin, kun se tarvitsee apua.

Ravitsemustarkkuuden Optimointi, Ei Vain Luokittelutarkkuuden

Akateemiset vertailut mittaavat luokittelutarkkuutta: tunnistiko malli ruoan oikein? Mutta ravitsemusseurannassa relevantti mittari on ravitsemustarkkuus: kuinka lähellä arvioitu kalori- ja makroravinteiden sisältö on todellisia arvoja? Nutrola optimoi tätä alavirtaista mittaria. Sekoitus kahden visuaalisesti samankaltaisen ruoan, joilla on samankaltaiset ravitsemusprofiilit (valkoinen riisi vs. jasmiiniriisi), sekoittaminen on paljon vähemmän merkittävää kuin kahden visuaalisesti samankaltaisen ruoan, joilla on hyvin erilaiset ravitsemusprofiilit (tavallinen muffini vs. proteiinimuffini), sekoittaminen. Järjestelmä on viritetty minimoimaan virheitä, joilla on suurin vaikutus ravitsemusarvioihin.

Tutkimuksen Rajapinta: Mitä Tulee Seuraavaksi

Ruokantunnistustutkimus jatkaa kehittymistään. Useat aktiiviset tutkimussuunnat voivat edelleen kaventaa eroa laboratorioiden tarkkuuden ja todellisen suorituskyvyn välillä:

Ainesosatason tunnistus: Siirtyminen ruokalajitason luokittelusta yksittäisten ainesosien tunnistamiseen ruokalajissa. Tämä mahdollistaa tarkemman ravitsemusarvioinnin sekoitetuille ruoille ja tukee ruokarajoitusten tarkistamista (esimerkiksi allergeenit).

3D-ruokamallinnus yksittäisistä kuvista: Edistysaskeleet neuro-säteilykentissä (NeRF) ja yksisilmäisessä 3D-rakentamisessa viittaavat siihen, että pian on mahdollista rekonstruoida kohtuullisen tarkka 3D-malli ateriasta yhdestä valokuvasta, mikä parantaa huomattavasti annosarviointia.

Personoidut ruokamallit: Mallien kouluttaminen, jotka mukautuvat yksittäisten käyttäjien tyypillisiin aterioihin, suosikki-ravintoloihin ja ruoanlaittotyyleihin. Malli, joka tietää, että syöt samaa aamiaista joka arkipäivä, voi saavuttaa lähes täydellisen tarkkuuden personoinnin kautta.

Monimuotoinen päättely: Visuaalisen tunnistuksen yhdistäminen tekstiin (ruokalistan kuvaukset, reseptin nimet) ja ääneen (ruokien ääneen kuvailu) rakentaa kestävämpiä ruokakäsitysjärjestelmiä.

Federatiivinen oppiminen ruoalle: Ruokantunnistusmallien kouluttaminen monien käyttäjien laitteilla ilman raakatietojen keskittämistä, säilyttäen yksityisyyden samalla kun hyödynnetään monimuotoista todellista koulutusdataa.

Usein Kysytyt Kysymykset

Kuinka tarkka tekoälyn ruokantunnistus on tänään verrattuna ihmisen ravitsemusterapeuttiin?

Yleisille ruoille, jotka on valokuvattu hyvissä olosuhteissa, tekoälyn ruokantunnistus vastaa tai ylittää ihmisen ravitsemusterapeutin nopeuden ja saavuttaa vertailukelpoisen tunnistustarkkuuden. Rekisteröity ravitsemusterapeutti voi tyypillisesti tunnistaa ruoka-aineen valokuvasta 85–95 prosentin tarkkuudella. Nykyiset tekoälyjärjestelmät saavuttavat samankaltaisia lukuja hyvin edustetuissa ruokakategorioissa. Kuitenkin ravitsemusterapeutit ylittävät edelleen tekoälyn harvinaisissa tai epäselvissä ruoissa, kulttuurisesti spesifisissä ruokalajeissa ja annosarvioinnissa. Tekoälyn käytännöllinen etu on nopeus ja saatavuus: se tarjoaa välittömän arvion 24/7, kun taas ravitsemusterapeutin konsultaatiot ovat rajoitettuja ja kalliita.

Mikä on Food-101-datasto ja miksi se on tärkeä?

Food-101 on vertailudatasto, joka sisältää 101 000 kuvaa 101 ruokakategoriasta, julkaistu ETH Zürichin tutkijoiden toimesta vuonna 2014. Se on tärkeä, koska se tarjosi ensimmäisen laajasti hyväksytyn standardin ruokantunnistusmallien arvioimiseksi. Ennen Food-101:ä tutkijat testasivat järjestelmiään yksityisillä tai pienimuotoisilla datastoilla, mikä teki tulosten vertaamisen mahdottomaksi. Food-101 mahdollisti toistettavan tutkimuksen ja vauhditti ruokaluokittelun tarkkuuden nopeaa kehitystä noin 50 prosentista vuonna 2014 yli 93 prosenttiin vuoteen 2020 mennessä.

Miksi ruoan tunnistaminen on vaikeampaa kuin muiden objektien?

Ruoka esittää useita haasteita, joita harvoin esiintyy yleisessä objektitunnistuksessa: äärimmäinen visuaalinen vaihtelu saman ruokakategorian sisällä (ajattele kaikkia asioita, joita kutsutaan "salaatiksi"), korkea visuaalinen samankaltaisuus eri ruokakategorioiden välillä (tomaattikeitto vs. punainen curry), muotoutuvat ja amorfiset muodot, usein peittäminen kastikkeiden ja täytteiden vuoksi sekä laaja vaihtelu valmistustavoissa eri kulttuureissa. Lisäksi ruoka on sekä tunnistettava että kvantifioitava (annosarviointi), mikä lisää ulottuvuutta, jota useimmat objektitunnistustehtävät eivät vaadi.

Kuinka siirtoulearning auttaa ruokantunnistuksessa?

Siirtoulearning tarkoittaa neuroverkon ottamista, joka on esikoulutettu suurella yleiskäyttöisellä datastolla (yleensä ImageNet) ja hienosäätämistä pienemmällä ruokakohtaisella datastolla. Tämä toimii, koska ImageNetista opitut matalan tason visuaaliset piirteet (reunat, tekstuurit, värit, muodot) ovat laajalti hyödyllisiä ja siirtyvät hyvin ruokakuviin. Vain korkeammat, ruokakohtaiset piirteet on opittava alusta alkaen. Siirtoulearning vähentää merkittävästi ruokakohtaisen koulutusdatan tarvetta ja parantaa tyypillisesti tarkkuutta 10–20 prosenttiyksikköä verrattuna kouluttamiseen alusta alkaen.

Voiko tekoäly arvioida annoskokoja yhdestä valokuvasta?

Tekoäly voi arvioida annoskokoja yhdestä valokuvasta, mutta merkittävällä epävarmuudella. Ilman syvyystietoa 2D-valokuva ei voi tarkasti määrittää ruoan tilavuutta. Modernit järjestelmät yhdistävät opittuja annosennakoita (tilastollista tietoa tyypillisistä annoskokoista), suhteellisia koko vihjeitä (verraten ruokaa lautasen tai muiden objektien kokoon) ja yksisilmäistä syvyyden arviointia tuottaakseen arvioita, jotka ovat tyypillisesti 15–30 prosenttia lähellä todellista annoskokoa. Tämä on tarpeeksi tarkkaa päivittäiseen seurantaan, mutta ei riittävän tarkkaa kliiniseen ravitsemusarviointiin.

Mikä on ero ruokaluokittelun ja ruokantunnistuksen välillä?

Ruokaluokittelu antaa yksittäisen etiketin koko kuvalle (tämä kuva sisältää pizzaa). Ruokantunnistus tunnistaa ja paikantaa useita ruokatuotteita kuvassa, piirtäen raja-alueet jokaisen tuotteen ympärille ja luokitellen ne itsenäisesti (tämä kuva sisältää pizzaa vasemmassa yläkulmassa, salaattia oikeassa alakulmassa ja leipätikku ylhäällä). Tunnistus on vaikeampi tehtävä, mutta se on välttämätöntä todellisille ateriakuville, jotka lähes aina sisältävät useita ruokatuotteita.

Kuinka Nutrola käyttää tätä tutkimusta?

Nutrola rakentaa artikkelissa kuvattujen akateemisten ruokantunnistustutkimusten koko kehon varaan, sisällyttäen huipputason arkkitehtuurit, kouluttaen monimuotoisilla todellisilla datoilla ja optimoimalla ravitsemustarkkuuden eikä vain luokittelutarkkuuden. Järjestelmä yhdistää visuaalisen tunnistuksen kontekstuaalisiin signaaleihin ja käyttäjäpalautteeseen, jotta saavutetaan tarkkuus, joka ylittää sen, mitä mikään yksittäinen tutkimuspaperi saavuttaa eristyksissä. Nutrola myös myötävaikuttaa takaisin tutkimusyhteisöön julkaisemalla havaintoja todellisesta ruokantunnistuksen suorituskyvystä ja näiden järjestelmien laajamittaisen käyttöönoton haasteista.

Tuleeko ruokantunnistus tekoäly koskaan olemaan 100 prosenttisesti tarkkaa?

Täydellinen tarkkuus on epätodennäköistä useista syistä. Jotkut ruoat ovat todella visuaalisesti erottamattomia (valkoinen sokeri ja suola, esimerkiksi). Annosarviointi 2D-kuvista on matemaattisesti rajoittunutta. Ja globaalin ruokakulttuurin monimuotoisuus tarkoittaa, että pitkän hännän ruoilla on aina rajallinen koulutusdata. Kuitenkin relevantti kysymys ei ole se, onko teknologia täydellinen, vaan onko se hyödyllinen. Nykyisillä tarkkuustasoilla tekoälyn ruokantunnistus vähentää ruokakirjaamisen kitkaa 70–80 prosenttia verrattuna manuaaliseen syöttöön, ja tarkkuus jatkaa parantumistaan jokaisella mallin ja koulutusdatan sukupolvella.

Yhteenveto

Puhelimessasi oleva ruokantunnistus tekoäly on tutkimusmatka, joka kattaa yli vuosikymmenen. Se alkoi läpimurrosta kuvantunnistuksessa vuoden 2012 ImageNet-haasteessa, sai suuntaa ruokakohtaisista datastoista kuten Food-101, kohtasi ruoan visuaalisen alan ainutlaatuiset haasteet ja vähitellen kavensi eroa akateemisten vertailujen ja todellisen suorituskyvyn välillä.

Tämä matka on kaukana ohi. Annosarviointi on edelleen avoin tutkimusongelma. Pitkän hännän ruokakategorioiden kattavuutta tarvitaan parempaa. Todellinen tarkkuus jatkaa eroa vertailutarkkuudesta merkittävällä marginaalilla. Mutta suunta on selvä: jokainen vuosi tuo mukanaan parempia malleja, rikkaampaa koulutusdataa ja kehittyneempiä lähestymistapoja vaikeisiin ongelmiin.

Nutrola toimii tämän tutkimuksen ja ihmisten käytännön tarpeiden risteyskohdassa, jotka yrittävät ymmärtää, mitä he syövät. Pysymällä lähellä akateemisen tutkimuksen huippua samalla kun keskitymme tiukasti todelliseen suorituskykyyn, työskentelemme sen eteen, että vaivaton ja tarkka ravitsemusseuranta olisi todellisuutta kaikille.

Valmis muuttamaan ravitsemusseurantaasi?

Liity tuhansien joukkoon, jotka ovat muuttaneet terveysmatkansa Nutrola avulla!