Az AI Kalóriakövetés Tudománya: Hogyan Működik a Képészlelés

2026. április 12.

Technikai magyarázat az AI-alapú kalóriakövetés mögött álló számítógépes látás folyamatáról: képosztályozás, objektumdetektálás, szemantikai szegmentálás, mélység- és térfogatbecslés, valamint adatbázis-illesztés. Tartalmazza a technikák szerinti pontossági táblázatokat és a közzétett kutatásokra való hivatkozásokat.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Amikor lefotózod az étkezésedet, és egy kalóriakövető alkalmazás azonosítja az ételt, majd másodpercek alatt megbecsüli a tápanyagtartalmát, ez a folyamat egy több lépcsős számítógépes látás folyamatának eredménye, amely magában foglalja a képosztályozást, az objektumdetektálást, az adagméret becslést és az adatbázis-illesztést. Minden egyes lépés saját pontossági korlátokkal és hibaforrásokkal rendelkezik. Fontos megérteni, hogyan működik ez a folyamat, és hol lehetnek a gyenge pontok, hogy értékelni tudjuk, mennyire megbízható az AI-alapú kalóriakövetés mint étrendi monitorozó eszköz.

Ez a cikk technikai elemzést nyújt az étel azonosítás mögött álló számítógépes látás folyamatról, beleértve a gépi tanulási architektúrákat, a közzétett pontossági benchmarkokat, az AI mögött álló táplálkozási adatbázis kritikus szerepét, valamint a tudomány jelenlegi állapotát.

Az AI Kalóriakövetési Folyamat: Hat Lépés

Az AI-alapú étel azonosítás nem egyetlen technológia. Ez egy sorozatos feldolgozási lépésekből álló folyamat, ahol mindegyiknek megfelelően kell teljesítenie ahhoz, hogy a végső kalória becslés értelmes legyen.

Lépés	Technikai Feladat	Fő Kihívás	Hibák Hozzájárulása
1. Kép előfeldolgozás	Világítás, felbontás, tájolás normalizálása	Változó valós fényképezési körülmények	Alacsony (jól megoldott)
2. Étel detektálás	Ételterületek lokalizálása a képen	Több étel, átfedő elemek, részleges takarás	Mérsékelt
3. Étel osztályozás	Az egyes ételek azonosítása	Ételek közötti vizuális hasonlóság (rizsfajták, sajtok)	Mérsékelt és magas
4. Adagbecslés	Megállapítani, mennyi étel van jelen	Nincs abszolút méret referencia a legtöbb fényképen	Magas
5. Adatbázis-illesztés	Az azonosított ételt összekapcsolni egy táplálkozási adatbázis bejegyzésével	Kétértelmű egyezések, elkészítési módszer variációk	Alacsony és mérsékelt (adatbázistól függ)
6. Tápanyag számítás	Adag × egységnyi tápanyag	Összetett hiba az összes korábbi lépésből	A folyamat pontosságától függ

1. Lépés: Kép Előfeldolgozás

Mielőtt bármilyen étel azonosítás történne, a nyers fényképet normalizálni kell. Ez magában foglalja:

Világítási eltérések. A fluoreszkáló, izzós, természetes vagy vaku fényben készült fényképek különböző színprofilokat produkálnak ugyanannak az ételnek. A modern előfeldolgozó folyamatok színállandósági algoritmusokat és tanult normalizálást használnak a világítástól függő osztályozási hibák csökkentésére.
Felbontás és formátum. Különböző eszközökből származó képek eltérő felbontással rendelkeznek. Az előfeldolgozó folyamat a képeket egy standard bemeneti méretre (tipikusan 224×224 vagy 384×384 pixel osztályozási modellekhez, magasabb a detektáló modellekhez) méretezi.
Tájolás. A fényképek készülhetnek közvetlenül felülről (felülről, ideális az adagbecsléshez) vagy szögekből. A geometriai normalizálás lehetővé teszi a nézőszög korrekcióját, ha lehetséges.

Ez a lépés a jelenlegi technológia által jól megoldott, és minimális hibát okoz az összesített folyamatban.

2. Lépés: Étel Detektálás (Objektum Detektálás)

Az étel detektálás megválaszolja a kérdést: "Hol találhatók az ételek ezen a képen?" Ez egy objektumdetektálási probléma, és bonyolulttá válik, amikor egyetlen fénykép több ételt tartalmaz egy tányéron vagy több étkezésen.

Használt Architektúrák

YOLO (You Only Look Once). A YOLO detektorok családja (YOLOv5, YOLOv8 és a következő verziók) az egész képet egyetlen előrehaladási lépésben dolgozza fel, egyszerre létrehozva a keretezési dobozokat és az osztály előrejelzéseket. A YOLO-t a termelési étel azonosító rendszerekben kedvelik, mivel valós idejű sebességet biztosít, jellemzően 50 milliszekundum alatti inferenciaidővel mobil hardveren.

Faster R-CNN. Egy kétfázisú detektor, amely először javaslatokat tesz az érdekes területekre, majd osztályozza azokat. A Faster R-CNN kissé magasabb pontosságot ér el, mint az egyfázisú detektorok bonyolult jelenetekben, de az inferenciaidő növekedésének árán.

DETR (Detection Transformer). A Facebook AI Research transformer-alapú detektora figyelemmechanizmusokat használ, hogy közvetlenül prediktálja az objektum keretezési dobozait anélkül, hogy horgony javaslatokat tenne. A DETR jobban kezeli az átfedő és takart ételeket, mint a horgony-alapú módszerek, így alkalmas bonyolult étkezési jelenetekhez.

Detektálási Kihívások Ételképeken

Az étel detektálás egyedi kihívásokat jelent az általános objektumdetektáláshoz képest:

Nincs világos határ. Az ételek egy tányéron gyakran érintkeznek vagy átfedik egymást (szósz a tésztán, sajt a salátán). Az autókhoz vagy gyalogosokhoz képest az ételek ritkán rendelkeznek éles szélekkel.
Változó bemutatás. Ugyanaz az étel drámaian eltérően nézhet ki az elkészítési módtól, a tálalási stílustól és a kísérő ételektől függően.
Skála változatosság. Egyetlen mandula és egy egész pizza is megjelenhet ugyanabban az étkezési fényképben, ami széles skálájú objektumok detektálását igényli.

Aguilar et al. (2018), a Multimedia Tools and Applications folyóiratban közzétett tanulmányukban értékelték az étel detektáló modelleket, és megállapították, hogy a detektálási pontosság (átlagos precizitás, mAP alapján mérve) 60 és 85 százalék között változik a jelenet bonyolultságától függően. Az egyedi étel fényképek 90 százalék feletti detektálási arányt értek el, míg az öt vagy több elemet tartalmazó bonyolult étkezések 70 százalék alá estek.

3. Lépés: Étel Osztályozás (Kép Osztályozás)

Miután az ételek detektálva és lokalizálva lettek, minden egyes észlelt területet osztályozni kell: ez csirke, hal, tofu vagy tempeh? Ez egy kép osztályozási probléma, és ez a legintenzívebben kutatott lépés az étel azonosítás folyamatában.

Használt Architektúrák

Konvolúciós Neurális Hálózatok (CNN-ek). A ResNet, EfficientNet és Inception architektúrák a legfontosabbak az étel osztályozási kutatásokban. Ezek a modellek hierarchikus vizuális jellemzőket (textúra, forma, színminták) vonnak ki egymást követő konvolúciós rétegeken keresztül. Meyers et al. (2015) a Google Im2Calories cikkében egy Inception-alapú architektúrát használt az étel osztályozására, és körülbelül 79 százalékos top-1 pontosságot jelentett egy 2500 osztályú étel adathalmazon.

Vision Transformers (ViT). A Dosovitskiy et al. (2021) által bevezetett Vision Transformers a természetes nyelvfeldolgozásból származó önfigyelmi mechanizmust alkalmaznak a képfelismeréshez. A ViT-k a képeket darabokra osztják, és sorozatként dolgozzák fel őket, lehetővé téve a modell számára, hogy megragadja a globális képkontextust, amelyet a CNN-ek korlátozott receptív mezői esetleg elmulasztanak. A legújabb étel osztályozási munkák, amelyek ViT és Swin Transformer architektúrákat használnak, 3-7 százalékpontos javulást jelentettek a CNN alapú modellekhez képest a standard étel azonosítási benchmarkokon.

Hibrid architektúrák. A modern termelési rendszerek gyakran kombinálják a CNN jellemzők kiemelését a transformer-alapú érveléssel, kihasználva mindkét megközelítés előnyeit.

Osztályozási Pontosság Étel Kategóriák Szerint

Az osztályozási pontosság jelentősen változik az ételtípusok szerint.

Étel Kategória	Tipikus Top-1 Pontosság	Fő Kihívás
Egész gyümölcsök (alma, banán, narancs)	90–95%	Magas vizuális megkülönböztethetőség
Egy összetevős fehérjék (steak, halfilé)	80–90%	Főzési módszer variációk
Gabonák és keményítők (rizs, tészta, kenyér)	75–85%	Hasonló megjelenés a fajták között
Vegyes ételek (stir-fry, rakott étel, curry)	55–70%	Az összetevők összetétele a felszínen nem látható
Italok	40–60%	Vizuálisan azonos folyadékok különböző összetételekkel
Szószok és fűszerek	30–50%	Hasonló vizuális megjelenés, nagyon eltérő kalóriatartalom

Az adatokat Meyers et al. (2015), Bossard et al. (2014) és Thames et al. (2021) gyűjtötték össze.

Az osztályozási kihívás a legnagyobb azoknál az ételeknél, amelyek hasonlónak tűnnek, de nagyon eltérő tápanyagtartalommal rendelkeznek. A fehér rizs és a karfiol rizs vizuálisan hasonlítanak, de kalóriatartalmuk öt szoros eltérést mutat. A teljes tej és a sovány tej vizuálisan megkülönböztethetetlenek. A sima és a diétás üdítőitalok megjelenés alapján nem különböztethetők meg.

Benchmark Adathalmazon

Food-101 (Bossard et al., 2014). 101 étel kategória, mindegyik 1000 képpel. A legszélesebb körben használt benchmark az étel osztályozási kutatásokhoz. A jelenlegi csúcstechnológiás modellek 95 százalék feletti top-1 pontosságot érnek el ezen a benchmarkon, bár a viszonylag kis számú kategória (101) miatt kevésbé reprezentatív a valós világ sokszínűségére.

ISIA Food-500 (Min et al., 2020). 500 étel kategória, körülbelül 400,000 képpel. Jobban reprezentálja a valós világ étel sokszínűségét. A top-1 pontosság ezen a benchmarkon jelentősen alacsonyabb, jellemzően 65-80 százalék.

UEC Food-256 (Kawano és Yanagida, 2015). 256 japán étel kategória. Bemutatja a kulturálisan specifikus étel azonosítás kihívását, mivel a nyugati étel adathalmazon képzett modellek gyengén teljesítenek az ázsiai konyhákban, és fordítva.

4. Lépés: Adagméret Becsülés

Az adagméret becslése széles körben elismert, mint az AI kalóriakövetési folyamat leggyengébb láncszeme. Még ha egy ételt helyesen azonosítanak is, a hibás adagbecslés közvetlenül hibás kalóriaszámítást eredményez.

Technikák

Referencia Objektum Skálázás. Néhány alkalmazás arra kéri a felhasználókat, hogy egy referencia objektumot (bankkártya, érme vagy a felhasználó hüvelykujját) is tartalmazzanak a fényképen. A referencia objektum ismert méretei méretreferenciát biztosítanak az étel méreteinek becsléséhez. Dehais et al. (2017) értékelték a referencia objektum módszereket, és megállapították, hogy az adagbecslési hibák 15-25 százalék között mozogtak, amikor referencia objektum jelen volt.

Mélység Becsülés. A sztereó kamera rendszerek (két lencse) vagy LiDAR érzékelők (néhány okostelefonon elérhető) mélységi információt biztosítanak, amely lehetővé teszi az étel felületének 3D-s rekonstrukcióját. A tartály geometria és az étel sűrűség feltételezéseivel kombinálva a mélységi adatok térfogatbecslést tesznek lehetővé. Meyers et al. (2015) arról számolt be, hogy a mélység alapú becslés csökkentette az adaghibákat az egy képes módszerekhez képest, de a mélység érzékelők nem állnak rendelkezésre minden eszközön.

Monokuláris Mélység Becsülés. A gépi tanulási modellek, amelyeket egyes képekből való mélység becslésére képeztek ki, közelíthetik a 3D-s étel geometriát speciális hardver nélkül. A pontosság alacsonyabb, mint a fizikai mélység érzékelők esetében, de bármely okostelefon kameráján alkalmazható.

Tanult Térfogat Becsülés. Az end-to-end modellek, amelyeket étel képek és ismert térfogatú párok adathalmazon képeztek ki, közvetlenül meg tudják jósolni az adagméretet explicit 3D-s rekonstrukció nélkül. Thames et al. (2021) ilyen modelleket értékelt, és 20-40 százalékos átlagos adagbecslési hibákat jelentettek.

Adagbecslési Pontossági Táblázat

Módszer	Átlagos Absolút Hiba	Különleges Hardver Szükséges	Hivatkozás
Referencia objektum (bankkártya)	15–25%	Nem (csak a referencia objektum)	Dehais et al. (2017)
Sztereó kamera mélység	12–20%	Igen (dupla kamera)	Meyers et al. (2015)
LiDAR mélység	10–18%	Igen (LiDAR-ral felszerelt telefon)	Legújabb közzétett benchmarkok
Monokuláris mélység becslés (ML)	20–35%	Nem	Thames et al. (2021)
Tanult térfogat (end-to-end)	20–40%	Nem	Thames et al. (2021)
Felhasználói önbecslés (AI nélkül)	20–50%	Nem	Williamson et al. (2003)

A táblázat azt mutatja, hogy minden automatizált módszer jobban teljesít, mint a segédeszköz nélküli emberi becslés (Williamson et al., 2003, Obesity Research), de egyik sem éri el a 10 százalék alatti hibát következetesen. Összehasonlításképpen, egy 25 százalékos adagbecslési hiba egy 400 kalóriás étkezésnél 100 kalóriás eltérést jelent, ami elegendő ahhoz, hogy egy mérsékelt kalóriadeficitet semmissé tegyen, ha több étkezés során halmozódik.

5. Lépés: Adatbázis-illesztés — A Kritikus Lépés

Ez a lépés kapja a legkevesebb figyelmet a technikai diskurzusokban, de a végső pontosságra gyakorolt hatása a legnagyobb. Miután az AI azonosította az ételt és megbecsülte az adagját, össze kell kapcsolnia az azonosított ételt egy táplálkozási adatbázis bejegyzésével, hogy visszanyerje a kalória- és tápanyagtartalmakat.

Ennek az illesztésnek a minősége teljes mértékben a háttéradatbázis minőségétől függ. Ha az AI helyesen azonosítja a "grillezett csirkemellet, 150 gramm" de egy crowdsourced adatbázis bejegyzéshez illeszti, amely 130 kalóriát listáz 100 grammonként (szemben az USDA által elemzett 165 kalóriával 100 grammonként), a végső kalória becslés 27 százalékkal alacsonyabb lesz, nem azért, mert az AI hibázott, hanem mert a mögötte álló adatbázis pontatlan.

Ez az alapvető felismerés választja el az különböző AI kalóriakövető alkalmazásokat: Az AI étel azonosítás pontossága csak annyira hasznos, mint a mögötte álló táplálkozási adatbázis.

Adatbázis-illesztési Összehasonlítás

AI Követő Alkalmazás	Étel Azonosítás	Adatbázis Háttér	Összesített Megbízhatóság
Nutrola	AI fotó + hangazonosítás	1.8M USDA-hoz kötött, táplálkozási szakértő által ellenőrzött bejegyzések	Magas azonosítás + magas adatpontosság
Cal AI	AI fotó becslés	Saját adatbázis (korlátozott átláthatóság)	Mérsékelt azonosítás + bizonytalan adatpontosság
AI-t hozzáadó alkalmazások crowdsourced DB-hez	AI fotó azonosítás	Crowdsourced, nem ellenőrzött bejegyzések	Mérsékelt azonosítás + alacsony adatpontosság

A Nutrola architektúrája kifejezetten arra lett tervezve, hogy kezelje ezt a kritikus függőséget. Az AI fotó azonosító és hangrögzítő funkciók kezelik az azonosítás és adagbecslés lépéseit, míg a 1.8 millió táplálkozási szakértő által ellenőrzött bejegyzésből álló háttéradatbázis, amely az USDA FoodData Central-ból származik, biztosítja, hogy az egyes azonosított ételekhez kapcsolódó táplálkozási adatok tudományosan pontosak legyenek. Ez a feladatok szétválasztása azt jelenti, hogy az AI étel azonosítás javulása közvetlenül javítja a nyomon követés pontosságát, anélkül, hogy a háttéradatbázis hibái aláásnák azt.

Képzési Adatigények

Egy étel azonosító modell képzése nagy, címkézett étel képek adathalmazon alapul. A képzési adatok minősége és sokszínűsége közvetlen hatással van a modell teljesítményére.

Adathalmaz mérete. A csúcstechnológiás étel azonosító modellek jellemzően 100,000-től több millió címkézett képből álló adathalmazon képzettek. A Google Im2Calories (Meyers et al., 2015) egy saját adathalmazon alapult, amely több millió étel képet tartalmazott. A nyilvánosan elérhető adathalmazon, mint a Food-101 (101,000 kép) és az ISIA Food-500 (400,000 kép) lényegesen kisebbek.

Címke minőség. Minden képnek pontosan címkézve kell lennie az étel kategóriájával. A hibásan címkézett képzési adatok olyan modelleket eredményeznek, amelyek helytelen asszociációkat tanulnak. Az étel képek címkézése szakmai tudást igényel, mivel a hasonló megjelenésű ételek (jázmin rizs vs. basmati rizs, grouper vs. cod) megkülönböztetése nem szakértők számára nehéz.

Sokszínűségi követelmények. A képzési adatoknak reprezentálniuk kell az étel bemutatásának teljes sokszínűségét: különböző konyhák, tálalási stílusok, világítási körülmények, kameranézőszögek és adagméretek. Azok a modellek, amelyek elsősorban nyugati étel fényképeken lettek képezve, gyengén teljesítenek az ázsiai, afrikai vagy közel-keleti konyhák esetében.

Adag címkék. Az adag becslési képzéshez a képeket valódi súlymérésekkel kell párosítani. Ezeknek a címkéknek a létrehozása megköveteli az ételek fényképezését a mérés előtt és után, ami munkaigényes folyamat, amely korlátozza az adag becslési képzési halmazok méretét.

Az Összetett Hiba Probléma

Az AI kalóriakövetés legfontosabb technikai fogalma az összetett hiba. Minden lépés a folyamatban bizonytalanságot vezet be, és ezek a bizonytalanságok megszorozódnak.

Vegyünk egy étkezést grillezett lazaccal, rizzsel és brokkolival:

Detektálási pontosság: 90% (minden étel helyesen lokalizálva).
Osztályozási pontosság: 85% (minden étel helyesen azonosítva).
Adagbecslési pontosság: 75% (adag 25%-on belül a valósághoz képest).
Adatbázis-illesztési pontosság: 95% (ellenőrzött adatbázis esetén) vagy 80% (crowdsourced adatbázis esetén).

A kombinált valószínűség, hogy minden lépés sikeres legyen mindhárom étel esetében:

Ellenőrzött adatbázissal: (0.90 × 0.85 × 0.75 × 0.95)^3 = 0.548^3 = 16.5% esély, hogy mindhárom elem teljesen pontos.
Crowdsourced adatbázissal: (0.90 × 0.85 × 0.75 × 0.80)^3 = 0.459^3 = 9.7% esély, hogy mindhárom elem teljesen pontos.

Ezek a számítások illusztrálják, miért teszi lehetetlenné az összetett hiba a tökéletes pontosságot a jelenlegi technológiával. Ugyanakkor azt is megmutatják, hogy bármely egyes lépés javítása javítja az összesített folyamatot. Az adatbázis-illesztési lépés a legegyszerűbben optimalizálható (használj egy ellenőrzött adatbázist a crowdsourced helyett), és jelentős pontosságjavulást biztosít minden étkezésnél.

Jelenlegi Csúcstechnológia és Korlátok

Mi Működik Jól

Egyedi elemek azonosítása. Egyetlen, világosan fényképezett étel azonosítása egy ismert konyhából 90 százalék feletti pontosságot ér el a modern architektúrákkal.
Gyakori ételek. A leggyakrabban fogyasztott ételek bőséges képzési adatokkal rendelkeznek, és megbízhatóan azonosíthatók.
Vonalkód kiegészítés. Amikor egy csomagolt ételt vonalkód alapján lehet azonosítani a fénykép helyett, az azonosítási pontosság 100 százalék közelébe emelkedik (csak a vonalkód olvashatósága korlátozza).

Mi Marad Kihívásnak

Vegyes ételek. A pörköltek, rakott ételek, stir-fry és más vegyes ételek, ahol az egyes összetevők vizuálisan nem választhatók el, továbbra is nehezek. A modell képes megbecsülni az egész ételt, de nem az összetevőinek pontos összetételét.
Rejtett összetevők. Az olajok, vaj, cukor és szószok, amelyeket főzés közben adnak hozzá, kalória szempontjából jelentősek, de gyakran láthatatlanok a végső tálalás során. Egy 2 evőkanál olajjal készült stir-fry zöldség étel hasonlít arra, amelyet főzőspray-jel készítettek, de a kalóriakülönbség körülbelül 240 kalória.
Adag pontosság. A 2D-s képekből származó térfogatbecslés továbbra is a leggyengébb láncszem, a jelenlegi módszerek esetében a hibák 20-40 százalék között mozognak.
Kulturális étel sokszínűség. A nyugati konyhán képzett modellek gyengén teljesítenek az ázsiai, afrikai, közel-keleti és latin-amerikai ételek esetében, amelyek a globális élelmiszerfogyasztás jelentős részét képviselik.

Gyakran Ismételt Kérdések

Mennyire pontos az AI alapú fénykép alapú kalóriakövetés?

A jelenlegi AI étel azonosító rendszerek 75-95 százalékos étel azonosítási pontosságot érnek el egyedi elemek esetében, jól reprezentált étel kategóriákból. Azonban az adagbecslés jelentős hibát ad hozzá (20-40 százalék a Thames et al. (2021) szerint). A végső kalória becslés pontossága az azonosítási pontosság, az adag pontosság és a mögöttes adatbázis pontosságának összetett hatásától függ. Az olyan alkalmazások, mint a Nutrola, amelyek AI azonosítást párosítanak egy ellenőrzött USDA-hoz kötött adatbázissal, minimalizálják az adatbázis hibát.

Milyen gépi tanulási modelleket használnak az étel azonosító alkalmazások?

A legtöbb termelési étel azonosító rendszer konvolúciós neurális hálózatokat (ResNet, EfficientNet) vagy Vision Transformers-t (ViT, Swin Transformer) használ osztályozásra, YOLO-t vagy DETR-t detektálásra, és külön modelleket az adagbecsléshez. A konkrét architektúrák és képzési részletek a legtöbb kereskedelmi alkalmazás esetében titkosak.

Képes az AI megkülönböztetni a hasonló ételeket, mint a fehér rizs és a karfiol rizs?

Ez továbbra is jelentős kihívás. A vizuálisan hasonló ételek, amelyek eltérő tápanyagtartalommal rendelkeznek, a számítógépes látás étel azonosításának ismert korlátozása. A modellek képesek tanulni finom vizuális jeleket (textúra, szemcse szerkezet), amelyek megkülönböztetik egyes hasonló ételeket, de ezeknél az eseteknél a pontosság jelentősen csökken. Ez az egyik oka annak, hogy az AI azonosítást felhasználói megerősítéssel és egy ellenőrzött adatbázissal kell párosítani, nem pedig teljesen autonóm rendszerként használni.

Miért számít az AI étel azonosítás mögötti adatbázis?

Az AI étel azonosítás megállapítja, hogy mi az étel. Az adatbázis határozza meg a tápértékeket, amelyek ehhez az ételhez kapcsolódnak. Még a tökéletes étel azonosítás is pontatlan kalória becsléseket eredményez, ha az adatbázis bejegyzés hibás. Egy ellenőrzött adatbázis, amely az USDA FoodData Central-ra épül (mint a Nutrola 1.8 millió bejegyzése), biztosítja, hogy a helyesen azonosított ételek tudományosan pontos táplálkozási adatokhoz legyenek párosítva. Ezért az adatbázis minősége ugyanolyan fontos, mint az AI modell minősége az összesített nyomon követési pontosság szempontjából.

Hogyan fog javulni az AI kalóriakövetés a jövőben?

Három aktív kutatási terület fogja elősegíteni a fejlődést: (1) Nagyobb és sokszínűbb képzési adathalmazon javítja az osztályozási pontosságot a globális konyhák körében; (2) A LiDAR és a többkamerás mélységérzékelés az okostelefonokon javítja az adagbecslést; (3) A multimodális modellek, amelyek a vizuális azonosítást szöveges/hangos kontextussal kombinálják (amit a felhasználó mond, hogy mit eszik), csökkentik a kétértelműséget. A Nutrola fotó AI és hangrögzítés kombinációja már megvalósítja ezt a multimodális megközelítést, mind a vizuális, mind a nyelvi bemenetek felhasználásával az étel azonosítási pontosságának javítása érdekében.

Készen állsz a táplálkozásod nyomon követésének átalakítására?

Csatlakozz ezrekhez, akik a Nutrolával átalakították az egészségügyi útjukat!

Download on theApp Store

GET IT ONGoogle Play