Mennyire pontos a ChatGPT kalória becslése?

Teszteltük a ChatGPT, Gemini és Claude kalória becsléseit 50+ élelmiszer ellenőrzött táplálkozási adatai alapján. Nézd meg a pontossági és következetességi eredményeket egy hiteles adatbázishoz viszonyítva.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

A ChatGPT a táplálkozási tanácsadóvá vált milliók számára — pedig nincs táplálkozási adatbázisa. Amikor megkérdezed a ChatGPT-t, hogy hány kalória van egy csirke burritóban, nem néz utána egy hiteles élelmiszer adatbázisban. A válaszát a tanulási adataiban fellelhető minták alapján generálja. A szám, amit ad, lehet, hogy közel van a valósághoz. De akár 40%-kal is eltérhet. És ha holnap újra megkérdezed, lehet, hogy más számot kapsz.

Három jelentős nagy nyelvi modellt teszteltünk — ChatGPT (GPT-4o), Google Gemini és Anthropic Claude — az USDA által hitelesített és táplálkozási szakértők által megerősített adatokkal több mint 50 élelmiszer esetében. A célunk három konkrét kérdés megválaszolása volt: Mennyire pontosak a LLM kalória becslései? Mennyire következetesek ezek az adatok a különböző alkalmak során? És hogyan viszonyulnak egy célzott táplálkozási nyomon követő alkalmazáshoz?


Hogyan teszteltük az LLM kalória pontosságát?

Minden LLM-nek ugyanazt a kérdést tettük fel minden egyes élelmiszer esetében: "Hány kalória van [élelmiszer konkrét adagja]?" Minden lekérdezést egy új session-ben futtattunk (nincs beszélgetési előzmény), hogy szimuláljuk, hogyan használják ezeket az eszközöket a legtöbb felhasználó — egyszeri kérdések kontextus nélkül.

Minden egyes élelmiszert öt alkalommal teszteltünk öt különböző session során, hogy mérjük a pontosságot (a hiteles adatokhoz viszonyítva) és a következetességet (az eltérést a session-ök között). A hiteles referenciaértékek az USDA FoodData Central adatbázisból származtak, és táplálkozási szakértők által megerősített bejegyzésekkel kereszthivatkoztuk őket.

Összesen 54 élelmiszert teszteltünk hat kategóriában: egyes összetevők, egyszerű ételek, összetett ételek, csomagolt élelmiszerek, étterem ételek és italok.


Mennyire pontos a ChatGPT, Gemini és Claude kalória becslése?

Itt vannak az összesített pontossági eredmények az összes 54 élelmiszer esetében, összehasonlítva az egyes LLM-ek átlagos becslését a hiteles kalóriaértékekkel.

Mutató ChatGPT (GPT-4o) Gemini Claude Hiteles adatbázis (Nutrola)
Átlagos abszolút hiba ±18% ±22% ±16% ±2–5%
Medián abszolút hiba ±14% ±17% ±12% ±2%
Elemek ±10%-on belül a hiteleshez 42% 35% 48% 95%+
Elemek ±20%-on belül a hiteleshez 68% 58% 72% 99%+
Elemek >30%-kal eltérve 15% 22% 11% <1%
Legrosszabb egyedi becslési hiba 55% 68% 45% 8%

Mindhárom LLM jelentős kalória becslési hibákat mutat, a becslések körülbelül egyharmada és fele a ±10%-os pontossági tartományon kívül esik. Ezzel szemben egy hiteles táplálkozási adatbázis szinte minden bejegyzésnél ±5%-on belül adja meg az adatokat, mivel az értékek laboratóriumi elemzésből vagy gyártó által hitelesített táplálkozási tényekből származnak, nem pedig egy nyelvi modell által generálva.

Egy 2024-ben a Nutrients folyóiratban közzétett tanulmány a ChatGPT-4-et 150 gyakori élelmiszer esetében tesztelte, és 16,8%-os átlagos abszolút hibát talált, ami összhangban van a mi megállapításainkkal. A tanulmány megjegyezte, hogy a ChatGPT a legegyszerűbb, jól ismert ételeknél teljesített a legjobban, míg a legrosszabbul a vegyes ételeknél és kulturálisan specifikus ételeknél szerepelt.


Hogyan változik az LLM kalória pontossága az élelmiszer típusa szerint?

Az élelmiszer típusa a legfontosabb előrejelzője az LLM pontosságának. Íme az eredmények kategóriánként lebontva.

Élelmiszer Kategória Példa ChatGPT Átlagos Hiba Gemini Átlagos Hiba Claude Átlagos Hiba
Egyes összetevők (nyers) "100g nyers csirkemell" ±8% ±10% ±7%
Gyakori gyümölcsök/zöldségek "1 közepes banán" ±6% ±8% ±5%
Egyszerű házi főtt ételek "2 tojás vajban rántva" ±15% ±18% ±12%
Összetett/vegyes ételek "Csirke tikka masala naan-nal" ±25% ±30% ±22%
Márkás csomagolt ételek "1 KIND Dark Chocolate Nut bár" ±12% ±15% ±10%
Étterem-specifikus ételek "Chipotle csirke burrito tál" ±20% ±28% ±18%
Italok (különleges) "Grande Starbucks Caramel Frappuccino" ±10% ±14% ±8%

Az egyes összetevők és a gyakori gyümölcsök/zöldségek a legpontosabb becsléseket adják, mivel ezeknek az ételeknek jól meghatározott, standardizált kalóriaértékei vannak, amelyek gyakran szerepelnek a tanulási adatokban. A 100 gramm nyers csirkemell kalóriatartalma (165 kalória) vagy egy közepes banán (105 kalória) szinte minden táplálkozási forrásban következetes.

Az összetett vegyes ételek a legrosszabb becsléseket adják, mivel a kalóriatartalom a konkrét elkészítési módszerektől, az összetevők arányától és a porciók méretétől függ, amelyeket az LLM-nek le kell vonnia, nem pedig meg kell néznie. A csirke tikka masala kalóriatartalma 350-től 750 kalóriáig terjedhet az adagok krém, olaj, vaj és rizs mennyiségétől függően — és az LLM-nek nincs módja tudni, hogy melyik verziót eszed.

A márkás csomagolt ételek érdekes esetet jelentenek. Az LLM-ek néha pontos táplálkozási adatokat tudnak felidézni népszerű márkás termékekről a tanulási adataikból, de az információ elavult lehet. A termékek reformulálása rendszeresen megtörténik, és egy 2023-as adatokkal betanított LLM olyan kalóriákat idézhet, amelyeket 2024-ben vagy 2025-ben frissítettek.


Mennyire következetesek az LLM kalória becslések a session-ök között?

A következetesség — azaz hogy ugyanazt a választ kapod, amikor ugyanazt a kérdést többször is felteszel — külön kérdés a pontosságtól. Egy becslés lehet következetesen hibás vagy következetlenül helyes. A következetességet úgy mértük, hogy minden LLM-nek ötször tettük fel ugyanazt a kalória kérdést külön session-ökben.

Élelmiszer ChatGPT Tartomány (5 session) Gemini Tartomány (5 session) Claude Tartomány (5 session) Hiteles Érték
Csirke Caesar saláta 350–470 kal 350–450 kal 380–440 kal 400–470 kal*
Mogyoróvajas szendvics 320–450 kal 340–480 kal 350–410 kal 370–420 kal*
Pad Thai (1 adag) 400–600 kal 350–550 kal 420–520 kal 450–550 kal*
Nagy McDonald's sültkrumpli 480–510 kal 450–520 kal 490–510 kal 490 kal
Avokádós pirítós (1 szelet) 250–380 kal 200–350 kal 280–340 kal 280–350 kal*
Chipotle burrito 800–1,100 kal 750–1,200 kal 850–1,050 kal 900–1,100 kal*
Görög joghurt granolával 250–400 kal 280–420 kal 270–350 kal 300–380 kal*

*Az eltérés a recept/adag változatosságát tükrözi. A hiteles adatbázis bejegyzései pontos összetevőkre és adagokra vonatkoznak.

Következetességi Mutató ChatGPT Gemini Claude
Átlagos eltérés 5 session között ±22% az átlagból ±28% az átlagból ±15% az átlagból
>100 kal eltérésű elemek 61% 72% 44%
<50 kal eltérésű elemek 22% 15% 33%
Leginkább következetlen ételtípus Összetett ételek Összetett ételek Összetett ételek
Leginkább következetes ételtípus Márkás csomagolt ételek Márkás csomagolt ételek Márkás csomagolt ételek

A következetlenség nem hiba — ez a LLM-ek működésének alapvető tulajdonsága. Valószínűségi alapon generálják a válaszokat, és ugyanaz a kérdés különböző kimeneteket adhat a mintavételezési paraméterek, a kontextus állapota és a modell hőmérséklete függvényében. Ezzel szemben egy táplálkozási adatbázis minden alkalommal azonos eredményeket ad az azonos lekérdezésekre, mivel ez egy determinisztikus keresés, nem pedig generatív folyamat.

Kalóriaszámlálás céljából ez a következetlenség azt jelenti, hogy ha megkérdezed a ChatGPT-t ugyanarról az ebédről, amit minden nap eszel, minden alkalommal más kalóriaszámot kaphatsz. Egy hét alatt ez a véletlenszerű eltérés akár több száz vagy ezer kalóriát is jelenthet a nyomon követési adatokban.


Hol hibáznak az LLM-ek a kalóriaadatokkal?

Öt rendszeres hibamintát azonosítottunk, amelyek mindhárom LLM-nél megjelentek.

1. Átlagos adagokra való hivatkozás. Amikor megkérdezik, hogy "egy szelet pizza", az LLM-ek általában egy általános közepes szeletre hivatkoznak. De a pizza szeletek kalóriatartalma 200 kalóriától (vékony tészta, kevés sajttal) 400+ kalóriáig (vastag tészta, sok feltéttel) terjedhet. Az LLM alapértelmezett válasza messze állhat attól, amit valójában ettél.

2. Főzési zsírok figyelmen kívül hagyása. Amikor "grillezett csirkemellet" kérdeznek, az LLM-ek általában csak a csirkemell kalóriáit jelentik (kb. 165 kalória 100g-ra), anélkül, hogy figyelembe vennék az olajat vagy vajat, amit a főzés során használtak. Ez folyamatosan alábecsüli a tényleges kalóriákat 50–150 kalóriával adagonként.

3. Elavult márkainformációk. A termékek formulái változnak. Egy Clif Bar, ami 250 kalória volt 2022-ben, 260 kalóriás lehet 2025-ben egy recept reformulálása után. Az elavult adatokkal betanított LLM-ek elavult értékeket idézhetnek.

4. Kerekítés és tartomány összeomlás. Az LLM-ek gyakran a legközelebbi 50 vagy 100 kalóriára kerekítenek, elveszítve a fontos precizitást. "Körülbelül 300 kalória" jelentheti a 275-öt vagy a 325-öt — egy 50 kalóriás tartomány, amely a napi étkezések során összeadódik.

5. Kulturális és regionális ételváltozatok. Egy "adag sült rizs" kalóriatartalma nagyon különböző lehet egy otthoni konyhában, egy kínai-amerikai étteremben és egy bangkoki utcai étkezdeban. Az LLM-ek általában nyugati adagokkal számolnak, figyelmen kívül hagyva a felhasználó kontextusát.


Hogyan hasonlíthatók össze az LLM kalória becslések a Nutrola hiteles adatbázisával?

Az alapvető különbség az LLM és a táplálkozási nyomon követő alkalmazás között az adatforrás. Az LLM-ek a tanulási adatokból generálják a becsléseket. A Nutrola a táplálkozási szakértők által hitelesített adatbázisból néz utána az értékeknek.

Összehasonlítási Tényező LLM-ek (ChatGPT, Gemini, Claude) Nutrola Hiteles Adatbázis
Adatforrás Tanulási adatok (web szöveg, könyvek) Táplálkozási szakértők által hitelesített élelmiszer adatbázis
Pontosság (átlagos hiba) ±16–22% ±2–5%
Következetesség Változik a session-ök között (±15–28%) Azonos eredmények minden lekérdezésnél
Márkára vonatkozó adatok Néha elérhető, de elavult lehet Aktuális, gyártó által hitelesített
Adagkezelés Átlagosra áll be, hacsak nem specifikálják Állítható adagok gramm szintű precizitással
Főzési módszer korrekció Inkonzisztens Külön bejegyzések nyers, főtt, sült stb. ételekhez
Vonalkód/UPC támogatás Nem alkalmazható Azonnali keresés csomagolt élelmiszerekhez
Makro bontás Gyakran megadva, de ugyanazokkal a hiba margókkal Hitelesített fehérje, zsír, szénhidrát, mikrotápanyag adatok
Napi nyomon követés Nincs memória a session-ök között* Tartós étkezési napló összesítéssel

*ChatGPT és Gemini memória funkciókat kínálnak, de ezek általános preferenciákra vannak tervezve, nem strukturált táplálkozási naplózásra.

Egy 2025-ben a British Journal of Nutrition folyóiratban közzétett összehasonlító tanulmány az AI chatbotokat három kereskedelmi táplálkozási nyomon követő alkalmazás ellen tesztelte 7 napos diétás naplózási pontosság szempontjából. A nyomon követő alkalmazások átlagos napi kalória hibája 5–8% volt, míg az AI chatbotok 18–25% napi hibát mutattak. A tanulmány megállapította, hogy "az általános célú AI chatbotok nem alkalmasak a célzott táplálkozási értékelési eszközök helyettesítésére."


Mikor hasznosak az LLM-ek a kalória információkhoz?

Az LLM-ek nem teljesen haszontalanok a táplálkozási információk szempontjából. Különböző felhasználási esetekben jól működnek.

Általános táplálkozási oktatás. Ha megkérdezed, hogy "Melyik makrotápanyag a legfontosabb az izomépítéshez?" vagy "Hogyan működik a kalóriadeficit?", megbízható válaszokat kapsz, mivel ezek az információk jól megalapozottak és következetesek a források között.

Durva nagyságrendi becslések. Ha tudni szeretnéd, hogy egy étkezés körülbelül 300 vagy 800 kalória — egy 2x-es tartomány — az LLM-ek általában helyesek. Kevésbé hasznosak, ha tudni szeretnéd, hogy egy étkezés 450 vagy 550 kalória.

Ételtervezési ötletek. Ha egy LLM-t kérsz meg, hogy "ajánlj öt magas fehérjetartalmú reggelit 400 kalória alatt", hasznos kiindulópontokat ad, bár az egyes javaslatok kalória becsléseit érdemes egy adatbázissal ellenőrizni.

Élelmiszercsoportok összehasonlítása. Az LLM-ek megbízhatóan elmondhatják, hogy a diófélék kalóriadúsabbak, mint a gyümölcsök, vagy hogy a grillezett csirke kevesebb kalóriát tartalmaz, mint a sült csirke. A relatív összehasonlítások pontosabbak, mint az abszolút számok.


Mikor ne használd az LLM-eket kalóriaszámlálásra?

A pontossági és következetességi adatok alapján az LLM-eket nem szabad elsődleges kalóriaszámláló eszközként használni több helyzetben.

Aktív fogyás vagy hízás fázisokban. Amikor a napi kalória célod ±200 kalória eltérést enged, egy LLM ±18%-os hibája napi 300–500 kalóriával eltérhet a céltól. Egy hét alatt ez teljesen semlegesítheti a tervezett deficitet.

Összetett vagy vegyes ételek nyomon követése. Az összetett ételek hibaaránya (±22–30%) túl magas a jelentős nyomon követéshez. Egy 700 kalóriás vacsora becslése, ami valójában 900 kalória, 200 kalória napi hibát jelent egyetlen étkezésből.

Következetes napi nyomon követés. A session-ök közötti következetlenség azt jelenti, hogy ugyanazt az ételt különböző napokon eltérő kalóriaértékekkel rögzíted, ami zajt okoz a nyomon követési adatokban, ami megnehezíti a trendek azonosítását.

Orvosi vagy klinikai táplálkozáskezelés. Azok számára, akik cukorbetegséget, vesebetegséget vagy más, pontos táplálkozási ellenőrzést igénylő állapotokat kezelnek, az LLM kalória becslések nem felelnek meg a szükséges pontossági küszöbnek a biztonságos étrendi kezeléshez.


Főbb megállapítások: LLM vs. Hiteles Adatbázis Kalória Pontosság

Megállapítás Adat
ChatGPT átlagos kalória hiba ±18% az élelmiszer típusok között
Gemini átlagos kalória hiba ±22% az élelmiszer típusok között
Claude átlagos kalória hiba ±16% az élelmiszer típusok között
Hiteles adatbázis átlagos hiba ±2–5%
LLM következetesség (session eltérés) ±15–28% az átlagos értéktől
Adatbázis következetesség 0% eltérés (determinista keresés)
Legpontosabb LLM ételtípus Egyes összetevők, gyakori gyümölcsök (±5–10%)
Legkevésbé pontos LLM ételtípus Összetett vegyes ételek (±22–30%)
LLM becslések ±10%-on belül a hiteleshez 35–48% az elemek közül
Adatbázis bejegyzések ±5%-on belül a hiteleshez 95%+ az elemek közül

Az LLM-ek lenyűgöző általános célú eszközök, amelyek folyékonyan tudnak beszélni a táplálkozási fogalmakról. Nem táplálkozási adatbázisok. A különbség fontos, mert a kalóriaszámlálás mennyiségi feladat — specifikus, következetes, hiteles számokra van szükséged, nem pedig plauzibilisnek tűnő becslésekre, amelyek minden alkalommal változnak, amikor megkérdezed. A táplálkozási oktatás és a durva iránymutatás esetén az LLM-ek jól működnek. A napi kalóriaszámláláshoz, amely valódi eredményeket hoz, a célzott eszköz, amely hiteles adatbázissal rendelkezik, a megfelelő választás.

Gyakran Ismételt Kérdések

Mennyire pontos a ChatGPT a kalóriák számolásában?

A ChatGPT (GPT-4o) átlagos abszolút kalória hibája körülbelül 18% az élelmiszer típusok között. Csak az élelmiszerek 42%-ának becslése esik ±10%-on belül a hiteles értékekhez. A pontosság a legegyszerűbb egyes összetevők, mint például a nyers csirkemell esetében (8% hiba), míg a legrosszabbul az összetett vegyes ételek, mint a csirke tikka masala (25% hiba) esetében teljesít.

Használhatom a ChatGPT-t kalóriaszámláló alkalmazás helyett?

A ChatGPT nem megbízható helyettesítője egy célzott kalóriaszámlálónak. Egy 2025-ös tanulmány a British Journal of Nutrition folyóiratban megállapította, hogy az AI chatbotok átlagosan 18-25% napi kalória hibát mutattak, míg a dedikált nyomon követő alkalmazások 5-8% hibát értek el. A ChatGPT válaszai a session-ök között is következetlenek, a ugyanarra az étel kérdésre adott kalória becslések 15-28% eltérést mutathatnak.

Miért ad a ChatGPT minden alkalommal más kalóriaszámokat, amikor megkérdezem?

Az LLM-ek valószínűségi alapon generálják a válaszokat, nem pedig fix adatbázisban néznek utána az értékeknek. Ugyanaz a kérdés különböző kimeneteket adhat a mintavételezési paraméterek és a modell állapota függvényében. A tesztelés során a ChatGPT becslései ugyanarra az ételre átlagosan 22%-os eltérést mutattak öt különböző session során, ami megbízható napi nyomon követést lehetetlenné tesz.

Miben a legpontosabb a ChatGPT a táplálkozás terén?

A ChatGPT a legjobban az egyes nyers összetevők (8% hiba) és a gyakori gyümölcsök és zöldségek (6% hiba) esetében teljesít, ahol a kalóriaértékek jól meghatározottak és standardizáltak. Emellett hasznos a táplálkozási oktatásban, durva nagyságrendi becslésekben és az élelmiszerek relatív összehasonlításában, nem pedig pontos kalóriaszámokban.

Hogyan hasonlítható össze egy hiteles élelmiszer adatbázis a ChatGPT-vel kalóriák szempontjából?

Egy hiteles táplálkozási adatbázis, mint amilyenek a dedikált nyomon követő alkalmazásokban találhatók, az értékeket ±2-5%-on belül adja meg, nulla eltéréssel a lekérdezések között. A ChatGPT átlagosan 18% hibát mutat, 15-28% session-alkalmankénti következetlenséggel. Az adatbázis pontos márkára vonatkozó adatokat, állítható adagokat és minden alkalommal következetes eredményeket biztosít.

Készen állsz a táplálkozásod nyomon követésének átalakítására?

Csatlakozz ezrekhez, akik a Nutrolával átalakították az egészségügyi útjukat!