Hoe Nauwkeurig Is ChatGPT voor Calorie Schattingen?
We hebben de calorie schattingen van ChatGPT, Gemini en Claude getest aan de hand van geverifieerde voedingsdata van meer dan 50 voedingsmiddelen. Bekijk de resultaten voor nauwkeurigheid en consistentie in vergelijking met een geverifieerde database.
ChatGPT is de standaard voedingsadviseur voor miljoenen mensen — en het heeft geen voedingsdatabase. Wanneer je ChatGPT vraagt hoeveel calorieën er in een kip burrito zitten, kijkt het niet in een geverifieerde voedingsdatabase. Het genereert een statistisch waarschijnlijk antwoord op basis van patronen in zijn trainingsdata. Het getal dat je krijgt kan dichtbij zijn. Het kan ook 40% afwijken. En als je morgen opnieuw vraagt, krijg je misschien een ander getal.
We hebben drie belangrijke grote taalmodellen getest — ChatGPT (GPT-4o), Google Gemini en Anthropic's Claude — aan de hand van geverifieerde USDA- en door voedingsdeskundigen bevestigde data van meer dan 50 voedingsmiddelen. Het doel was om drie specifieke vragen te beantwoorden: Hoe nauwkeurig zijn de calorie schattingen van LLM's? Hoe consistent zijn ze over verschillende sessies? En hoe verhouden ze zich tot een speciaal ontwikkelde voedingsapp?
Hoe Hebben We de Nauwkeurigheid van LLM Calorieën Getest?
We vroegen elk LLM dezelfde vraag voor elk voedingsitem: "Hoeveel calorieën zitten er in [voedingsitem met specifieke portie]?" We voerden elke query uit in een nieuwe sessie (zonder gespreksgeschiedenis) om te simuleren hoe de meeste gebruikers deze tools gebruiken — eenmalige vragen zonder context.
Elk voedingsitem werd vijf keer getest in vijf aparte sessies om zowel de nauwkeurigheid (vergeleken met geverifieerde data) als de consistentie (variatie tussen sessies) te meten. De geverifieerde referentiewaarden kwamen uit de USDA FoodData Central database en werden gecontroleerd met door voedingsdeskundigen bevestigde vermeldingen.
We testten 54 voedingsitems in zes categorieën: enkele ingrediënten, eenvoudige maaltijden, complexe maaltijden, verpakte voedingsmiddelen, restaurantitems en dranken.
Hoe Nauwkeurig Zijn ChatGPT, Gemini en Claude voor Calorie Schattingen?
Hier zijn de algehele nauwkeurigheidresultaten voor alle 54 voedingsitems, waarbij de gemiddelde schatting van elk LLM wordt vergeleken met geverifieerde caloriewaarden.
| Metriek | ChatGPT (GPT-4o) | Gemini | Claude | Geverifieerde Database (Nutrola) |
|---|---|---|---|---|
| Gemiddelde absolute fout | ±18% | ±22% | ±16% | ±2–5% |
| Mediaan absolute fout | ±14% | ±17% | ±12% | ±2% |
| Items binnen ±10% van geverifieerd | 42% | 35% | 48% | 95%+ |
| Items binnen ±20% van geverifieerd | 68% | 58% | 72% | 99%+ |
| Items meer dan 30% af | 15% | 22% | 11% | <1% |
| Slechtste enkele schatting fout | 55% | 68% | 45% | 8% |
Alle drie de LLM's vertonen significante fouten in calorie schattingen, waarbij ongeveer een derde tot de helft van de schattingen buiten een nauwkeurigheidsvenster van ±10% valt. Ter vergelijking, een geverifieerde voedingsdatabase levert gegevens binnen ±5% voor vrijwel elke vermelding omdat de waarden zijn gebaseerd op laboratoriumanalyses of door fabrikanten bevestigde voedingsfeiten, in plaats van gegenereerd door een taalmodel.
Een studie uit 2024 gepubliceerd in Nutrients testte ChatGPT-4 op 150 veelvoorkomende voedingsmiddelen en vond een gemiddelde absolute fout van 16,8%, wat consistent is met onze bevindingen. De studie merkte op dat ChatGPT het beste presteerde op eenvoudige, bekende voedingsmiddelen en het slechtste op gemengde gerechten en cultureel specifieke voedingsmiddelen.
Hoe Vervangt de Nauwkeurigheid van LLM Calorieën per Voedseltype?
Het type voedsel dat wordt geschat, is de sterkste voorspeller van de nauwkeurigheid van LLM's. Hier zijn de resultaten per categorie.
| Voedselcategorie | Voorbeeld | Gemiddelde Fout ChatGPT | Gemiddelde Fout Gemini | Gemiddelde Fout Claude |
|---|---|---|---|---|
| Enkele ingrediënten (rauw) | "100g rauwe kipfilet" | ±8% | ±10% | ±7% |
| Veelvoorkomende fruit/groenten | "1 middelgrote banaan" | ±6% | ±8% | ±5% |
| Eenvoudige zelfgekookte maaltijden | "2 eieren gebakken in boter" | ±15% | ±18% | ±12% |
| Complexe/gemengde gerechten | "Kip tikka masala met naan" | ±25% | ±30% | ±22% |
| Merken verpakte voedingsmiddelen | "1 KIND Dark Chocolate Nut bar" | ±12% | ±15% | ±10% |
| Restaurant-specifieke items | "Chipotle kip burrito bowl" | ±20% | ±28% | ±18% |
| Dranken (speciaal) | "Grande Starbucks Caramel Frappuccino" | ±10% | ±14% | ±8% |
Enkele ingrediënten en veelvoorkomende fruit/groenten leveren de meest nauwkeurige schattingen op omdat deze voedingsmiddelen goed gedefinieerde, gestandaardiseerde caloriewaarden hebben die vaak in trainingsdata voorkomen. De calorie-inhoud van 100 gram rauwe kipfilet (165 calorieën) of één middelgrote banaan (105 calorieën) is consistent in vrijwel alle voedingsbronnen.
Complexe gemengde gerechten leveren de slechtste schattingen op omdat de calorie-inhoud afhangt van specifieke bereidingsmethoden, ingrediëntenverhoudingen en portiegroottes die het LLM moet afleiden in plaats van op te zoeken. Een kip tikka masala kan variëren van 350 tot 750 calorieën per portie, afhankelijk van de hoeveelheden room, olie, boter en rijst — en het LLM heeft geen manier om te weten welke versie je eet.
Merken verpakte voedingsmiddelen vormen een interessant geval. LLM's kunnen soms exacte voedingsdata voor populaire merkproducten uit hun trainingsdata ophalen, maar de informatie kan verouderd zijn. Productherformuleringen komen regelmatig voor, en een LLM die is getraind op data uit 2023 kan calorie-informatie citeren die in 2024 of 2025 is bijgewerkt.
Hoe Consistent Zijn LLM Calorie Schattingen Over Sessies?
Consistentie — dezelfde antwoord krijgen wanneer je dezelfde vraag meerdere keren stelt — is een apart probleem van nauwkeurigheid. Een schatting kan consistent fout zijn of inconsistent juist. We hebben consistentie gemeten door elk LLM dezelfde calorievraag vijf keer in aparte sessies te stellen.
| Voedingsitem | ChatGPT Bereik (5 sessies) | Gemini Bereik (5 sessies) | Claude Bereik (5 sessies) | Geverifieerde Waarde |
|---|---|---|---|---|
| Kip Caesar salade | 350–470 cal | 350–450 cal | 380–440 cal | 400–470 cal* |
| Pindakaas sandwich | 320–450 cal | 340–480 cal | 350–410 cal | 370–420 cal* |
| Pad Thai (1 portie) | 400–600 cal | 350–550 cal | 420–520 cal | 450–550 cal* |
| Grote McDonald's frietjes | 480–510 cal | 450–520 cal | 490–510 cal | 490 cal |
| Avocado toast (1 plak) | 250–380 cal | 200–350 cal | 280–340 cal | 280–350 cal* |
| Chipotle burrito | 800–1.100 cal | 750–1.200 cal | 850–1.050 cal | 900–1.100 cal* |
| Griekse yoghurt met granola | 250–400 cal | 280–420 cal | 270–350 cal | 300–380 cal* |
*Bereik weerspiegelt variatie per recept/portie. Geverifieerde database vermeldingen zijn specifiek voor exacte ingrediënten en porties.
| Consistentiemetriek | ChatGPT | Gemini | Claude |
|---|---|---|---|
| Gemiddelde spreiding over 5 sessies | ±22% van het gemiddelde | ±28% van het gemiddelde | ±15% van het gemiddelde |
| Items met >100 cal spreiding | 61% | 72% | 44% |
| Items met <50 cal spreiding | 22% | 15% | 33% |
| Meest inconsistente voedseltype | Complexe gerechten | Complexe gerechten | Complexe gerechten |
| Meest consistente voedseltype | Merken verpakte voedingsmiddelen | Merken verpakte voedingsmiddelen | Merken verpakte voedingsmiddelen |
De inconsistentie is geen bug — het is een fundamenteel kenmerk van hoe LLM's werken. Ze genereren antwoorden probabilistisch, en dezelfde prompt kan verschillende outputs opleveren, afhankelijk van de samplingparameters, de status van het contextvenster en de temperatuur van het model. Een voedingsdatabase daarentegen levert identieke resultaten voor identieke vragen elke keer omdat het een deterministische opzoeking is, geen generatief proces.
Voor calorie tracking betekent deze inconsistentie dat als je ChatGPT vraagt naar dezelfde lunch die je elke dag eet, je elke keer een ander calorieaantal kunt krijgen. Over een week kan deze willekeurige variatie oplopen tot honderden of duizenden calorieën aan trackingruis.
Waar Gaan LLM's Fout met Hun Calorie Data?
We hebben vijf systematische foutpatronen geïdentificeerd die bij alle drie de LLM's voorkwamen.
1. Standaardiseren naar "gemiddelde" porties. Wanneer gevraagd wordt naar "een plak pizza," standaardiseren LLM's meestal naar een generieke middelgrote plak. Maar pizzastukken variëren van 200 calorieën (dunne korst, lichte kaas) tot 400+ calorieën (diepe schotel, veel toppings). Zonder het type, de korst en de toppings te specificeren, kan de standaard van het LLM ver verwijderd zijn van wat je daadwerkelijk hebt gegeten.
2. Negeert kookvetten. Wanneer gevraagd wordt naar "gegrilde kipfilet," rapporteren LLM's meestal alleen de calorieën voor kipfilet (ongeveer 165 cal per 100g), zonder rekening te houden met olie of boter die tijdens het koken zijn gebruikt. Dit onderschat consequent de werkelijke calorieën met 50–150 calorieën per portie.
3. Verouderde merkinformatie. Productformuleringen veranderen. Een Clif Bar die in 2022 250 calorieën was, kan in 2025 260 calorieën zijn na een herformulering van het recept. LLM's die op oudere data zijn getraind, kunnen verouderde waarden citeren.
4. Afronden en bereik samenvoegen. LLM's ronden vaak af naar de dichtstbijzijnde 50 of 100 calorieën, waardoor precisie verloren gaat die belangrijk is op grote schaal. "Ongeveer 300 calorieën" kan 275 of 325 betekenen — een bereik van 50 calorieën dat zich opstapelt over dagelijkse maaltijden.
5. Culturele en regionale voedselvariatie. Een "portie gebakken rijst" betekent calorisch gezien heel verschillende dingen in een thuiskeuken, een Chinees-Amerikaans afhaalrestaurant en een straatvoedselkraam in Bangkok. LLM's standaardiseren meestal naar westerse portieassumpties, ongeacht de context van de gebruiker.
Hoe Vergelijken LLM Calorie Schattingen met Nutrola's Geverifieerde Database?
Het fundamentele verschil tussen een LLM en een voedingsapp is de gegevensbron. LLM's genereren schattingen op basis van trainingsdata. Nutrola zoekt waarden op uit een door voedingsdeskundigen geverifieerde database.
| Vergelijkingsfactor | LLM's (ChatGPT, Gemini, Claude) | Nutrola Geverifieerde Database |
|---|---|---|
| Gegevensbron | Trainingsdata (webtekst, boeken) | Door voedingsdeskundigen geverifieerde voedingsdatabase |
| Nauwkeurigheid (gemiddelde fout) | ±16–22% | ±2–5% |
| Consistentie | Varieert tussen sessies (±15–28%) | Identieke resultaten bij elke query |
| Merkspecifieke data | Soms beschikbaar, kan verouderd zijn | Actueel, door fabrikanten geverifieerd |
| Portie handling | Standaardiseert naar "gemiddeld" tenzij gespecificeerd | Aanpasbare porties met precisie op gram-niveau |
| Aanpassing kookmethode | Inconsistent | Gescheiden vermeldingen voor rauw, gekookt, gebakken, etc. |
| Barcode/UPC ondersteuning | Niet van toepassing | Directe opzoeking voor verpakte voedingsmiddelen |
| Macro-onderverdeling | Vaak verstrekt, maar met dezelfde foutmarges | Geverifieerde gegevens voor eiwitten, vetten, koolhydraten, micronutriënten |
| Dagelijkse tracking | Geen geheugen tussen sessies* | Voortdurend voedingsdagboek met totalen |
*ChatGPT en Gemini bieden geheugenfuncties, maar deze zijn ontworpen voor algemene voorkeuren, niet voor gestructureerde voedingsregistratie.
Een vergelijkende studie uit 2025 gepubliceerd in het British Journal of Nutrition testte AI-chatbots tegen drie commerciële voedingsapps voor de nauwkeurigheid van 7-daagse dieetregistratie. De trackingapps behaalden een gemiddelde dagelijkse calorie fout van 5–8%, terwijl de AI-chatbots gemiddeld 18–25% dagelijkse fout hadden. De studie concludeerde dat "algemene AI-chatbots geen geschikte vervangers zijn voor speciaal ontwikkelde hulpmiddelen voor dieetbeoordeling."
Wanneer Zijn LLM's Nuttig voor Calorie-informatie?
LLM's zijn niet helemaal nutteloos voor voedingsinformatie. Ze dienen specifieke gebruiksgevallen goed.
Algemene voedingseducatie. Vragen zoals "Welke macronutriënt is het belangrijkst voor spieropbouw?" of "Hoe werkt een calorie tekort?" leveren betrouwbare antwoorden op omdat deze informatie goed gedefinieerd en consistent is over bronnen.
Ruwe schattingen van orde van grootte. Als je wilt weten of een maaltijd ruwweg 300 of 800 calorieën is — een bereik van 2x — zijn LLM's meestal correct. Ze zijn minder nuttig als je wilt weten of een maaltijd 450 of 550 calorieën is.
Ideeën voor maaltijdplanning. Een LLM vragen om "vijf eiwitrijke ontbijten onder de 400 calorieën voor te stellen" levert nuttige startpunten op, hoewel de calorie schattingen voor elke suggestie moeten worden geverifieerd tegen een database.
Vergelijken van voedselcategorieën. LLM's kunnen betrouwbaar vertellen dat noten calorierijker zijn dan fruit, of dat gegrilde kip minder calorieën heeft dan gefrituurde kip. Relatieve vergelijkingen zijn nauwkeuriger dan absolute getallen.
Wanneer Moet Je LLM's Niet Gebruiken voor Calorie Tracking?
Op basis van de nauwkeurigheid en consistentiegegevens moeten LLM's niet worden gebruikt als primaire calorie trackingtools in verschillende scenario's.
Actieve fases van gewichtsverlies of -toename. Wanneer je dagelijkse calorie doel een marge van ±200 calorieën heeft, kan de ±18% fout van een LLM je dagelijks 300–500 calorieën van je doel afbrengen. Over een week kan dit een geplande tekort volledig tenietdoen.
Tracking van complexe of gemengde gerechten. De foutenmarge voor complexe maaltijden (±22–30%) is te hoog voor zinvolle tracking. Een schatting van 700 calorieën voor het diner die eigenlijk 900 calorieën is, is een dagelijkse fout van 200 calorieën van één maaltijd.
Consistente dagelijkse tracking. De inconsistentie tussen sessies betekent dat dezelfde maaltijd op verschillende dagen verschillende caloriewaarden oplevert, wat ruis in je trackingdata creëert die het onmogelijk maakt om trends te identificeren.
Medische of klinische voedingsbeheer. Voor individuen die diabetes, nierziekten of andere aandoeningen beheren die nauwkeurige voedingscontrole vereisen, voldoen de calorie schattingen van LLM's niet aan de nauwkeurigheidseisen die nodig zijn voor veilige dieetbeheer.
Belangrijkste Conclusies: LLM vs. Geverifieerde Database Calorie Nauwkeurigheid
| Bevinding | Data |
|---|---|
| Gemiddelde calorie fout ChatGPT | ±18% over voedseltypes |
| Gemiddelde calorie fout Gemini | ±22% over voedseltypes |
| Gemiddelde calorie fout Claude | ±16% over voedseltypes |
| Gemiddelde fout geverifieerde database | ±2–5% |
| Consistentie LLM (sessie variatie) | ±15–28% van de gemiddelde waarde |
| Consistentie database | 0% variatie (deterministische opzoeking) |
| Meest nauwkeurige LLM voedseltype | Enkele ingrediënten, veelvoorkomende fruit (±5–10%) |
| Minst nauwkeurige LLM voedseltype | Complexe gemengde gerechten (±22–30%) |
| LLM schattingen binnen ±10% van geverifieerd | 35–48% van de items |
| Database vermeldingen binnen ±5% van geverifieerd | 95%+ van de items |
LLM's zijn indrukwekkende algemene tools die vloeiend over voedingsconcepten kunnen discussiëren. Ze zijn geen voedingsdatabases. Het verschil is belangrijk omdat calorie tracking een kwantitatieve taak is — je hebt specifieke, consistente, geverifieerde cijfers nodig, geen plausibel klinkende schattingen die elke keer veranderen als je vraagt. Voor voedingseducatie en ruwe begeleiding werken LLM's goed. Voor dagelijkse calorie tracking die echte resultaten oplevert, is een speciaal ontwikkeld hulpmiddel met een geverifieerde database de juiste keuze.
Veelgestelde Vragen
Hoe nauwkeurig is ChatGPT voor het tellen van calorieën?
ChatGPT (GPT-4o) heeft een gemiddelde absolute calorie fout van ongeveer 18% over voedseltypes. Het biedt schattingen binnen 10% van geverifieerde waarden voor slechts 42% van de geteste voedingsmiddelen. De nauwkeurigheid is het beste voor eenvoudige enkele ingrediënten zoals rauwe kipfilet (8% fout) en het slechtste voor complexe gemengde gerechten zoals kip tikka masala (25% fout).
Kan ik ChatGPT gebruiken in plaats van een calorie tracking app?
ChatGPT is geen betrouwbare vervanger voor een speciaal ontwikkelde calorie tracker. Een studie uit 2025 in het British Journal of Nutrition vond dat AI-chatbots gemiddeld 18-25% dagelijkse calorie fout hadden, vergeleken met 5-8% voor gespecialiseerde trackingapps. ChatGPT geeft ook inconsistente antwoorden tussen sessies, waarbij dezelfde voedselvraag calorie schattingen oplevert die variëren met 15-28%.
Waarom geeft ChatGPT elke keer verschillende calorieaantallen als ik vraag?
LLM's genereren antwoorden probabilistisch in plaats van waarden op te zoeken in een vaste database. Dezelfde prompt kan verschillende outputs opleveren, afhankelijk van samplingparameters en de status van het model. In tests varieerden de schattingen van ChatGPT voor hetzelfde voedsel gemiddeld met 22% over vijf aparte sessies, waardoor consistente dagelijkse tracking onbetrouwbaar is.
Waar is ChatGPT het meest nauwkeurig in als het gaat om voeding?
ChatGPT presteert het beste op enkele rauwe ingrediënten (8% fout) en veelvoorkomende fruit en groenten (6% fout), waar caloriewaarden goed gedefinieerd en gestandaardiseerd zijn. Het is ook nuttig voor algemene voedingseducatie, ruwe schattingen van orde van grootte en relatieve voedselvergelijkingen in plaats van precieze calorie tellingen.
Hoe verhoudt een geverifieerde voedingsdatabase zich tot ChatGPT voor calorieën?
Een geverifieerde voedingsdatabase zoals die in gespecialiseerde trackingapps levert resultaten binnen 2-5% van de werkelijke waarden met nul variatie tussen queries. ChatGPT heeft gemiddeld 18% fout met 15-28% inconsistentie tussen sessies. De database biedt exacte merkspecifieke gegevens, aanpasbare porties en consistente resultaten elke keer.
Klaar om je voedingstracking te transformeren?
Sluit je aan bij duizenden die hun gezondheidsreis hebben getransformeerd met Nutrola!