Wie genau sind die Kalorienangaben von ChatGPT?

Wir haben die Kalorienangaben von ChatGPT, Gemini und Claude mit verifizierten Ernährungsdaten von über 50 Lebensmitteln getestet. Sehen Sie die Ergebnisse zur Genauigkeit und Konsistenz im Vergleich zu einer verifizierten Datenbank.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

ChatGPT hat sich für Millionen von Menschen als der Standardberater für Ernährung etabliert — und verfügt über keine Ernährungsdatenbank. Wenn Sie ChatGPT fragen, wie viele Kalorien in einem Hühnchen-Burrito sind, sucht es die Antwort nicht in einer verifizierten Lebensmitteldatenbank. Stattdessen generiert es eine statistisch wahrscheinliche Antwort basierend auf Mustern in seinen Trainingsdaten. Die Zahl, die Sie erhalten, könnte nah dran sein. Sie könnte um 40 % abweichen. Und wenn Sie morgen erneut fragen, könnte die Antwort anders ausfallen.

Wir haben drei große Sprachmodelle — ChatGPT (GPT-4o), Google Gemini und Anthropic's Claude — mit verifizierten USDA- und ernährungswissenschaftlich bestätigten Daten für mehr als 50 Lebensmittel getestet. Ziel war es, drei spezifische Fragen zu beantworten: Wie genau sind die Kalorienangaben der LLMs? Wie konsistent sind sie über verschiedene Sitzungen hinweg? Und wie schneiden sie im Vergleich zu einer speziell entwickelten Ernährungs-Tracking-App ab?


Wie haben wir die Kaloriengenauigkeit der LLMs getestet?

Wir haben jedem LLM die gleiche Frage für jedes Lebensmittel gestellt: "Wie viele Kalorien sind in [Lebensmittel mit spezifischer Portion]?" Jede Abfrage wurde in einer neuen Sitzung (ohne Gesprächsverlauf) durchgeführt, um zu simulieren, wie die meisten Nutzer mit diesen Tools interagieren — einmalige Fragen ohne Kontext.

Jedes Lebensmittel wurde fünfmal in fünf separaten Sitzungen getestet, um sowohl die Genauigkeit (im Vergleich zu verifizierten Daten) als auch die Konsistenz (Variationen zwischen den Sitzungen) zu messen. Die verifizierten Referenzwerte stammen aus der USDA FoodData Central-Datenbank und wurden mit von Ernährungswissenschaftlern bestätigten Einträgen abgeglichen.

Wir haben 54 Lebensmittel in sechs Kategorien getestet: Einzelzutaten, einfache Mahlzeiten, komplexe Gerichte, verpackte Lebensmittel, Restaurantartikel und Getränke.


Wie genau sind die Kalorienangaben von ChatGPT, Gemini und Claude?

Hier sind die Gesamtergebnisse zur Genauigkeit über alle 54 getesteten Lebensmittel, die den Durchschnitt der Schätzungen jedes LLM mit verifizierten Kalorienwerten vergleichen.

Metrik ChatGPT (GPT-4o) Gemini Claude Verifizierte Datenbank (Nutrola)
Mittlerer absoluter Fehler ±18% ±22% ±16% ±2–5%
Median absoluter Fehler ±14% ±17% ±12% ±2%
Artikel innerhalb von ±10% der Verifizierung 42% 35% 48% 95%+
Artikel innerhalb von ±20% der Verifizierung 68% 58% 72% 99%+
Artikel mit >30% Abweichung 15% 22% 11% <1%
Größter einzelner Schätzfehler 55% 68% 45% 8%

Alle drei LLMs zeigen signifikante Fehler bei der Kalorienabschätzung, wobei etwa ein Drittel bis die Hälfte der Schätzungen außerhalb eines ±10%-Genauigkeitsbereichs liegen. Im Vergleich dazu liefert eine verifizierte Ernährungsdatenbank für nahezu jeden Eintrag Daten innerhalb von ±5%, da die Werte aus Laboranalysen oder vom Hersteller verifizierten Nährwertangaben stammen und nicht von einem Sprachmodell generiert werden.

Eine Studie aus dem Jahr 2024, veröffentlicht in Nutrients, testete ChatGPT-4 mit 150 gängigen Lebensmitteln und fand einen mittleren absoluten Fehler von 16,8 %, was mit unseren Ergebnissen übereinstimmt. Die Studie stellte fest, dass ChatGPT bei einfachen, gut bekannten Lebensmitteln am besten abschnitt und bei gemischten Gerichten sowie kulturell spezifischen Lebensmitteln am schlechtesten.


Wie variiert die Kaloriengenauigkeit der LLMs nach Lebensmitteltyp?

Die Art des Lebensmittels, das geschätzt wird, ist der stärkste Prädiktor für die Genauigkeit der LLMs. Hier sind die Ergebnisse nach Kategorie aufgeschlüsselt.

Lebensmittelkategorie Beispiel Durchschnittlicher Fehler ChatGPT Durchschnittlicher Fehler Gemini Durchschnittlicher Fehler Claude
Einzelzutaten (roh) "100g rohe Hähnchenbrust" ±8% ±10% ±7%
Häufige Früchte/Gemüse "1 mittelgroße Banane" ±6% ±8% ±5%
Einfache hausgemachte Mahlzeiten "2 Eier, Rührei mit Butter" ±15% ±18% ±12%
Komplexe/gemischte Gerichte "Chicken Tikka Masala mit Naan" ±25% ±30% ±22%
Markenverpackte Lebensmittel "1 KIND Dark Chocolate Nut Bar" ±12% ±15% ±10%
Restaurant-spezifische Artikel "Chipotle Chicken Burrito Bowl" ±20% ±28% ±18%
Getränke (Spezialität) "Grande Starbucks Caramel Frappuccino" ±10% ±14% ±8%

Einzelzutaten und häufige Früchte/Gemüse liefern die genauesten Schätzungen, da diese Lebensmittel gut etablierte, standardisierte Kalorienwerte haben, die häufig in den Trainingsdaten vorkommen. Der Kaloriengehalt von 100 Gramm roher Hähnchenbrust (165 Kalorien) oder einer mittelgroßen Banane (105 Kalorien) ist in nahezu allen Ernährungsquellen konsistent.

Komplexe gemischte Gerichte führen zu den schlechtesten Schätzungen, da der Kaloriengehalt von spezifischen Zubereitungsarten, Zutatenverhältnissen und Portionsgrößen abhängt, die das LLM ableiten muss, anstatt sie nachzuschlagen. Ein Chicken Tikka Masala kann je nach Menge an Sahne, Öl, Butter und Reis zwischen 350 und 750 Kalorien pro Portion variieren — und das LLM hat keine Möglichkeit zu wissen, welche Version Sie essen.

Markenverpackte Lebensmittel stellen einen interessanten Fall dar. LLMs können manchmal genaue Nährwertdaten für beliebte Markenprodukte aus ihren Trainingsdaten abrufen, aber die Informationen könnten veraltet sein. Produktreformulierungen passieren regelmäßig, und ein LLM, das mit Daten aus 2023 trainiert wurde, könnte Kalorienzahlen angeben, die 2024 oder 2025 aktualisiert wurden.


Wie konsistent sind die Kalorienangaben der LLMs über verschiedene Sitzungen hinweg?

Konsistenz — die gleiche Antwort zu erhalten, wenn Sie dieselbe Frage mehrmals stellen — ist ein separates Problem von der Genauigkeit. Eine Schätzung kann konstant falsch oder inkonsistent richtig sein. Wir haben die Konsistenz gemessen, indem wir jedem LLM die gleiche Kalorienfrage fünfmal in separaten Sitzungen gestellt haben.

Lebensmittel ChatGPT Bereich (5 Sitzungen) Gemini Bereich (5 Sitzungen) Claude Bereich (5 Sitzungen) Verifizierter Wert
Caesar-Salat mit Hähnchen 350–470 Kalorien 350–450 Kalorien 380–440 Kalorien 400–470 Kalorien*
Erdnussbutter-Sandwich 320–450 Kalorien 340–480 Kalorien 350–410 Kalorien 370–420 Kalorien*
Pad Thai (1 Portion) 400–600 Kalorien 350–550 Kalorien 420–520 Kalorien 450–550 Kalorien*
Große Pommes von McDonald's 480–510 Kalorien 450–520 Kalorien 490–510 Kalorien 490 Kalorien
Avocado-Toast (1 Scheibe) 250–380 Kalorien 200–350 Kalorien 280–340 Kalorien 280–350 Kalorien*
Chipotle Burrito 800–1.100 Kalorien 750–1.200 Kalorien 850–1.050 Kalorien 900–1.100 Kalorien*
Griechischer Joghurt mit Granola 250–400 Kalorien 280–420 Kalorien 270–350 Kalorien 300–380 Kalorien*

*Der Bereich spiegelt die Variation je nach Rezept/Portion wider. Die Einträge der verifizierten Datenbank sind spezifisch für genaue Zutaten und Portionen.

Konsistenzmetriken ChatGPT Gemini Claude
Durchschnittliche Streuung über 5 Sitzungen ±22% des Mittelwerts ±28% des Mittelwerts ±15% des Mittelwerts
Artikel mit >100 Kalorien Streuung 61% 72% 44%
Artikel mit <50 Kalorien Streuung 22% 15% 33%
Unbeständigste Lebensmittelkategorie Komplexe Gerichte Komplexe Gerichte Komplexe Gerichte
Beständigste Lebensmittelkategorie Markenverpackte Lebensmittel Markenverpackte Lebensmittel Markenverpackte Lebensmittel

Diese Inkonsistenz ist kein Fehler — sie ist eine grundlegende Eigenschaft, wie LLMs funktionieren. Sie generieren Antworten probabilistisch, und dasselbe Prompt kann je nach Sampling-Parametern, Kontextfensterzustand und Modelltemperatur unterschiedliche Ausgaben erzeugen. Eine Ernährungsdatenbank hingegen liefert bei identischen Abfragen jedes Mal identische Ergebnisse, da es sich um eine deterministische Abfrage handelt und nicht um einen generativen Prozess.

Für die Kalorienverfolgung bedeutet diese Inkonsistenz, dass, wenn Sie ChatGPT nach demselben Mittagessen fragen, das Sie jeden Tag essen, Sie jedes Mal eine andere Kalorienzahl erhalten könnten. Über eine Woche hinweg kann diese zufällige Abweichung zu Hunderten oder Tausenden von Kalorien Tracking-Rauschen führen.


Wo liegen die Fehler der LLMs bei den Kalorienangaben?

Wir haben fünf systematische Fehlermuster identifiziert, die bei allen drei LLMs auftraten.

1. Standardisierung auf "Durchschnitts"-Portionen. Wenn nach "einer Scheibe Pizza" gefragt wird, defaulten LLMs typischerweise auf eine generische mittelgroße Scheibe. Aber Pizzastücke variieren von 200 Kalorien (dünner Boden, wenig Käse) bis über 400 Kalorien (dicker Boden, reichhaltige Beläge). Ohne die Art, den Teig und die Beläge zu spezifizieren, kann die Standardannahme des LLMs weit von dem abweichen, was Sie tatsächlich gegessen haben.

2. Ignorieren von Kochfetten. Wenn nach "gegrillter Hähnchenbrust" gefragt wird, geben LLMs typischerweise nur die Kalorien für die Hähnchenbrust an (ca. 165 Kalorien pro 100 g), ohne das Öl oder die Butter, die beim Kochen verwendet wurden, zu berücksichtigen. Dies unterschätzt die tatsächlichen Kalorien konstant um 50–150 Kalorien pro Portion.

3. Veraltete Markeninformationen. Produktformulierungen ändern sich. Ein Clif Bar, der 2022 250 Kalorien hatte, könnte 2025 nach einer Rezepturänderung 260 Kalorien haben. LLMs, die mit älteren Daten trainiert wurden, könnten veraltete Werte angeben.

4. Runden und Bereichsverengung. LLMs runden häufig auf die nächsten 50 oder 100 Kalorien, wodurch die Präzision verloren geht, die im großen Maßstab wichtig ist. "Ungefähr 300 Kalorien" könnte 275 oder 325 bedeuten — ein 50-Kalorien-Bereich, der sich über tägliche Mahlzeiten summiert.

5. Kulturelle und regionale Lebensmittelvariationen. Eine "Portion gebratener Reis" bedeutet kalorienmäßig sehr unterschiedliche Dinge in einer heimischen Küche, einem chinesisch-amerikanischen Restaurant und einem Straßenimbiss in Bangkok. LLMs defaulten typischerweise auf westliche Portionsannahmen, unabhängig vom Kontext des Nutzers.


Wie vergleichen sich die Kalorienangaben der LLMs mit Nutrolas verifizierter Datenbank?

Der grundlegende Unterschied zwischen einem LLM und einer Ernährungs-Tracking-App ist die Datenquelle. LLMs generieren Schätzungen aus Trainingsdaten. Nutrola schlägt Werte aus einer von Ernährungswissenschaftlern verifizierten Datenbank nach.

Vergleichsfaktor LLMs (ChatGPT, Gemini, Claude) Nutrola Verifizierte Datenbank
Datenquelle Trainingsdaten (Webtexte, Bücher) Von Ernährungswissenschaftlern verifizierte Lebensmitteldatenbank
Genauigkeit (durchschnittlicher Fehler) ±16–22% ±2–5%
Konsistenz Variiert zwischen Sitzungen (±15–28%) Identische Ergebnisse bei jeder Abfrage
Markenspezifische Daten Manchmal verfügbar, kann veraltet sein Aktuell, vom Hersteller verifiziert
Portionshandhabung Default auf "Durchschnitt", es sei denn, es wird spezifiziert Anpassbare Portionen mit Gramm-genauer Präzision
Anpassung der Kochmethoden Inkonsistent Separate Einträge für roh, gekocht, gebraten usw.
Barcode/UPC-Unterstützung Nicht anwendbar Sofortige Abfrage für verpackte Lebensmittel
Makroaufteilung Oft bereitgestellt, aber mit denselben Fehlergrenzen Verifizierte Daten zu Protein, Fett, Kohlenhydraten, Mikronährstoffen
Tägliche Verfolgung Keine Erinnerung zwischen den Sitzungen* Persistentes Ernährungstagebuch mit Gesamtsummen

*ChatGPT und Gemini bieten Erinnerungsfunktionen, aber diese sind für allgemeine Präferenzen gedacht, nicht für strukturiertes Ernährungstracking.

Eine vergleichende Studie aus dem Jahr 2025, veröffentlicht im British Journal of Nutrition, testete KI-Chatbots gegen drei kommerzielle Ernährungs-Tracking-Apps hinsichtlich der Genauigkeit beim 7-tägigen Diät-Logging. Die Tracking-Apps erzielten einen durchschnittlichen täglichen Kalorienfehler von 5–8 %, während die KI-Chatbots einen durchschnittlichen Fehler von 18–25 % aufwiesen. Die Studie kam zu dem Schluss, dass "Allzweck-KI-Chatbots keine geeigneten Ersatzlösungen für speziell entwickelte Werkzeuge zur diätetischen Bewertung sind."


Wann sind LLMs nützlich für Kalorieninformationen?

LLMs sind nicht völlig nutzlos für Ernährungsinformationen. Sie erfüllen bestimmte Anwendungsfälle gut.

Allgemeine Ernährungsbildung. Fragen wie "Welches Makronährstoff ist am wichtigsten für den Muskelaufbau?" oder "Wie funktioniert ein Kaloriendefizit?" liefern zuverlässige Antworten, da diese Informationen gut etabliert und konsistent sind.

Grobe Schätzungen. Wenn Sie wissen möchten, ob eine Mahlzeit ungefähr 300 oder 800 Kalorien hat — ein 2-facher Bereich — liegen LLMs in der Regel richtig. Sie sind weniger nützlich, wenn Sie wissen müssen, ob eine Mahlzeit 450 oder 550 Kalorien hat.

Ideen für die Mahlzeitenplanung. Wenn Sie ein LLM bitten, "fünf proteinreiche Frühstücke unter 400 Kalorien vorzuschlagen", erhalten Sie nützliche Ausgangspunkte, obwohl die Kalorienangaben für jeden Vorschlag gegen eine Datenbank verifiziert werden sollten.

Vergleich von Lebensmittelkategorien. LLMs können zuverlässig sagen, dass Nüsse kalorienreicher sind als Früchte oder dass gegrilltes Hähnchen weniger Kalorien hat als gebratenes Hähnchen. Relative Vergleiche sind genauer als absolute Zahlen.


Wann sollten Sie LLMs nicht für die Kalorienverfolgung verwenden?

Basierend auf den Daten zur Genauigkeit und Konsistenz sollten LLMs in mehreren Szenarien nicht als primäre Kalorienverfolgungswerkzeuge verwendet werden.

Aktive Phasen der Gewichtsreduktion oder -zunahme. Wenn Ihr tägliches Kalorienziel eine ±200-Kalorien-Marge hat, kann der ±18%-Fehler eines LLM Sie täglich um 300–500 Kalorien vom Ziel abbringen. Über eine Woche kann dies ein geplantes Defizit vollständig negieren.

Verfolgung komplexer oder gemischter Gerichte. Die Fehlerquote für komplexe Mahlzeiten (±22–30%) ist zu hoch für eine sinnvolle Verfolgung. Eine Schätzung für ein 700-Kalorien-Abendessen, das tatsächlich 900 Kalorien hat, bedeutet einen täglichen Fehler von 200 Kalorien aus einer einzigen Mahlzeit.

Konsistente tägliche Verfolgung. Die Inkonsistenz zwischen den Sitzungen bedeutet, dass dasselbe Gericht an verschiedenen Tagen unterschiedliche Kalorienwerte liefert, was Rauschen in Ihren Tracking-Daten erzeugt, das es unmöglich macht, Trends zu identifizieren.

Medizinisches oder klinisches Ernährungsmanagement. Für Personen, die Diabetes, Nierenerkrankungen oder andere Erkrankungen verwalten, die eine präzise Kontrolle der Ernährung erfordern, erfüllen die Kalorienangaben von LLMs nicht die erforderliche Genauigkeit für eine sichere diätetische Verwaltung.


Wichtige Erkenntnisse: LLM vs. Verifizierte Datenbank Kalorien Genauigkeit

Erkenntnis Daten
Durchschnittlicher Kalorienfehler von ChatGPT ±18% über Lebensmitteltypen
Durchschnittlicher Kalorienfehler von Gemini ±22% über Lebensmitteltypen
Durchschnittlicher Kalorienfehler von Claude ±16% über Lebensmitteltypen
Durchschnittlicher Fehler der verifizierten Datenbank ±2–5%
Konsistenz der LLMs (Sitzungsvariationen) ±15–28% des Mittelwerts
Konsistenz der Datenbank 0% Variationen (deterministische Abfrage)
Genaueste LLM Lebensmittelkategorie Einzelzutaten, häufige Früchte (±5–10%)
Ungenaueste LLM Lebensmittelkategorie Komplexe gemischte Gerichte (±22–30%)
LLM Schätzungen innerhalb von ±10% der Verifizierung 35–48% der Artikel
Datenbankeinträge innerhalb von ±5% der Verifizierung 95%+ der Artikel

LLMs sind beeindruckende Allzweckwerkzeuge, die fließend über Ernährungskonzepte diskutieren können. Sie sind keine Ernährungsdatenbanken. Der Unterschied ist entscheidend, da die Kalorienverfolgung eine quantitative Aufgabe ist — Sie benötigen spezifische, konsistente, verifizierte Zahlen, keine plausibel klingenden Schätzungen, die sich jedes Mal ändern, wenn Sie fragen. Für Ernährungsbildung und grobe Orientierung sind LLMs nützlich. Für die tägliche Kalorienverfolgung, die zu echten Ergebnissen führt, ist ein speziell entwickeltes Tool mit einer verifizierten Datenbank die geeignete Wahl.

Häufig gestellte Fragen

Wie genau ist ChatGPT beim Zählen von Kalorien?

ChatGPT (GPT-4o) hat einen mittleren absoluten Kalorienfehler von etwa 18 % über Lebensmitteltypen. Es liefert Schätzungen innerhalb von 10 % der verifizierten Werte für nur 42 % der getesteten Lebensmittel. Die Genauigkeit ist am besten für einfache Einzelzutaten wie rohe Hähnchenbrust (8 % Fehler) und am schlechtesten für komplexe gemischte Gerichte wie Chicken Tikka Masala (25 % Fehler).

Kann ich ChatGPT anstelle einer Kalorien-Tracking-App verwenden?

ChatGPT ist kein zuverlässiger Ersatz für einen speziell entwickelten Kalorienzähler. Eine Studie aus dem Jahr 2025 im British Journal of Nutrition stellte fest, dass KI-Chatbots einen durchschnittlichen täglichen Kalorienfehler von 18-25 % aufwiesen, während dedizierte Tracking-Apps einen Fehler von 5-8 % erreichten. ChatGPT gibt auch inkonsistente Antworten über verschiedene Sitzungen hinweg, wobei dieselbe Lebensmittelabfrage Kalorienangaben liefert, die um 15-28 % variieren.

Warum gibt ChatGPT jedes Mal unterschiedliche Kalorienwerte an, wenn ich frage?

LLMs generieren Antworten probabilistisch, anstatt Werte in einer festen Datenbank nachzuschlagen. Dasselbe Prompt kann je nach Sampling-Parametern und Modellzustand unterschiedliche Ausgaben erzeugen. In Tests variierten die Schätzungen von ChatGPT für dasselbe Lebensmittel im Durchschnitt um 22 % über fünf separate Sitzungen, was eine konsistente tägliche Verfolgung unzuverlässig macht.

Bei welchen Ernährungsfragen ist ChatGPT am genauesten?

ChatGPT schneidet am besten bei einzelnen rohen Zutaten (8 % Fehler) und häufigen Früchten und Gemüse (6 % Fehler) ab, bei denen die Kalorienwerte gut etabliert und standardisiert sind. Es ist auch nützlich für allgemeine Ernährungsbildung, grobe Schätzungen und relative Lebensmittelvergleiche, jedoch nicht für präzise Kalorienangaben.

Wie vergleicht sich eine verifizierte Lebensmitteldatenbank mit ChatGPT hinsichtlich Kalorien?

Eine verifizierte Ernährungsdatenbank wie die in spezialisierten Tracking-Apps liefert Ergebnisse innerhalb von 2-5 % der tatsächlichen Werte mit null Variationen zwischen Abfragen. ChatGPT hat einen durchschnittlichen Fehler von 18 % mit 15-28 % Inkonsistenz zwischen Sitzungen. Die Datenbank bietet exakte markenspezifische Daten, anpassbare Portionen und konsistente Ergebnisse bei jeder Abfrage.

Bereit, Ihr Ernährungstracking zu transformieren?

Schließen Sie sich Tausenden an, die ihre Gesundheitsreise mit Nutrola transformiert haben!