Quanto è Accurato ChatGPT per le Stime Caloriche?
Abbiamo testato le stime caloriche di ChatGPT, Gemini e Claude confrontandole con dati nutrizionali verificati su oltre 50 alimenti. Scopri i risultati di accuratezza e coerenza rispetto a un database verificato.
ChatGPT è diventato il consulente nutrizionale di riferimento per milioni di persone, ma non dispone di un database nutrizionale. Quando chiedi a ChatGPT quanti calorie ci sono in un burrito di pollo, non consulta un database alimentare verificato. Genera una risposta statisticamente probabile basata sui modelli presenti nei suoi dati di addestramento. Il numero che ti fornisce potrebbe essere vicino alla realtà, ma potrebbe anche discostarsi del 40%. E se chiedi di nuovo domani, potresti ricevere un numero diverso.
Abbiamo testato tre importanti modelli di linguaggio — ChatGPT (GPT-4o), Google Gemini e Claude di Anthropic — confrontandoli con dati verificati dall'USDA e confermati da nutrizionisti su oltre 50 alimenti. L'obiettivo era rispondere a tre domande specifiche: quanto sono accurate le stime caloriche dei LLM? Quanto sono coerenti tra le sessioni? E come si confrontano con un'app di tracciamento nutrizionale progettata appositamente?
Come Abbiamo Testato l'Accuratezza Calorica dei LLM?
Abbiamo posto a ciascun LLM la stessa domanda per ogni alimento: "Quante calorie ci sono in [alimento con porzione specifica]?" Abbiamo eseguito ogni query in una sessione nuova (senza cronologia di conversazione) per simulare come la maggior parte degli utenti interagisce con questi strumenti — domande singole senza contesto.
Ogni alimento è stato testato cinque volte in cinque sessioni separate per misurare sia l'accuratezza (rispetto ai dati verificati) sia la coerenza (variazione tra le sessioni). I valori di riferimento verificati provenivano dal database USDA FoodData Central e sono stati incrociati con voci verificate da nutrizionisti.
Abbiamo testato 54 alimenti suddivisi in sei categorie: ingredienti singoli, pasti semplici, pasti complessi, alimenti confezionati, piatti da ristorante e bevande.
Quanto Sono Accurate le Stime Caloriche di ChatGPT, Gemini e Claude?
Ecco i risultati complessivi di accuratezza su tutti i 54 alimenti, confrontando la stima media di ciascun LLM con i valori calorici verificati.
| Metri | ChatGPT (GPT-4o) | Gemini | Claude | Database Verificato (Nutrola) |
|---|---|---|---|---|
| Errore assoluto medio | ±18% | ±22% | ±16% | ±2–5% |
| Errore assoluto mediano | ±14% | ±17% | ±12% | ±2% |
| Voci entro ±10% rispetto al verificato | 42% | 35% | 48% | 95%+ |
| Voci entro ±20% rispetto al verificato | 68% | 58% | 72% | 99%+ |
| Voci con errore >30% | 15% | 22% | 11% | <1% |
| Peggior errore di stima singola | 55% | 68% | 45% | 8% |
Tutti e tre i LLM mostrano errori significativi nelle stime caloriche, con circa un terzo a metà delle stime che rientrano al di fuori di una finestra di accuratezza di ±10%. In confronto, un database nutrizionale verificato restituisce dati entro ±5% per praticamente ogni voce, poiché i valori sono ottenuti da analisi di laboratorio o fatti nutrizionali verificati dai produttori, piuttosto che generati da un modello linguistico.
Uno studio del 2024 pubblicato su Nutrients ha testato ChatGPT-4 su 150 alimenti comuni e ha riscontrato un errore assoluto medio del 16,8%, coerente con i nostri risultati. Lo studio ha notato che ChatGPT ha ottenuto i risultati migliori su alimenti semplici e ben noti, mentre ha faticato di più con piatti misti e alimenti culturalmente specifici.
Come Varia l'Accuratezza Calorica dei LLM in Base al Tipo di Alimento?
Il tipo di alimento stimato è il miglior predittore dell'accuratezza dei LLM. Ecco i risultati suddivisi per categoria.
| Categoria Alimentare | Esempio | Errore Medio ChatGPT | Errore Medio Gemini | Errore Medio Claude |
|---|---|---|---|---|
| Ingredienti singoli (crudi) | "100g di petto di pollo crudo" | ±8% | ±10% | ±7% |
| Frutta/verdura comuni | "1 banana media" | ±6% | ±8% | ±5% |
| Pasti semplici cucinati in casa | "2 uova strapazzate con burro" | ±15% | ±18% | ±12% |
| Piatti complessi/misti | "Chicken tikka masala con naan" | ±25% | ±30% | ±22% |
| Alimenti confezionati di marca | "1 barretta KIND Dark Chocolate Nut" | ±12% | ±15% | ±10% |
| Piatti specifici da ristorante | "Chipotle chicken burrito bowl" | ±20% | ±28% | ±18% |
| Bevande (specialità) | "Grande Starbucks Caramel Frappuccino" | ±10% | ±14% | ±8% |
Ingredienti singoli e frutta/verdura comuni producono le stime più accurate, poiché questi alimenti hanno valori calorici ben stabiliti e standardizzati che compaiono frequentemente nei dati di addestramento. Il contenuto calorico di 100 grammi di petto di pollo crudo (165 calorie) o di una banana media (105 calorie) è coerente in praticamente tutte le fonti nutrizionali.
I piatti complessi misti producono le stime peggiori, poiché il contenuto calorico dipende da metodi di preparazione specifici, proporzioni di ingredienti e dimensioni delle porzioni che il LLM deve dedurre piuttosto che cercare. Un chicken tikka masala può variare da 350 a 750 calorie per porzione a seconda della quantità di panna, olio, burro e riso — e il LLM non ha modo di sapere quale versione stai mangiando.
Gli alimenti confezionati di marca presentano un caso interessante. I LLM possono talvolta richiamare dati nutrizionali esatti per prodotti di marca popolari dai loro dati di addestramento, ma l'informazione potrebbe essere obsoleta. Le riformulazioni dei prodotti avvengono regolarmente, e un LLM addestrato su dati del 2023 potrebbe citare conteggi calorici aggiornati nel 2024 o 2025.
Quanto Sono Coerenti le Stime Caloriche dei LLM tra le Sessioni?
La coerenza — ottenere la stessa risposta quando si pone la stessa domanda più volte — è un problema separato dall'accuratezza. Una stima può essere costantemente errata o incoerentemente corretta. Abbiamo misurato la coerenza ponendo a ciascun LLM la stessa domanda calorica cinque volte in sessioni separate.
| Alimento | Intervallo ChatGPT (5 sessioni) | Intervallo Gemini (5 sessioni) | Intervallo Claude (5 sessioni) | Valore Verificato |
|---|---|---|---|---|
| Insalata Caesar di pollo | 350–470 cal | 350–450 cal | 380–440 cal | 400–470 cal* |
| Panino al burro di arachidi | 320–450 cal | 340–480 cal | 350–410 cal | 370–420 cal* |
| Pad Thai (1 porzione) | 400–600 cal | 350–550 cal | 420–520 cal | 450–550 cal* |
| Patatine grandi McDonald's | 480–510 cal | 450–520 cal | 490–510 cal | 490 cal |
| Toast di avocado (1 fetta) | 250–380 cal | 200–350 cal | 280–340 cal | 280–350 cal* |
| Burrito Chipotle | 800–1,100 cal | 750–1,200 cal | 850–1,050 cal | 900–1,100 cal* |
| Yogurt greco con granola | 250–400 cal | 280–420 cal | 270–350 cal | 300–380 cal* |
*L'intervallo riflette la variazione in base alla ricetta/porzione. Le voci del database verificato sono specifiche per ingredienti e porzioni esatte.
| Metri di Coerenza | ChatGPT | Gemini | Claude |
|---|---|---|---|
| Media di dispersione su 5 sessioni | ±22% della media | ±28% della media | ±15% della media |
| Voci con dispersione >100 cal | 61% | 72% | 44% |
| Voci con dispersione <50 cal | 22% | 15% | 33% |
| Tipo di alimento più incoerente | Piatti complessi | Piatti complessi | Piatti complessi |
| Tipo di alimento più coerente | Alimenti confezionati di marca | Alimenti confezionati di marca | Alimenti confezionati di marca |
L'incoerenza non è un difetto — è una proprietà fondamentale di come funzionano i LLM. Generano risposte in modo probabilistico, e lo stesso prompt può produrre output diversi a seconda dei parametri di campionamento, dello stato della finestra di contesto e della temperatura del modello. Un database nutrizionale, al contrario, restituisce risultati identici per query identiche ogni volta, poiché è un lookup deterministico, non un processo generativo.
Per scopi di tracciamento calorico, questa incoerenza significa che se chiedi a ChatGPT riguardo allo stesso pranzo che mangi ogni giorno, potresti ricevere un conteggio calorico diverso ogni volta. Nel corso di una settimana, questa variazione casuale può accumularsi in centinaia o migliaia di calorie di rumore nel tracciamento.
Dove Sbagliano i LLM con i Dati Calorici?
Abbiamo identificato cinque schemi di errore sistematici che sono emersi in tutti e tre i LLM.
1. Default a porzioni "medie". Quando si chiede di "una fetta di pizza", i LLM tendono a fare riferimento a una fetta media generica. Ma le fette di pizza variano da 200 calorie (crosta sottile, poco formaggio) a oltre 400 calorie (crosta alta, condimenti abbondanti). Senza specificare il tipo, la crosta e i condimenti, il default del LLM potrebbe essere molto lontano da ciò che hai effettivamente mangiato.
2. Ignorare i grassi di cottura. Quando si chiede di "petto di pollo grigliato", i LLM riportano generalmente le calorie solo per il petto di pollo (circa 165 cal per 100g), senza considerare l'olio o il burro utilizzati durante la cottura. Questo sottostima costantemente le calorie reali di 50–150 calorie per porzione.
3. Informazioni sui marchi obsolete. Le formulazioni dei prodotti cambiano. Una Clif Bar che nel 2022 contava 250 calorie potrebbe arrivare a 260 calorie nel 2025 dopo una riformulazione della ricetta. I LLM addestrati su dati più vecchi potrebbero citare valori obsoleti.
4. Arrotondamento e riduzione dell'intervallo. I LLM tendono ad arrotondare frequentemente al valore più vicino di 50 o 100 calorie, perdendo precisione che conta su larga scala. "Circa 300 calorie" potrebbe significare 275 o 325 — un intervallo di 50 calorie che si accumula nei pasti quotidiani.
5. Variazione culturale e regionale degli alimenti. Una "porzione di riso fritto" può significare cose molto diverse in termini calorici in una cucina domestica, in un ristorante cinese-americano e in un chiosco di street food a Bangkok. I LLM tendono a fare riferimento a presupposti di porzione occidentali indipendentemente dal contesto dell'utente.
Come Si Confrontano le Stime Caloriche dei LLM con il Database Verificato di Nutrola?
La differenza fondamentale tra un LLM e un'app di tracciamento nutrizionale è la fonte dei dati. I LLM generano stime dai dati di addestramento. Nutrola cerca valori in un database verificato da nutrizionisti.
| Fattore di Confronto | LLM (ChatGPT, Gemini, Claude) | Database Verificato Nutrola |
|---|---|---|
| Fonte dei dati | Dati di addestramento (testi web, libri) | Database alimentare verificato da nutrizionisti |
| Accuratezza (errore medio) | ±16–22% | ±2–5% |
| Coerenza | Varia tra le sessioni (±15–28%) | Risultati identici per ogni query |
| Dati specifici sui marchi | A volte disponibili, potrebbero essere obsoleti | Attuali, verificati dai produttori |
| Gestione delle porzioni | Default a "media" a meno che non specificato | Porzioni regolabili con precisione a livello di grammo |
| Regolazione del metodo di cottura | Incoerente | Voci separate per crudo, cotto, fritto, ecc. |
| Supporto per codice a barre/UPC | Non applicabile | Ricerca istantanea per alimenti confezionati |
| Suddivisione dei macro | Spesso fornita ma con gli stessi margini di errore | Dati verificati su proteine, grassi, carboidrati, micronutrienti |
| Tracciamento quotidiano | Nessuna memoria tra le sessioni* | Diario alimentare persistente con totali |
*ChatGPT e Gemini offrono funzionalità di memoria, ma queste sono progettate per preferenze generali, non per il tracciamento nutrizionale strutturato.
Uno studio comparativo del 2025 pubblicato nel British Journal of Nutrition ha testato chatbot AI contro tre app commerciali di tracciamento nutrizionale per l'accuratezza del log dietetico di 7 giorni. Le app di tracciamento hanno raggiunto un errore calorico medio giornaliero del 5–8%, mentre i chatbot AI hanno registrato un errore medio giornaliero del 18–25%. Lo studio ha concluso che "i chatbot AI di uso generale non sono sostituti adeguati per strumenti di valutazione dietetica progettati appositamente."
Quando Sono Utili i LLM per le Informazioni Caloriche?
I LLM non sono del tutto inutili per le informazioni nutrizionali. Servono bene a casi d'uso specifici.
Educazione nutrizionale generale. Chiedere "Qual è il macronutriente più importante per la costruzione muscolare?" o "Come funziona un deficit calorico?" produce risposte affidabili perché queste informazioni sono ben consolidate e coerenti tra le fonti.
Stime approssimative. Se hai bisogno di sapere se un pasto è all'incirca 300 o 800 calorie — un intervallo di 2x — i LLM di solito hanno ragione. Sono meno utili quando hai bisogno di sapere se un pasto è 450 o 550 calorie.
Ideazione per la pianificazione dei pasti. Chiedere a un LLM di "suggerire cinque colazioni ad alto contenuto proteico sotto le 400 calorie" produce punti di partenza utili, anche se le stime caloriche per ciascun suggerimento dovrebbero essere verificate contro un database.
Confronto tra categorie alimentari. I LLM possono dirti in modo affidabile che le noci sono più dense di calorie rispetto alla frutta, o che il pollo grigliato ha meno calorie del pollo fritto. I confronti relativi sono più accurati dei numeri assoluti.
Quando Non Dovresti Usare i LLM per il Tracciamento Calorico?
Basandoci sui dati di accuratezza e coerenza, i LLM non dovrebbero essere utilizzati come strumenti principali di tracciamento calorico in diverse situazioni.
Fasi attive di perdita o guadagno di peso. Quando il tuo obiettivo calorico giornaliero ha un margine di ±200 calorie, un errore del ±18% di un LLM può farti sballare di 300–500 calorie al giorno. Nel corso di una settimana, questo può annullare completamente un deficit pianificato.
Tracciamento di piatti complessi o misti. Il tasso di errore per i pasti complessi (±22–30%) è troppo alto per un tracciamento significativo. Una stima di 700 calorie per una cena che in realtà è di 900 calorie rappresenta un errore di 200 calorie giornaliere da un singolo pasto.
Tracciamento quotidiano coerente. L'incoerenza da sessione a sessione significa che lo stesso pasto registrato in giorni diversi produce valori calorici diversi, creando rumore nei tuoi dati di tracciamento che rende impossibile identificare tendenze.
Gestione nutrizionale medica o clinica. Per le persone che gestiscono il diabete, malattie renali o altre condizioni che richiedono un controllo nutrizionale preciso, le stime caloriche dei LLM non soddisfano la soglia di accuratezza necessaria per una gestione dietetica sicura.
Punti Chiave: Accuratezza Calorica dei LLM vs. Database Verificato
| Risultato | Dati |
|---|---|
| Errore medio calorico di ChatGPT | ±18% tra i tipi di alimento |
| Errore medio calorico di Gemini | ±22% tra i tipi di alimento |
| Errore medio calorico di Claude | ±16% tra i tipi di alimento |
| Errore medio del database verificato | ±2–5% |
| Coerenza dei LLM (varianza tra sessioni) | ±15–28% del valore medio |
| Coerenza del database | 0% di varianza (lookup deterministico) |
| Tipo di alimento più accurato per i LLM | Ingredienti singoli, frutta comune (±5–10%) |
| Tipo di alimento meno accurato per i LLM | Piatti complessi misti (±22–30%) |
| Stime LLM entro ±10% rispetto al verificato | 35–48% degli alimenti |
| Voci del database entro ±5% rispetto al verificato | 95%+ degli alimenti |
I LLM sono strumenti impressionanti di uso generale che possono discutere concetti nutrizionali fluentemente. Non sono database nutrizionali. La differenza è importante perché il tracciamento calorico è un compito quantitativo — hai bisogno di numeri specifici, coerenti e verificati, non di stime plausibili che cambiano ogni volta che chiedi. Per l'educazione nutrizionale e per indicazioni approssimative, i LLM funzionano. Per il tracciamento calorico quotidiano che porta a risultati concreti, uno strumento progettato appositamente con un database verificato è la scelta appropriata.
Domande Frequenti
Quanto è accurato ChatGPT per contare le calorie?
ChatGPT (GPT-4o) ha un errore medio assoluto di circa il 18% tra i tipi di alimento. Fornisce stime entro il 10% dei valori verificati per solo il 42% degli alimenti testati. L'accuratezza è migliore per ingredienti singoli semplici come il petto di pollo crudo (errore dell'8%) e peggiore per piatti complessi misti come il chicken tikka masala (errore del 25%).
Posso usare ChatGPT invece di un'app di tracciamento calorico?
ChatGPT non è un sostituto affidabile per un tracker calorico progettato appositamente. Uno studio del 2025 nel British Journal of Nutrition ha scoperto che i chatbot AI hanno registrato un errore calorico medio giornaliero del 18-25% rispetto al 5-8% delle app di tracciamento dedicate. ChatGPT fornisce anche risposte incoerenti tra le sessioni, con la stessa query alimentare che produce stime caloriche che variano dal 15% al 28%.
Perché ChatGPT fornisce conteggi calorici diversi ogni volta che chiedo?
I LLM generano risposte in modo probabilistico piuttosto che cercare valori in un database fisso. Lo stesso prompt può produrre output diversi a seconda dei parametri di campionamento e dello stato del modello. Nei test, le stime di ChatGPT per lo stesso alimento variavano in media del 22% tra cinque sessioni separate, rendendo il tracciamento quotidiano coerente inaffidabile.
Per cosa è più accurato ChatGPT in ambito nutrizionale?
ChatGPT si comporta meglio con ingredienti singoli crudi (errore dell'8%) e frutta e verdura comuni (errore del 6%), dove i valori calorici sono ben stabiliti e standardizzati. È anche utile per l'educazione nutrizionale generale, stime approssimative e confronti relativi tra alimenti piuttosto che conteggi calorici precisi.
Come si confronta un database alimentare verificato con ChatGPT per le calorie?
Un database nutrizionale verificato, come quelli delle app di tracciamento dedicate, restituisce risultati entro il 2-5% dei valori reali con zero varianza tra le query. ChatGPT ha una media di errore del 18% con una coerenza tra sessioni del 15-28%. Il database fornisce dati specifici sui marchi, porzioni regolabili e risultati coerenti ogni volta.
Pronto a trasformare il tuo monitoraggio nutrizionale?
Unisciti a migliaia di persone che hanno trasformato il loro percorso verso la salute con Nutrola!