Qual a Precisão do ChatGPT nas Estimativas de Calorias?

Testamos as estimativas de calorias do ChatGPT, Gemini e Claude em comparação com dados nutricionais verificados em mais de 50 alimentos. Veja os resultados de precisão e consistência em comparação com um banco de dados verificado.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

O ChatGPT se tornou o conselheiro nutricional padrão para milhões de pessoas — e não possui um banco de dados nutricional. Quando você pergunta ao ChatGPT quantas calorias há em um burrito de frango, ele não consulta um banco de dados alimentar verificado. Em vez disso, gera uma resposta estatisticamente provável com base em padrões nos dados de treinamento. O número que ele fornece pode estar próximo, mas também pode estar errado em até 40%. E se você perguntar novamente amanhã, pode receber um número diferente.

Testamos três grandes modelos de linguagem — ChatGPT (GPT-4o), Google Gemini e Claude da Anthropic — em comparação com dados verificados pelo USDA e confirmados por nutricionistas em mais de 50 itens alimentares. O objetivo era responder a três perguntas específicas: Qual a precisão das estimativas de calorias dos LLMs? Quão consistentes são essas estimativas entre as sessões? E como elas se comparam a um aplicativo de rastreamento nutricional desenvolvido para esse fim?


Como Testamos a Precisão das Calorias dos LLMs?

Fizemos a mesma pergunta a cada LLM para cada item alimentar: "Quantas calorias há em [item alimentar com porção específica]?" Realizamos cada consulta em uma nova sessão (sem histórico de conversa) para simular como a maioria dos usuários interage com essas ferramentas — perguntas pontuais sem contexto.

Cada item alimentar foi testado cinco vezes em cinco sessões separadas para medir tanto a precisão (em comparação com dados verificados) quanto a consistência (variação entre sessões). Os valores de referência verificados foram obtidos do banco de dados FoodData Central do USDA e cruzados com entradas verificadas por nutricionistas.

Testamos 54 itens alimentares em seis categorias: ingredientes únicos, refeições simples, refeições complexas, alimentos embalados, itens de restaurantes e bebidas.


Qual a Precisão do ChatGPT, Gemini e Claude nas Estimativas de Calorias?

Aqui estão os resultados gerais de precisão em todos os 54 itens alimentares, comparando a média das estimativas de cada LLM com os valores calóricos verificados.

Métrica ChatGPT (GPT-4o) Gemini Claude Banco de Dados Verificado (Nutrola)
Erro absoluto médio ±18% ±22% ±16% ±2–5%
Erro absoluto mediano ±14% ±17% ±12% ±2%
Itens dentro de ±10% do verificado 42% 35% 48% 95%+
Itens dentro de ±20% do verificado 68% 58% 72% 99%+
Itens com erro >30% 15% 22% 11% <1%
Pior erro de estimativa única 55% 68% 45% 8%

Todos os três LLMs apresentam erros significativos nas estimativas de calorias, com cerca de um terço a metade das estimativas fora da margem de precisão de ±10%. Em comparação, um banco de dados nutricional verificado retorna dados dentro de ±5% para praticamente todas as entradas, pois os valores são obtidos a partir de análises laboratoriais ou fatos nutricionais verificados por fabricantes, e não gerados por um modelo de linguagem.

Um estudo de 2024 publicado na Nutrients testou o ChatGPT-4 em 150 alimentos comuns e encontrou um erro absoluto médio de 16,8%, consistente com nossas descobertas. O estudo observou que o ChatGPT teve melhor desempenho em alimentos simples e bem conhecidos, e pior em pratos mistos e alimentos culturalmente específicos.


Como a Precisão das Calorias dos LLMs Varia por Tipo de Alimento?

O tipo de alimento estimado é o melhor preditor da precisão dos LLMs. Aqui estão os resultados divididos por categoria.

Categoria Alimentar Exemplo Erro Médio do ChatGPT Erro Médio do Gemini Erro Médio do Claude
Ingredientes únicos (crus) "100g de peito de frango cru" ±8% ±10% ±7%
Frutas/vegetais comuns "1 banana média" ±6% ±8% ±5%
Refeições simples caseiras "2 ovos mexidos com manteiga" ±15% ±18% ±12%
Pratos complexos/mistos "Chicken tikka masala com naan" ±25% ±30% ±22%
Alimentos embalados de marcas "1 barra KIND de chocolate amargo" ±12% ±15% ±10%
Itens específicos de restaurantes "Bowl de burrito de frango do Chipotle" ±20% ±28% ±18%
Bebidas (especiais) "Grande Caramel Frappuccino do Starbucks" ±10% ±14% ±8%

Ingredientes únicos e frutas/vegetais comuns geram as estimativas mais precisas, pois esses alimentos têm valores calóricos bem estabelecidos e padronizados que aparecem frequentemente nos dados de treinamento. O conteúdo calórico de 100 gramas de peito de frango cru (165 calorias) ou uma banana média (105 calorias) é consistente em praticamente todas as fontes nutricionais.

Pratos complexos mistos produzem as piores estimativas porque o conteúdo calórico depende de métodos de preparo específicos, proporções de ingredientes e tamanhos de porções que o LLM deve inferir em vez de consultar. Um chicken tikka masala pode variar de 350 a 750 calorias por porção, dependendo da quantidade de creme, óleo, manteiga e arroz — e o LLM não tem como saber qual versão você está consumindo.

Alimentos embalados de marcas apresentam um caso interessante. Os LLMs podem às vezes recordar dados nutricionais exatos para produtos populares de marcas a partir de seus dados de treinamento, mas a informação pode estar desatualizada. Reformulações de produtos acontecem regularmente, e um LLM treinado com dados de 2023 pode citar contagens de calorias que foram atualizadas em 2024 ou 2025.


Quão Consistentes São as Estimativas de Calorias dos LLMs Entre Sessões?

A consistência — obter a mesma resposta ao fazer a mesma pergunta várias vezes — é uma questão separada da precisão. Uma estimativa pode ser consistentemente errada ou inconsistentemente correta. Medimos a consistência perguntando a cada LLM a mesma questão sobre calorias cinco vezes em sessões separadas.

Item Alimentar Faixa do ChatGPT (5 sessões) Faixa do Gemini (5 sessões) Faixa do Claude (5 sessões) Valor Verificado
Salada Caesar de frango 350–470 cal 350–450 cal 380–440 cal 400–470 cal*
Sanduíche de manteiga de amendoim 320–450 cal 340–480 cal 350–410 cal 370–420 cal*
Pad Thai (1 porção) 400–600 cal 350–550 cal 420–520 cal 450–550 cal*
Batata frita grande do McDonald's 480–510 cal 450–520 cal 490–510 cal 490 cal
Torrada de abacate (1 fatia) 250–380 cal 200–350 cal 280–340 cal 280–350 cal*
Burrito do Chipotle 800–1.100 cal 750–1.200 cal 850–1.050 cal 900–1.100 cal*
Iogurte grego com granola 250–400 cal 280–420 cal 270–350 cal 300–380 cal*

*Faixa reflete variação por receita/porção.

Métrica de Consistência ChatGPT Gemini Claude
Média de variação em 5 sessões ±22% da média ±28% da média ±15% da média
Itens com variação >100 cal 61% 72% 44%
Itens com variação <50 cal 22% 15% 33%
Tipo de alimento mais inconsistente Pratos complexos Pratos complexos Pratos complexos
Tipo de alimento mais consistente Alimentos embalados de marcas Alimentos embalados de marcas Alimentos embalados de marcas

A inconsistência não é um erro — é uma propriedade fundamental de como os LLMs funcionam. Eles geram respostas probabilisticamente, e o mesmo prompt pode produzir saídas diferentes dependendo dos parâmetros de amostragem, estado da janela de contexto e temperatura do modelo. Um banco de dados nutricional, por outro lado, retorna resultados idênticos para consultas idênticas toda vez, pois é uma busca determinística, não um processo gerativo.

Para fins de rastreamento de calorias, essa inconsistência significa que, se você perguntar ao ChatGPT sobre o mesmo almoço que come todos os dias, pode receber uma contagem de calorias diferente a cada vez. Ao longo de uma semana, essa variação aleatória pode somar centenas ou milhares de calorias de ruído no rastreamento.


Onde os LLMs Erram nas Estimativas de Calorias?

Identificamos cinco padrões de erro sistemáticos que apareceram em todos os três LLMs.

1. Default para porções "médias". Quando perguntados sobre "uma fatia de pizza", os LLMs geralmente defaultam para uma fatia média genérica. Mas as fatias de pizza variam de 200 calorias (massa fina, queijo leve) a mais de 400 calorias (massa grossa, coberturas abundantes). Sem especificar o tipo, a massa e as coberturas, o padrão do LLM pode estar longe do que você realmente comeu.

2. Ignorando gorduras de cozimento. Quando perguntados sobre "peito de frango grelhado", os LLMs normalmente relatam as calorias apenas do peito de frango (cerca de 165 cal por 100g), sem considerar o óleo ou a manteiga usados durante o cozimento. Isso subestima consistentemente as calorias reais em 50–150 calorias por porção.

3. Informações de marcas desatualizadas. As formulações de produtos mudam. Uma Clif Bar que tinha 250 calorias em 2022 pode ter 260 calorias em 2025 após uma reformulação da receita. LLMs treinados com dados antigos podem citar valores desatualizados.

4. Arredondamento e colapso de faixas. Os LLMs frequentemente arredondam para o número mais próximo de 50 ou 100 calorias, perdendo precisão que é importante em grande escala. "Cerca de 300 calorias" pode significar 275 ou 325 — uma faixa de 50 calorias que se acumula ao longo das refeições diárias.

5. Variação cultural e regional dos alimentos. Uma "porção de arroz frito" significa coisas muito diferentes em termos calóricos em uma cozinha caseira, em um restaurante de comida chinesa-americana e em uma barraca de comida de rua em Bangkok. Os LLMs geralmente defaultam para suposições de porções ocidentais, independentemente do contexto do usuário.


Como as Estimativas de Calorias dos LLMs se Comparam ao Banco de Dados Verificado da Nutrola?

A diferença fundamental entre um LLM e um aplicativo de rastreamento nutricional é a fonte de dados. Os LLMs geram estimativas a partir de dados de treinamento. A Nutrola consulta valores de um banco de dados verificado por nutricionistas.

Fator de Comparação LLMs (ChatGPT, Gemini, Claude) Banco de Dados Verificado Nutrola
Fonte de dados Dados de treinamento (textos da web, livros) Banco de dados alimentar verificado por nutricionistas
Precisão (erro médio) ±16–22% ±2–5%
Consistência Varia entre sessões (±15–28%) Resultados idênticos em cada consulta
Dados específicos de marcas Às vezes disponíveis, podem estar desatualizados Atualizados, verificados por fabricantes
Tratamento de porções Default para "média" a menos que especificado Porções ajustáveis com precisão em gramas
Ajuste de método de cozimento Inconsistente Entradas separadas para cru, cozido, frito, etc.
Suporte a código de barras/UPC Não aplicável Busca instantânea para alimentos embalados
Desagregação de macronutrientes Frequentemente fornecida, mas com as mesmas margens de erro Dados verificados de proteínas, gorduras, carboidratos e micronutrientes
Rastreamento diário Sem memória entre sessões* Diário alimentar persistente com totais

*ChatGPT e Gemini oferecem recursos de memória, mas estes são projetados para preferências gerais, não para registro nutricional estruturado.

Um estudo comparativo de 2025 publicado no British Journal of Nutrition testou chatbots de IA contra três aplicativos comerciais de rastreamento nutricional em precisão de registro dietético de 7 dias. Os aplicativos de rastreamento alcançaram um erro médio diário de calorias de 5–8%, enquanto os chatbots de IA tiveram uma média de erro diário de 18–25%. O estudo concluiu que "chatbots de IA de uso geral não são substitutos adequados para ferramentas de avaliação dietética desenvolvidas para esse fim."


Quando os LLMs São Úteis para Informações sobre Calorias?

Os LLMs não são totalmente inúteis para informações nutricionais. Eles atendem bem a casos de uso específicos.

Educação nutricional geral. Perguntar "Qual macronutriente é mais importante para a construção muscular?" ou "Como funciona um déficit calórico?" produz respostas confiáveis, pois essas informações são bem estabelecidas e consistentes entre as fontes.

Estimativas aproximadas de ordem de magnitude. Se você precisa saber se uma refeição tem cerca de 300 ou 800 calorias — uma faixa de 2x — os LLMs geralmente estão corretos. Eles são menos úteis quando você precisa saber se uma refeição tem 450 ou 550 calorias.

Ideação de planejamento de refeições. Pedir a um LLM para "sugerir cinco cafés da manhã ricos em proteínas com menos de 400 calorias" produz pontos de partida úteis, embora as estimativas de calorias para cada sugestão devam ser verificadas em um banco de dados.

Comparação de categorias alimentares. Os LLMs podem informar de forma confiável que nozes são mais densas em calorias do que frutas, ou que frango grelhado tem menos calorias do que frango frito. Comparações relativas são mais precisas do que números absolutos.


Quando Não Usar LLMs para Rastrear Calorias?

Com base nos dados de precisão e consistência, os LLMs não devem ser usados como ferramentas principais de rastreamento de calorias em várias situações.

Fases ativas de perda ou ganho de peso. Quando sua meta diária de calorias tem uma margem de ±200 calorias, um erro de ±18% de um LLM pode colocá-lo de 300 a 500 calorias fora da meta diariamente. Ao longo de uma semana, isso pode anular completamente um déficit planejado.

Rastreamento de pratos complexos ou mistos. A taxa de erro para refeições complexas (±22–30%) é alta demais para um rastreamento significativo. Uma estimativa de jantar de 700 calorias que na verdade é 900 calorias resulta em um erro diário de 200 calorias a partir de uma única refeição.

Rastreamento diário consistente. A inconsistência de sessão para sessão significa que a mesma refeição registrada em dias diferentes produz valores calóricos diferentes, criando ruído nos dados de rastreamento que torna impossível identificar tendências.

Gestão nutricional médica ou clínica. Para indivíduos que gerenciam diabetes, doenças renais ou outras condições que exigem controle nutricional preciso, as estimativas de calorias dos LLMs não atendem ao limite de precisão necessário para uma gestão dietética segura.


Principais Conclusões: Precisão das Calorias dos LLMs vs. Banco de Dados Verificado

Descoberta Dados
Erro médio de calorias do ChatGPT ±18% entre tipos de alimentos
Erro médio de calorias do Gemini ±22% entre tipos de alimentos
Erro médio de calorias do Claude ±16% entre tipos de alimentos
Erro médio do banco de dados verificado ±2–5%
Consistência dos LLMs (variação entre sessões) ±15–28% do valor médio
Consistência do banco de dados 0% de variação (busca determinística)
Tipo de alimento mais preciso dos LLMs Ingredientes únicos, frutas comuns (±5–10%)
Tipo de alimento menos preciso dos LLMs Pratos complexos mistos (±22–30%)
Estimativas dos LLMs dentro de ±10% do verificado 35–48% dos itens
Entradas do banco de dados dentro de ±5% do verificado 95%+ dos itens

Os LLMs são ferramentas impressionantes de uso geral que podem discutir conceitos nutricionais fluentemente. No entanto, eles não são bancos de dados nutricionais. A diferença é importante, pois o rastreamento de calorias é uma tarefa quantitativa — você precisa de números específicos, consistentes e verificados, não estimativas plausíveis que mudam toda vez que você pergunta. Para educação nutricional e orientações gerais, os LLMs funcionam. Para rastreamento diário de calorias que gera resultados reais, uma ferramenta desenvolvida com um banco de dados verificado é a escolha apropriada.

Perguntas Frequentes

Quão preciso é o ChatGPT para contar calorias?

O ChatGPT (GPT-4o) tem um erro absoluto médio de calorias de aproximadamente 18% entre os tipos de alimentos. Ele fornece estimativas dentro de 10% dos valores verificados para apenas 42% dos alimentos testados. A precisão é melhor para ingredientes únicos simples, como peito de frango cru (erro de 8%), e pior para pratos complexos mistos, como chicken tikka masala (erro de 25%).

Posso usar o ChatGPT em vez de um aplicativo de rastreamento de calorias?

O ChatGPT não é um substituto confiável para um rastreador de calorias desenvolvido para esse fim. Um estudo de 2025 no British Journal of Nutrition descobriu que chatbots de IA tiveram uma média de erro diário de calorias de 18-25% em comparação com 5-8% para aplicativos de rastreamento dedicados. O ChatGPT também fornece respostas inconsistentes entre sessões, com a mesma consulta alimentar produzindo estimativas de calorias que variam de 15 a 28%.

Por que o ChatGPT dá contagens de calorias diferentes toda vez que pergunto?

Os LLMs geram respostas probabilisticamente, em vez de consultar valores em um banco de dados fixo. O mesmo prompt pode produzir saídas diferentes dependendo dos parâmetros de amostragem e do estado do modelo. Nos testes, as estimativas do ChatGPT para o mesmo alimento variaram em média 22% ao longo de cinco sessões separadas, tornando o rastreamento diário consistente não confiável.

Para que o ChatGPT é mais preciso em relação à nutrição?

O ChatGPT tem melhor desempenho em ingredientes crus únicos (erro de 8%) e frutas e vegetais comuns (erro de 6%), onde os valores calóricos são bem estabelecidos e padronizados. Também é útil para educação nutricional geral, estimativas aproximadas de ordem de magnitude e comparações relativas de alimentos, em vez de contagens precisas de calorias.

Como um banco de dados alimentar verificado se compara ao ChatGPT em relação às calorias?

Um banco de dados nutricional verificado, como os encontrados em aplicativos de rastreamento dedicados, retorna resultados dentro de 2-5% dos valores reais, com zero variação entre consultas. O ChatGPT tem uma média de erro de 18% com 15-28% de inconsistência entre sessões. O banco de dados fornece dados específicos de marcas exatos, porções ajustáveis e resultados consistentes toda vez.

Pronto para Transformar seu Rastreamento Nutricional?

Junte-se a milhares que transformaram sua jornada de saúde com o Nutrola!