¿Qué tan preciso es ChatGPT para estimar calorías?

Probamos las estimaciones de calorías de ChatGPT, Gemini y Claude contra datos nutricionales verificados en más de 50 alimentos. Consulta los resultados de precisión y consistencia en comparación con una base de datos verificada.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

ChatGPT se ha convertido en el asesor nutricional por defecto para millones de personas, aunque no cuenta con una base de datos nutricional. Cuando preguntas a ChatGPT cuántas calorías hay en un burrito de pollo, no busca la respuesta en una base de datos de alimentos verificada. Genera una respuesta estadísticamente probable basada en patrones de sus datos de entrenamiento. El número que te proporciona puede estar cerca, pero también puede variar hasta un 40%. Y si preguntas de nuevo mañana, podrías obtener un número diferente.

Probamos tres modelos de lenguaje de gran tamaño: ChatGPT (GPT-4o), Google Gemini y Claude de Anthropic, contra datos verificados por el USDA y confirmados por nutricionistas en más de 50 alimentos. El objetivo era responder a tres preguntas específicas: ¿Qué tan precisas son las estimaciones de calorías de los LLM? ¿Qué tan consistentes son a través de diferentes sesiones? ¿Y cómo se comparan con una aplicación de seguimiento nutricional diseñada específicamente para ello?


¿Cómo probamos la precisión de las calorías de los LLM?

Hicimos la misma pregunta a cada LLM para cada alimento: "¿Cuántas calorías hay en [alimento con porción específica]?" Realizamos cada consulta en una sesión nueva (sin historial de conversación) para simular cómo la mayoría de los usuarios interactúan con estas herramientas: preguntas aisladas sin contexto.

Cada alimento fue probado cinco veces en cinco sesiones separadas para medir tanto la precisión (en comparación con datos verificados) como la consistencia (variación entre sesiones). Los valores de referencia verificados provienen de la base de datos FoodData Central del USDA y se cruzaron con entradas verificadas por nutricionistas.

Probamos 54 alimentos en seis categorías: ingredientes simples, comidas sencillas, comidas complejas, alimentos envasados, artículos de restaurantes y bebidas.


¿Qué tan precisos son ChatGPT, Gemini y Claude para estimar calorías?

Aquí están los resultados generales de precisión en los 54 alimentos, comparando la estimación promedio de cada LLM con los valores de calorías verificados.

Métrica ChatGPT (GPT-4o) Gemini Claude Base de datos verificada (Nutrola)
Error absoluto medio ±18% ±22% ±16% ±2–5%
Error absoluto mediano ±14% ±17% ±12% ±2%
Artículos dentro de ±10% de verificado 42% 35% 48% 95%+
Artículos dentro de ±20% de verificado 68% 58% 72% 99%+
Artículos con más del 30% de error 15% 22% 11% <1%
Mayor error en una sola estimación 55% 68% 45% 8%

Los tres LLM muestran errores significativos en las estimaciones de calorías, con aproximadamente un tercio a la mitad de las estimaciones fuera de un margen de precisión de ±10%. En comparación, una base de datos nutricional verificada devuelve datos dentro de ±5% para prácticamente cada entrada, ya que los valores provienen de análisis de laboratorio o hechos verificados por el fabricante, en lugar de ser generados por un modelo de lenguaje.

Un estudio de 2024 publicado en Nutrients probó a ChatGPT-4 en 150 alimentos comunes y encontró un error absoluto medio de 16.8%, consistente con nuestros hallazgos. El estudio señaló que ChatGPT tuvo un mejor desempeño en alimentos simples y bien conocidos, y un peor desempeño en platos mixtos y alimentos culturalmente específicos.


¿Cómo varía la precisión de las calorías de los LLM según el tipo de alimento?

El tipo de alimento que se estima es el mejor predictor de la precisión de los LLM. Aquí están los resultados desglosados por categoría.

Categoría de Alimento Ejemplo Error Promedio de ChatGPT Error Promedio de Gemini Error Promedio de Claude
Ingredientes simples (crudos) "100g de pechuga de pollo cruda" ±8% ±10% ±7%
Frutas/verduras comunes "1 plátano mediano" ±6% ±8% ±5%
Comidas sencillas cocinadas en casa "2 huevos revueltos con mantequilla" ±15% ±18% ±12%
Platos complejos/mixtos "Pollo tikka masala con naan" ±25% ±30% ±22%
Alimentos envasados de marca "1 barra KIND de chocolate oscuro" ±12% ±15% ±10%
Artículos específicos de restaurantes "Tazón de burrito de pollo de Chipotle" ±20% ±28% ±18%
Bebidas (especialidad) "Grande Starbucks Caramel Frappuccino" ±10% ±14% ±8%

Los ingredientes simples y las frutas/verduras comunes producen las estimaciones más precisas porque estos alimentos tienen valores calóricos bien establecidos y estandarizados que aparecen con frecuencia en los datos de entrenamiento. El contenido calórico de 100 gramos de pechuga de pollo cruda (165 calorías) o un plátano mediano (105 calorías) es consistente en prácticamente todas las fuentes nutricionales.

Los platos complejos mixtos producen las peores estimaciones porque el contenido calórico depende de métodos de preparación específicos, proporciones de ingredientes y tamaños de porciones que el LLM debe inferir en lugar de buscar. Un pollo tikka masala puede variar de 350 a 750 calorías por porción dependiendo de las cantidades de crema, aceite, mantequilla y arroz, y el LLM no tiene forma de saber qué versión estás comiendo.

Los alimentos envasados de marca presentan un caso interesante. A veces, los LLM pueden recordar datos nutricionales exactos de productos de marca populares de sus datos de entrenamiento, pero la información puede estar desactualizada. Las reformulaciones de productos ocurren regularmente, y un LLM entrenado con datos de 2023 puede citar conteos de calorías que fueron actualizados en 2024 o 2025.


¿Qué tan consistentes son las estimaciones de calorías de los LLM entre sesiones?

La consistencia — obtener la misma respuesta al hacer la misma pregunta varias veces — es un tema separado de la precisión. Una estimación puede ser consistentemente incorrecta o inconsistentemente correcta. Medimos la consistencia preguntando a cada LLM la misma pregunta sobre calorías cinco veces en sesiones separadas.

Alimento Rango de ChatGPT (5 sesiones) Rango de Gemini (5 sesiones) Rango de Claude (5 sesiones) Valor Verificado
Ensalada César de pollo 350–470 cal 350–450 cal 380–440 cal 400–470 cal*
Sándwich de mantequilla de maní 320–450 cal 340–480 cal 350–410 cal 370–420 cal*
Pad Thai (1 porción) 400–600 cal 350–550 cal 420–520 cal 450–550 cal*
Papas fritas grandes de McDonald's 480–510 cal 450–520 cal 490–510 cal 490 cal
Tostada de aguacate (1 rebanada) 250–380 cal 200–350 cal 280–340 cal 280–350 cal*
Burrito de Chipotle 800–1,100 cal 750–1,200 cal 850–1,050 cal 900–1,100 cal*
Yogur griego con granola 250–400 cal 280–420 cal 270–350 cal 300–380 cal*

*El rango refleja la variación por receta/porción. Las entradas de la base de datos verificada son específicas para ingredientes y porciones exactas.

Métrica de Consistencia ChatGPT Gemini Claude
Promedio de variación en 5 sesiones ±22% de la media ±28% de la media ±15% de la media
Artículos con variación >100 cal 61% 72% 44%
Artículos con variación <50 cal 22% 15% 33%
Tipo de alimento más inconsistente Platos complejos Platos complejos Platos complejos
Tipo de alimento más consistente Alimentos envasados de marca Alimentos envasados de marca Alimentos envasados de marca

La inconsistencia no es un error, sino una propiedad fundamental de cómo funcionan los LLM. Generan respuestas de manera probabilística, y el mismo aviso puede producir diferentes resultados dependiendo de los parámetros de muestreo, el estado de la ventana de contexto y la temperatura del modelo. Una base de datos nutricional, en cambio, devuelve resultados idénticos para consultas idénticas cada vez porque es una búsqueda determinista, no un proceso generativo.

Para fines de seguimiento de calorías, esta inconsistencia significa que si preguntas a ChatGPT sobre el mismo almuerzo que comes todos los días, podrías obtener un conteo de calorías diferente cada vez. A lo largo de una semana, esta variación aleatoria puede sumar cientos o miles de calorías de ruido en el seguimiento.


¿Dónde se equivocan los LLM en sus datos de calorías?

Identificamos cinco patrones de error sistemáticos que aparecieron en los tres LLM.

1. Predeterminación de porciones "promedio". Cuando se pregunta sobre "una rebanada de pizza", los LLM suelen predeterminar una rebanada mediana genérica. Pero las rebanadas de pizza varían de 200 calorías (masa delgada, poco queso) a más de 400 calorías (masa gruesa, muchos ingredientes). Sin especificar el tipo, la masa y los ingredientes, la predeterminación del LLM puede estar muy lejos de lo que realmente comiste.

2. Ignorar las grasas de cocción. Al preguntar sobre "pechuga de pollo a la parrilla", los LLM suelen informar las calorías solo de la pechuga de pollo (alrededor de 165 cal por 100g), sin tener en cuenta el aceite o la mantequilla utilizados durante la cocción. Esto subestima constantemente las calorías reales en 50-150 calorías por porción.

3. Información de marca desactualizada. Las formulaciones de productos cambian. Una Clif Bar que tenía 250 calorías en 2022 podría tener 260 calorías en 2025 después de una reformulación de receta. Los LLM entrenados con datos más antiguos pueden citar valores desactualizados.

4. Redondeo y colapso de rangos. Los LLM redondean frecuentemente al múltiplo de 50 o 100 calorías más cercano, perdiendo precisión que es importante a gran escala. "Alrededor de 300 calorías" podría significar 275 o 325, un rango de 50 calorías que se acumula a lo largo de las comidas diarias.

5. Variación cultural y regional en los alimentos. Una "porción de arroz frito" significa cosas muy diferentes en términos calóricos en una cocina casera, un restaurante de comida china-americana y un puesto de comida callejera en Bangkok. Los LLM suelen predeterminar suposiciones de porciones occidentales sin tener en cuenta el contexto del usuario.


¿Cómo se comparan las estimaciones de calorías de los LLM con la base de datos verificada de Nutrola?

La diferencia fundamental entre un LLM y una aplicación de seguimiento nutricional es la fuente de datos. Los LLM generan estimaciones a partir de datos de entrenamiento. Nutrola busca valores en una base de datos verificada por nutricionistas.

Factor de Comparación LLMs (ChatGPT, Gemini, Claude) Base de Datos Verificada de Nutrola
Fuente de datos Datos de entrenamiento (texto web, libros) Base de datos de alimentos verificada por nutricionistas
Precisión (error promedio) ±16–22% ±2–5%
Consistencia Varía entre sesiones (±15–28%) Resultados idénticos en cada consulta
Datos específicos de marca A veces disponibles, pueden estar desactualizados Actualizados, verificados por el fabricante
Manejo de porciones Predetermina "promedio" a menos que se especifique Porciones ajustables con precisión a nivel de gramos
Ajuste de método de cocción Inconsistente Entradas separadas para crudo, cocido, frito, etc.
Soporte de código de barras/UPC No aplicable Búsqueda instantánea para alimentos envasados
Desglose de macronutrientes A menudo proporcionado pero con los mismos márgenes de error Datos verificados de proteínas, grasas, carbohidratos y micronutrientes
Seguimiento diario Sin memoria entre sesiones* Diario de alimentos persistente con totales

*ChatGPT y Gemini ofrecen funciones de memoria, pero están diseñadas para preferencias generales, no para un registro nutricional estructurado.

Un estudio comparativo de 2025 publicado en el British Journal of Nutrition probó chatbots de IA contra tres aplicaciones comerciales de seguimiento nutricional para la precisión en el registro de dietas de 7 días. Las aplicaciones de seguimiento lograron un error calórico diario medio de 5-8%, mientras que los chatbots de IA promediaron un error diario de 18-25%. El estudio concluyó que "los chatbots de IA de propósito general no son sustitutos adecuados para herramientas de evaluación dietética diseñadas específicamente".


¿Cuándo son útiles los LLM para información sobre calorías?

Los LLM no son completamente inútiles para la información nutricional. Sirven bien para casos de uso específicos.

Educación nutricional general. Preguntar "¿Cuál es el macronutriente más importante para la construcción muscular?" o "¿Cómo funciona un déficit calórico?" produce respuestas confiables porque esta información está bien establecida y es consistente en diversas fuentes.

Estimaciones aproximadas de orden de magnitud. Si necesitas saber si una comida tiene aproximadamente 300 o 800 calorías — un rango de 2x — los LLM suelen ser correctos. Son menos útiles cuando necesitas saber si una comida tiene 450 o 550 calorías.

Ideación para planificación de comidas. Pedir a un LLM que "sugiera cinco desayunos altos en proteínas por debajo de 400 calorías" produce puntos de partida útiles, aunque las estimaciones de calorías para cada sugerencia deben verificarse contra una base de datos.

Comparación de categorías de alimentos. Los LLM pueden decirte de manera confiable que los frutos secos son más densos en calorías que las frutas, o que el pollo a la parrilla tiene menos calorías que el pollo frito. Las comparaciones relativas son más precisas que los números absolutos.


¿Cuándo no deberías usar LLM para el seguimiento de calorías?

Basado en los datos de precisión y consistencia, los LLM no deben ser utilizados como herramientas primarias de seguimiento de calorías en varias situaciones.

Fases activas de pérdida o ganancia de peso. Cuando tu objetivo calórico diario tiene un margen de ±200 calorías, el error de ±18% de un LLM puede llevarte a estar 300-500 calorías fuera de tu objetivo diario. A lo largo de una semana, esto puede anular completamente un déficit planeado.

Seguimiento de platos complejos o mixtos. La tasa de error para comidas complejas (±22–30%) es demasiado alta para un seguimiento significativo. Una estimación de cena de 700 calorías que en realidad son 900 calorías representa un error diario de 200 calorías a partir de una sola comida.

Seguimiento diario consistente. La inconsistencia de sesión a sesión significa que la misma comida registrada en diferentes días produce diferentes valores calóricos, creando ruido en tus datos de seguimiento que hace imposible identificar tendencias.

Manejo nutricional médico o clínico. Para personas que manejan diabetes, enfermedades renales u otras condiciones que requieren un control nutricional preciso, las estimaciones de calorías de los LLM no cumplen con el umbral de precisión necesario para una gestión dietética segura.


Conclusiones clave: Precisión de calorías de LLM vs. base de datos verificada

Hallazgo Datos
Error promedio de calorías de ChatGPT ±18% en todos los tipos de alimentos
Error promedio de calorías de Gemini ±22% en todos los tipos de alimentos
Error promedio de calorías de Claude ±16% en todos los tipos de alimentos
Error promedio de la base de datos verificada ±2–5%
Consistencia de LLM (varianza entre sesiones) ±15–28% del valor medio
Consistencia de la base de datos 0% de variación (búsqueda determinista)
Tipo de alimento más preciso de LLM Ingredientes simples, frutas comunes (±5–10%)
Tipo de alimento menos preciso de LLM Platos complejos mixtos (±22–30%)
Estimaciones de LLM dentro de ±10% de verificado 35–48% de los artículos
Entradas de la base de datos dentro de ±5% de verificado 95%+ de los artículos

Los LLM son herramientas impresionantes de propósito general que pueden discutir conceptos nutricionales con fluidez. No son bases de datos nutricionales. La diferencia es importante porque el seguimiento de calorías es una tarea cuantitativa: necesitas números específicos, consistentes y verificados, no estimaciones plausibles que cambian cada vez que preguntas. Para educación nutricional y orientación aproximada, los LLM funcionan. Para el seguimiento diario de calorías que genera resultados reales, una herramienta diseñada específicamente con una base de datos verificada es la opción adecuada.

Preguntas Frecuentes

¿Qué tan preciso es ChatGPT para contar calorías?

ChatGPT (GPT-4o) tiene un error absoluto medio de aproximadamente 18% en todos los tipos de alimentos. Proporciona estimaciones dentro del 10% de los valores verificados para solo el 42% de los alimentos probados. La precisión es mejor para ingredientes simples como la pechuga de pollo cruda (error del 8%) y peor para platos complejos mixtos como el pollo tikka masala (error del 25%).

¿Puedo usar ChatGPT en lugar de una aplicación de seguimiento de calorías?

ChatGPT no es un sustituto confiable para un rastreador de calorías diseñado específicamente. Un estudio de 2025 en el British Journal of Nutrition encontró que los chatbots de IA promediaron un error diario de 18-25% en calorías frente al 5-8% de las aplicaciones de seguimiento dedicadas. ChatGPT también ofrece respuestas inconsistentes entre sesiones, con la misma consulta de alimento produciendo estimaciones de calorías que varían entre 15-28%.

¿Por qué ChatGPT da diferentes conteos de calorías cada vez que pregunto?

Los LLM generan respuestas de manera probabilística en lugar de buscar valores en una base de datos fija. El mismo aviso puede producir diferentes resultados dependiendo de los parámetros de muestreo y el estado del modelo. En las pruebas, las estimaciones de ChatGPT para el mismo alimento variaron en un promedio del 22% a través de cinco sesiones separadas, lo que hace que el seguimiento diario consistente sea poco confiable.

¿Para qué es más preciso ChatGPT en términos de nutrición?

ChatGPT tiene un mejor desempeño en ingredientes crudos simples (error del 8%) y frutas y verduras comunes (error del 6%), donde los valores calóricos están bien establecidos y estandarizados. También es útil para educación nutricional general, estimaciones aproximadas y comparaciones relativas de alimentos en lugar de conteos de calorías precisos.

¿Cómo se compara una base de datos de alimentos verificada con ChatGPT para calorías?

Una base de datos nutricional verificada, como las de aplicaciones de seguimiento dedicadas, devuelve resultados dentro del 2-5% de los valores reales con cero variación entre consultas. ChatGPT promedia un error del 18% con una inconsistencia de 15-28% entre sesiones. La base de datos proporciona datos exactos específicos de marca, porciones ajustables y resultados consistentes cada vez.

¿Listo para transformar tu seguimiento nutricional?

¡Únete a miles que han transformado su viaje de salud con Nutrola!