Наскільки точний ChatGPT у оцінках калорій?

Ми протестували оцінки калорій ChatGPT, Gemini та Claude на основі перевірених даних про харчування для понад 50 продуктів. Дивіться результати точності та послідовності в порівнянні з перевіреною базою даних.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

ChatGPT став основним консультантом з харчування для мільйонів людей — і не має бази даних про харчування. Коли ви запитуєте ChatGPT, скільки калорій у курячому буріто, він не шукає відповідь у перевіреній базі даних продуктів. Він генерує статистично ймовірну відповідь на основі шаблонів у своїх навчальних даних. Число, яке він вам надає, може бути близьким до істини. А може, помилятися на 40%. І якщо ви запитаєте знову завтра, ви можете отримати інше число.

Ми протестували три основні великі мовні моделі — ChatGPT (GPT-4o), Google Gemini та Claude від Anthropic — на основі перевірених даних USDA та підтверджених дієтологами для понад 50 продуктів. Мета полягала в тому, щоб відповісти на три конкретні питання: Наскільки точні оцінки калорій LLM? Наскільки вони послідовні між сесіями? І як вони порівнюються з додатком для відстеження харчування, створеним спеціально для цієї мети?


Як ми тестували точність калорій LLM?

Ми запитували кожну LLM одне й те саме питання для кожного продукту: "Скільки калорій у [продукті з конкретною порцією]?" Кожен запит ми проводили в новій сесії (без історії розмов), щоб змоделювати, як більшість користувачів взаємодіє з цими інструментами — одноразові запитання без контексту.

Кожен продукт тестувався п’ять разів у п’яти окремих сесіях, щоб виміряти як точність (в порівнянні з перевіреними даними), так і послідовність (варіація між сесіями). Перевірені значення були отримані з бази даних USDA FoodData Central та перехресно перевірені з даними, підтвердженими дієтологами.

Ми протестували 54 продукти в шести категоріях: окремі інгредієнти, прості страви, складні страви, упаковані продукти, страви з ресторанів та напої.


Наскільки точні ChatGPT, Gemini та Claude у оцінках калорій?

Ось загальні результати точності для всіх 54 продуктів, порівнюючи середні оцінки кожної LLM з перевіреними значеннями калорій.

Показник ChatGPT (GPT-4o) Gemini Claude Перевірена база даних (Nutrola)
Середня абсолютна помилка ±18% ±22% ±16% ±2–5%
Медіана абсолютної помилки ±14% ±17% ±12% ±2%
Продукти в межах ±10% від перевірених 42% 35% 48% 95%+
Продукти в межах ±20% від перевірених 68% 58% 72% 99%+
Продукти з помилкою >30% 15% 22% 11% <1%
Найгірша одинична помилка оцінки 55% 68% 45% 8%

Усі три LLM демонструють значні помилки в оцінках калорій, приблизно одна третина до половини оцінок виходять за межі точності ±10%. У порівнянні з цим, перевірена база даних харчування надає дані в межах ±5% для практично кожного запису, оскільки значення отримані з лабораторного аналізу або перевірених даних виробників, а не згенеровані мовною моделлю.

Дослідження 2024 року, опубліковане в Nutrients, протестувало ChatGPT-4 на 150 поширених продуктах і виявило середню абсолютну помилку 16.8%, що узгоджується з нашими висновками. У дослідженні зазначалося, що ChatGPT найкраще працює з простими, добре відомими продуктами і найгірше — з змішаними стравами та культурно специфічними продуктами.


Як точність калорій LLM варіюється за типом продукту?

Тип продукту, що оцінюється, є найсильнішим предиктором точності LLM. Ось результати, розбиті за категоріями.

Категорія продуктів Приклад Середня помилка ChatGPT Середня помилка Gemini Середня помилка Claude
Окремі інгредієнти (сирі) "100 г сирого курячого філе" ±8% ±10% ±7%
Звичайні фрукти/овочі "1 середня банан" ±6% ±8% ±5%
Просте домашнє приготування "2 яйця, смажені з маслом" ±15% ±18% ±12%
Складні/змішані страви "Курка тікка масала з нааном" ±25% ±30% ±22%
Упаковані брендові продукти "1 батончик KIND Dark Chocolate Nut" ±12% ±15% ±10%
Специфічні ресторанні страви "Буріто з куркою Chipotle" ±20% ±28% ±18%
Напої (спеціальні) "Grande Starbucks Caramel Frappuccino" ±10% ±14% ±8%

Окремі інгредієнти та звичайні фрукти/овочі дають найбільш точні оцінки, оскільки ці продукти мають добре встановлені, стандартизовані значення калорій, які часто з'являються в навчальних даних. Калорійність 100 грамів сирого курячого філе (165 калорій) або одного середнього банана (105 калорій) є сталою в усіх джерелах харчування.

Складні змішані страви дають найгірші оцінки, оскільки калорійність залежить від конкретних методів приготування, співвідношення інгредієнтів та розмірів порцій, які LLM має вгадувати, а не шукати. Курка тікка масала може містити від 350 до 750 калорій на порцію в залежності від кількості вершків, олії, масла та рису — і LLM не має змоги дізнатися, яку версію ви їсте.

Упаковані брендові продукти є цікавим випадком. LLM іноді можуть згадувати точні дані про харчування для популярних брендових продуктів з їх навчальних даних, але ця інформація може бути застарілою. Формули продуктів змінюються регулярно, і LLM, навчена на даних 2023 року, може наводити значення калорій, які були оновлені в 2024 або 2025 роках.


Наскільки послідовні оцінки калорій LLM між сесіями?

Послідовність — отримання однієї й тієї ж відповіді, коли ви запитуєте одне й те саме питання кілька разів — є окремою проблемою від точності. Оцінка може бути послідовно неправильною або непослідовно правильною. Ми вимірювали послідовність, запитуючи кожну LLM одне й те саме питання про калорії п’ять разів у різних сесіях.

Продукт Діапазон ChatGPT (5 сесій) Діапазон Gemini (5 сесій) Діапазон Claude (5 сесій) Перевірене значення
Салат Цезар з куркою 350–470 кал 350–450 кал 380–440 кал 400–470 кал*
Сендвіч з арахісовим маслом 320–450 кал 340–480 кал 350–410 кал 370–420 кал*
Pad Thai (1 порція) 400–600 кал 350–550 кал 420–520 кал 450–550 кал*
Великі картопляні фрі McDonald's 480–510 кал 450–520 кал 490–510 кал 490 кал
Тост з авокадо (1 скибочка) 250–380 кал 200–350 кал 280–340 кал 280–350 кал*
Буріто з Chipotle 800–1,100 кал 750–1,200 кал 850–1,050 кал 900–1,100 кал*
Грецький йогурт з гранолою 250–400 кал 280–420 кал 270–350 кал 300–380 кал*

*Діапазон відображає варіацію за рецептом/порцією. Записи перевіреної бази даних специфічні для точних інгредієнтів і порцій.

Показник послідовності ChatGPT Gemini Claude
Середнє відхилення за 5 сесій ±22% від середнього ±28% від середнього ±15% від середнього
Продукти з відхиленням >100 кал 61% 72% 44%
Продукти з відхиленням <50 кал 22% 15% 33%
Найбільш непослідовний тип їжі Складні страви Складні страви Складні страви
Найбільш послідовний тип їжі Упаковані брендові продукти Упаковані брендові продукти Упаковані брендові продукти

Непослідовність — це не помилка, а фундаментальна властивість того, як працюють LLM. Вони генерують відповіді ймовірнісно, і один і той же запит може дати різні результати в залежності від параметрів вибірки, стану контексту та температури моделі. База даних харчування, навпаки, повертає ідентичні результати для ідентичних запитів щоразу, оскільки це детермінований пошук, а не генеративний процес.

Для цілей підрахунку калорій ця непослідовність означає, що якщо ви запитаєте ChatGPT про той самий обід, який ви їсте щодня, ви можете отримати різні значення калорій щоразу. Протягом тижня ця випадкова варіація може накопичитися до сотень або тисяч калорій шуму в підрахунках.


Де LLM помиляються в даних про калорії?

Ми виявили п’ять систематичних помилок, які з’являлися в усіх трьох LLM.

1. Використання "середніх" порцій. Коли запитують про "скибочку піци", LLM зазвичай використовують загальну середню скибочку. Але скибочки піци можуть варіюватися від 200 калорій (тонке тісто, легкий сир) до 400+ калорій (глибоке тісто, багато начинок). Без уточнення типу, тіста та начинок, стандарт LLM може суттєво відрізнятися від того, що ви насправді з'їли.

2. Ігнорування кулінарних жирів. Коли запитують про "грильовану курячу грудку", LLM зазвичай наводять калорії лише для курячої грудки (близько 165 калорій на 100 г), не враховуючи олію або масло, використані під час приготування. Це постійно занижує фактичні калорії на 50–150 калорій на порцію.

3. Застаріла інформація про бренди. Формули продуктів змінюються. Clif Bar, який у 2022 році мав 250 калорій, може мати 260 калорій у 2025 році після зміни рецептури. LLM, навчена на старих даних, може наводити застарілі значення.

4. Округлення та зменшення діапазону. LLM часто округлюють до найближчих 50 або 100 калорій, втрачаючи точність, яка має значення в масштабах. "Приблизно 300 калорій" може означати 275 або 325 — діапазон у 50 калорій, який накопичується протягом доби.

5. Культурні та регіональні варіації їжі. "Порція смаженого рису" може означати дуже різні калорійні значення в домашній кухні, китайсько-американському ресторані та вуличному фастфуді в Бангкоку. LLM зазвичай використовують західні припущення про порції, незалежно від контексту користувача.


Як оцінки калорій LLM порівнюються з перевіреною базою даних Nutrola?

Основна різниця між LLM та додатком для відстеження харчування полягає в джерелі даних. LLM генерують оцінки на основі навчальних даних. Nutrola шукає значення в базі даних, перевіреній дієтологами.

Фактор порівняння LLM (ChatGPT, Gemini, Claude) Перевірена база даних Nutrola
Джерело даних Навчальні дані (веб-тексти, книги) База даних продуктів, перевірена дієтологами
Точність (середня помилка) ±16–22% ±2–5%
Послідовність Варіюється між сесіями (±15–28%) Ідентичні результати для кожного запиту
Дані про бренди Іноді доступні, можуть бути застарілими Актуальні, перевірені виробниками
Обробка порцій За замовчуванням "середня", якщо не вказано Регульовані порції з точністю до грамів
Корекція методів приготування Непослідовна Окремі записи для сирих, варених, смажених тощо.
Підтримка штрих-коду/UPC Не застосовується Миттєвий пошук для упакованих продуктів
Розподіл макроелементів Часто надається, але з тими ж помилками Перевірені дані про білки, жири, вуглеводи, мікроелементи
Щоденне відстеження Немає пам’яті між сесіями* Постійний щоденник їжі з підрахунками

*ChatGPT та Gemini пропонують функції пам’яті, але вони призначені для загальних уподобань, а не для структурованого харчового обліку.

Дослідження 2025 року, опубліковане в British Journal of Nutrition, протестувало AI-чат-ботів проти трьох комерційних додатків для відстеження харчування з точки зору точності обліку дієти протягом 7 днів. Додатки для відстеження досягли середньої помилки калорій на день 5–8%, тоді як AI-чат-боти в середньому мали 18–25% щоденної помилки. Дослідження зробило висновок, що "загальносистемні AI-чат-боти не є придатними замінами для спеціально розроблених інструментів оцінки дієти."


Коли LLM корисні для отримання інформації про калорії?

LLM не зовсім безкорисні для інформації про харчування. Вони добре підходять для конкретних випадків використання.

Загальна освіта з харчування. Запитуючи "Який макронутрієнт найважливіший для нарощування м'язів?" або "Як працює дефіцит калорій?", ви отримуєте надійні відповіді, оскільки ця інформація добре встановлена та послідовна в різних джерелах.

Приблизні оцінки. Якщо вам потрібно знати, чи є страва приблизно 300 або 800 калорій — діапазон 2x — LLM зазвичай праві. Вони менш корисні, коли вам потрібно знати, чи є страва 450 або 550 калорій.

Ідеї для планування страв. Запитуючи LLM "запропонувати п’ять високобілкових сніданків до 400 калорій", ви отримуєте корисні початкові точки, хоча оцінки калорій для кожної пропозиції слід перевірити за базою даних.

Порівняння категорій продуктів. LLM можуть надійно сказати вам, що горіхи більш калорійні, ніж фрукти, або що грильована курка має менше калорій, ніж смажена. Відносні порівняння точніші, ніж абсолютні числа.


Коли не слід використовувати LLM для підрахунку калорій?

Виходячи з даних про точність і послідовність, LLM не слід використовувати як основні інструменти для підрахунку калорій у кількох сценаріях.

Активні фази схуднення або набору ваги. Коли ваша щоденна калорійна мета має маржу ±200 калорій, помилка LLM ±18% може відхилити вас на 300–500 калорій від цілі щодня. Протягом тижня це може повністю нівелювати запланований дефіцит.

Відстеження складних або змішаних страв. Рівень помилки для складних страв (±22–30%) занадто високий для значущого обліку. Оцінка вечері в 700 калорій, яка насправді становить 900 калорій, є 200-калорійною щоденною помилкою з однієї страви.

Послідовний щоденний облік. Непослідовність між сесіями означає, що одна й та ж страва, зафіксована в різні дні, дає різні значення калорій, створюючи шум у ваших даних обліку, що ускладнює виявлення тенденцій.

Медичне або клінічне управління харчуванням. Для осіб, які контролюють діабет, захворювання нирок або інші стани, що вимагають точного контролю харчування, оцінки калорій LLM не відповідають необхідному рівню точності для безпечного управління дієтою.


Основні висновки: точність калорій LLM проти перевіреної бази даних

Висновок Дані
Середня помилка калорій ChatGPT ±18% за типами продуктів
Середня помилка калорій Gemini ±22% за типами продуктів
Середня помилка калорій Claude ±16% за типами продуктів
Середня помилка перевіреної бази даних ±2–5%
Послідовність LLM (варіація сесій) ±15–28% від середнього значення
Послідовність бази даних 0% варіації (детермінований пошук)
Найбільш точний тип їжі LLM Окремі інгредієнти, звичайні фрукти (±5–10%)
Найменш точний тип їжі LLM Складні змішані страви (±22–30%)
Оцінки LLM в межах ±10% від перевірених 35–48% продуктів
Записи бази даних в межах ±5% від перевірених 95%+ продуктів

LLM є вражаючими універсальними інструментами, які можуть вільно обговорювати концепції харчування. Вони не є базами даних про харчування. Ця різниця має значення, оскільки підрахунок калорій є кількісним завданням — вам потрібні конкретні, послідовні, перевірені числа, а не правдоподібні оцінки, які змінюються щоразу, коли ви запитуєте. Для освіти з харчування та приблизних порад LLM працюють. Для щоденного підрахунку калорій, що приносить реальні результати, підходить спеціально розроблений інструмент з перевіреною базою даних.

Часто задавані питання

Наскільки точний ChatGPT для підрахунку калорій?

ChatGPT (GPT-4o) має середню абсолютну помилку калорій приблизно 18% за типами продуктів. Він надає оцінки в межах 10% від перевірених значень лише для 42% протестованих продуктів. Точність найкраща для простих окремих інгредієнтів, таких як сире куряче філе (8% помилка), і найгірша для складних змішаних страв, таких як курка тікка масала (25% помилка).

Чи можу я використовувати ChatGPT замість додатка для підрахунку калорій?

ChatGPT не є надійною заміною для спеціально розробленого трекера калорій. Дослідження 2025 року в British Journal of Nutrition виявило, що AI-чат-боти в середньому мали 18-25% щоденної помилки калорій, тоді як спеціалізовані додатки для трекінгу — 5-8%. ChatGPT також дає непослідовні відповіді між сесіями, причому одне й те саме запитання про їжу дає оцінки калорій, які варіюються на 15-28%.

Чому ChatGPT дає різні значення калорій щоразу, коли я запитую?

LLM генерують відповіді ймовірнісно, а не шукають значення в фіксованій базі даних. Один і той же запит може дати різні результати в залежності від параметрів вибірки та стану моделі. У тестуванні оцінки ChatGPT для однієї й тієї ж їжі варіювалися в середньому на 22% між п’ятьма окремими сесіями, що робить послідовний щоденний облік ненадійним.

Для чого ChatGPT найточніший у харчуванні?

ChatGPT найкраще працює з окремими сирими інгредієнтами (8% помилка) та звичайними фруктами і овочами (6% помилка), де значення калорій добре встановлені та стандартизовані. Він також корисний для загальної освіти з харчування, приблизних оцінок та відносних порівнянь їжі, а не для точних підрахунків калорій.

Як перевірена база даних продуктів порівнюється з ChatGPT щодо калорій?

Перевірена база даних харчування, така як ті, що в спеціалізованих додатках для трекінгу, повертає результати в межах 2-5% від фактичних значень з нульовою варіацією між запитами. ChatGPT має середню помилку 18% з 15-28% непослідовністю між сесіями. База даних надає точні дані про бренди, регульовані порції та послідовні результати щоразу.

Готові трансформувати своє відстеження харчування?

Приєднуйтесь до тисяч, які трансформували свою подорож до здоров'я з Nutrola!