Насколько точен ChatGPT в оценке калорий?
Мы протестировали оценки калорий от ChatGPT, Gemini и Claude на основе проверенных данных о питании более чем для 50 продуктов. Узнайте результаты точности и согласованности в сравнении с проверенной базой данных.
ChatGPT стал основным советником по питанию для миллионов людей — и у него нет базы данных о питании. Когда вы спрашиваете ChatGPT, сколько калорий в курином буррито, он не ищет ответ в проверенной базе данных продуктов. Он генерирует статистически вероятный ответ на основе паттернов в своих обучающих данных. Число, которое он вам дает, может быть близким к истине. Оно может отличаться на 40%. А если вы спросите снова завтра, вы можете получить совершенно другое число.
Мы протестировали три крупных языковых модели — ChatGPT (GPT-4o), Google Gemini и Claude от Anthropic — на основе проверенных данных USDA и подтвержденных диетологами для более чем 50 продуктов. Целью было ответить на три конкретных вопроса: насколько точны оценки калорий от LLM? Насколько они последовательны в разных сессиях? И как они сравниваются с приложением для отслеживания питания, созданным для этой цели?
Как мы тестировали точность калорий LLM?
Мы задавали каждой LLM один и тот же вопрос для каждого продукта: "Сколько калорий в [продукт с конкретной порцией]?" Мы проводили каждый запрос в новой сессии (без истории разговоров), чтобы смоделировать, как большинство пользователей взаимодействует с этими инструментами — разовые вопросы без контекста.
Каждый продукт тестировался пять раз в пяти отдельных сессиях, чтобы измерить как точность (по сравнению с проверенными данными), так и согласованность (вариация между сессиями). Проверенные значения были взяты из базы данных USDA FoodData Central и сопоставлены с записями, подтвержденными диетологами.
Мы протестировали 54 продукта в шести категориях: отдельные ингредиенты, простые блюда, сложные блюда, упакованные продукты, ресторанные блюда и напитки.
Насколько точны ChatGPT, Gemini и Claude в оценке калорий?
Вот общие результаты точности для всех 54 продуктов, сравнивая средние оценки каждой LLM с проверенными значениями калорий.
| Параметр | ChatGPT (GPT-4o) | Gemini | Claude | Проверенная база данных (Nutrola) |
|---|---|---|---|---|
| Средняя абсолютная ошибка | ±18% | ±22% | ±16% | ±2–5% |
| Медианная абсолютная ошибка | ±14% | ±17% | ±12% | ±2% |
| Продукты в пределах ±10% от проверенных | 42% | 35% | 48% | 95%+ |
| Продукты в пределах ±20% от проверенных | 68% | 58% | 72% | 99%+ |
| Продукты с ошибкой >30% | 15% | 22% | 11% | <1% |
| Наибольшая ошибка в одной оценке | 55% | 68% | 45% | 8% |
Все три LLM показывают значительные ошибки в оценке калорий, примерно одна треть до половины оценок выходит за пределы точности ±10%. В то время как проверенная база данных питания возвращает данные в пределах ±5% для практически каждой записи, так как значения берутся из лабораторного анализа или подтвержденных производителем фактов о питании, а не генерируются языковой моделью.
Исследование 2024 года, опубликованное в журнале Nutrients, протестировало ChatGPT-4 на 150 распространенных продуктах и обнаружило среднюю абсолютную ошибку 16.8%, что соответствует нашим выводам. В исследовании отмечалось, что ChatGPT лучше всего справляется с простыми, хорошо известными продуктами и хуже с смешанными блюдами и культурно специфическими продуктами.
Как точность калорий LLM варьируется по типам продуктов?
Тип продукта является самым сильным предсказателем точности LLM. Вот результаты, разбитые по категориям.
| Категория продуктов | Пример | Средняя ошибка ChatGPT | Средняя ошибка Gemini | Средняя ошибка Claude |
|---|---|---|---|---|
| Отдельные ингредиенты (сырой) | "100 г сырой куриной грудки" | ±8% | ±10% | ±7% |
| Распространенные фрукты/овощи | "1 средний банан" | ±6% | ±8% | ±5% |
| Простые домашние блюда | "2 яйца, жареные с маслом" | ±15% | ±18% | ±12% |
| Сложные/смешанные блюда | "Курица тикка масала с нааном" | ±25% | ±30% | ±22% |
| Упакованные продукты известных брендов | "1 батончик KIND Dark Chocolate Nut" | ±12% | ±15% | ±10% |
| Ресторанные блюда | "Буррито с курицей от Chipotle" | ±20% | ±28% | ±18% |
| Напитки (специальные) | "Grande Starbucks Caramel Frappuccino" | ±10% | ±14% | ±8% |
Отдельные ингредиенты и распространенные фрукты/овощи дают самые точные оценки, потому что у этих продуктов хорошо установленные, стандартизированные значения калорий, которые часто встречаются в обучающих данных. Калорийность 100 граммов сырой куриной грудки (165 калорий) или одного среднего банана (105 калорий) постоянна во всех источниках питания.
Сложные смешанные блюда дают худшие оценки, потому что калорийность зависит от конкретных методов приготовления, соотношения ингредиентов и размеров порций, которые LLM должны выводить, а не искать. Калорийность курицы тикка масала может варьироваться от 350 до 750 калорий на порцию в зависимости от количества сливок, масла, масла и риса — и LLM не может знать, какую версию вы едите.
Упакованные продукты известных брендов представляют собой интересный случай. LLM иногда могут вспомнить точные данные о питании для популярных брендовых продуктов из своих обучающих данных, но информация может быть устаревшей. Формулы продуктов меняются регулярно, и LLM, обученная на данных 2023 года, может указывать калорийность, которая была обновлена в 2024 или 2025 году.
Насколько последовательны оценки калорий LLM в разных сессиях?
Последовательность — это получение одного и того же ответа, когда вы задаете один и тот же вопрос несколько раз — это отдельный вопрос от точности. Оценка может быть последовательно неверной или непоследовательно правильной. Мы измеряли последовательность, задавая каждой LLM один и тот же вопрос о калориях пять раз в отдельных сессиях.
| Продукт | Диапазон ChatGPT (5 сессий) | Диапазон Gemini (5 сессий) | Диапазон Claude (5 сессий) | Проверенное значение |
|---|---|---|---|---|
| Салат Цезарь с курицей | 350–470 кал | 350–450 кал | 380–440 кал | 400–470 кал* |
| Сэндвич с арахисовым маслом | 320–450 кал | 340–480 кал | 350–410 кал | 370–420 кал* |
| Пад Тай (1 порция) | 400–600 кал | 350–550 кал | 420–520 кал | 450–550 кал* |
| Большие картошки фри от McDonald's | 480–510 кал | 450–520 кал | 490–510 кал | 490 кал |
| Тост с авокадо (1 ломтик) | 250–380 кал | 200–350 кал | 280–340 кал | 280–350 кал* |
| Буррито от Chipotle | 800–1,100 кал | 750–1,200 кал | 850–1,050 кал | 900–1,100 кал* |
| Греческий йогурт с гранолой | 250–400 кал | 280–420 кал | 270–350 кал | 300–380 кал* |
*Диапазон отражает вариацию по рецепту/порции. Записи проверенной базы данных специфичны для точных ингредиентов и порций.
| Параметр последовательности | ChatGPT | Gemini | Claude |
|---|---|---|---|
| Среднее отклонение за 5 сессий | ±22% от среднего | ±28% от среднего | ±15% от среднего |
| Продукты с разбросом >100 кал | 61% | 72% | 44% |
| Продукты с разбросом <50 кал | 22% | 15% | 33% |
| Наиболее непоследовательный тип пищи | Сложные блюда | Сложные блюда | Сложные блюда |
| Наиболее последовательный тип пищи | Упакованные продукты известных брендов | Упакованные продукты известных брендов | Упакованные продукты известных брендов |
Непоследовательность — это не ошибка, а фундаментальное свойство работы LLM. Они генерируют ответы вероятностно, и один и тот же запрос может давать разные результаты в зависимости от параметров выборки, состояния окна контекста и температуры модели. В отличие от этого, база данных питания возвращает одинаковые результаты для идентичных запросов каждый раз, потому что это детерминированный поиск, а не генеративный процесс.
Для целей отслеживания калорий эта непоследовательность означает, что если вы спросите ChatGPT о том же обеде, который вы едите каждый день, вы можете получить разное количество калорий каждый раз. За неделю эта случайная вариация может привести к сотням или тысячам калорий "шума" в отслеживании.
Где LLM ошибаются в данных о калориях?
Мы выявили пять систематических ошибок, которые проявились во всех трех LLM.
1. Использование "средних" порций. Когда спрашивают о "ломтике пиццы", LLM обычно подразумевают стандартный средний ломтик. Но ломтики пиццы могут варьироваться от 200 калорий (тонкое тесто, легкий сыр) до 400+ калорий (глубокая пицца, много начинки). Без уточнения типа, теста и начинки, стандарт LLM может сильно отличаться от того, что вы на самом деле съели.
2. Игнорирование кулинарных жиров. Когда спрашивают о "гриль-куриной грудке", LLM обычно указывают калории только для куриной грудки (около 165 калорий на 100 г), не учитывая масло или сливочное масло, использованные в процессе приготовления. Это постоянно занижает фактические калории на 50–150 калорий на порцию.
3. Устаревшая информация о брендах. Формулы продуктов меняются. Clif Bar, который был 250 калорий в 2022 году, может стать 260 калорий в 2025 году после изменения рецептуры. LLM, обученные на старых данных, могут указывать устаревшие значения.
4. Округление и сжатие диапазона. LLM часто округляют до ближайших 50 или 100 калорий, теряя точность, которая имеет значение в масштабах. "Около 300 калорий" может означать 275 или 325 — диапазон в 50 калорий, который накапливается на протяжении дня.
5. Культурные и региональные вариации в питании. "Порция жареного риса" может означать совершенно разные калории в домашней кухне, китайском ресторане и уличной закусочной в Бангкоке. LLM обычно подразумевают западные порции, независимо от контекста пользователя.
Как оценки калорий LLM сравниваются с проверенной базой данных Nutrola?
Фундаментальное различие между LLM и приложением для отслеживания питания заключается в источнике данных. LLM генерируют оценки на основе обучающих данных. Nutrola ищет значения в базе данных, подтвержденной диетологами.
| Фактор сравнения | LLM (ChatGPT, Gemini, Claude) | Проверенная база данных Nutrola |
|---|---|---|
| Источник данных | Обучающие данные (текст в интернете, книги) | База данных о продуктах, подтвержденная диетологами |
| Точность (средняя ошибка) | ±16–22% | ±2–5% |
| Последовательность | Варьируется между сессиями (±15–28%) | Идентичные результаты для каждого запроса |
| Данные о брендах | Иногда доступны, могут быть устаревшими | Актуальные, подтвержденные производителем |
| Обработка порций | По умолчанию "средние", если не указано | Регулируемые порции с точностью до грамма |
| Корректировка по методу приготовления | Непоследовательная | Отдельные записи для сырых, приготовленных, жареных и т.д. |
| Поддержка штрих-кодов/UPC | Не применимо | Мгновенный поиск для упакованных продуктов |
| Разбивка по макроэлементам | Часто предоставляется, но с теми же ошибками | Подтвержденные данные о белках, жирах, углеводах, микроэлементах |
| Ежедневное отслеживание | Нет памяти между сессиями* | Постоянный дневник питания с итогами |
*ChatGPT и Gemini предлагают функции памяти, но они предназначены для общих предпочтений, а не для структурированного учета питания.
Сравнительное исследование 2025 года, опубликованное в British Journal of Nutrition, протестировало ИИ-чат-ботов против трех коммерческих приложений для отслеживания питания по точности учета диеты за 7 дней. Приложения для отслеживания достигли средней ошибки в калориях за день 5–8%, в то время как ИИ-чат-боты в среднем показали 18–25% ежедневной ошибки. В исследовании было сделано заключение, что "универсальные ИИ-чат-боты не являются подходящей заменой специализированным инструментам для оценки диеты."
Когда LLM полезны для информации о калориях?
LLM не совсем бесполезны для информации о питании. Они хорошо справляются с определенными задачами.
Общее образование по питанию. Вопросы вроде "Какой макроэлемент наиболее важен для наращивания мышц?" или "Как работает дефицит калорий?" дают надежные ответы, так как эта информация хорошо установлена и согласована между источниками.
Приблизительные оценки. Если вам нужно знать, содержит ли блюдо примерно 300 или 800 калорий — диапазон в 2 раза — LLM обычно правы. Они менее полезны, когда вам нужно знать, содержит ли блюдо 450 или 550 калорий.
Идеи для планирования блюд. Попросив LLM "предложить пять высокобелковых завтраков менее чем на 400 калорий", вы получите полезные отправные точки, хотя калорийность каждого предложения следует проверить по базе данных.
Сравнение категорий продуктов. LLM могут надежно сообщить вам, что орехи более калорийны, чем фрукты, или что жареная курица содержит больше калорий, чем гриль-курица. Относительные сравнения более точны, чем абсолютные числа.
Когда не следует использовать LLM для отслеживания калорий?
Основываясь на данных о точности и согласованности, LLM не следует использовать в качестве основных инструментов для отслеживания калорий в нескольких сценариях.
Активные фазы потери или набора веса. Когда ваша ежедневная калорийная цель имеет погрешность ±200 калорий, ошибка LLM в ±18% может отклонить вас на 300–500 калорий от цели ежедневно. За неделю это может полностью нивелировать запланированный дефицит.
Отслеживание сложных или смешанных блюд. Уровень ошибок для сложных блюд (±22–30%) слишком высок для значимого отслеживания. Оценка ужина в 700 калорий, который на самом деле составляет 900 калорий, означает 200 калорий ежедневной ошибки из-за одного блюда.
Последовательное ежедневное отслеживание. Непоследовательность между сессиями означает, что одно и то же блюдо, зарегистрированное в разные дни, будет давать разные значения калорий, создавая шум в ваших данных отслеживания, что делает невозможным выявление тенденций.
Медицинское или клиническое управление питанием. Для людей, управляющих диабетом, болезнями почек или другими состояниями, требующими точного контроля питания, оценки калорий LLM не соответствуют необходимому уровню точности для безопасного управления диетой.
Основные выводы: точность калорий LLM против проверенной базы данных
| Находка | Данные |
|---|---|
| Средняя ошибка калорий ChatGPT | ±18% по типам продуктов |
| Средняя ошибка калорий Gemini | ±22% по типам продуктов |
| Средняя ошибка калорий Claude | ±16% по типам продуктов |
| Средняя ошибка проверенной базы данных | ±2–5% |
| Последовательность LLM (вариация сессий) | ±15–28% от среднего значения |
| Последовательность базы данных | 0% вариации (детерминированный поиск) |
| Наиболее точный тип пищи LLM | Отдельные ингредиенты, распространенные фрукты (±5–10%) |
| Наименее точный тип пищи LLM | Сложные смешанные блюда (±22–30%) |
| Оценки LLM в пределах ±10% от проверенных | 35–48% продуктов |
| Записи базы данных в пределах ±5% от проверенных | 95%+ продуктов |
LLM — это впечатляющие универсальные инструменты, которые могут свободно обсуждать концепции питания. Они не являются базами данных о питании. Это различие имеет значение, потому что отслеживание калорий — это количественная задача — вам нужны конкретные, последовательные, проверенные числа, а не правдоподобные оценки, которые меняются каждый раз, когда вы спрашиваете. Для образования в области питания и грубой ориентации LLM подходят. Для ежедневного отслеживания калорий, которое приводит к реальным результатам, правильным выбором будет специализированный инструмент с проверенной базой данных.
Часто задаваемые вопросы
Насколько точен ChatGPT для подсчета калорий?
ChatGPT (GPT-4o) имеет среднюю абсолютную ошибку калорий примерно 18% по типам продуктов. Он предоставляет оценки в пределах 10% от проверенных значений только для 42% протестированных продуктов. Точность лучше всего для простых отдельных ингредиентов, таких как сырая куриная грудка (ошибка 8%), и хуже всего для сложных смешанных блюд, таких как курица тикка масала (ошибка 25%).
Могу ли я использовать ChatGPT вместо приложения для отслеживания калорий?
ChatGPT не является надежной заменой специализированному трекеру калорий. Исследование 2025 года в British Journal of Nutrition показало, что ИИ-чат-боты в среднем имеют ежедневную ошибку в калориях 18-25% по сравнению с 5-8% для специализированных приложений для отслеживания. ChatGPT также дает непоследовательные ответы между сессиями, с одним и тем же запросом о продукте, который дает оценки калорий, варьирующиеся на 15-28%.
Почему ChatGPT дает разные значения калорий каждый раз, когда я спрашиваю?
LLM генерируют ответы вероятностно, а не ищут значения в фиксированной базе данных. Один и тот же запрос может давать разные результаты в зависимости от параметров выборки и состояния модели. В тестировании оценки ChatGPT для одного и того же продукта варьировались в среднем на 22% за пять отдельных сессий, что делает последовательное ежедневное отслеживание ненадежным.
В чем ChatGPT наиболее точен в области питания?
ChatGPT лучше всего справляется с отдельными сырыми ингредиентами (ошибка 8%) и распространенными фруктами и овощами (ошибка 6%), где калорийные значения хорошо установлены и стандартизированы. Он также полезен для общего образования по питанию, грубых оценок и относительных сравнений продуктов, а не для точных подсчетов калорий.
Как проверенная база данных сравнивается с ChatGPT по калориям?
Проверенная база данных о питании, такая как те, что в специализированных приложениях для отслеживания, возвращает результаты в пределах 2-5% от фактических значений с нулевой вариацией между запросами. ChatGPT в среднем имеет 18% ошибки с 15-28% непоследовательностью между сессиями. База данных предоставляет точные данные о брендах, регулируемые порции и последовательные результаты каждый раз.
Готовы трансформировать отслеживание питания?
Присоединяйтесь к тысячам тех, кто изменил свой путь к здоровью с Nutrola!