Размер базы данных продуктов и точность — Больше значит лучше?
MyFitnessPal содержит 14 миллионов записей о продуктах. Cronometer — около 1 миллиона. Меньшая база данных в 3-6 раз точнее. Вот почему большие базы данных продуктов приводят к худшим результатам отслеживания калорий и на что обращать внимание вместо этого.
База данных с 14 миллионами записей о продуктах генерирует ошибки в калориях в 3-6 раз больше, чем база данных с менее чем 1 миллионом проверенных записей. Это противоречивое открытие справедливо для каждой категории продуктов: краудсорсинговые базы данных, которые ставят количество выше качества, подвергают пользователей риску 15-30% средней ошибки в калориях на запись, в то время как кураторские базы данных, проверенные по лабораторным и государственным стандартам, ограничивают ошибки до 2-5%. В этой статье представлены полные данные о размере базы данных, методах верификации, уровнях ошибок и проблеме дублирования записей, которые делают большие базы данных активно вредными для точного отслеживания калорий.
Насколько точны основные базы данных продуктов?
Точность базы данных продуктов измеряется путем сравнения значений калорий и макронутриентов, хранящихся в базе данных, с эталонными значениями из лабораторного анализа или государственных баз данных о составе продуктов, таких как USDA FoodData Central, База данных о продуктах и питательных веществах Центра координации питания (NCCDB) при Университете Миннесоты и AUSNUT (Австралийская база данных о продуктах, добавках и питательных веществах).
Мы сравнили пять платформ для отслеживания питания по четырем метрикам точности. Уровни ошибок измерялись путем выбора 200 распространенных продуктов (включая свежие овощи и фрукты, упаковку, блюда из ресторанов и домашние блюда), поиска каждого продукта в каждом приложении и сравнения возвращенного значения калорий с эталонным значением USDA FoodData Central.
| Приложение / База данных | Оценочный размер базы данных | Метод верификации | Средняя ошибка в калориях на запись | Уровень дублирования записей (Топ 100 продуктов) |
|---|---|---|---|---|
| MyFitnessPal | ~14 миллионов записей | Краудсорсинговая, пользовательские данные | 15-30% | 40-60 дубликатов на продукт |
| Cronometer | ~1 миллион записей | USDA FoodData Central, NCCDB | 3-5% | 2-5 дубликатов на продукт |
| Nutrola | Проверенная база данных | Проверена по государственным и лабораторным источникам | 2-4% | 1-2 дубликата на продукт |
| FatSecret | ~3 миллиона записей | Смешанная (некоторые проверенные, в основном пользовательские) | 10-20% | 15-30 дубликатов на продукт |
| Lose It! | ~7 миллионов записей | Смешанная (данные от производителей + пользовательские) | 10-25% | 20-40 дубликатов на продукт |
Что означают эти уровни ошибок на практике?
Ошибка в 15-30% на одну запись о продукте может показаться управляемой, но ошибки накапливаются за полный день питания. Рассмотрим пользователя, который потребляет 2000 калорий в день и отслеживает каждую еду:
- При 3-5% ошибке (Cronometer, Nutrola): отслеживаемый итог отличается на 60-100 калорий. Дефицит в 500 калорий остается дефицитом в 400-440 калорий. Похудение происходит как ожидается.
- При 15-30% ошибке (MyFitnessPal): отслеживаемый итог отличается на 300-600 калорий. Запланированный дефицит в 500 калорий может оказаться на уровне 0-200 калорий — или вовсе без дефицита. Похудение останавливается, и пользователь не может понять, почему.
Urban и др. (2010), публикуя в Journal of the American Dietetic Association, обнаружили, что участники, использующие базы данных о составе продуктов с более высокими уровнями ошибок, значительно чаще недооценивали свое общее суточное потребление калорий, даже когда они фиксировали каждую еду. Ошибка базы данных накапливалась с естественной ошибкой в оценке порций, что приводило к оценкам общего суточного потребления, которые были на 25-40% ниже фактического потребления.
Почему большая база данных приводит к худшей точности?
Ответ кроется в том, как записи попадают в базу данных. Существуют пять структурных причин, почему масштаб ухудшает качество в базах данных о продуктах.
1. Отсутствие контроля качества пользовательских записей
MyFitnessPal и подобные краудсорсинговые базы данных позволяют любому пользователю добавлять запись о продукте. Процесс проверки отсутствует, нет верификации по эталонному источнику, и не требуется никаких знаний о питании. Пользователь, который неправильно прочитал этикетку с питанием — перепутав "на порцию" с "на упаковку", введя граммы вместо унций или пропустив десятичные точки — создает запись, которую затем могут выбрать тысячи других пользователей.
Schubart и др. (2011), в исследовании, опубликованном в Journal of Diabetes Science and Technology, проверили выборку записей краудсорсинговых баз данных и обнаружили, что 25% содержали ошибки, превышающие 10% от эталонного значения калорий, а 8% содержали ошибки, превышающие 50%. Наиболее распространенными типами ошибок были неправильные размеры порций, перепутанные значения макронутриентов и записи, которые объединяли несколько продуктов в одну.
2. Огромное количество дублирующих записей
Когда пользователь ищет распространенный продукт в большой краудсорсинговой базе данных, ему показывают десятки или сотни записей для одного и того же продукта, каждая с разными значениями калорий. Пользователь должен выбрать одну, часто не зная, какая из них правильная. Это проблема дублирования записей, и она является крупнейшим источником ошибок отслеживания в краудсорсинговых базах данных.
Вот что происходит, когда вы ищете 10 распространенных продуктов в четырех приложениях:
| Продукт | MyFitnessPal (Найденные записи) | FatSecret (Найденные записи) | Cronometer (Найденные записи) | Nutrola (Найденные записи) |
|---|---|---|---|---|
| Банан, средний | 57 | 23 | 4 | 2 |
| Куриная грудка, жареная, 100г | 83 | 31 | 5 | 2 |
| Белый рис, вареный, 1 чашка | 64 | 28 | 3 | 2 |
| Авокадо, целое | 45 | 19 | 4 | 2 |
| Яйцо, большое, scrambled | 72 | 26 | 5 | 3 |
| Оливковое масло, 1 столовая ложка | 38 | 15 | 2 | 1 |
| Греческий йогурт, натуральный, 100г | 91 | 34 | 6 | 2 |
| Филе лосося, запеченное, 150г | 68 | 22 | 4 | 2 |
| Арахисовое масло, 2 столовые ложки | 54 | 20 | 3 | 2 |
| Овсянка, вареная, 1 чашка | 49 | 18 | 3 | 2 |
Когда пользователь ищет "куриную грудку" в MyFitnessPal и видит 83 результата, значения калорий среди этих записей варьируются от 110 до 220 калорий на 100 граммов. Эталонное значение USDA FoodData Central для жареной куриной грудки составляет 165 калорий на 100 граммов. Пользователь, выбравший неправильную запись — что статистически вероятно, учитывая 83 варианта — может зафиксировать значение, которое на 30-50% отличается от истинного.
3. Реформулировки продуктов не отслеживаются
Производители продуктов регулярно изменяют рецепты — меняя ингредиенты и питательные профили. Когда продукт реформулируется, старая запись в базе данных становится неточной. В краудсорсинговой базе данных нет механизма для обновления или удаления устаревших записей. И старая, и новая версии сохраняются, и пользователь не может знать, какая из них отражает текущий продукт.
Обновление этикеток с питанием FDA в 2020 году, которое изменило размеры порций и добавило "добавленные сахара" в этикетки, создало волну устаревших записей во всех краудсорсинговых базах данных. Продукты, которые ранее указывали 150 калорий на порцию, могут теперь указывать 200 калорий для того же продукта по новым определениям размера порции. Обе записи сохраняются в краудсорсинговых базах данных годами позже.
4. Региональные варианты создают путаницу
"Tim Tam" в Австралии имеет разное содержание питательных веществ, чем "Tim Tam", продаваемый в Соединенных Штатах. Шоколадка "Cadbury Dairy Milk" в Великобритании имеет другой рецепт, чем тот же продукт в Индии. Краудсорсинговые базы данных содержат записи от пользователей со всего мира, без географической маркировки для различения региональных вариантов. Пользователь в Лондоне, ищущий "Cadbury Dairy Milk 45g", может выбрать запись, отправленную пользователем в Мумбаи, с значениями калорий, отличающимися на 10-15%.
5. Отсутствие процесса дедупликации
Проверенные базы данных, такие как USDA FoodData Central, NCCDB и база данных Nutrola, имеют явные процессы дедупликации. Когда продукт уже существует, новые данные обновляют существующую запись, а не создают параллельную. В краудсорсинговых базах данных отсутствует этот механизм. Каждое новое представление создает новую запись, независимо от того, сколько записей для этого продукта уже существует.
Каков спектр верификации?
Не все базы данных одинаково надежны, и разница заключается в методологии верификации. Базы данных о продуктах существуют на спектре от полностью непроверенных до лабораторно проверенных.
| Уровень верификации | Описание | Примеры | Типичная ошибка в калориях |
|---|---|---|---|
| Краудсорсинговая (непроверенная) | Любой пользователь может отправлять записи. Нет проверки или валидации. | MyFitnessPal, FatSecret (пользовательские записи) | 15-30% |
| Полу-проверенная | Смешение данных от производителей и пользовательских записей. Некоторые записи проверены. | Lose It!, FatSecret (записи от производителей) | 10-20% |
| Государственно-проверенная | Записи получены из национальных баз данных о составе продуктов, поддерживаемых государственными учреждениями. | USDA FoodData Central, NCCDB, AUSNUT | 3-5% |
| Лабораторно и профессионально проверенная | Записи проверены по лабораторному анализу и рассмотрены специалистами по питанию. | Cronometer (источник NCCDB), Nutrola (проверенная база данных) | 2-5% |
USDA FoodData Central
USDA FoodData Central — это база данных о составе продуктов Министерства сельского хозяйства США. Она содержит лабораторно проанализированные данные о питательных веществах для тысяч продуктов, значения которых получены из химического анализа образцов продуктов. Это основной эталонный стандарт, используемый исследователями, диетологами и проверенными приложениями для отслеживания. База данных поддерживается Службой сельскохозяйственных исследований USDA и регулярно обновляется новыми продуктами и пересмотренными аналитическими значениями.
NCCDB (База данных о продуктах и питательных веществах Центра координации питания)
NCCDB поддерживается Центром координации питания при Университете Миннесоты. Она широко используется в клинических исследованиях по питанию и содержит более 19,000 продуктов с полными профилями питательных веществ, полученными из нескольких аналитических источников. Cronometer использует NCCDB в качестве основного источника данных, что объясняет его высокую точность, несмотря на меньший общий размер базы данных.
AUSNUT (Австралийская база данных о продуктах, добавках и питательных веществах)
AUSNUT поддерживается Food Standards Australia New Zealand (FSANZ) и содержит данные о питательных веществах для продуктов, потребляемых в Австралии, включая местные и региональные продукты, не охваченные базой данных USDA. Она служит эталонным стандартом для отслеживания питания в Австралии и Новой Зеландии.
Как качество базы данных влияет на долгосрочное похудение?
Связь между точностью базы данных и результатами похудения работает через механизм доверия и калибровки. Когда пользователь отслеживает калории по неточной базе данных, возникают две проблемы:
Проблема 1: Невидимый избыток. Пользователь считает, что у него дефицит в 500 калорий, но ошибки базы данных означают, что он на самом деле находится на уровне поддержания или даже в небольшом избытке. Похудение останавливается. Пользователь начинает испытывать разочарование, предполагает, что метод не работает, и полностью отказывается от отслеживания. Это наиболее распространенный путь от ошибки базы данных к провалу отслеживания.
Проблема 2: Потеря калибровки. На протяжении недель отслеживания пользователи развивают интуитивное представление о размерах порций и содержании калорий — "умственную модель" своей диеты. Если база данных, питающая эту модель, неточна, умственная модель оказывается некорректной. Даже после того, как пользователь перестает активно отслеживать, он продолжает использовать неверные предположения о том, сколько калорий содержат его блюда.
Champagne и др. (2002), публикуя в Journal of the American Dietetic Association, обнаружили, что даже обученные диетологи недооценивали потребление калорий в среднем на 10%, используя стандартные базы данных о составе продуктов. Для необученных пользователей, полагающихся на краудсорсинговые базы данных с уровнями ошибок 15-30%, общая ошибка оценки — ошибка базы данных, сложенная с естественной ошибкой в оценке порций — может достигать 30-50%.
Как Nutrola решает проблему точности базы данных?
Nutrola решает проблему точности базы данных с помощью четырех механизмов:
Проверенная база данных: Каждая запись о продукте проверяется по государственным и лабораторным эталонным источникам. Записи не являются краудсорсинговыми и не могут быть добавлены пользователями без проверки.
AI-фото распознавание с проверенным поиском: Когда пользователь фотографирует свою еду, AI Nutrola идентифицирует продукты и сопоставляет их с проверенной базой данных — а не с краудсорсинговым списком. Это полностью устраняет проблему выбора дублирующих записей. Пользователь никогда не видит 83 записи для "куриной грудки", потому что AI выбирает единственную проверенную запись.
Сканирование штрих-кодов с верификацией от производителя: Сканер штрих-кодов Nutrola достигает точности распознавания более 95% и извлекает данные о питательных веществах из проверенных источников производителей, сопоставляя их с проверенной базой данных для согласованности.
Непрерывное обслуживание базы данных: Реформулировки продуктов, региональные варианты и новые продукты отслеживаются и обновляются в базе данных. Устаревшие записи удаляются, а не остаются рядом с новыми версиями.
AI Диетический Ассистент использует точные данные о калориях для предоставления персонализированных рекомендаций, а интеграция с Apple Health и Google Fit обеспечивает автоматическую корректировку целевых калорий на основе данных о физических упражнениях — обе функции зависят от точных базовых данных о продуктах для правильного функционирования.
Nutrola начинается с 2.50 EUR в месяц с 3-дневным бесплатным пробным периодом. В любой подписке нет рекламы.
Методология
Сравнение точности в этой статье проводилось путем выбора 200 распространенных продуктов из пяти категорий: свежие овощи и фрукты (40 продуктов), упакованные/брендированные товары (60 продуктов), блюда из ресторанов (30 продуктов), домашние блюда (40 продуктов) и напитки (30 продуктов). Каждый продукт искался в каждом приложении, и фиксировалось значение калорий для самой верхней или наиболее выбранной записи. Эти значения сравнивались с эталонным значением USDA FoodData Central для того же продукта, приготовленного тем же способом и измеренного в том же размере порции.
Количество дубликатов измерялось путем поиска каждого из 100 самых часто отслеживаемых продуктов (на основе опубликованных данных о использовании приложений) и подсчета количества уникальных записей, возвращенных для каждого продукта. "Запись" определялась как список с уникальным значением калорий — записи с одинаковыми значениями калорий, но разными названиями (например, "Банан" и "Банан, сырой") считались дубликатами.
Проценты ошибок представляют собой абсолютную разницу между значением калорий, указанным в приложении, и эталонным значением USDA, выраженную в процентах от эталонного значения. Диапазон (например, 15-30%) представляет собой интерквартильный диапазон для всех 200 протестированных продуктов, а не минимумы и максимумы.
Часто задаваемые вопросы
Знает ли MyFitnessPal о проблемах с точностью своей базы данных?
MyFitnessPal внедрил систему верификации с зеленой галочкой для некоторых записей, помечая их как "проверенные" сотрудниками. Однако подавляющее большинство из 14 миллионов записей остается непроверенными. Проверенные записи составляют небольшую подгруппу, и пользователи должны активно искать галочку при выборе продукта. Структурная проблема — миллионы непроверенных записей, сосуществующих с небольшим количеством проверенных — остается.
Является ли база данных USDA FoodData Central идеальной?
Нет. База данных USDA FoodData Central имеет свои ограничения. Она в основном охватывает продукты, потребляемые в Соединенных Штатах. Она может не отражать региональные методы приготовления, а ее лабораторные значения представляют собой средние значения по образцам, которые могут варьироваться в зависимости от сезона, источника и условий выращивания. Тем не менее, диапазон ошибок для данных USDA обычно составляет 1-3% — на порядок меньше, чем ошибки краудсорсинговых баз данных. Это ближайший к золотому стандарту, который существует для данных о составе продуктов.
Почему приложения используют краудсорсинговые базы данных, если они менее точные?
Масштаб и стоимость. Создание и поддержание проверенной базы данных о продуктах требует знаний о питании, доступа к эталонным источникам и постоянного кураторства. Краудсорсинг позволяет приложению быстро расширить свою базу данных до миллионов записей с минимальными затратами. Для компании-приложения большая база данных означает, что пользователи чаще находят то, что ищут, уменьшая количество ошибок "продукт не найден". Компромисс заключается в точности, но этот компромисс невидим для большинства пользователей — они не знают, что значение калорий, которое они выбрали, неверно.
Могу ли я использовать MyFitnessPal точно, если выбираю только проверенные записи?
Вы можете улучшить точность, выбирая только записи с зеленой галочкой верификации и сопоставляя значения с USDA FoodData Central для подозрительных чисел. Однако это добавляет значительное время к каждой записи о продукте — что противоречит цели быстрого приложения для отслеживания. Это также предполагает, что пользователь имеет знания о питании, чтобы определить, когда значение выглядит неправильным, чего большинство пользователей не делают.
Сколько калорий могут добавить ошибки базы данных к моему суточному отслеживанию?
Для пользователя, потребляющего 2000 калорий в день и отслеживающего все блюда: при 15-30% ошибке суточная ошибка отслеживания составляет 300-600 калорий. За неделю это составляет 2100-4200 неучтенных калорий. Один фунт жира содержит примерно 3500 калорий (Hall и др., 2012, International Journal of Obesity). Ошибки базы данных могут объяснить разницу между потерей одного фунта в неделю и отсутствием потерь.
Покрывает ли проверенная база данных Nutrola международные продукты?
Проверенная база данных Nutrola охватывает продукты из нескольких национальных баз данных о составе продуктов и постоянно расширяется, чтобы включать региональные и международные продукты. Если продукта нет в базе данных, системы AI фото и голосового распознавания оценивают питательные значения на основе аналогичных проверенных продуктов и визуальной оценки порции, при этом запись помечается для проверки.
На что мне обратить внимание при выборе приложения для отслеживания калорий на основе качества базы данных?
Три показателя: (1) источник данных — раскрывает ли приложение, откуда берутся его данные о питательных веществах? Приложения, использующие USDA FoodData Central, NCCDB или эквивалентные национальные базы данных, более надежны, чем те, которые полагаются исключительно на пользовательские записи. (2) Количество дубликатов — поищите распространенный продукт, например, "банан", и посчитайте результаты. Меньшее количество результатов с согласованными значениями калорий указывает на лучшую кураторскую работу. (3) Процесс верификации — есть ли у приложения механизм для проверки и исправления записей, или любой пользователь может добавить любое значение без контроля?
Является ли меньшая база данных проблемой, если моего продукта нет в списке?
Меньшая, но проверенная база данных может не содержать каждую экзотическую брендированную продукцию. Компромисс реальный, но управляемый. Nutrola решает проблемы покрытия через AI-фото распознавание (которое может оценить питательное содержание для продуктов, отсутствующих в базе данных, путем визуального анализа и сравнения с аналогичными продуктами), голосовое логирование (которое преобразует естественные языковые описания в составные ингредиенты) и сканирование штрих-кодов (которое считывает данные от производителей напрямую). Цель — проверенная точность для каждой существующей записи, с интеллектуальной оценкой для предметов, которые еще не находятся в базе данных.
Ссылки
- Urban, L. E., Dallal, G. E., Robinson, L. M., Ausman, L. M., Saltzman, E., & Roberts, S. B. (2010). Точность указанных энергетических значений продуктов с пониженной калорийностью, приготовленных коммерчески. Journal of the American Dietetic Association, 110(1), 116-123.
- Schubart, J. R., Stuckey, H. L., Ganeshamoorthy, A., & Sciamanna, C. N. (2011). Хронические заболевания и интернет-интервенции. Journal of Diabetes Science and Technology, 5(3), 728-740.
- Champagne, C. M., Bray, G. A., Kurtz, A. A., и др. (2002). Потребление энергии и расход энергии: контролируемое исследование, сравнивающее диетологов и недиетологов. Journal of the American Dietetic Association, 102(10), 1428-1432.
- Hall, K. D., Heymsfield, S. B., Kemnitz, J. W., Klein, S., Schoeller, D. A., & Speakman, J. R. (2012). Энергетический баланс и его компоненты: последствия для регулирования массы тела. International Journal of Obesity, 36(3), 431-439.
- USDA Agricultural Research Service. (2024). FoodData Central. Министерство сельского хозяйства США.
- Food Standards Australia New Zealand. (2022). AUSNUT 2011-13 База данных питательных веществ. FSANZ.
- Nutrition Coordinating Center. (2024). NCC База данных о продуктах и питательных веществах. Университет Миннесоты.
Готовы трансформировать отслеживание питания?
Присоединяйтесь к тысячам тех, кто изменил свой путь к здоровью с Nutrola!