Velikost databáze potravin vs. přesnost — Znamená větší databáze lepší sledování?
MyFitnessPal má 14 milionů položek. Cronometer má přibližně 1 milion. Menší databáze je 3-6x přesnější. Zde je důvod, proč větší databáze potravin produkují horší výsledky sledování kalorií a na co se zaměřit místo toho.
Databáze potravin s 14 miliony položek produkuje chyby v kaloriích 3-6krát větší než databáze s méně než 1 milionem ověřených položek. Tento překvapivý závěr platí pro každou kategorii potravin: crowdsourced databáze, které upřednostňují množství před kvalitou, vystavují uživatele průměrným chybám v kaloriích 15-30 % na položku, zatímco kurátorované databáze ověřené podle laboratorních a vládních standardů udržují chyby na úrovni 2-5 %. Tento příspěvek přináší kompletní data o velikosti databáze, metodách ověřování, chybovosti a problému duplicitních položek, který činí velké databáze aktivně škodlivými pro přesné sledování kalorií.
Jak přesné jsou hlavní databáze potravin?
Přesnost databáze potravin se měří porovnáním hodnot kalorií a makroživin uložených v databázi s referenčními hodnotami z laboratorních analýz nebo vládních databází složení potravin, jako je USDA FoodData Central, Nutrition Coordinating Center Food and Nutrient Database (NCCDB) na University of Minnesota a AUSNUT (Australian Food, Supplement and Nutrient Database).
Porovnali jsme pět platforem pro sledování výživy na základě čtyř přesnostních metrik. Chybovost byla měřena výběrem 200 běžných potravin (pokrývajících čerstvé produkty, balené zboží, restaurace a domácí pokrmy), vyhledáním každé potraviny v každé aplikaci a porovnáním vrácené hodnoty kalorií s referenční hodnotou USDA FoodData Central.
| Aplikace / Databáze | Odhadovaná velikost databáze | Metoda ověřování | Průměrná chyba kalorií na položku | Míra duplicitních položek (Top 100 potravin) |
|---|---|---|---|---|
| MyFitnessPal | ~14 milionů položek | Crowdsourced, uživatelsky přidané | 15-30% | 40-60 duplicit na potravinu |
| Cronometer | ~1 milion položek | USDA FoodData Central, NCCDB | 3-5% | 2-5 duplicit na potravinu |
| Nutrola | Ověřená databáze | Ověřeno podle vládních a laboratorních zdrojů | 2-4% | 1-2 duplicit na potravinu |
| FatSecret | ~3 miliony položek | Smíšené (některé ověřené, většinou uživatelsky přidané) | 10-20% | 15-30 duplicit na potravinu |
| Lose It! | ~7 milionů položek | Smíšené (data výrobců + uživatelsky přidané) | 10-25% | 20-40 duplicit na potravinu |
Co tyto chybovosti znamenají v praxi?
Chyba 15-30 % u jedné položky potravin může znít zvládnutelně, ale chyby se kumulují během celého dne stravování. Zvažte uživatele, který konzumuje 2 000 kalorií denně a sleduje každé jídlo:
- Při 3-5% chybě (Cronometer, Nutrola): sledovaný celkový příjem je odchýlen o 60-100 kalorií. Deficit 500 kalorií zůstává deficitem 400-440 kalorií. Hubnutí probíhá podle očekávání.
- Při 15-30% chybě (MyFitnessPal): sledovaný celkový příjem je odchýlen o 300-600 kalorií. Plánovaný deficit 500 kalorií může být ve skutečnosti 0-200 kalorií — nebo dokonce žádný deficit. Hubnutí se zastaví a uživatel nemůže identifikovat proč.
Urban et al. (2010), publikující v Journal of the American Dietetic Association, zjistili, že účastníci používající databáze složení potravin s vyššími chybovostmi byli výrazně pravděpodobnější, že podceňují svůj celkový denní příjem kalorií, i když si zapisovali každé jídlo. Chyba databáze se kumulovala s přirozenou chybou odhadu porcí, což vedlo k celkovým odhadům denního příjmu, které byly o 25-40 % nižší než skutečná konzumace.
Proč větší databáze produkují horší přesnost?
Odpověď spočívá v tom, jak se položky dostávají do databáze. Existuje pět strukturálních důvodů, proč velikost snižuje kvalitu v databázích potravin.
1. Žádná kontrola kvality u uživatelských příspěvků
MyFitnessPal a podobné crowdsourced databáze umožňují jakémukoli uživateli přidat položku potraviny. Neexistuje žádný proces revize, žádné ověření proti referenčnímu zdroji a žádná nutriční odbornost není vyžadována. Uživatel, který špatně přečte nutriční štítek — mylně si vyloží "na porci" jako "na balení", zadá gramy místo uncí nebo vynechá desetinné tečky — vytvoří položku, kterou si pak může vybrat tisíce dalších uživatelů.
Schubart et al. (2011), ve studii publikované v Journal of Diabetes Science and Technology, zkontrolovali vzorek položek v crowdsourced databázích potravin a zjistili, že 25 % obsahovalo chyby přesahující 10 % referenční hodnoty kalorií a 8 % mělo chyby přesahující 50 %. Nejčastějšími typy chyb byly nesprávné velikosti porcí, transponované hodnoty makroživin a položky, které kombinovaly více potravin do jednoho záznamu.
2. Obrovské duplicitní položky
Když uživatel hledá běžnou potravinu ve velké crowdsourced databázi, je mu nabídnuto desítky nebo stovky položek pro stejný produkt, každá s jinými hodnotami kalorií. Uživatel si musí vybrat jednu, často bez znalosti toho, která je správná. To je problém duplicitních položek a je to největší zdroj chyb při sledování v crowdsourced databázích.
Zde je, co se stane, když hledáte 10 běžných potravin napříč čtyřmi aplikacemi:
| Potravina | MyFitnessPal (nalezené položky) | FatSecret (nalezené položky) | Cronometer (nalezené položky) | Nutrola (nalezené položky) |
|---|---|---|---|---|
| Banán, střední | 57 | 23 | 4 | 2 |
| Kuřecí prso, grilované, 100g | 83 | 31 | 5 | 2 |
| Bílá rýže, vařená, 1 šálek | 64 | 28 | 3 | 2 |
| Avokádo, celé | 45 | 19 | 4 | 2 |
| Vejce, velké, míchané | 72 | 26 | 5 | 3 |
| Olivový olej, 1 lžíce | 38 | 15 | 2 | 1 |
| Řecký jogurt, přírodní, 100g | 91 | 34 | 6 | 2 |
| Losos, pečený, 150g | 68 | 22 | 4 | 2 |
| Arašídové máslo, 2 lžíce | 54 | 20 | 3 | 2 |
| Ovesné vločky, vařené, 1 šálek | 49 | 18 | 3 | 2 |
Když uživatel hledá "kuřecí prso" v MyFitnessPal a vidí 83 výsledků, hodnoty kalorií napříč těmito položkami se pohybují od 110 do 220 kalorií na 100 gramů. Referenční hodnota USDA FoodData Central pro grilované kuřecí prso je 165 kalorií na 100 gramů. Uživatel, který si vybere špatnou položku — což je statisticky pravděpodobné vzhledem k 83 možnostem — může zaznamenat hodnotu, která je o 30-50 % od skutečné hodnoty.
3. Reformulace produktů nejsou sledovány
Výrobci potravin pravidelně reformulují produkty — mění receptury, ingredience a nutriční profily. Když je produkt reformulován, starý záznam v databázi se stává nepřesným. V crowdsourced databázi neexistuje mechanismus pro aktualizaci nebo odstranění zastaralých položek. Jak staré, tak nové verze přetrvávají a uživatel nemá způsob, jak zjistit, který odráží aktuální produkt.
Aktualizace štítku nutričních faktů FDA v roce 2020, která změnila velikosti porcí a přidala "přidané cukry" na štítky, vytvořila vlnu zastaralých položek napříč všemi crowdsourced databázemi. Produkty, které dříve uváděly 150 kalorií na porci, mohou nyní uvádět 200 kalorií pro stejný produkt podle nové definice velikosti porce. Oba záznamy přetrvávají v crowdsourced databázích i roky poté.
4. Regionální varianty vytvářejí zmatek
"Tim Tam" v Austrálii má jiný nutriční obsah než "Tim Tam" prodávaný ve Spojených státech. Tyčinka "Cadbury Dairy Milk" ve Spojeném království má jiný recept než stejný produkt v Indii. Crowdsourced databáze obsahují položky od uživatelů z celého světa, bez geografického označení, které by rozlišovalo regionální varianty. Uživatel v Londýně, který hledá "Cadbury Dairy Milk 45g", může vybrat položku zaslanou uživatelem v Bombaji, přičemž hodnoty kalorií se mohou lišit o 10-15 %.
5. Žádný proces deduplikace
Ověřené databáze jako USDA FoodData Central, NCCDB a databáze Nutrola mají explicitní procesy deduplikace. Když již potravinový produkt existuje, nová data aktualizují stávající položku místo toho, aby vytvářela paralelní záznam. Crowdsourced databáze tento mechanismus postrádají. Každé nové podání vytváří nový záznam, bez ohledu na to, kolik záznamů pro danou potravinu již existuje.
Jaký je spektrum ověřování?
Ne všechny databáze jsou stejně spolehlivé a rozdíl spočívá v metodologii ověřování. Databáze potravin existují na spektru od zcela neověřených po laboratorně ověřené.
| Úroveň ověřování | Popis | Příklady | Typická chyba kalorií |
|---|---|---|---|
| Crowdsourced (neověřené) | Jakýkoli uživatel může přidávat položky. Žádná revize nebo validace. | MyFitnessPal, FatSecret (uživatelsky přidané položky) | 15-30% |
| Polo-ověřené | Směs dat výrobců a uživatelských příspěvků. Některé položky jsou revidovány. | Lose It!, FatSecret (položky výrobců) | 10-20% |
| Ověřené vládou | Položky pocházející z národních databází složení potravin spravovaných vládními agenturami. | USDA FoodData Central, NCCDB, AUSNUT | 3-5% |
| Ověřené laboratoří a odborníky na výživu | Položky ověřené proti laboratorním analýzám a revidované odborníky na výživu. | Cronometer (zdroj NCCDB), Nutrola (ověřená databáze) | 2-5% |
USDA FoodData Central
USDA FoodData Central je databáze složení potravin Ministerstva zemědělství Spojených států. Obsahuje laboratorně analyzovaná nutriční data pro tisíce potravin, přičemž hodnoty jsou odvozeny z chemické analýzy vzorků potravin. Je to primární referenční standard používaný výzkumníky, dietology a ověřenými sledovacími aplikacemi. Databázi spravuje Úřad pro výzkum zemědělství USDA a pravidelně se aktualizuje o nové potraviny a revidované analytické hodnoty.
NCCDB (Nutrition Coordinating Center Food and Nutrient Database)
NCCDB je spravována Nutrition Coordinating Center na University of Minnesota. Je široce používána v klinickém výzkumu výživy a obsahuje více než 19 000 potravin s kompletními nutričními profily odvozenými z více analytických zdrojů. Cronometer používá NCCDB jako primární zdroj dat, což vysvětluje jeho vysokou přesnost navzdory menší celkové velikosti databáze.
AUSNUT (Australian Food, Supplement and Nutrient Database)
AUSNUT je spravována Food Standards Australia New Zealand (FSANZ) a obsahuje nutriční data pro potraviny konzumované v Austrálii, včetně místních a regionálních produktů, které nejsou pokryty databází USDA. Slouží jako referenční standard pro sledování výživy v Austrálii a na Novém Zélandu.
Jak kvalita databáze ovlivňuje dlouhodobé hubnutí?
Spojení mezi přesností databáze a výsledky hubnutí funguje prostřednictvím mechanismu důvěry a kalibrace. Když uživatel sleduje kalorie proti nepřesné databázi, vznikají dva problémy:
Problém 1: Neviditelný přebytek. Uživatel si myslí, že je v deficitu 500 kalorií, ale chyby databáze znamenají, že je ve skutečnosti na úrovni údržby nebo dokonce v mírném přebytku. Hubnutí se zastaví. Uživatel je frustrován, předpokládá, že přístup nefunguje, a zcela přestává sledovat. To je nejběžnější cesta od chyby databáze k selhání sledování.
Problém 2: Ztráta kalibrace. Během týdnů sledování si uživatelé vyvinou intuitivní pocit o velikostech porcí a obsahu kalorií — "mentální model" své stravy. Pokud databáze, která tento model krmí, není přesná, je mentální model špatně kalibrován. I poté, co uživatel přestane aktivně sledovat, si uchovává nesprávné předpoklady o tom, kolik kalorií jejich jídla obsahují.
Champagne et al. (2002), publikující v Journal of the American Dietetic Association, zjistili, že i školení dietologové podceňovali příjem kalorií v průměru o 10 %, když používali standardní databáze složení potravin. Pro nezaškolené uživatele spoléhající se na crowdsourced databáze s chybovostí 15-30 % může celková odhadovací chyba — chyba databáze kumulovaná s přirozenou chybou odhadu porcí — dosáhnout 30-50 %.
Jak Nutrola řeší problém přesnosti databáze?
Nutrola přistupuje k přesnosti databáze prostřednictvím čtyř mechanismů:
Ověřená databáze: Každý záznam potraviny je ověřen podle vládních a laboratorních referenčních zdrojů. Položky nejsou crowdsourced a nemohou být přidávány uživateli bez revize.
AI rozpoznávání fotografií s ověřeným vyhledáváním: Když uživatel vyfotí své jídlo, AI Nutrola identifikuje potravinové položky a porovná je s ověřenou databází — nikoli s crowdsourced seznamem. To zcela eliminuje problém výběru duplicitních položek. Uživatel nikdy nevidí 83 položek pro "kuřecí prso", protože AI vybírá jediný ověřený záznam.
Skenování čárových kódů s ověřením výrobce: Skenovač čárových kódů Nutrola dosahuje přesnosti rozpoznávání přes 95 % a získává nutriční data z ověřených zdrojů výrobců, které jsou porovnány s ověřenou databází pro konzistenci.
Nepřetržitá údržba databáze: Reformulace produktů, regionální varianty a nové potraviny jsou sledovány a aktualizovány v databázi. Zastaralé položky jsou odstraňovány, místo aby zůstávaly vedle novějších verzí.
AI Diet Assistant používá přesná data o kaloriích k poskytování personalizovaných doporučení a integrace s Apple Health a Google Fit zajišťuje, že data o cvičení automaticky upravují cíle kalorií — obě funkce závisí na přesných základních datech o potravinách, aby správně fungovaly.
Nutrola začíná na 2,50 EUR měsíčně s 3denní zkušební dobou. Na žádné úrovni nejsou reklamy.
Metodologie
Porovnání přesnosti v tomto příspěvku bylo provedeno výběrem 200 běžných potravin napříč pěti kategoriemi: čerstvé produkty (40 potravin), balené/známé zboží (60 potravin), restaurace (30 potravin), domácí pokrmy (40 potravin) a nápoje (30 potravin). Každá potravina byla vyhledána v každé aplikaci a zaznamenána byla kalorická hodnota nejlépe hodnocené nebo nejčastěji vybrané položky. Tyto hodnoty byly porovnány s referenční hodnotou USDA FoodData Central pro stejnou potravinu, připravenou stejným způsobem a měřenou ve stejné velikosti porce.
Počty duplicit byly měřeny vyhledáním každé z 100 nejčastěji sledovaných potravin (na základě publikovaných dat o používání aplikací) a počítáním počtu různých položek vrácených pro každou potravinu. "Položka" byla definována jako záznam s unikátní hodnotou kalorií — záznamy se stejnými hodnotami kalorií, ale různými názvy (např. "Banán" vs "Banán, syrový") byly počítány jako duplicity.
Chybové procenta představují absolutní rozdíl mezi hodnotou kalorií uvedenou v aplikaci a referenční hodnotou USDA, vyjádřenou jako procento referenční hodnoty. Rozsah (např. 15-30 %) představuje interkvartilový rozsah napříč všemi 200 testovanými potravinami, nikoli minimální a maximální hodnoty.
Často kladené otázky
Ví MyFitnessPal, že má problémy s přesností databáze?
MyFitnessPal zavedl systém ověřování zeleným zaškrtávacím políčkem pro některé položky, označující je jako "ověřené" zaměstnanci. Většina z 14 milionů položek však zůstává neověřená. Ověřené položky tvoří malý podset a uživatelé musí aktivně hledat zaškrtávací políčko při výběru potraviny. Strukturální problém — miliony neověřených položek koexistujících s malým počtem ověřených — přetrvává.
Je databáze USDA FoodData Central dokonalá?
Ne. Databáze USDA FoodData Central má své vlastní omezení. Primárně pokrývá potraviny konzumované ve Spojených státech. Nemusí odrážet regionální metody přípravy a její laboratorní hodnoty představují průměry napříč vzorky, které se mohou lišit podle sezóny, zdroje a podmínek pěstování. Nicméně, chybový rozsah pro data USDA je obvykle 1-3 % — o řád menší než chyby crowdsourced databází. Je to nejblíže ke zlatému standardu, který existuje pro data o složení potravin.
Proč aplikace používají crowdsourced databáze, když jsou méně přesné?
Měřítko a náklady. Vytvoření a údržba ověřené databáze potravin vyžaduje nutriční odbornost, přístup k referenčním zdrojům a průběžnou kuraci. Crowdsourcing umožňuje aplikaci rychle rozšířit svou databázi na miliony položek za minimální náklady. Pro společnost aplikace znamená větší databáze, že uživatelé častěji najdou to, co hledají, což snižuje tření chyb "potravina nenalezena". Kompromis je přesnost, ale tento kompromis je většinou neviditelný pro většinu uživatelů — nevědí, že hodnoty kalorií, které vybrali, jsou špatné.
Mohu používat MyFitnessPal přesně, pokud vybírám pouze ověřené položky?
Můžete zlepšit přesnost tím, že budete vybírat pouze položky s ověřeným zeleným zaškrtávacím políčkem a porovnávat hodnoty s USDA FoodData Central pro podezřelé čísla. Nicméně, to přidává značný čas k každému záznamu potraviny — což poráží účel rychlé sledovací aplikace. Také to předpokládá, že uživatel má nutriční znalosti k identifikaci, kdy se hodnota zdá být špatná, což většina uživatelů nemá.
Kolik kalorií mohou chyby databáze přidat k mému dennímu sledování?
Pro uživatele konzumujícího 2 000 kalorií denně a sledujícího všechna jídla: při 15-30 % chybě je denní chybovost sledování 300-600 kalorií. Během týdne to představuje 2 100-4 200 neúčtovaných kalorií. Libra tělesného tuku obsahuje přibližně 3 500 kalorií (Hall et al., 2012, International Journal of Obesity). Chyby databáze mohou samy o sobě vysvětlit rozdíl mezi ztrátou jedné libry týdně a žádnou ztrátou.
Pokrývá ověřená databáze Nutrola mezinárodní potraviny?
Ověřená databáze Nutrola pokrývá potraviny z několika národních databází složení potravin a je neustále rozšiřována, aby zahrnovala regionální a mezinárodní potraviny. Pokud potravina není v databázi, systémy AI pro rozpoznávání fotografií a hlasu odhadují nutriční hodnoty na základě podobných ověřených potravin a vizuálního odhadu porcí, přičemž záznam je označen pro revizi ověření.
Na co se mám zaměřit při výběru aplikace pro sledování kalorií na základě kvality databáze?
Tři ukazatele: (1) zdroj dat — zveřejňuje aplikace, odkud pocházejí její nutriční data? Aplikace používající USDA FoodData Central, NCCDB nebo ekvivalentní národní databáze jsou spolehlivější než ty, které se spoléhají výhradně na uživatelské příspěvky. (2) Počet duplicit — hledejte běžnou potravinu jako "banán" a počítejte výsledky. Méně výsledků s konzistentními hodnotami kalorií naznačuje lepší kuraci. (3) Proces ověřování — má aplikace mechanismus pro revizi a opravu položek, nebo může jakýkoli uživatel přidat jakoukoli hodnotu bez dohledu?
Je menší databáze problém, pokud moje potravina není uvedena?
Menší, ale ověřená databáze nemusí obsahovat každou obscurní značkovou položku. Kompromis je skutečný, ale zvládnutelný. Nutrola řeší mezery v pokrytí prostřednictvím AI rozpoznávání fotografií (které může odhadnout nutriční obsah pro potraviny, které nejsou v databázi, na základě vizuální analýzy a porovnání s podobnými potravinami), hlasového logování (které převádí popisy v přirozeném jazyce na složkové ingredience) a skenování čárových kódů (které přímo čte data výrobce). Cílem je ověřená přesnost pro každý existující záznam, s inteligentním odhadem pro položky, které dosud nejsou v databázi.
Reference
- Urban, L. E., Dallal, G. E., Robinson, L. M., Ausman, L. M., Saltzman, E., & Roberts, S. B. (2010). Přesnost uvedeného energetického obsahu snížených energetických, komerčně připravených potravin. Journal of the American Dietetic Association, 110(1), 116-123.
- Schubart, J. R., Stuckey, H. L., Ganeshamoorthy, A., & Sciamanna, C. N. (2011). Chronické zdravotní stavy a internetové behaviorální intervence. Journal of Diabetes Science and Technology, 5(3), 728-740.
- Champagne, C. M., Bray, G. A., Kurtz, A. A., et al. (2002). Příjem energie a výdej energie: kontrolovaná studie porovnávající dietology a nedietology. Journal of the American Dietetic Association, 102(10), 1428-1432.
- Hall, K. D., Heymsfield, S. B., Kemnitz, J. W., Klein, S., Schoeller, D. A., & Speakman, J. R. (2012). Energetická bilance a její složky: důsledky pro regulaci tělesné hmotnosti. International Journal of Obesity, 36(3), 431-439.
- USDA Agricultural Research Service. (2024). FoodData Central. Ministerstvo zemědělství Spojených států.
- Food Standards Australia New Zealand. (2022). AUSNUT 2011-13 Food Nutrient Database. FSANZ.
- Nutrition Coordinating Center. (2024). NCC Food and Nutrient Database. University of Minnesota.
Připraveni proměnit sledování výživy?
Přidejte se k tisícům, kteří svou cestu ke zdraví proměnili s Nutrola!