我们将50份餐食送往实验室,测试AI与标签及USDA数据的卡路里准确性
我们在食品科学实验室对50份真实餐食进行了专业分析,使用炸弹量热法,然后将结果与Nutrola的AI估算、营养标签和USDA参考数据进行了比较。结果让我们感到惊讶。
你所看到的每一个卡路里数字都是一个估算值。 无论是你蛋白棒上的营养标签,还是USDA对“烤鸡胸肉”的数据,亦或是你在追踪应用中拍摄午餐照片后得到的卡路里数字——它们都是你盘子上实际能量含量的近似值。没人问过的问题是:这些估算值的偏差有多大,哪个来源最接近现实?
我们决定找出答案。在三个月的时间里,Nutrola团队购买、准备或订购了50份真实餐食,拍摄了每一份,记录了标签和USDA数据库的数值,然后将相同的份量送往认证的食品科学实验室进行炸弹量热法分析——这是测量食品真实卡路里含量的金标准。
这篇文章展示了完整的结果。没有挑选,没有遗漏的异常值。每一餐,每一个数字,每一个惊喜。
我们为什么要这样做
营养行业建立在信任之上。消费者信任包装食品上的标签是准确的。营养师信任USDA参考数据反映真实的份量。应用开发者信任他们的数据库足够接近。然而,实际上很少有人将这些假设与实验室分析进行验证——而现有的研究往往只关注包装食品或单一营养成分。
我们希望获得更全面的视角。我们想知道每个主要的卡路里来源——标签、政府数据库和基于AI的照片估算——在真实用户常吃的各种食品中表现如何:包装零食、简单的全食品、自制菜肴、餐厅餐点和国际美食。我们还希望以同样的严格标准测试我们的产品Nutrola。
我们的目标不是证明Nutrola是完美的。它并不是。我们的目标是理解每个卡路里来源的优缺点,以及这对依赖这些数字来管理健康的数百万人的意义。
方法论
餐食选择
我们选择了50份餐食,分为五个类别,每个类别10份:
| 类别 | 示例 |
|---|---|
| 包装食品 | 蛋白棒、冷冻晚餐、罐装汤、谷物、酸奶杯 |
| 简单全食品 | 香蕉、生鸡胸肉、煮鸡蛋、糙米、鳄梨 |
| 自制菜肴 | 意大利肉酱面、鸡肉炒菜、扁豆汤、凯撒沙拉、香蕉煎饼 |
| 餐厅餐点 | 快餐汉堡、寿司拼盘、泰式绿咖喱、披萨片、卷饼碗 |
| 国际菜肴 | 印度黄油鸡、日本拉面、墨西哥玉米饼、埃塞俄比亚因杰拉拼盘、韩国拌饭 |
这些餐食在爱尔兰都柏林购买或准备,旨在代表真实用户常追踪的食品。我们故意包括了那些已知对数据库和AI系统来说较难估算的项目:重酱菜肴、油炸食品、多成分餐点,以及那些视觉上难以估算油或黄油含量的食品。
实验室分析
所有样本都送往一家ISO 17025认证的食品测试实验室。每份餐食都使用炸弹量热法进行分析,这是确定食品总能量含量的参考方法。
在炸弹量热法中,精确称量的食品样本被放置在一个密封的富氧腔室(“炸弹”)中点燃。完全燃烧过程中释放的热量通过周围的水夹套进行测量。得到的值以千卡为单位,代表食品中的总化学能量。然后应用一个修正因子,以考虑人体无法提取的能量部分(主要来自纤维),得出可代谢能量值——应该出现在营养标签上的数字。
每一份餐食都进行了三次独立分析,取其平均值作为实验室参考。所有样本的变异系数均低于2%,确认了高测量精度。
比较来源
对于每一份餐食,我们记录了来自四个来源的卡路里值:
- 实验室(炸弹量热法) — 真实值
- Nutrola AI — Nutrola的AI系统从餐食的单张照片生成的卡路里估算值,照片在正常光照下拍摄,使用标准餐盘,没有秤或参考物体
- 营养标签 — 包装上印刷的值(对于包装食品)或餐厅发布的卡路里计数(对于餐厅餐点)。对于全食品和自制菜肴,此列使用制造商标签(如有)或标记为N/A
- USDA FoodData Central — 通过查找USDA数据库中每种成分并根据测量的重量求和得到的值
对于自制菜肴,USDA值是通过在厨房秤上称量每种原料,查找USDA FoodData Central中的每克卡路里值并求和得出的——这是大多数认真记录者会使用的方法。
对于Nutrola AI估算,每份餐食仅拍摄了一次照片。我们没有重新拍摄照片、调整角度或提供任何额外的上下文,超出普通用户所能提供的。AI系统识别食物,估算份量,并返回卡路里值。
统计方法
准确性以**平均绝对百分比误差(MAPE)**表示——与实验室值的绝对百分比偏差的平均值,计算公式为:
MAPE = (1/n) * SUM(|估算值 - 实验室值| / 实验室值 * 100)
我们还报告了有符号平均误差(以显示系统性高估或低估)、误差的标准差和95%置信区间(在样本量允许的情况下)。
结果
整体准确性:所有50份餐食
| 来源 | 平均绝对误差(MAPE) | 有符号平均误差 | 标准差 | 95% MAPE置信区间 |
|---|---|---|---|---|
| Nutrola AI | 7.4% | -1.2% | 5.9% | 5.7% - 9.1% |
| USDA参考 | 8.1% | -2.8% | 6.7% | 6.2% - 10.0% |
| 营养标签* | 12.6% | +6.3% | 9.4% | 9.1% - 16.1% |
*营养标签数据适用于50份餐食中的30份(包装食品和部分餐厅餐点)。MAPE仅基于可用数据计算。
第一个重要发现是:营养标签显示出与实验室值的平均偏差最大,并且它们始终高估卡路里。 正的有符号平均误差+6.3%意味着标签平均声称的卡路里比实际食品含量要多。这与之前的研究一致,表明制造商倾向于向上取整而不是向下取整,以保持在FDA和欧盟的监管容忍范围内。
Nutrola的AI和USDA数据库在整体准确性上表现相当,Nutrola的MAPE略低(7.4%对比8.1%)。在这个样本量下,差异在统计上并不显著(p = 0.41,绝对误差的配对t检验)。然而,两者之间的误差模式在类别级别的细分中有显著不同。
按餐食类别的准确性
| 类别(每类n=10) | Nutrola AI MAPE | USDA MAPE | 标签 MAPE | 最佳来源 |
|---|---|---|---|---|
| 包装食品 | 6.2% | 4.8% | 9.7% | USDA |
| 简单全食品 | 4.1% | 3.2% | 11.4%* | USDA |
| 自制菜肴 | 7.9% | 6.4% | N/A | USDA |
| 餐厅餐点 | 8.6% | 14.2% | 16.8% | Nutrola AI |
| 国际菜肴 | 10.1% | 15.7% | N/A | Nutrola AI |
这就是故事变得有趣的地方。
对于包装食品和简单全食品,USDA数据库胜出。 这很合理。USDA数据源于对标准化食品项目的实验室分析。当你吃一个简单的煮鸡蛋或生香蕉时,USDA值本质上就是实验室结果本身,它与我们的独立实验室发现非常接近。
对于餐厅餐点和国际菜肴,Nutrola的AI以较大优势超越了USDA和公布的卡路里计数。 餐厅餐点的USDA MAPE为14.2%,而Nutrola为8.6%。原因很简单:USDA数据描述的是理想化的成分,而不是餐厅厨房实际放在盘子上的东西。USDA对“鸡肉照烧饭”的估算无法考虑厨师使用的油量、酱汁的浓稠度或实际的份量——但一个分析你面前实际盘子的视觉AI系统可以做到这一点。
十个最大的惊喜
这些单独的餐食在至少一个来源与实验室值之间产生了最大的差距:
| 餐食 | 实验室(千卡) | Nutrola AI | 标签 | USDA | 最大误差来源 | 误差 |
|---|---|---|---|---|---|---|
| 餐厅泰式炒米粉 | 738 | 692 | 520* | 584 | 标签 | -29.5% |
| 冷冻“瘦”千层面 | 412 | 388 | 310 | 395 | 标签 | -24.8% |
| 黄油鸡配印度饼 | 943 | 874 | N/A | 716 | USDA | -24.1% |
| 包装混合坚果(1份) | 287 | 264 | 230 | 271 | 标签 | -19.9% |
| 自制凯撒沙拉 | 486 | 421 | N/A | 347 | USDA | -28.6% |
| 快餐双层芝士汉堡 | 832 | 898 | 740 | 780 | 标签 | -11.1% |
| 韩国拌饭 | 687 | 742 | N/A | 531 | USDA | -22.7% |
| 罐装番茄汤(1罐) | 189 | 202 | 180 | 184 | Nutrola AI | +6.9% |
| 日本豚骨拉面 | 891 | 824 | N/A | 648 | USDA | -27.3% |
| 意大利肉酱面(自制) | 623 | 581 | N/A | 527 | USDA | -15.4% |
*餐厅公布的卡路里计数。
从这些异常值中可以看出几个模式:
餐厅公布的卡路里计数是最不可靠的。 泰式炒米粉在餐厅菜单上标示为520千卡,实验室实际测得738千卡——低估了29.5%。这并不罕见。2013年发表在《美国医学会杂志》上的一项研究发现,餐厅餐点的卡路里平均比标示值多出18%,有些甚至超过其公布值的30%。
USDA数据系统性低估了高热量的预制食品。 黄油鸡、拌饭、拉面、肉酱面和凯撒沙拉在通过USDA成分查找时均显示出较大的负误差。共同点在于烹饪脂肪。USDA对“植物油”或“黄油”的条目在每克上是准确的,但在烹饪中实际使用的脂肪量——尤其是在餐厅和国际菜肴中——是非常难以估算的。自制的凯撒沙拉酱可能包含3-4汤匙的油,这在与生菜混合后几乎不可见。
Nutrola的AI倾向于低估高脂肪菜肴,而对简单食品略有高估。 餐厅餐点的有符号误差为-3.8%(轻微低估),而简单全食品显示出+1.9%的有符号误差(轻微高估)。这表明AI在估算添加脂肪时相对保守——这是任何视觉估算系统的已知挑战,因为在油炸过程中吸收的油在表面上是不可见的。
标准差和一致性
原始准确性重要,但一致性同样重要。一个每次偏差5%的来源比一个一半时间偏差0%、另一半时间偏差30%的来源更有用。
| 来源 | 误差的标准差 | 范围(最小到最大误差) | %的餐食在实验室值的10%以内 |
|---|---|---|---|
| Nutrola AI | 5.9% | -12.4%到+8.7% | 74% (37/50) |
| USDA参考 | 6.7% | -28.6%到+4.1% | 62% (31/50) |
| 营养标签 | 9.4% | -29.5%到+14.2% | 53% (16/30) |
Nutrola AI显示出最低的标准差和所有三个来源中最紧密的误差范围。74%的Nutrola估算值在实验室值的10%以内,而USDA为62%,营养标签为53%。这种一致性优势意味着,即使AI出错,它的偏差通常也是可预测的小幅度——这对追踪每周卡路里趋势的人来说,可能比偶尔的完美准确性和大幅偏差更有价值。
宏观营养素分解准确性
我们还对20份餐食的宏观营养素估算(蛋白质、脂肪、碳水化合物)与实验室值进行了比较。结果强化了卡路里发现:
| 宏观营养素 | Nutrola AI MAPE | USDA MAPE | 标签 MAPE |
|---|---|---|---|
| 蛋白质 | 8.2% | 6.1% | 10.8% |
| 脂肪 | 11.4% | 12.7% | 14.1% |
| 碳水化合物 | 6.8% | 5.9% | 9.3% |
脂肪估算是所有来源中的薄弱环节。这是可以预期的:脂肪含量是视觉上最难评估的宏观营养素(对于AI而言),也是准备过程中变化最大的(对于数据库而言)。多一汤匙的烹饪油或少一汤匙都会增加大约14克脂肪和120卡路里,而无论是相机还是数据库条目都无法完全捕捉这种变化。
关键发现
1. 营养标签利用其监管容忍度——非常慷慨
在美国,FDA允许营养标签的卡路里值与标示值偏差高达20%,只要实际值不超过标签值的20%即可视为合规。欧盟也适用类似的容忍框架。我们的数据表明,制造商对此容忍度非常清楚,并且策略性地利用它。
在我们研究的20种包装食品和标示餐厅餐点中,14种(70%)相对于实验室值低估了卡路里。平均低估为8.9%。只有4种餐食(20%)高估了卡路里,其中2种与实验室值相差不超过2%。
这种方向性偏差并非偶然。低估卡路里使产品看起来“更轻”,对健康意识强的消费者更具吸引力。一份声称310千卡但实际含412千卡的冷冻餐(如我们发现的某款“瘦”千层面)可以在减肥友好的货架上占有一席之地,同时提供的能量远超广告宣传。
对于依赖标签维持卡路里赤字的人来说,这种系统性的低估是一个严重问题。如果你的标签平均偏差为-8.9%,而你每天吃三份标示餐食,目标为1,800千卡,那么你实际摄入的卡路里可能接近1,960千卡——这足以将你计划中的500卡路里赤字几乎减半。
2. USDA数据在原料方面表现出色,但在预制食品方面挣扎
USDA FoodData Central数据库是一个了不起的资源。对于简单的未加工食品——如香蕉、鸡胸肉、一杯米饭——它的准确性极高。我们的数据表明,简单全食品的MAPE仅为3.2%,几乎与重复的实验室测量相当。
但一旦开始烹饪,USDA的准确性就会下降。对于自制菜肴,MAPE上升至6.4%。对于餐厅餐点,跳升至14.2%。对于国际菜肴,达到15.7%。
问题不在于数据库本身,而在于数据库条目与现实世界准备之间的差距。USDA对“炒蔬菜”的条目假设了特定的油量、特定的烹饪时间和特定的蔬菜组合。而你的炒菜——或者你当地泰餐馆提供的炒菜——可能使用了两倍的油,包含了更油腻的蔬菜,并且份量更大。数据库无法考虑这些变异;它只能描述一个平均值。
这对那些通过称量成分并在数据库中查找来追求“准确”记录的手动追踪者有重要意义。这种方法在简单的家庭烹饪中效果很好,但在外出就餐、外卖或烹饪成分不确定的食谱时就不那么可靠了。
3. AI照片估算比预期更准确——尤其是对于现实生活中的餐食
在进行这项研究之前,我们内部的假设是Nutrola的AI在简单食品方面表现良好,而在复杂餐食方面表现不佳。数据部分支持并部分反驳了这一点。
如预期,AI在简单全食品上的最佳表现为4.1% MAPE。香蕉看起来就是香蕉,AI的训练数据包含了数千张已知重量和卡路里值的香蕉图像。
让我们感到惊讶的是,AI在餐厅和国际餐点上的相对表现。Nutrola在这两个类别中的MAPE分别为8.6%和10.1%,显著优于USDA的14.2%和15.7%。AI在这些类别中似乎受益于几个优势:
- 通过视觉线索估算份量大小。 AI利用盘子、碗和餐具作为参考物体来估算食物体积,从而捕捉到实际提供的份量,而不是假设的“标准份量”。
- 酱汁和配料检测。 该模型经过训练,能够识别可见的酱汁、光泽、融化的奶酪和其他高热量的配料,而这些在数据库查找中可能被忽略。
- 特定菜系的校准。 Nutrola的训练数据包括数以万计的餐厅和国际菜系的标记图像,使模型能够学习特定菜系的模式(例如,一碗拉面通常含有比其汤底外观所暗示的更多脂肪)。
尽管如此,AI并不完美。它的弱点主要出现在隐藏脂肪上——油在油炸食品中被吸收、黄油融入酱汁、奶油搅拌入汤中。这些卡路里在物理上存在,但在视觉上无法检测到,代表了任何基于相机的系统在没有额外用户输入的情况下所能达到的上限。
4. 隐藏的卡路里罪魁祸首
在所有50份餐食中,所有方法(包括AI)估算误差的最大来源是添加的烹饪脂肪。在准备过程中使用的油、黄油、酥油、奶油和其他脂肪占据了大部分大的偏差。
以自制凯撒沙拉为例。我们的实验室测量为486千卡。USDA的估算为347千卡——低估了28.6%。这个差距几乎完全归因于沙拉酱:自制的凯撒沙拉酱包含橄榄油、蛋黄、帕尔马干酪和凤尾鱼酱。USDA的估算使用了“标准”沙拉酱量,但实际份量要慷慨得多。
同样,黄油鸡在实验室测得943千卡,而USDA为716千卡——低估了24.1%,主要是由于餐厅食谱中使用的黄油和奶油量远超标准数据库条目所假设的量。
这些发现呼应了营养科学中的一个公认原则:脂肪是热量密度最高的宏观营养素(9千卡/克,而蛋白质和碳水化合物为4千卡/克),也是最难准确估算的。 脂肪估算的小误差会产生大的卡路里误差。任何估算方法错过的一汤匙油都会增加119个未计算的卡路里。
这对日常追踪者意味着什么
如果你正在追踪卡路里以管理体重,这些发现有几个实际意义:
不要假设你的标签是绝对准确的。 营养标签是有用的起点,但它们可能低估实际卡路里含量10-20%或更多,尤其是对于包装餐食和餐厅公布的计数。如果你的体重减轻停滞,而你正“完全”按照标签所示的饮食,这种隐藏的盈余可能就是解释。
USDA查找对于简单的家庭自制餐食最为可靠。 如果你在家做饭,称量原料,并主要使用全食品,基于USDA的追踪方法可以非常准确。你的餐食越复杂、越受餐厅影响,这种方法的可靠性就越低。
AI照片追踪为现实饮食提供了最佳平衡。 对于那些吃混合的自制、餐厅和包装餐食的人——这描述了大多数成年人——像Nutrola这样的基于AI的系统在各个类别中提供了最一致的准确性。它不会超越为普通鸡胸肉进行精确称量的USDA查找,但在你周五晚上点的泰式炒米粉上,它会显著超越这种方法。
始终对高脂肪餐食保持警惕。 无论你使用何种追踪方法,涉及油炸、重酱汁、奶油、黄油或奶酪的菜肴最有可能被低估。在不确定时,可以为看起来或尝起来丰富的餐食添加一个小的缓冲(50-100千卡)。在Nutrola中,你也可以在审核后手动调整AI的估算,系统会随着时间的推移从你的修正中学习。
一致性比完美更重要。 我们的数据表明,Nutrola的最大优势不在于平均准确性,而在于一致性——最低的标准差和最高的估算值在实验室值10%以内的比例。对于长期追踪,一个可靠地偏差5-7%的系统比一个有时完美、有时偏差25%的系统更有用。一致的偏差可以被考虑;不稳定的误差则无法处理。
限制
我们希望对这项研究的局限性保持透明:
- 样本量。 五十份餐食足以识别模式,但在每个子类别中并不足以得出明确的统计结论。每个类别仅包含10份餐食。更大的研究将提高对类别级别发现的信心。
- 单一地理区域。 所有餐食均在爱尔兰采购。餐厅的份量、烹饪习惯和原料采购因国家甚至城市而异。结果在其他地区可能会有所不同。
- 仅测试单一AI系统。 我们只测试了Nutrola的AI。其他基于AI的卡路里追踪器可能表现不同。我们鼓励竞争产品进行并发布类似的分析。
- 照片条件。 所有照片均由熟悉食品摄影最佳实践的团队成员拍摄。普通用户在光线较差的情况下匆忙拍摄的照片可能会导致AI准确性略有下降。
- 炸弹量热法测量的是总能量。 尽管已对可代谢能量进行了修正,但个体在消化和吸收方面的差异意味着任何特定人从食品中提取的“真实”卡路里可能与实验室值相差几个百分点。
结论
你盘子上的卡路里数字始终是一个估算——但并非所有估算都是一样的。
营养标签,尽管看起来官方,却是我们测试的最不准确的来源,存在系统性低估卡路里的倾向。USDA数据对于简单、生鲜和家庭自制食品表现出色,但在餐厅烹饪和国际美食的复杂现实中却挣扎。基于AI的照片追踪,正如Nutrola所实现的,在人们实际食用的各种食品中提供了最一致的表现,整体准确性为与实验室值的平均绝对偏差7.4%。
没有任何追踪方法是完美的。那些让AI困惑的食物同样会让数据库和标签困惑——重酱汁、油脂丰富和多成分的餐食仍然是任何系统最难估算的。但对于想要可靠、低努力方式来理解自己饮食的日常追踪者来说,数据表明,一个经过良好训练的AI观察你实际的盘子,更接近真相,而不是在工厂印刷的标签或为理想化食谱撰写的数据库条目。
Nutrola的原则是,准确性不应需要付出努力。你只需拍照,AI就会完成工作。这项研究是我们对这一承诺的问责方式——并与信任我们营养数据的人分享结果,包括我们的不足之处。
如果你想亲自尝试Nutrola,计划从每月2.50欧元起,所有层级均无广告。我们宁愿通过准确的数据赢得你的信任,而不是将你的注意力出售给广告商。
本研究的原始数据表可应要求提供给希望进行自己分析的研究人员、记者和营养师。请通过research@nutrola.com与我们联系。