AI卡路里追踪准确性:我们测试了20种菜系的500道菜
哪些菜系在AI照片追踪中表现最好,哪些又最差?我们使用Nutrola的Snap & Track测试了来自20种不同菜系的500道菜,以了解AI的优势和不足。
大多数AI食品识别模型主要针对西方食品进行训练。 这意味着洛杉矶熟食店的烤鸡沙拉和纽约的意大利香肠披萨几乎能被完美识别,而一碗埃塞俄比亚的doro wat或一盘菲律宾的sisig可能让算法感到困惑。我们想确切了解这种准确性差距有多大,因此进行了一个控制测试:500道真实菜肴,20种菜系,每道菜都经过称重并与营养师计算的数值进行交叉验证。以下是我们的发现。
方法论:我们如何测试500道菜
我们设计这项研究尽可能接近真实世界的条件。具体步骤如下:
- 总共500道菜,每种菜系25道,来自餐厅和家庭厨房。
- 选择20种菜系,以代表广泛的地理和烹饪范围。
- 每道菜在标准条件下拍摄——自然光照、单一盘子、俯视和45度角——使用智能手机相机(没有专业摄影设备)。
- 每道菜还在经过校准的厨房秤上称重,并由注册营养师分解其成分,以生成参考卡路里值。
- 将照片提交给Nutrola的Snap & Track AI进行卡路里估算。
- 我们将AI估算与营养师参考值进行比较,并测量:平均卡路里偏差(以百分比表示)、食品识别率(AI是否正确命名菜肴或其主要成分),以及落在参考值10%和15%以内的菜肴比例。
这不是一项实验室研究,我们也不声称具备临床级精度。但500道菜的数据足以揭示AI食品识别的优势和不足之处。
测试的20种菜系
我们根据三个标准选择菜系:全球受欢迎程度、烹饪方法的多样性,以及在AI训练数据中未被充分代表的食品类别。
- 美国
- 意大利
- 墨西哥
- 中国
- 日本
- 韩国
- 印度
- 泰国
- 越南
- 中东 / 黎巴嫩
- 土耳其
- 希腊
- 埃塞俄比亚
- 尼日利亚
- 巴西
- 法国
- 德国
- 西班牙
- 菲律宾
- 加勒比
每种菜系均由25道菜代表,涵盖该菜系的多样性——开胃菜、主菜、配菜和街头食品。我们故意包括了既“上镜”的菜肴(寿司拼盘、单个玉米饼)也包括了具有挑战性的菜肴(咖喱、炖菜、焗菜)。
完整结果:按准确性排名的20种菜系
以下是结果,按平均卡路里偏差从高到低排名:
| 排名 | 菜系 | 测试菜肴 | 平均卡路里偏差 | 食品识别率 | 落在10%以内 | 落在15%以内 |
|---|---|---|---|---|---|---|
| 1 | 日本 | 25 | 5.8% | 96% | 84% | 96% |
| 2 | 美国 | 25 | 6.2% | 98% | 80% | 92% |
| 3 | 意大利 | 25 | 6.5% | 96% | 80% | 92% |
| 4 | 韩国 | 25 | 7.1% | 92% | 76% | 88% |
| 5 | 德国 | 25 | 7.4% | 92% | 72% | 88% |
| 6 | 希腊 | 25 | 7.9% | 88% | 68% | 84% |
| 7 | 法国 | 25 | 8.3% | 88% | 64% | 84% |
| 8 | 西班牙 | 25 | 8.6% | 88% | 64% | 80% |
| 9 | 墨西哥 | 25 | 9.1% | 84% | 60% | 80% |
| 10 | 越南 | 25 | 9.4% | 84% | 60% | 76% |
| 11 | 巴西 | 25 | 9.8% | 80% | 56% | 76% |
| 12 | 土耳其 | 25 | 10.2% | 80% | 52% | 72% |
| 13 | 中国 | 25 | 10.7% | 80% | 48% | 72% |
| 14 | 中东 | 25 | 11.3% | 76% | 48% | 68% |
| 15 | 菲律宾 | 25 | 12.1% | 72% | 44% | 64% |
| 16 | 加勒比 | 25 | 12.8% | 68% | 40% | 60% |
| 17 | 尼日利亚 | 25 | 13.4% | 64% | 36% | 56% |
| 18 | 泰国 | 25 | 13.9% | 68% | 36% | 56% |
| 19 | 印度 | 25 | 14.6% | 64% | 32% | 52% |
| 20 | 埃塞俄比亚 | 25 | 15.8% | 56% | 28% | 48% |
所有500道菜的整体平均值: 9.8%卡路里偏差,78%食品识别率,56%落在10%以内,74%落在15%以内。
最准确的5种菜系(及原因)
1. 日本(平均偏差5.8%)
日本料理无疑是世界上最适合AI的菜系。寿司卷、生鱼片、天妇罗和便当将食物呈现为视觉上独特、分开摆放的项目。米饭通常作为明确的份量提供。AI可以计算数量、估算大小,并与丰富的训练数据库进行匹配。日本的饮食文化也倾向于标准化的呈现——一家餐厅的加州卷与另一家几乎一模一样。
表现最佳的菜肴: 鳗鱼寿司(3.2%偏差)、毛豆(2.9%)、饭团(4.1%)
表现最差的菜肴: 拉面(11.4%——汤的卡路里难以估算)、大阪烧(9.8%)
2. 美国(平均偏差6.2%)
美国食品受益于两个主要优势:在AI训练数据中的大量代表性和高比例的包装、标准化或连锁餐厅食品。一个巨无霸在任何地方看起来都一样。热狗的尺寸可预测。沙拉通常由可识别、分开的成分组成。即使是美国家庭烹饪——汉堡、烤鸡、烤土豆——也由视觉上独特的组成部分构成。
表现最佳的菜肴: 汉堡(3.8%)、烤鸡胸肉(4.1%)、凯撒沙拉(5.2%)
表现最差的菜肴: 焗菜(12.3%)、丰盛的玉米片(10.9%)
3. 意大利(平均偏差6.5%)
意大利菜因与日本相似的原因而得分较高——许多菜肴具有标准化、视觉上可识别的形式。玛格丽塔披萨、意大利面、卡普雷塞沙拉和意大利烩饭都是视觉上独特且在食品图像数据集中占有很大比例的菜肴。意大利面的形状是可识别的,配料通常位于菜肴顶部而不是混合在一起。
表现最佳的菜肴: 玛格丽塔披萨(3.5%)、卡普雷塞沙拉(4.0%)、意式面包(4.8%)
表现最差的菜肴: 千层面(11.2%——分层菜肴隐藏了奶酪和肉)、意大利培根面(9.6%——奶油和鸡蛋含量变化)
4. 韩国(平均偏差7.1%)
韩国菜的排名让我们感到惊讶,位列第四。关键因素是:韩国餐通常作为多个小菜(banchan)与主菜一起上桌,这使得单个菜肴的识别更容易。拌饭将配料分开放在米饭上。紫菜包饭切成可识别的圆片。泡菜和腌制的小菜视觉上也很独特。
表现最佳的菜肴: 紫菜包饭(4.2%)、拌饭(5.8%)、泡菜(3.1%)
表现最差的菜肴: 炖菜(12.7%)、酱汁拌年糕(10.1%)
5. 德国(平均偏差7.4%)
德国菜以大而视觉上独特的菜肴为特点——香肠、炸肉排、椒盐卷饼、土豆饺子——这些都很容易被AI识别和测量。盘子通常由分开的成分组成,而不是混合菜肴。不同类型的香肠在视觉上是可区分的,面包产品的形状和大小也很标准。
表现最佳的菜肴: 香肠(4.5%)、椒盐卷饼(4.9%)、炸肉排(6.2%)
表现最差的菜肴: 一锅菜(11.8%)、土豆沙拉(9.4%——不同调料变化)
最不准确的5种菜系(及原因)
20. 埃塞俄比亚(平均偏差15.8%)
埃塞俄比亚菜在每个指标上都是AI面临的最大挑战。核心问题是:以injera为基础的餐点将多种炖菜(wats)和蔬菜菜肴一起放在一个大平面饼上,通常会重叠和混合。AI难以确定一道菜的边界。doro wat、misir wat和kitfo在视觉上相似——都是深色、酱汁丰富的菜肴,表面特征很少。黄油(niter kibbeh)和油的含量在酱汁下是看不见的。
低食品识别率(56%)反映了训练数据中的真实差距。埃塞俄比亚食品在全球食品图像数据集中仍然代表不足。
19. 印度(平均偏差14.6%)
印度菜呈现出AI面临的完美风暴。咖喱的光学不透明性——照片无法揭示黄油鸡中有多少酥油、奶油或椰奶。Dal的卡路里范围从150到400卡路里不等,具体取决于调味油(tadka)。酱汁在不同菜肴中看起来相似:korma、tikka masala和rogan josh在照片中几乎无法区分,但卡路里却相差数百。
面包也是一个变量。普通roti大约100卡路里;餐厅的黄油naan可能超过300卡路里。它们在照片中看起来相似,但卡路里差异巨大。
酥油因素: 许多印度菜肴最后会加入大量酥油,搅拌后变得不可见。我们的营养师参考值显示,酥油和油在许多菜肴中占总卡路里的25-40%——这些卡路里是AI根本无法看到的。
18. 泰国(平均偏差13.9%)
泰国菜面临与印度食品相似的许多挑战:基于椰奶的咖喱,隐藏的脂肪含量,油量变化的炒菜,以及掩盖成分的酱汁。绿咖喱的卡路里范围从300到600卡路里不等,具体取决于椰奶的比例。泰式炒河粉的卡路里计数因罗望子酱、花生和油而大幅波动——这些成分在菜肴中分布而不是显而易见。
鱼露和糖这两种泰国调味品增加了在照片中完全看不见的卡路里。
17. 尼日利亚(平均偏差13.4%)
尼日利亚菜面临两个挑战:训练数据的代表性有限和高卡路里的烹饪方法。炒饭在烹饪过程中吸收的油在表面上不可见。Egusi汤由磨碎的瓜子和棕榈油制成,都是高卡路里的成分,混合在菜肴中。捣山药(fufu)是一种卡路里密集的淀粉,看起来却轻盈。
AI在区分不同的尼日利亚汤时遇到困难——ogbono、egusi和秋葵汤在照片中看起来相似,但由于棕榈油和种子含量的变化,卡路里却有显著差异。
16. 加勒比(平均偏差12.8%)
加勒比菜结合了许多最棘手的元素:隐藏脂肪的炖肉(牛尾、咖喱山羊)、基于椰奶的米饭、油吸收变化的炸香蕉,以及像pelau这样的单锅菜肴。AI在烤鸡(可见的烤痕、可识别的形状)上表现良好,但在棕色炖菜和咖喱菜肴上表现不佳,因为酱汁掩盖了蛋白质。
隐藏卡路里问题:哪些菜系最容易欺骗AI
这次测试的一个重要发现是我们称之为“隐藏卡路里差距”的现象——AI能看到的与实际菜肴中存在的卡路里之间的差异。我们通过查看哪些菜系在AI估算与实际卡路里计数之间存在最大差距来测量这一点,这主要是由于看不见的脂肪和油造成的。
| 菜系 | 平均隐藏脂肪卡路里(每道菜) | 隐藏脂肪占总卡路里的百分比 | AI因隐藏脂肪低估的比例 |
|---|---|---|---|
| 印度 | 187 kcal | 34% | -22% |
| 埃塞俄比亚 | 165 kcal | 31% | -20% |
| 泰国 | 152 kcal | 29% | -18% |
| 尼日利亚 | 148 kcal | 28% | -17% |
| 中国 | 134 kcal | 24% | -14% |
| 中东 | 128 kcal | 23% | -13% |
| 加勒比 | 124 kcal | 22% | -12% |
| 菲律宾 | 118 kcal | 21% | -11% |
| 土耳其 | 112 kcal | 20% | -10% |
| 巴西 | 98 kcal | 17% | -8% |
模式很明显:依赖于烹饪油、酥油、椰奶和坚果酱的菜系系统性地欺骗AI卡路里追踪器,使其低估。这并不是Nutrola独有的缺陷——这是基于照片的卡路里估算的根本限制。相机无法看到溶解的脂肪。
实际意义: 如果你经常吃表格上半部分的菜系,你应该预期AI估算偏低,并考虑对酱汁丰富和炖菜类的菜肴进行10-20%的手动修正。
Nutrola如何提高对未被充分代表的菜系的准确性
我们发布这些数据并不是为了为表现不佳辩护——我们发布它是因为透明度推动改进。以下是我们正在积极采取的措施:
扩大对未被充分代表的菜系的训练数据
我们的图像训练流程历来偏向于北美和欧洲食品。我们正在积极与南亚、西非、东非、东南亚和加勒比地区的食品摄影师和食谱数据库合作,以大幅扩展我们对在食品识别中得分低于80%的菜系的训练集。
区域食品数据库合作
卡路里估算的准确性取决于其背后的营养数据。我们正在与印度、尼日利亚、埃塞俄比亚和泰国的营养研究机构建立合作关系,以整合区域特定的营养数据。在德里制作的“黄油鸡”的卡路里与英国外卖版本不同,我们的数据库需要反映这一点。
菜系特定的AI提示
当Nutrola的AI检测到某种菜系(例如,印度、泰国、埃塞俄比亚)时,它现在会应用特定于菜系的修正因子。如果系统识别出咖喱,它会自动向上调整以考虑可能的隐藏脂肪。这不是完美的解决方案,但我们的内部测试显示,它将印度食品的平均偏差从14.6%降低到11.2%,将泰国食品的平均偏差从13.9%降低到10.8%。
用户反馈循环
每当Nutrola用户手动修正AI估算时,该修正会反馈到我们的模型中。拥有更多活跃用户基础的菜系改进得更快。我们还在进行针对性的活动,以招募来自未被充分代表的菜系地区的用户来帮助训练模型。
用户追踪国际食品的技巧
根据这些数据,以下是追踪非西方菜系时获取最准确结果的实用策略:
1. 为酱汁丰富的菜系添加“隐藏油”缓冲
如果你在吃印度、泰国、埃塞俄比亚、尼日利亚或中国食品,请对任何含有可见酱汁或肉汁的菜肴将AI估算增加10-15%。这一单一调整可以弥补大部分准确性差距。
2. 尽可能拍摄单独成分
与其拍摄整个埃塞俄比亚共享拼盘,不如尽量单独拍摄每道wat。与其拍摄完整的thali,不如分别捕捉每个碗。当AI能够隔离单独菜肴时,表现会显著更好。
3. 使用手动调整功能
Nutrola允许你在扫描后上下调整AI估算。对于你经常吃的菜肴使用此功能——一旦你知道当地泰国餐厅的绿咖喱比AI估算高出约15%,你可以每次都应用该修正。
4. 与已知食谱交叉参考
如果你在家烹饪国际食品,请一次性记录确切的食谱(包括所有油和酥油)。将其保存为Nutrola中的自定义餐点。从那时起,你可以即时记录,确保准确性,而不是依赖照片估算。
5. 注意“卡路里相似物”
某些菜肴在照片中看起来几乎相同,但卡路里却大相径庭。naan与roti。椰奶咖喱与番茄咖喱。炸香蕉与煮香蕉。当AI给出估算时,仔细检查它是否识别了正确的制作方法。
6. 单独追踪饮料
许多国际菜系包括高卡路里的饮料——芒果拉西、泰式冰茶、horchata、尼日利亚zobo——如果它们在画面边缘,AI可能会漏掉。单独拍摄饮料以获得最佳结果。
这对AI食品追踪的未来意味着什么
这次测试揭示了AI卡路里追踪取得的进展以及仍需努力的方向。对于那些视觉上独特、文献资料丰富的菜系——日本、美国、意大利、韩国——AI照片追踪已经相当准确,与营养师的手动评估相差6-7%。这足以在日常追踪中真正有用。
对于那些隐藏脂肪、菜肴重叠且训练数据有限的菜系——印度、埃塞俄比亚、泰国、尼日利亚——存在一个用户应当意识到的显著准确性差距。这个差距并不足以使AI追踪对这些菜系无用,但足以在你试图维持精确卡路里赤字时产生影响。
好消息是,这个问题是可以解决的。它根本上是一个数据问题,而不是算法问题。随着训练数据集的扩展和区域营养数据库的改进,未被充分代表的菜系的准确性将与表现最佳的菜系趋于一致。Nutrola的目标是在2026年底之前将所有20种菜系的平均偏差缩小到8%以下。
在此期间,AI估算、用户意识和手动修正的结合可以达到足够的准确性,足以进行有意义的营养追踪——无论你吃的是什么菜系。
Nutrola的Snap & Track功能在所有计划中均可用,起价仅为每月2.50欧元,无广告,全面访问我们不断改进的AI食品识别引擎。我们的用户拍摄的菜肴越多,系统对所有人的智能化程度就越高。
方法论说明:本测试由Nutrola团队于2026年3月内部进行。参考卡路里值由两位注册营养师独立计算,差异通过共识解决。所有AI估算均使用Nutrola v3.2中的Snap & Track功能生成。我们计划每季度重复此测试并发布更新结果。