Gemini AI能追踪你的卡路里吗?我们将其与专用应用进行了测试
我们让Gemini和ChatGPT估算30餐的卡路里,然后将结果与Nutrola和称重的食物参考进行比较。准确性差距超出预期。
随着AI聊天机器人逐渐融入日常生活,一个自然的问题随之而来:你是否可以仅仅询问Gemini或ChatGPT来追踪你的卡路里,而不需要使用专用的营养应用? 我们对此进行了直接测试。在两周的时间里,我们让Google Gemini和OpenAI ChatGPT估算30种不同餐点的卡路里和营养成分,这些餐点从简单的单一成分食物到复杂的餐厅菜肴不等。我们将他们的估算结果与两个基准进行比较:Nutrola的经过验证的食品数据库条目和使用USDA FoodData Central值计算的称重食物参考。
结果揭示了使用通用AI聊天机器人进行营养追踪的基本局限性,这些局限性是结构性的,而非暂时性的,意味着未来的模型更新不太可能完全解决这些问题。
我可以使用Gemini来计数卡路里吗?
你可以询问Gemini估算一餐的卡路里,它会给出答案。问题在于,这个答案是否足够准确和一致,以支持实际的饮食管理。根据我们的测试,答案是否定的,尤其是在需要可靠性的情况下。
测试方法: 我们准备或购买了30餐,涵盖了不同的复杂程度。每餐都在经过校准的厨房秤上称重,参考卡路里值是使用USDA FoodData Central的营养数据计算得出的。然后,我们用自然语言向Gemini(谷歌的AI助手)描述每餐,就像真实用户一样,并记录其卡路里估算。我们对ChatGPT(GPT-4o)进行了相同的测试,并使用照片识别和数据库查找在Nutrola中记录每餐。
准确性定义: 我们将估算定义为“准确”,如果它在称重参考值的10%范围内,这是一项在饮食评估研究中使用的标准阈值(Subar et al., The Journal of Nutrition, 2015)。
AI聊天机器人在卡路里计数方面的准确性如何?
结果在餐点类别之间是一致的:通用AI聊天机器人提供的粗略估算不够可靠,无法用于卡路里控制饮食。
| 指标 | Gemini | ChatGPT (GPT-4o) | Nutrola | 称重参考 |
|---|---|---|---|---|
| 在参考值10%范围内的餐点 | 11/30 (37%) | 13/30 (43%) | 25/30 (83%) | 30/30 (100%) |
| 平均绝对误差 | 127 kcal | 108 kcal | 38 kcal | 0 kcal |
| 平均百分比误差 | 22.4% | 18.6% | 6.1% | 0% |
| 最大单次高估 | +340 kcal(意大利面) | +285 kcal(炒菜) | +95 kcal(餐厅餐) | N/A |
| 最大单次低估 | -290 kcal(沙拉加调料) | -315 kcal(燕麦碗) | -72 kcal(自制汤) | N/A |
| 重复查询的一致性 | 否(波动50-200 kcal) | 否(波动30-150 kcal) | 是(数据库锁定) | N/A |
关键发现: 每餐平均绝对误差为108到127卡路里,这意味着每天三餐的累计误差在324到381卡路里之间。对于目标500卡路里赤字以减肥的人来说,这种不准确性可能会消耗其65%到76%的预期赤字,从而有效地阻碍进展。
为什么AI聊天机器人会出错?
我们观察到的错误并非随机,而是遵循可预测的模式,揭示了使用大型语言模型进行营养估算的结构性局限性。
问题1:没有经过验证的数据库。 当你询问Gemini和ChatGPT卡路里估算时,它们并不会查找结构化的营养数据库。它们生成的回答基于训练数据中的模式,这些数据包括准确的USDA数据、用户生成的内容、食品博客的估算和营销材料。单一食品在这些来源中的卡路里值可能差异巨大,而模型没有机制来识别哪个来源是正确的。
Nutrola和其他专用营养应用使用经过验证的食品数据库。Nutrola的数据库包含超过180万条条目,与USDA FoodData Central、制造商营养标签和独立实验室分析进行了交叉验证。当你记录“150克的烤鸡胸肉”时,返回的值是一个经过验证的数据点,而不是互联网上关于鸡肉的所有信息的统计平均值。
问题2:没有份量大小的基础。 当你告诉AI聊天机器人你吃了“一碗意大利面”时,它必须猜测“一碗”意味着什么。是200克熟意大利面还是400克?差别可能超过250卡路里。AI聊天机器人默认使用文化平均的份量假设,这可能与你实际的份量不符。
在我们的测试中,份量大小的误算是最大错误来源。Gemini低估了一碗燕麦的卡路里210卡路里,因为它假设的份量比实际消费的要小。ChatGPT则高估了一道炒菜285卡路里,因为它假设是餐厅的份量,而实际上是家庭烹饪的。
Nutrola通过多种机制解决了这个问题:条形码扫描直接链接到制造商列出的份量大小,AI照片识别根据图像估算份量体积,用户可以使用厨房秤以克为单位调整份量,以获得最大准确性。
问题3:会话之间没有记忆。 这是持续卡路里追踪的最基本限制。AI聊天机器人不会保持你吃过的食物的持久记录。每次对话都是从零开始。没有每日总计,没有每周趋势,没有持续的宏观营养素分解。
有效的卡路里追踪需要累积数据。你需要知道的不仅是午餐的卡路里,还有你的每日总计、每周平均、宏观营养素分配和体重趋势。聊天机器人提供的是孤立的点估算,没有连续性。
问题4:对相同查询的估算不一致。 我们让Gemini和ChatGPT在不同的日子对同一餐的描述进行三次卡路里估算。结果在查询之间波动50到200卡路里。“中等凯撒沙拉加烤鸡”在Gemini的三次对话中返回的估算分别为380、450和520卡路里。这种不一致性是语言模型生成响应的固有特性。它们是概率文本生成器,而不是数据库查找系统。
问题5:虚构的营养数据。 在30个餐点估算中,有4个ChatGPT提供了听起来具体但实际上虚构的营养分解。例如,它声称某品牌的蛋白质棒含有22克蛋白质和210卡路里,而实际标签显示是20克蛋白质和190卡路里。这些数字足够接近,看起来似乎可信,但却足够错误,随着时间的推移会产生影响。这种现象在AI研究中被称为“幻觉”,在营养领域尤其危险,因为这些错误看起来权威。
ChatGPT在卡路里计数方面准确吗?
在我们的测试中,ChatGPT的表现略优于Gemini,43%的估算在参考值的10%范围内,而Gemini为37%。然而,这一差异并没有实际意义。两个聊天机器人都远低于可靠饮食管理所需的准确性阈值。
根据Subar等人和国家癌症研究所的Thompson等人定义的饮食评估工具的学术标准,工具的平均误差必须低于10%才能被视为有效的个人饮食监测工具。两个聊天机器人都大幅超过了这一阈值。
ChatGPT相较于Gemini的优势似乎来自于对常见美国食品的份量假设略好,这可能反映了其训练数据的组成。对于国际食品、地方菜肴和自制餐点,两个模型的准确性显著下降。
AI聊天机器人与营养应用的饮食追踪:全面比较
除了原始准确性之外,聊天机器人与专用营养应用之间的功能差异还涉及多个维度,影响实际可用性。
| 特征 | Gemini / ChatGPT | Nutrola |
|---|---|---|
| 卡路里准确性(与称重参考相比) | 平均误差18-22% | 平均误差6% |
| 经过验证的食品数据库 | 否 | 是,超过180万条条目 |
| 条形码扫描 | 否 | 是 |
| 基于照片的食物识别 | 有限(需要上传) | 内置AI识别 |
| 语音记录 | 间接(语音转文本) | 原生语音食物记录 |
| 持久的每日记录 | 否 | 是,自动 |
| 实时每日/每周总计 | 否(必须手动相加) | 是,实时 |
| 宏观营养素分解 | 每次查询估算 | 每种食物、每日、每周跟踪 |
| 微观营养素跟踪 | 不一致 | 100多种营养素 |
| 体重趋势跟踪 | 否 | 是,带图表 |
| Apple Watch集成 | 否 | 是 |
| 自适应卡路里目标 | 否 | 是,根据你的趋势调整 |
| 一致的估算 | 否(每次查询不同) | 是(数据库锁定) |
| 离线访问 | 否 | 是 |
| 成本 | 免费(高级功能需订阅) | 每月€2.50起 |
| 广告 | 根据平台而异 | 无广告 |
AI聊天机器人在营养方面有什么用?
尽管在卡路里追踪方面存在局限性,但通用AI聊天机器人确实有一些值得认可的营养应用场景。
一般营养教育。 询问Gemini或ChatGPT解释饱和脂肪和不饱和脂肪的区别,或描述蛋白质合成的过程,通常会产生准确且组织良好的回答。对于具有科学共识的概念性问题,AI聊天机器人表现良好。
餐点创意生成。 聊天机器人在生成基于约束条件的食谱创意方面表现出色,例如“低于500卡路里的高蛋白餐,包含鸡肉和西兰花”。具体的卡路里计数可能不精确,但餐点概念是有用的起点。
饮食模式比较。 询问聊天机器人比较地中海饮食、酮饮食和植物性饮食,通常会产生合理的证据总结。
聊天机器人在每日卡路里和营养素追踪这一定量、持续且依赖准确性的任务中表现不佳。这是一个数据库和记录的问题,而不是语言生成的问题。
为什么专用营养应用优于通用AI聊天机器人?
核心原因是架构上的差异。营养追踪应用围绕结构化数据库、持久用户档案和累积逻辑构建,而AI聊天机器人则围绕语言模型的下一个标记预测构建。这些是优化于根本不同任务的工具。
持久性。 Nutrola维护你记录的每种食物的完整记录、每日和每周总计、宏观营养素趋势以及体重历史。这种纵向数据使得卡路里追踪有效。单次的卡路里估算,无论多么准确,若没有每日总计和每周模式的背景,都是无用的。
经过验证的数据。 Nutrola中“Chobani希腊酸奶,原味,150克”的数据库条目来源于制造商的营养标签,并经过USDA标准验证。当聊天机器人估算同一项目时,它会从数千个可靠性不同的网络来源中平均信息,产生一个看似合理但未经验证的数字。
可穿戴设备集成。 Apple Watch的数据直接输入Nutrola,提供准确的活动卡路里估算,这与食物记录结合计算净能量平衡。没有聊天机器人能够访问你的可穿戴设备数据,以根据你实际的日常活动调整卡路里建议。
速度和便利性。 拍摄你盘子的照片、扫描条形码或说出你的餐点都在30秒内完成。向聊天机器人输入详细的餐点描述、等待响应,然后手动记录估算所需的时间更长,且结果的准确性较低。
AI聊天机器人能否改善到足以取代营养应用?
这是一个关于基本架构的问题,而不仅仅是模型能力的问题。即使卡路里估算的准确性完美(当前模型远未达到这一点),AI聊天机器人仍然缺乏持久记录、累积追踪、可穿戴设备集成和结构化数据库验证,这些都是营养追踪所需的。
未来的AI系统理论上可以结合这些功能。但在那时,它们本质上将成为具有对话界面的营养应用,而不是通用聊天机器人。使卡路里追踪有效的功能,如经过验证的数据库、持久用户日志、设备集成和自适应算法,都是工程系统,而非语言能力。
最可能的未来不是“聊天机器人取代营养应用”,而是“营养应用融入对话AI”。这已经在发生。Nutrola的AI驱动照片识别和语音记录将对话交互的便利性与经过验证的营养数据库的结构可靠性结合在一起。你可以享受与AI对话的自然互动,同时获得专用追踪系统的准确性和持久性。
当你询问AI追踪你的卡路里时会发生什么?
为了说明实际差异,这里是使用每种方法进行卡路里追踪的典型一天的样子。
使用Gemini或ChatGPT: 你询问聊天机器人估算你的早餐。它给你一个数字。你把它写下来或者试着记住。午餐时,你开始一个新对话(聊天机器人不记得早餐)并获得另一个估算。你在脑海中加上这两个数字。到晚餐时,你有一个大致的累计总数,可能偏差200到400卡路里,而且没有宏观营养素分解,没有持久记录,也没有每周趋势。
使用Nutrola: 你拍摄早餐的照片。AI识别食物,将其匹配到经过验证的数据库条目,并自动记录。你的每日总计实时更新。午餐时,你扫描三明治包装上的条形码,确切的制造商营养数据被添加到你的记录中。到晚餐时,你有一个准确的累计总数、宏观营养素分解,以及一个进而影响你每周和每月趋势的餐点历史。你的卡路里目标根据从Apple Watch同步的实际体重趋势进行调整。
这种差异并不微妙。这是猜测与系统之间的区别。
关键要点
像Gemini和ChatGPT这样的通用AI聊天机器人在许多任务中都是令人印象深刻的工具,但卡路里追踪并不是其中之一。我们的30餐测试发现每餐平均误差为108到127卡路里,重复查询之间结果不一致,没有持久记录能力,也没有与食品数据库或可穿戴设备的集成。这些局限性是结构性的,而非偶然的。它们源于语言模型与营养追踪系统之间的根本差异。
对于任何认真管理其营养的人来说,具有经过验证的数据库、持久记录和自适应目标的专用应用仍然是必不可少的。Nutrola结合了AI驱动的便利性(照片识别、语音记录、条形码扫描)与结构化营养平台的准确性和持久性,所有这些仅需每月€2.50,且无广告。在卡路里追踪方面,问题不在于是否涉及AI,而在于所用的AI是否具备适合此工作的正确架构。