ChatGPTのカロリー推定精度はどれくらい?
ChatGPT、Gemini、Claudeのカロリー推定を、50以上の食品に対する検証済みの栄養データと比較しました。精度と一貫性の結果を確認しましょう。
ChatGPTは数百万の人々にとってデフォルトの栄養アドバイザーとなっていますが、栄養データベースは持っていません。 チキンブリトーのカロリーを尋ねると、ChatGPTは検証済みの食品データベースを参照することなく、トレーニングデータのパターンに基づいて統計的に可能性の高い回答を生成します。そのため、提示される数字は近い場合もあれば、40%も外れることがあります。また、明日再度尋ねると、異なる数字が返ってくるかもしれません。
私たちは、ChatGPT(GPT-4o)、Google Gemini、AnthropicのClaudeという3つの主要な大規模言語モデルを、USDAや栄養士が確認したデータと比較し、50以上の食品アイテムに対してテストを行いました。目的は、以下の3つの具体的な質問に答えることでした:LLMのカロリー推定はどれくらい正確か?セッション間での一貫性はどれくらいか?目的に特化した栄養追跡アプリと比較してどうか?
LLMのカロリー精度をどうテストしたか?
各食品アイテムについて、同じ質問を各LLMに投げかけました。「[特定のポーションの食品アイテム]のカロリーは何ですか?」という形式です。各クエリは新しいセッションで実施し(会話履歴なし)、ほとんどのユーザーがこれらのツールを利用する際の一回限りの質問をシミュレートしました。
各食品アイテムは、正確性(検証済みデータと比較)と一貫性(セッション間の変動)を測定するために、5回ずつテストされました。検証済みの基準値は、USDA FoodData Centralデータベースから取得し、栄養士が確認したエントリーと照合しました。
私たちは、単一成分、シンプルな食事、複雑な食事、パッケージ食品、レストランアイテム、飲料の6つのカテゴリにわたって54の食品アイテムをテストしました。
ChatGPT、Gemini、Claudeのカロリー推定精度はどれくらい?
以下は、54の食品アイテム全体にわたる精度結果で、各LLMの平均推定値を検証済みのカロリー値と比較したものです。
| 指標 | ChatGPT (GPT-4o) | Gemini | Claude | 検証済みデータベース (Nutrola) |
|---|---|---|---|---|
| 平均絶対誤差 | ±18% | ±22% | ±16% | ±2–5% |
| 中央絶対誤差 | ±14% | ±17% | ±12% | ±2% |
| 検証値から±10%以内のアイテム | 42% | 35% | 48% | 95%+ |
| 検証値から±20%以内のアイテム | 68% | 58% | 72% | 99%+ |
| 誤差が>30%のアイテム | 15% | 22% | 11% | <1% |
| 最悪の単一推定誤差 | 55% | 68% | 45% | 8% |
3つのLLMすべてにおいて、カロリー推定における意味のある誤差が見られ、推定値の約3分の1から半分が±10%の精度範囲外となっています。それに対して、検証済みの栄養データベースは、ほぼすべてのエントリーに対して±5%以内のデータを返します。これは、値が実験室分析や製造者確認の栄養事実から得られているためです。
2024年に発表されたNutrientsの研究では、ChatGPT-4が150の一般的な食品に対してテストされ、平均絶対誤差は16.8%であり、私たちの結果と一致しています。この研究では、ChatGPTはシンプルでよく知られた食品に対して最も良い結果を出し、混合料理や文化的に特有な食品に対しては最も悪い結果を示しました。
LLMのカロリー精度は食品タイプによってどう変わるか?
推定される食品の種類は、LLMの精度を予測する最も強力な要因です。以下はカテゴリ別の結果です。
| 食品カテゴリ | 例 | ChatGPT 平均誤差 | Gemini 平均誤差 | Claude 平均誤差 |
|---|---|---|---|---|
| 単一成分(生) | "100gの生鶏むね肉" | ±8% | ±10% | ±7% |
| 一般的な果物/野菜 | "中サイズのバナナ1本" | ±6% | ±8% | ±5% |
| シンプルな家庭料理 | "バターでスクランブルした卵2個" | ±15% | ±18% | ±12% |
| 複雑な混合料理 | "チキンティッカマサラとナン" | ±25% | ±30% | ±22% |
| ブランドのパッケージ食品 | "1 KINDダークチョコレートナッツバー" | ±12% | ±15% | ±10% |
| レストラン特有のアイテム | "Chipotleチキンブリトーボウル" | ±20% | ±28% | ±18% |
| 飲料(特別) | "グランデスターバックスキャラメルフラペチーノ" | ±10% | ±14% | ±8% |
単一成分や一般的な果物/野菜は、これらの食品がよく確立された標準的なカロリー値を持ち、トレーニングデータに頻繁に現れるため、最も正確な推定を生み出します。100グラムの生鶏むね肉(165カロリー)や中サイズのバナナ(105カロリー)のカロリー含有量は、ほぼすべての栄養情報源で一貫しています。
複雑な混合料理は、特定の調理方法、材料の比率、ポーションサイズに依存するため、最も悪い推定結果を生み出します。チキンティッカマサラは、クリーム、油、バター、米の量によって350から750カロリーまで変動する可能性があり、LLMはどのバージョンを食べているのかを知る方法がありません。
ブランドのパッケージ食品は興味深いケースです。LLMは、人気のあるブランド製品の正確な栄養データをトレーニングデータから思い出すことができることがありますが、その情報は古くなっている可能性があります。製品の改良は定期的に行われ、2023年のデータでトレーニングされたLLMは、2024年や2025年に更新されたカロリー数を引用するかもしれません。
LLMのカロリー推定はセッション間でどれくらい一貫しているか?
一貫性 — 同じ質問を複数回したときに同じ答えが返ってくること — は、精度とは別の問題です。推定値は一貫して間違っているか、一貫して正しいとは限りません。私たちは、各LLMに同じカロリーの質問を5回行い、一貫性を測定しました。
| 食品アイテム | ChatGPTの範囲(5セッション) | Geminiの範囲(5セッション) | Claudeの範囲(5セッション) | 検証値 |
|---|---|---|---|---|
| チキンシーザーサラダ | 350–470カロリー | 350–450カロリー | 380–440カロリー | 400–470カロリー* |
| ピーナッツバターサンドイッチ | 320–450カロリー | 340–480カロリー | 350–410カロリー | 370–420カロリー* |
| パッタイ(1人前) | 400–600カロリー | 350–550カロリー | 420–520カロリー | 450–550カロリー* |
| マクドナルドの大フライ | 480–510カロリー | 450–520カロリー | 490–510カロリー | 490カロリー |
| アボカドトースト(1枚) | 250–380カロリー | 200–350カロリー | 280–340カロリー | 280–350カロリー* |
| Chipotleブリトー | 800–1,100カロリー | 750–1,200カロリー | 850–1,050カロリー | 900–1,100カロリー* |
| グリークヨーグルトとグラノーラ | 250–400カロリー | 280–420カロリー | 270–350カロリー | 300–380カロリー* |
*範囲はレシピ/ポーションによる変動を反映しています。検証済みデータベースのエントリーは、正確な材料とポーションに特化しています。
| 一貫性指標 | ChatGPT | Gemini | Claude |
|---|---|---|---|
| 5セッション間の平均変動 | ±22%の平均 | ±28%の平均 | ±15%の平均 |
| 100カロリー以上の変動があるアイテム | 61% | 72% | 44% |
| 50カロリー未満の変動があるアイテム | 22% | 15% | 33% |
| 最も一貫性のない食品タイプ | 複雑な料理 | 複雑な料理 | 複雑な料理 |
| 最も一貫性のある食品タイプ | ブランドのパッケージ食品 | ブランドのパッケージ食品 | ブランドのパッケージ食品 |
この不一致はバグではなく、LLMの動作の根本的な特性です。LLMは確率的に応答を生成し、同じプロンプトがサンプリングパラメータ、コンテキストウィンドウの状態、モデルの温度によって異なる出力を生み出すことがあります。それに対して、栄養データベースは、同じクエリに対して常に同じ結果を返します。これは決定論的なルックアップであり、生成プロセスではありません。
カロリー追跡の目的では、この不一致は、毎日同じランチについてChatGPTに尋ねると、毎回異なるカロリー数が返ってくる可能性があることを意味します。1週間の間に、このランダムな変動は、数百または数千カロリーの追跡ノイズに加わることがあります。
LLMがカロリーデータを間違えるのはどこか?
私たちは、3つのLLM全体にわたって現れた5つの体系的な誤りパターンを特定しました。
1. 「平均」ポーションにデフォルト設定。 「ピザのスライス」と尋ねると、LLMは通常、一般的な中サイズのスライスにデフォルト設定します。しかし、ピザのスライスは、薄いクラストで軽いチーズのものが200カロリーであるのに対し、ディープディッシュでトッピングが豊富なものは400カロリー以上になることがあります。タイプ、クラスト、トッピングを指定しない限り、LLMのデフォルトは実際に食べたものから大きく外れる可能性があります。
2. 調理油を無視。 「グリルチキン胸肉」と尋ねると、LLMは通常、鶏胸肉単体のカロリー(100gあたり約165カロリー)を報告し、調理中に使用された油やバターを考慮しません。これにより、実際のカロリーを50〜150カロリー少なく見積もることになります。
3. 古いブランド情報。 製品の配合は変わります。2022年に250カロリーだったClif Barが、2025年には260カロリーになることがあります。古いデータでトレーニングされたLLMは、古い値を引用するかもしれません。
4. 丸めと範囲の収束。 LLMは頻繁に最寄りの50または100カロリーに丸め、スケールで重要な精度を失います。「約300カロリー」は275または325を意味する可能性があり、50カロリーの範囲が日々の食事にわたって累積します。
5. 文化的および地域的な食品の変動。 「フried riceの1サービング」は、家庭のキッチン、アメリカ中華料理店、バンコクの屋台ではカロリー的に非常に異なる意味を持ちます。LLMは通常、ユーザーのコンテキストに関係なく西洋のポーションの仮定にデフォルト設定します。
LLMのカロリー推定はNutrolaの検証済みデータベースとどう比較されるか?
LLMと栄養追跡アプリの根本的な違いは、データソースです。LLMはトレーニングデータから推定値を生成しますが、Nutrolaは栄養士が確認したデータベースから値を参照します。
| 比較要因 | LLM(ChatGPT、Gemini、Claude) | Nutrola 検証済みデータベース |
|---|---|---|
| データソース | トレーニングデータ(ウェブテキスト、書籍) | 栄養士が確認した食品データベース |
| 精度(平均誤差) | ±16–22% | ±2–5% |
| 一貫性 | セッション間で変動(±15–28%) | 各クエリで同一結果 |
| ブランド特有のデータ | 時々利用可能、古くなっている可能性 | 現在の、製造者確認済み |
| ポーション処理 | 指定しない限り「平均」にデフォルト | グラム単位の精度で調整可能 |
| 調理方法の調整 | 一貫性がない | 生、調理、揚げなどの別エントリー |
| バーコード/UPCサポート | 該当なし | パッケージ食品の即時ルックアップ |
| マクロブレイクダウン | 提供されることが多いが、同じ誤差範囲で | 確認済みのタンパク質、脂肪、炭水化物、微量栄養素データ |
| 日々の追跡 | セッション間での記憶なし* | 総計を含む持続的な食品日記 |
*ChatGPTとGeminiは記憶機能を提供していますが、これらは一般的な好みに対して設計されており、構造化された栄養ログには適していません。
2025年に発表されたBritish Journal of Nutritionの比較研究では、AIチャットボットが3つの商業栄養追跡アプリと7日間の食事記録精度をテストしました。追跡アプリは平均日々のカロリー誤差が5〜8%であるのに対し、AIチャットボットは平均18〜25%の誤差を示しました。この研究は、「一般的なAIチャットボットは、目的に特化した食事評価ツールの代替には適さない」と結論付けています。
LLMはカロリー情報にどのように役立つか?
LLMは栄養情報に対してまったく無用ではありません。特定のユースケースにおいては非常に有用です。
一般的な栄養教育。 「筋肉をつけるために最も重要なマクロ栄養素は何ですか?」や「カロリー赤字はどのように機能しますか?」といった質問には、信頼できる回答が得られます。これは、この情報が確立されており、情報源間で一貫しているためです。
大まかな推定。 食事が約300カロリーか800カロリーかを知りたい場合、LLMは通常正しいです。450カロリーか550カロリーかを知りたい場合にはあまり役立ちません。
食事計画のアイデア出し。 LLMに「400カロリー未満の高タンパク朝食を5つ提案して」と尋ねると、役立つ出発点が得られますが、各提案のカロリー推定はデータベースで確認する必要があります。
食品カテゴリの比較。 LLMは、ナッツが果物よりもカロリー密度が高いことや、グリルチキンがフライドチキンよりもカロリーが少ないことを信頼性を持って教えてくれます。相対的な比較は、絶対的な数字よりも正確です。
LLMをカロリー追跡の主なツールとして使用すべきでない場合
精度と一貫性のデータに基づいて、LLMは以下のシナリオで主なカロリー追跡ツールとして使用すべきではありません。
積極的な体重減少または増加のフェーズ。 日々のカロリー目標に±200カロリーの余裕がある場合、LLMの±18%の誤差は、毎日300〜500カロリーの目標から外れる可能性があります。1週間でこれが計画された赤字を完全に相殺することになります。
複雑または混合料理の追跡。 複雑な食事の誤差率(±22〜30%)は、意味のある追跡には高すぎます。700カロリーの夕食の推定が実際には900カロリーであれば、1回の食事から200カロリーの誤差が生じます。
一貫した日々の追跡。 セッション間の不一致は、異なる日で同じ食事を記録すると異なるカロリー値が生成され、追跡データにノイズが生じ、トレンドを特定することが不可能になります。
医療または臨床栄養管理。 糖尿病、腎疾患、または他の条件を管理している個人にとって、正確な栄養管理が必要な場合、LLMのカロリー推定は安全な食事管理に必要な精度基準を満たしません。
重要なポイント:LLMと検証済みデータベースのカロリー精度
| 発見 | データ |
|---|---|
| ChatGPTの平均カロリー誤差 | ±18%(食品タイプ全体) |
| Geminiの平均カロリー誤差 | ±22%(食品タイプ全体) |
| Claudeの平均カロリー誤差 | ±16%(食品タイプ全体) |
| 検証済みデータベースの平均誤差 | ±2–5% |
| LLMの一貫性(セッションの変動) | ±15–28%の平均値 |
| データベースの一貫性 | 0%の変動(決定論的ルックアップ) |
| 最も正確なLLM食品タイプ | 単一成分、一般的な果物(±5–10%) |
| 最も不正確なLLM食品タイプ | 複雑な混合料理(±22–30%) |
| 検証値から±10%以内のLLM推定 | 35–48%のアイテム |
| 検証値から±5%以内のデータベースエントリー | 95%+のアイテム |
LLMは栄養概念について流暢に議論できる印象的な汎用ツールですが、栄養データベースではありません。この違いは重要です。なぜなら、カロリー追跡は定量的な作業であり、特定の、一貫した、検証された数字が必要だからです。毎回変わる可能性のある信頼できそうな推定値ではなく、正確な数値が求められます。栄養教育や大まかなガイダンスにはLLMが役立ちますが、実際の結果をもたらす日々のカロリー追跡には、検証済みデータベースを持つ目的特化型ツールが適切な選択です。
よくある質問
ChatGPTのカロリー計算の精度はどれくらいですか?
ChatGPT(GPT-4o)は、食品タイプ全体で平均約18%のカロリー誤差を持っています。検証済みの値から±10%以内の推定を提供するのは、テストした食品の42%のみです。精度は、生の鶏むね肉のようなシンプルな単一成分(8%の誤差)で最も良く、チキンティッカマサラのような複雑な混合料理(25%の誤差)で最も悪くなります。
ChatGPTをカロリー追跡アプリの代わりに使用できますか?
ChatGPTは、目的特化型のカロリートラッカーの信頼できる代替品ではありません。2025年のBritish Journal of Nutritionの研究では、AIチャットボットが平均18〜25%のカロリー誤差を示すのに対し、専用の追跡アプリは5〜8%の誤差を示しました。また、ChatGPTはセッション間で一貫性のない回答を提供し、同じ食品クエリに対してカロリー推定が15〜28%変動することがあります。
なぜChatGPTは毎回異なるカロリー数を返すのですか?
LLMは、固定されたデータベースの値を参照するのではなく、確率的に応答を生成します。同じプロンプトがサンプリングパラメータやモデルの状態によって異なる出力を生む可能性があります。テストでは、ChatGPTの同じ食品に対する推定値は、5つの別々のセッションで平均22%の変動があり、一貫した日々の追跡が信頼できないことを示しています。
ChatGPTは栄養に関して最も正確なものは何ですか?
ChatGPTは、単一の生の成分(8%の誤差)や一般的な果物・野菜(6%の誤差)に対して最も良いパフォーマンスを発揮します。これらのカロリー値は確立されており、標準化されています。また、一般的な栄養教育、大まかな推定、食品の相対的な比較には役立ちますが、正確なカロリー数には向いていません。
検証済み食品データベースはChatGPTとどう比較されますか?
Nutrolaのような検証済みの栄養データベースは、実際の値から±2–5%以内の結果を返し、クエリごとに変動はありません。ChatGPTは平均18%の誤差を持ち、15〜28%のセッション間の不一致があります。データベースは、正確なブランド特有のデータ、調整可能なポーション、一貫した結果を提供します。