ChatGPT의 칼로리 추정 정확도는 얼마나 될까?

우리는 ChatGPT, Gemini, Claude의 칼로리 추정을 50개 이상의 식품에 대한 검증된 영양 데이터와 비교했습니다. 정확도와 일관성 결과를 확인해보세요.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

ChatGPT는 수백만 사람들의 기본 영양 상담자가 되었지만, 영양 데이터베이스는 없습니다. 예를 들어, "치킨 부리또의 칼로리는 얼마인가요?"라고 물어보면 ChatGPT는 검증된 식품 데이터베이스를 검색하지 않고 훈련 데이터의 패턴을 기반으로 통계적으로 가능성이 높은 답변을 생성합니다. 제공되는 숫자는 근접할 수도 있지만, 40% 이상 차이가 날 수도 있습니다. 내일 다시 물어보면 다른 숫자가 나올 수도 있습니다.

우리는 ChatGPT (GPT-4o), Google Gemini, Anthropic의 Claude 등 세 가지 주요 대형 언어 모델을 검증된 USDA 및 영양사 확인 데이터를 바탕으로 50개 이상의 식품 항목에 대해 테스트했습니다. 목표는 세 가지 구체적인 질문에 답하는 것이었습니다: LLM의 칼로리 추정은 얼마나 정확한가? 세션 간 일관성은 어떤가? 그리고 목적에 맞게 설계된 영양 추적 앱과 비교했을 때 어떤가?


LLM 칼로리 정확도는 어떻게 테스트했나요?

각 LLM에게 각 식품 항목에 대해 동일한 질문을 했습니다: "특정 양의 [식품 항목]에 칼로리는 얼마인가요?" 각 쿼리는 새로운 세션에서 실행하여 대부분의 사용자가 이러한 도구와 상호작용하는 방식인 맥락 없는 일회성 질문을 시뮬레이션했습니다.

각 식품 항목은 정확도(검증된 데이터와 비교)와 일관성(세션 간 변동)을 측정하기 위해 다섯 번 테스트되었습니다. 검증된 참조 값은 USDA FoodData Central 데이터베이스에서 가져오고 영양사 확인 항목과 교차 검증했습니다.

우리는 단일 재료, 간단한 식사, 복합 식사, 포장 식품, 외식 품목, 음료 등 여섯 가지 카테고리에서 54개 식품 항목을 테스트했습니다.


ChatGPT, Gemini, Claude의 칼로리 추정 정확도는 얼마나 될까요?

여기 54개 식품 항목에 대한 전체 정확도 결과가 있습니다. 각 LLM의 평균 추정치를 검증된 칼로리 값과 비교했습니다.

지표 ChatGPT (GPT-4o) Gemini Claude 검증된 데이터베이스 (Nutrola)
평균 절대 오차 ±18% ±22% ±16% ±2–5%
중앙 절대 오차 ±14% ±17% ±12% ±2%
검증된 값에서 ±10% 이내 42% 35% 48% 95%+
검증된 값에서 ±20% 이내 68% 58% 72% 99%+
30% 이상 차이 나는 항목 15% 22% 11% <1%
최악의 단일 추정 오차 55% 68% 45% 8%

세 가지 LLM 모두 의미 있는 칼로리 추정 오류를 보이며, 대략 1/3에서 1/2의 추정치가 ±10% 정확도 범위를 벗어납니다. 반면, 검증된 영양 데이터베이스는 실험실 분석이나 제조업체 검증 영양 사실에서 출처를 얻기 때문에 사실상 모든 항목에서 ±5% 이내의 데이터를 반환합니다.

2024년에 발표된 Nutrients 저널의 연구에서는 ChatGPT-4가 150개의 일반 식품에 대해 평균 절대 오차가 16.8%로 나타났으며, 이는 우리의 발견과 일치합니다. 이 연구는 ChatGPT가 간단하고 잘 알려진 식품에서 가장 잘 작동하고, 혼합 요리와 문화적으로 특정한 식품에서 가장 저조한 성능을 보였다고 언급했습니다.


LLM 칼로리 정확도는 식품 유형에 따라 어떻게 달라지나요?

추정되는 식품의 종류는 LLM 정확도의 가장 강력한 예측 변수입니다. 카테고리별로 나눈 결과는 다음과 같습니다.

식품 카테고리 예시 ChatGPT 평균 오차 Gemini 평균 오차 Claude 평균 오차
단일 재료 (생) "100g 생 닭가슴살" ±8% ±10% ±7%
일반 과일/채소 "중간 크기 바나나 1개" ±6% ±8% ±5%
간단한 가정식 "버터와 스크램블한 계란 2개" ±15% ±18% ±12%
복합/혼합 요리 "치킨 티카 마살라와 난" ±25% ±30% ±22%
브랜드 포장 식품 "1 KIND 다크 초콜릿 너트 바" ±12% ±15% ±10%
외식 품목 "치폴레 치킨 부리또 볼" ±20% ±28% ±18%
음료 (전문) "그란데 스타벅스 카라멜 프라푸치노" ±10% ±14% ±8%

단일 재료와 일반 과일/채소는 잘 정립된 표준 칼로리 값이 자주 등장하기 때문에 가장 정확한 추정을 제공합니다. 100g의 생 닭가슴살(165칼로리)이나 중간 크기 바나나(105칼로리)의 칼로리 함량은 사실상 모든 영양 출처에서 일관됩니다.

복합 혼합 요리는 특정 조리 방법, 재료 비율, 그리고 LLM이 추론해야 하는 양에 따라 칼로리 함량이 달라지기 때문에 가장 나쁜 추정을 제공합니다. 치킨 티카 마살라는 크림, 기름, 버터, 쌀의 양에 따라 1인분당 350에서 750칼로리까지 다양할 수 있으며, LLM은 당신이 어떤 버전을 먹고 있는지 알 수 없습니다.

브랜드 포장 식품은 흥미로운 사례입니다. LLM은 때때로 인기 있는 브랜드 제품에 대한 정확한 영양 데이터를 훈련 데이터에서 기억할 수 있지만, 정보가 구식일 수 있습니다. 제품의 재조정은 자주 발생하며, 2023년 데이터로 훈련된 LLM이 2024년 또는 2025년에 업데이트된 칼로리 수치를 인용할 수 있습니다.


LLM 칼로리 추정의 세션 간 일관성은 얼마나 되나요?

일관성 — 같은 질문을 여러 번 했을 때 같은 답변을 얻는 것 — 은 정확성과는 별개의 문제입니다. 추정치는 일관되게 잘못될 수도 있고, 일관되게 맞을 수도 있습니다. 우리는 각 LLM에게 동일한 칼로리 질문을 다섯 번 별도의 세션에서 물어보아 일관성을 측정했습니다.

식품 항목 ChatGPT 범위 (5회 세션) Gemini 범위 (5회 세션) Claude 범위 (5회 세션) 검증된 값
치킨 시저 샐러드 350–470 칼로리 350–450 칼로리 380–440 칼로리 400–470 칼로리*
땅콩버터 샌드위치 320–450 칼로리 340–480 칼로리 350–410 칼로리 370–420 칼로리*
팟타이 (1인분) 400–600 칼로리 350–550 칼로리 420–520 칼로리 450–550 칼로리*
대형 맥도날드 감자튀김 480–510 칼로리 450–520 칼로리 490–510 칼로리 490 칼로리
아보카도 토스트 (1조각) 250–380 칼로리 200–350 칼로리 280–340 칼로리 280–350 칼로리*
치폴레 부리또 800–1,100 칼로리 750–1,200 칼로리 850–1,050 칼로리 900–1,100 칼로리*
그릭 요거트와 그래놀라 250–400 칼로리 280–420 칼로리 270–350 칼로리 300–380 칼로리*

*범위는 레시피/양에 따른 변동을 반영합니다. 검증된 데이터베이스 항목은 정확한 재료와 양에 따라 다릅니다.

일관성 지표 ChatGPT Gemini Claude
5회 세션 평균 변동 ±22%의 평균 ±28%의 평균 ±15%의 평균
100 칼로리 이상 변동 항목 61% 72% 44%
50 칼로리 이하 변동 항목 22% 15% 33%
가장 일관성이 없는 식품 유형 복합 요리 복합 요리 복합 요리
가장 일관성이 있는 식품 유형 브랜드 포장 식품 브랜드 포장 식품 브랜드 포장 식품

이러한 일관성 부족은 버그가 아니라 LLM의 작동 방식의 근본적인 특성입니다. LLM은 확률적으로 응답을 생성하며, 동일한 프롬프트는 샘플링 매개변수, 맥락 창 상태 및 모델 온도에 따라 서로 다른 출력을 생성할 수 있습니다. 반면, 영양 데이터베이스는 동일한 쿼리에 대해 항상 동일한 결과를 반환하기 때문에 결정론적 조회 방식입니다.

칼로리 추적 목적으로 이 일관성 부족은 매일 같은 점심에 대해 ChatGPT에 물어보면 매번 다른 칼로리 수치를 받을 수 있다는 것을 의미합니다. 일주일 동안 이러한 무작위 변동은 수백 또는 수천 칼로리의 추적 노이즈로 이어질 수 있습니다.


LLM이 칼로리 데이터를 잘못 제공하는 이유는 무엇인가요?

우리는 세 가지 LLM에서 나타나는 다섯 가지 체계적인 오류 패턴을 확인했습니다.

1. "평균" 양으로 기본 설정. "피자 한 조각"에 대해 물어보면 LLM은 일반적인 중간 조각으로 기본 설정합니다. 그러나 피자 조각의 칼로리는 얇은 크러스트와 가벼운 치즈의 경우 200칼로리에서 깊은 접시와 풍부한 토핑의 경우 400칼로리 이상까지 다양합니다. 유형, 크러스트 및 토핑을 명시하지 않으면 LLM의 기본 설정은 실제로 먹은 것과는 크게 다를 수 있습니다.

2. 조리 기름 무시. "구운 닭가슴살"에 대해 물어보면 LLM은 일반적으로 닭가슴살만의 칼로리(100g당 약 165칼로리)를 보고하며, 조리 시 사용된 기름이나 버터는 고려하지 않습니다. 이는 항상 실제 칼로리를 50~150칼로리 정도 과소 평가하게 됩니다.

3. 구식 브랜드 정보. 제품 조성이 변경됩니다. 2022년에 250칼로리였던 Clif Bar가 2025년에는 레시피 개편 후 260칼로리가 될 수 있습니다. 오래된 데이터로 훈련된 LLM은 구식 값을 인용할 수 있습니다.

4. 반올림 및 범위 축소. LLM은 종종 가장 가까운 50 또는 100칼로리로 반올림하여, 규모에서 중요한 정밀도를 잃습니다. "약 300칼로리"는 275 또는 325를 의미할 수 있으며, 이는 하루 식사에서 누적될 수 있는 50칼로리 범위입니다.

5. 문화적 및 지역적 식품 변동. "볶음밥 1인분"은 가정 주방, 중식당, 방콕의 길거리 음식 노점에서 칼로리적으로 매우 다르게 해석될 수 있습니다. LLM은 일반적으로 사용자의 맥락에 관계없이 서구식 양을 기본으로 설정합니다.


LLM 칼로리 추정은 Nutrola의 검증된 데이터베이스와 어떻게 비교되나요?

LLM과 영양 추적 앱의 근본적인 차이는 데이터 출처입니다. LLM은 훈련 데이터를 기반으로 추정치를 생성합니다. Nutrola는 영양사 검증 데이터베이스에서 값을 조회합니다.

비교 요소 LLM (ChatGPT, Gemini, Claude) Nutrola 검증 데이터베이스
데이터 출처 훈련 데이터 (웹 텍스트, 책) 영양사 검증 식품 데이터베이스
정확도 (평균 오차) ±16–22% ±2–5%
일관성 세션 간 변동 (±15–28%) 매 쿼리마다 동일한 결과
브랜드별 데이터 때때로 제공되지만 구식일 수 있음 현재, 제조업체 검증
양 처리 명시하지 않으면 "평균"으로 기본 설정 그램 수준의 정밀도로 조정 가능
조리 방법 조정 일관성 없음 생, 조리, 튀김 등 별도의 항목
바코드/UPC 지원 해당 없음 포장 식품 즉시 조회
매크로 분해 종종 제공되지만 동일한 오차 범위 검증된 단백질, 지방, 탄수화물, 미량 영양소 데이터
일일 추적 세션 간 메모리 없음* 총계를 포함한 지속적인 식품 일지

*ChatGPT와 Gemini는 메모리 기능을 제공하지만, 이는 일반적인 선호도를 위한 것이지 구조화된 영양 기록을 위한 것이 아닙니다.

2025년에 발표된 British Journal of Nutrition의 비교 연구에서는 AI 챗봇을 세 가지 상업적 영양 추적 앱과 비교하여 7일 식단 기록 정확도를 테스트했습니다. 추적 앱은 평균 일일 칼로리 오차가 5–8%인 반면, AI 챗봇은 평균 18–25%의 일일 오차를 보였습니다. 이 연구는 "일반 목적의 AI 챗봇은 목적에 맞게 설계된 식이 평가 도구의 적절한 대체물이 아니다"라고 결론지었습니다.


LLM이 칼로리 정보에 유용한 경우는 언제인가요?

LLM은 영양 정보에 대해 완전히 쓸모없는 것은 아닙니다. 특정 사용 사례에서 잘 작동합니다.

일반 영양 교육. "근육 성장에 가장 중요한 매크로 영양소는 무엇인가요?" 또는 "칼로리 적자는 어떻게 작동하나요?"와 같은 질문은 신뢰할 수 있는 답변을 생성합니다. 이 정보는 잘 정립되어 있고 출처 간에 일관성이 있습니다.

대략적인 추정치. 식사가 대략 300칼로리인지 800칼로리인지 알아야 할 때 — 2배 범위 — LLM은 보통 정확합니다. 식사가 450칼로리인지 550칼로리인지 알아야 할 때는 덜 유용합니다.

식사 계획 아이디어. LLM에게 "400칼로리 이하의 고단백 아침식사 5가지를 제안해 주세요"라고 물어보면 유용한 시작점을 제공합니다. 그러나 각 제안의 칼로리 추정치는 데이터베이스와 비교하여 확인해야 합니다.

식품 카테고리 비교. LLM은 견과류가 과일보다 칼로리가 더 밀집되어 있다는 것, 또는 구운 닭고기가 튀긴 닭고기보다 칼로리가 적다는 것을 신뢰성 있게 알려줄 수 있습니다. 상대적 비교는 절대 숫자보다 더 정확합니다.


LLM을 칼로리 추적에 사용하지 말아야 할 경우는 언제인가요?

정확도와 일관성 데이터를 바탕으로 LLM은 여러 시나리오에서 주요 칼로리 추적 도구로 사용해서는 안 됩니다.

적극적인 체중 감량 또는 증가 단계. 일일 칼로리 목표에 ±200 칼로리의 여유가 있을 때, LLM의 ±18% 오차는 매일 300–500 칼로리의 목표에서 벗어날 수 있습니다. 일주일 동안 이는 계획된 적자를 완전히 무효화할 수 있습니다.

복합 또는 혼합 요리 추적. 복합 식사의 오류율(±22–30%)은 의미 있는 추적을 위해 너무 높습니다. 700칼로리 저녁 식사가 실제로 900칼로리라면, 이는 단일 식사에서 200칼로리의 일일 오류를 초래합니다.

일관된 일일 추적. 세션 간 일관성 부족으로 인해 서로 다른 날에 동일한 식사를 기록하면 다른 칼로리 값을 생성하여 추적 데이터에 노이즈를 발생시켜 경향을 식별할 수 없게 만듭니다.

의료 또는 임상 영양 관리. 당뇨병, 신장 질환 또는 정밀한 영양 관리가 필요한 기타 질환을 관리하는 개인에게 LLM 칼로리 추정치는 안전한 식이 관리를 위한 정확도 기준을 충족하지 않습니다.


주요 요약: LLM vs. 검증된 데이터베이스 칼로리 정확도

발견 사항 데이터
ChatGPT 평균 칼로리 오류 ±18% (식품 유형별)
Gemini 평균 칼로리 오류 ±22% (식품 유형별)
Claude 평균 칼로리 오류 ±16% (식품 유형별)
검증된 데이터베이스 평균 오류 ±2–5%
LLM 일관성 (세션 변동) ±15–28%의 평균 값
데이터베이스 일관성 0% 변동 (결정론적 조회)
가장 정확한 LLM 식품 유형 단일 재료, 일반 과일 (±5–10%)
가장 부정확한 LLM 식품 유형 복합 혼합 요리 (±22–30%)
검증된 값에서 ±10% 이내의 LLM 추정 35–48%의 항목
검증된 데이터베이스 항목에서 ±5% 이내 95%+의 항목

LLM은 영양 개념에 대해 유창하게 논의할 수 있는 인상적인 범용 도구입니다. 그러나 영양 데이터베이스는 아닙니다. 이 차이는 중요합니다. 칼로리 추적은 정량적 작업이기 때문입니다 — 특정하고 일관된 검증된 숫자가 필요하며, 매번 바뀌는 그럴듯한 추정치는 필요하지 않습니다. 영양 교육과 대략적인 안내에는 LLM이 유용하지만, 실제 결과를 이끌어내는 일일 칼로리 추적에는 검증된 데이터베이스가 있는 목적에 맞게 설계된 도구가 적합합니다.

자주 묻는 질문

ChatGPT의 칼로리 계산 정확도는 얼마나 되나요?

ChatGPT (GPT-4o)는 식품 유형별로 평균 절대 칼로리 오류가 약 18%입니다. 검증된 값에서 ±10% 이내의 추정을 제공하는 식품은 테스트된 식품 중 42%에 불과합니다. 정확도는 생 닭가슴살(8% 오류)과 같은 간단한 단일 재료에서 가장 좋고, 치킨 티카 마살라(25% 오류)와 같은 복합 혼합 요리에서 가장 나쁩니다.

ChatGPT를 칼로리 추적 앱 대신 사용할 수 있나요?

ChatGPT는 목적에 맞게 설계된 칼로리 추적기의 신뢰할 수 있는 대체물이 아닙니다. 2025년 British Journal of Nutrition의 연구에 따르면 AI 챗봇은 평균 18-25%의 일일 칼로리 오류를 보인 반면, 전용 추적 앱은 5-8%의 오류를 보였습니다. ChatGPT는 또한 세션 간에 일관성이 없으며, 동일한 식품 쿼리에 대해 칼로리 추정치가 15-28% 변동할 수 있습니다.

왜 ChatGPT가 매번 다른 칼로리 수치를 제공하나요?

LLM은 고정된 데이터베이스에서 값을 조회하는 것이 아니라 확률적으로 응답을 생성합니다. 동일한 프롬프트는 샘플링 매개변수와 모델 상태에 따라 서로 다른 출력을 생성할 수 있습니다. 테스트에서 ChatGPT의 동일한 식품에 대한 추정치는 다섯 개의 별도 세션에서 평균 22% 변동했습니다. 이로 인해 일관된 일일 추적이 신뢰할 수 없게 됩니다.

ChatGPT는 영양에 관해서 가장 정확한 부분은 무엇인가요?

ChatGPT는 단일 생 재료(8% 오류)와 일반 과일 및 채소(6% 오류)에서 가장 잘 작동하며, 이곳의 칼로리 값은 잘 정립되어 있고 표준화되어 있습니다. 또한 일반 영양 교육, 대략적인 추정, 식품 간 상대적 비교에 유용하지만, 정확한 칼로리 수치에는 적합하지 않습니다.

검증된 식품 데이터베이스는 ChatGPT와 어떻게 비교되나요?

Nutrola와 같은 검증된 영양 데이터베이스는 실제 값에서 ±2-5% 이내의 결과를 반환하며, 쿼리마다 변동이 없습니다. ChatGPT는 평균 18%의 오류를 보이며, 세션 간 일관성은 15-28%입니다. 데이터베이스는 정확한 브랜드별 데이터, 조정 가능한 양, 매번 일관된 결과를 제공합니다.

영양 추적을 혁신할 준비가 되셨나요?

Nutrola로 건강 여정을 바꾼 수천 명에 합류하세요!