제미니 AI로 칼로리를 추적할 수 있을까? 전용 앱과 비교해봤습니다

제미니와 ChatGPT에게 30개의 식사에 대한 칼로리를 추정해 달라고 요청한 후, Nutrola와 무게 기준 식사와 비교했습니다. 정확도 차이는 예상보다 컸습니다.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

AI 챗봇이 일상생활의 일부가 되면서, 자연스럽게 제미니나 ChatGPT에게 전용 영양 앱 대신 칼로리를 추적할 수 있는지에 대한 질문이 생깁니다. 이를 직접 테스트해보았습니다. 2주 동안 Google Gemini와 OpenAI ChatGPT에게 30가지 다양한 식사의 칼로리와 다량 영양소 함량을 추정해 달라고 요청했습니다. 이 식사는 간단한 단일 재료 음식부터 복잡한 레스토랑 요리까지 다양했습니다. 그들의 추정치를 Nutrola의 검증된 식품 데이터베이스와 USDA FoodData Central 값을 기반으로 한 무게 기준 식사와 비교했습니다.

결과는 일반적인 AI 챗봇을 영양 추적에 사용하는 데 있어 근본적인 한계가 있음을 보여주었습니다. 이러한 한계는 일시적인 것이 아니라 구조적인 것으로, 향후 모델 업데이트로 완전히 해결될 가능성은 낮습니다.

제미니로 칼로리를 계산할 수 있을까?

제미니에게 식사의 칼로리를 추정해 달라고 요청할 수 있으며, 답변을 받을 수 있습니다. 문제는 그 답변이 실제 식단 관리에 충분히 정확하고 일관된지 여부입니다. 우리의 테스트 결과, 신뢰성이 필요한 어떤 경우에도 답은 '아니오'입니다.

테스트 방법론: 우리는 30개의 식사를 준비하거나 구매하여 다양한 복잡성을 다루었습니다. 각 식사는 보정된 주방 저울로 측정되었고, 참고 칼로리 값은 USDA FoodData Central의 영양 데이터를 사용하여 계산되었습니다. 그런 다음 각 식사를 자연어로 제미니(구글의 AI 어시스턴트)에게 설명하고, 그 칼로리 추정을 기록했습니다. 동일한 테스트를 ChatGPT(GPT-4o)로 진행하고 각 식사를 Nutrola에 사진 인식 및 데이터베이스 조회를 통해 기록했습니다.

정확도 정의: 우리는 추정치를 "정확하다"고 정의했으며, 이는 측정된 기준 값의 10% 이내에 해당하는 경우로, 이는 식이 평가 연구에서 사용되는 표준 기준입니다 (Subar et al., The Journal of Nutrition, 2015).

AI 챗봇의 칼로리 계산 정확도는 얼마나 될까?

결과는 식사 카테고리 전반에 걸쳐 일관되었습니다: 일반적인 AI 챗봇은 칼로리 조절 식단에 충분히 신뢰할 수 없는 대략적인 추정치를 제공합니다.

지표 제미니 ChatGPT (GPT-4o) Nutrola 무게 기준
기준값의 10% 이내 식사 11/30 (37%) 13/30 (43%) 25/30 (83%) 30/30 (100%)
평균 절대 오차 127 kcal 108 kcal 38 kcal 0 kcal
평균 백분율 오차 22.4% 18.6% 6.1% 0%
가장 큰 단일 과대 추정 +340 kcal (파스타 요리) +285 kcal (볶음 요리) +95 kcal (레스토랑 식사) N/A
가장 큰 단일 과소 추정 -290 kcal (드레싱이 있는 샐러드) -315 kcal (그래놀라 볼) -72 kcal (수제 수프) N/A
반복 쿼리 간 일관성 아니오 (50-200 kcal 변동) 아니오 (30-150 kcal 변동) 예 (데이터베이스 고정) N/A

핵심 발견: 평균 절대 오차가 식사당 108에서 127 칼로리에 해당하며, 이는 하루 세 끼 식사에서 324에서 381 칼로리의 누적 오차로 이어집니다. 500칼로리의 적자를 목표로 하는 경우, 이러한 부정확성은 의도한 적자의 65%에서 76%를 소멸시켜 효과적으로 진행을 저지할 수 있습니다.

AI 챗봇이 칼로리 수치를 잘못 계산하는 이유는 무엇인가?

우리가 관찰한 오류는 무작위적이지 않았습니다. 이들은 영양 추정에 있어 대형 언어 모델을 사용할 때의 구조적 한계를 드러내는 예측 가능한 패턴을 따랐습니다.

문제 1: 검증된 데이터베이스 없음. 제미니와 ChatGPT는 칼로리 추정을 요청할 때 구조화된 영양 데이터베이스에서 음식을 조회하지 않습니다. 그들은 훈련 데이터의 패턴을 기반으로 응답을 생성하며, 이 데이터는 정확한 USDA 데이터, 사용자 생성 콘텐츠, 음식 블로그 추정치 및 마케팅 자료가 혼합되어 있습니다. 단일 음식 항목은 이러한 출처에 따라 wildly 다른 칼로리 값을 가질 수 있으며, 모델은 어떤 출처가 정확한지 식별할 수 있는 메커니즘이 없습니다.

Nutrola와 다른 전용 영양 앱은 검증된 식품 데이터베이스를 사용합니다. Nutrola의 데이터베이스는 180만 개 이상의 항목이 있으며, USDA FoodData Central, 제조업체 영양 라벨 및 독립 실험실 분석과 교차 참조됩니다. "닭가슴살, 구운, 150g"을 기록하면 반환되는 값은 통계적 평균이 아니라 검증된 데이터 포인트입니다.

문제 2: 분량 크기 기준 없음. AI 챗봇에게 "파스타 한 그릇"이라고 말하면, "한 그릇"이 무엇을 의미하는지 추측해야 합니다. 200그램의 조리된 파스타인가요, 아니면 400그램인가요? 그 차이는 250칼로리 이상입니다. AI 챗봇은 문화적으로 평균화된 분량 가정을 기본으로 하며, 이는 실제 서빙과 일치하지 않을 수 있습니다.

우리의 테스트에서 분량 크기 계산 오류는 가장 큰 오류 원인이었습니다. 제미니는 그래놀라 볼을 210칼로리 과소 추정했는데, 이는 실제 소비된 양보다 작은 서빙을 가정했기 때문입니다. ChatGPT는 볶음 요리를 285칼로리 과대 추정했는데, 이는 집에서 요리한 식사임에도 불구하고 레스토랑 크기의 서빙을 가정했기 때문입니다.

Nutrola는 여러 메커니즘을 통해 이를 해결합니다: 바코드 스캔은 제조업체가 제공한 서빙 크기와 직접 연결되며, AI 사진 인식은 이미지에서 서빙 부피를 추정하고, 사용자는 주방 저울을 사용하여 최대 정확도를 위해 그램 단위로 서빙을 조정할 수 있습니다.

문제 3: 세션 간 메모리 없음. 이는 지속적인 칼로리 추적에 있어 가장 근본적인 한계일 수 있습니다. AI 챗봇은 사용자가 먹은 것을 지속적으로 기록하지 않습니다. 각 대화는 제로에서 시작됩니다. 일일 총계, 주간 추세, 지속적인 다량 영양소 분해가 없습니다.

효과적인 칼로리 추적은 누적 데이터를 필요로 합니다. 점심의 칼로리뿐만 아니라, 일일 총계, 주간 평균, 다량 영양소 분할 및 시간에 따른 체중 추세를 알아야 합니다. 챗봇은 연속성이 없는 고립된 점 추정치를 제공합니다.

문제 4: 동일 쿼리에 대한 일관성 없는 추정치. 우리는 제미니와 ChatGPT에게 동일한 식사 설명에 대해 서로 다른 날에 세 번 칼로리를 추정해 달라고 요청했습니다. 결과는 쿼리 간 50에서 200 칼로리까지 변동했습니다. "중간 사이즈의 시저 샐러드와 구운 치킨"은 제미니에서 세 번의 대화에서 각각 380, 450, 520 칼로리로 추정되었습니다. 이러한 불일치는 언어 모델이 응답을 생성하는 방식에 내재된 것입니다. 이들은 확률적 텍스트 생성기이지 데이터베이스 조회 시스템이 아닙니다.

문제 5: 허구의 영양 데이터. 30개의 식사 추정 중 4건에서 ChatGPT는 구체적인 것처럼 보이지만 허구의 영양 분해를 제공했습니다. 예를 들어, 특정 브랜드의 단백질 바가 22g의 단백질과 210칼로리를 포함한다고 주장했지만, 실제 라벨은 20g의 단백질과 190칼로리를 나타냅니다. 숫자는 그럴듯하게 보일 정도로 가까웠지만, 시간이 지남에 따라 중요할 만큼 잘못되었습니다. AI 연구에서 '환각'이라고 불리는 이 현상은 영양 분야에서 특히 위험합니다. 왜냐하면 오류가 권위 있게 보이기 때문입니다.

ChatGPT는 칼로리 계산에서 정확한가?

ChatGPT는 우리의 테스트에서 제미니보다 약간 더 나은 성능을 보였으며, 10% 이내의 추정치가 43%로 제미니의 37%보다 높았습니다. 그러나 이 차이는 실질적으로 의미가 없습니다. 두 챗봇 모두 신뢰할 수 있는 식단 관리를 위해 필요한 정확도 기준을 훨씬 밑돌고 있습니다.

식이 평가 도구에 대한 학술적 기준은 Subar et al. 및 Thompson et al.와 같은 연구자들에 의해 정의되며, 개별 수준의 식이 모니터링을 위해서는 평균 오차가 10% 미만이어야 유효하다고 요구합니다. 두 챗봇 모두 이 기준을 크게 초과합니다.

ChatGPT가 제미니보다 나은 것으로 보인 이유는 일반적인 미국 음식에 대한 분량 크기 가정이 약간 더 나았기 때문이며, 이는 훈련 데이터 구성과 관련이 있을 것입니다. 국제 음식, 지역 요리 및 수제 식사의 경우, 두 모델 모두 정확도가 크게 떨어졌습니다.

AI 챗봇과 영양 앱의 다이어트 추적 비교: 전체 비교

정확도 외에도 챗봇과 전용 영양 앱 간의 기능적 차이는 실제 사용성에 영향을 미치는 여러 차원에 걸쳐 있습니다.

기능 제미니 / ChatGPT Nutrola
칼로리 정확도 (무게 기준) 18-22% 평균 오차 6% 평균 오차
검증된 식품 데이터베이스 없음 있음, 180만 개 이상
바코드 스캔 없음 있음
사진 기반 음식 인식 제한적 (업로드 필요) 내장 AI 인식
음성 기록 간접적 (음성-텍스트 변환) 네이티브 음성 음식 기록
지속적인 일일 기록 없음 있음, 자동
실시간 일일/주간 총계 없음 (수동으로 합산해야 함) 있음, 실시간
다량 영양소 분해 쿼리당 추정 음식별, 일일, 주간 추적
미량 영양소 추적 일관되지 않음 100개 이상의 영양소
체중 추세 추적 없음 있음, 그래프 포함
Apple Watch 통합 없음 있음
적응형 칼로리 목표 없음 있음, 추세에 맞춰 조정
일관된 추정치 없음 (쿼리마다 변동) 있음 (데이터베이스 고정)
오프라인 접근 없음 있음
비용 무료 (고급 기능은 구독 필요) 월 €2.50부터
광고 플랫폼에 따라 다름 광고 없음

AI 챗봇이 영양에서 잘하는 것

칼로리 추적의 한계에도 불구하고, 일반적인 AI 챗봇은 인정받아야 할 합리적인 영양 활용 사례가 있습니다.

일반 영양 교육. 제미니나 ChatGPT에게 포화 지방과 불포화 지방의 차이를 설명해 달라고 요청하거나 단백질 합성이 어떻게 이루어지는지 설명해 달라고 요청하면, 일반적으로 정확하고 잘 정리된 응답을 얻을 수 있습니다. 과학적 합의가 확립된 개념적 질문에 대해 AI 챗봇은 잘 작동합니다.

식사 아이디어 생성. 챗봇은 "500칼로리 이하의 고단백 식사 아이디어"와 같은 제약 조건에 따라 레시피 아이디어를 생성하는 데 뛰어납니다. 특정 칼로리 수치는 정확하지 않을 수 있지만, 식사 개념은 유용한 출발점이 됩니다.

식이 패턴 비교. 챗봇에게 지중해식, 케토제닉, 식물 기반 다이어트를 비교해 달라고 요청하면, 각 접근 방식에 대한 증거를 합리적으로 요약합니다.

챗봇이 실패하는 것은 매일의 칼로리와 영양소 추적이라는 정량적이고 지속적이며 정확도에 의존하는 작업입니다. 이는 데이터베이스와 기록 문제이지 언어 생성 문제는 아닙니다.

전용 영양 앱이 일반 AI 챗봇보다 우수한 이유

핵심 이유는 구조적입니다. 영양 추적 앱은 구조화된 데이터베이스, 지속적인 사용자 프로필 및 누적 로직을 중심으로 구축됩니다. AI 챗봇은 언어 모델의 다음 토큰 예측을 기반으로 구축됩니다. 이들은 근본적으로 다른 작업에 최적화된 도구입니다.

지속성. Nutrola는 사용자가 기록한 모든 음식, 일일 및 주간 총계, 다량 영양소 추세 및 체중 이력을 완전하게 기록합니다. 이러한 장기 데이터가 칼로리 추적을 효과적으로 만듭니다. 단일 칼로리 추정치가 아무리 정확하더라도, 일일 총계와 주간 패턴의 맥락 없이 무의미합니다.

검증된 데이터. Nutrola의 "Chobani 그릭 요거트, 플레인, 150g"에 대한 데이터베이스 항목은 제조업체의 영양 라벨에서 출처를 얻고 USDA 기준에 따라 검증됩니다. 챗봇이 동일한 항목을 추정할 때, 수천 개의 웹 출처에서 평균 정보를 사용하여 신뢰성이 다양한 수치를 생성하여 그럴듯하지만 검증되지 않은 숫자를 제공합니다.

웨어러블 통합. Apple Watch 데이터는 Nutrola에 직접 피드되어 정확한 활동 칼로리 추정치를 제공하며, 음식 기록과 결합하여 순 에너지 균형을 계산합니다. 어떤 챗봇도 사용자의 실제 일일 움직임에 따라 칼로리 권장 사항을 조정할 수 있는 웨어러블 데이터를 접근할 수 없습니다.

속도와 편리함. 접시의 사진을 찍거나 바코드를 스캔하거나 식사를 말하는 데 30초도 걸리지 않습니다. 챗봇에게 상세한 식사 설명을 입력하고 응답을 기다린 후, 그 추정치를 어딘가에 수동으로 기록하는 데는 훨씬 더 오랜 시간이 걸리며, 덜 정확한 결과를 낳습니다.

AI 챗봇이 영양 앱을 대체할 만큼 개선될 수 있을까?

이는 단순한 모델 능력 문제가 아니라 근본적인 아키텍처에 관한 질문입니다. 현재 모델이 완벽한 칼로리 추정 정확도를 갖추더라도(현재 모델은 그에 미치지 못합니다), AI 챗봇은 여전히 지속적인 기록, 누적 추적, 웨어러블 통합 및 구조화된 데이터베이스 검증이 부족합니다.

미래의 AI 시스템은 이 기능들을 이론적으로 통합할 수 있습니다. 그러나 그 시점에서 그들은 본질적으로 대화형 인터페이스를 가진 영양 앱이 될 것이며, 일반적인 AI 챗봇이 아닐 것입니다. 칼로리 추적을 가능하게 하는 기능들, 즉 검증된 데이터베이스, 지속적인 사용자 기록, 장치 통합, 적응형 알고리즘은 언어 능력이 아니라 엔지니어링 시스템입니다.

가장 가능성이 높은 미래는 "챗봇이 영양 앱을 대체하는 것"이 아니라 "영양 앱이 대화형 AI를 통합하는 것"입니다. 이는 이미 진행 중입니다. Nutrola의 AI 기반 사진 인식 및 음성 기록은 검증된 영양 데이터베이스의 구조적 신뢰성과 대화형 상호작용의 편리함을 결합합니다. AI와 대화하는 자연스러운 상호작용을 통해 목적에 맞게 설계된 추적 시스템의 정확성과 지속성을 얻을 수 있습니다.

AI에게 칼로리를 추적해 달라고 요청하면 어떤 일이 발생할까?

실제 차이를 설명하기 위해, 각 접근 방식으로 칼로리 추적이 어떻게 이루어지는지 보여드리겠습니다.

제미니나 ChatGPT 사용 시: 챗봇에게 아침 식사의 칼로리를 추정해 달라고 요청합니다. 챗봇이 숫자를 제시합니다. 그 숫자를 어딘가에 기록하거나 기억하려고 합니다. 점심 때, 새로운 대화를 시작합니다(챗봇은 아침을 기억하지 못합니다) 그리고 또 다른 추정을 받습니다. 두 숫자를 정신적으로 더합니다. 저녁이 되면, 200에서 400 칼로리 정도 차이가 나는 대략적인 총계가 생기고, 다량 영양소 분해, 지속적인 기록, 주간 추세는 없습니다.

Nutrola 사용 시: 아침 식사의 사진을 찍습니다. AI가 음식을 인식하고, 검증된 데이터베이스 항목과 일치시켜 자동으로 기록합니다. 일일 총계가 실시간으로 업데이트됩니다. 점심 때, 샌드위치 포장의 바코드를 스캔하고, 정확한 제조업체 영양 데이터가 로그에 추가됩니다. 저녁이 되면, 정확한 총계, 다량 영양소 분해, 그리고 주간 및 월간 추세에 반영되는 식사 이력이 있습니다. 칼로리 목표는 Apple Watch에서 동기화된 실제 체중 추세 데이터에 따라 조정됩니다.

차이는 미세하지 않습니다. 이는 추정과 시스템의 차이입니다.

주요 요점

제미니와 ChatGPT와 같은 일반 AI 챗봇은 많은 작업에 대해 인상적인 도구이지만, 칼로리 추적은 그 중 하나가 아닙니다. 우리의 30개 식사 테스트에서는 식사당 평균 108에서 127 칼로리의 오류, 반복 쿼리 간 불일치 결과, 지속적인 기록 기능 부족, 데이터베이스 또는 웨어러블 장치와의 통합 부족을 발견했습니다. 이러한 한계는 구조적이며, 우연적인 것이 아닙니다. 이는 언어 모델과 영양 추적 시스템 간의 근본적인 차이에서 비롯됩니다.

영양 관리를 진지하게 생각하는 사람에게는 검증된 데이터베이스, 지속적인 기록 및 적응형 목표를 갖춘 전용 앱이 필수적입니다. Nutrola는 AI 기반의 편리함(사진 인식, 음성 기록, 바코드 스캔)과 구조화된 영양 플랫폼의 정확성과 지속성을 결합하여 월 2.50유로에 광고 없이 제공합니다. 칼로리 추적에 있어 질문은 AI가 참여하는 것이 아니라, 그 AI가 이 작업에 적합한 아키텍처로 뒷받침되는지 여부입니다.

영양 추적을 혁신할 준비가 되셨나요?

Nutrola로 건강 여정을 바꾼 수천 명에 합류하세요!