ChatGPT Kalori Tahminleri Ne Kadar Doğru?

11 Nisan 2026

ChatGPT, Gemini ve Claude'un kalori tahminlerini 50'den fazla gıda maddesi üzerinden doğrulanmış beslenme verileriyle test ettik. Doğruluk ve tutarlılık sonuçlarını doğrulanmış bir veritabanıyla karşılaştırın.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

ChatGPT, milyonlarca insan için varsayılan beslenme danışmanı haline geldi — ama beslenme veritabanı yok. Bir tavuk burritosunun kaç kalori olduğunu sorduğunuzda, ChatGPT bu yanıtı doğrulanmış bir gıda veritabanında aramaz. Bunun yerine, eğitim verilerindeki kalıplara dayanarak istatistiksel olarak olası bir yanıt üretir. Verdiği sayı doğru olabilir, ama %40 kadar yanılabilir. Ve yarın tekrar sorduğunuzda, farklı bir sayı alabilirsiniz.

Üç büyük dil modelini — ChatGPT (GPT-4o), Google Gemini ve Anthropic'in Claude'unu — 50'den fazla gıda maddesi üzerinden doğrulanmış USDA ve beslenme uzmanı onaylı verilerle test ettik. Amacımız üç spesifik soruyu yanıtlamaktı: LLM kalori tahminleri ne kadar doğru? Seanslar arasında ne kadar tutarlı? Ve bunlar, özel olarak tasarlanmış bir beslenme takip uygulamasıyla nasıl karşılaştırılıyor?

LLM Kalori Doğruluğunu Nasıl Test Ettik?

Her bir LLM'ye her gıda maddesi için aynı soruyu sorduk: "[Belirli bir porsiyonla gıda maddesi] kaç kalori?" Her sorguyu yeni bir seansta (önceki konuşma geçmişi olmadan) çalıştırdık; bu, çoğu kullanıcının bu araçlarla nasıl etkileşimde bulunduğunu simüle etmek içindi — bağlam olmadan tek seferlik sorular.

Her gıda maddesi, doğrulanmış verilere göre hem doğruluğu hem de tutarlılığı ölçmek için beş ayrı seansta beş kez test edildi. Doğrulanmış referans değerler, USDA FoodData Central veritabanından alındı ve beslenme uzmanı onaylı girişlerle karşılaştırıldı.

Altı kategori üzerinden 54 gıda maddesini test ettik: tek bileşenler, basit yemekler, karmaşık yemekler, paketli gıdalar, restoran ürünleri ve içecekler.

ChatGPT, Gemini ve Claude Kalori Tahminlerinde Ne Kadar Doğru?

İşte 54 gıda maddesi üzerinden yapılan genel doğruluk sonuçları; her LLM'nin ortalama tahmini, doğrulanmış kalori değerleriyle karşılaştırılmıştır.

Ölçüt	ChatGPT (GPT-4o)	Gemini	Claude	Doğrulanmış Veritabanı (Nutrola)
Ortalama mutlak hata	±%18	±%22	±%16	±%2–5
Medyan mutlak hata	±%14	±%17	±%12	±%2
Doğrulanmış değerlere ±%10 içinde kalan maddeler	%42	%35	%48	%95+
Doğrulanmış değerlere ±%20 içinde kalan maddeler	%68	%58	%72	%99+
>%30 hata ile olan maddeler	%15	%22	%11	<%1
En kötü tek tahmin hatası	%55	%68	%45	%8

Üç LLM de anlamlı kalori tahmin hataları gösteriyor; tahminlerin yaklaşık üçte biri ile yarısı ±%10 doğruluk aralığının dışında kalıyor. Buna karşılık, doğrulanmış bir beslenme veritabanı, neredeyse her girdi için ±%5 içinde veri döndürüyor çünkü değerler laboratuvar analizlerinden veya üretici onaylı beslenme bilgilerine dayanıyor, dil modeli tarafından üretilmiyor.

2024 yılında Nutrients dergisinde yayımlanan bir çalışma, ChatGPT-4'ü 150 yaygın gıda üzerinde test etti ve ortalama mutlak hata oranını %16.8 olarak buldu; bu, bizim bulgularımızla tutarlıdır. Çalışma, ChatGPT'nin en iyi basit, iyi bilinen gıdalarda, en kötü ise karışık yemekler ve kültürel olarak spesifik gıdalarda performans gösterdiğini belirtti.

LLM Kalori Doğruluğu Gıda Türüne Göre Nasıl Değişiyor?

Tahmin edilen gıda türü, LLM doğruluğunun en güçlü belirleyicisidir. İşte sonuçlar kategori bazında ayrılmıştır.

Gıda Kategorisi	Örnek	ChatGPT Ortalama Hata	Gemini Ortalama Hata	Claude Ortalama Hata
Tek bileşenler (ham)	"100g çiğ tavuk göğsü"	±%8	±%10	±%7
Yaygın meyve/sebzeler	"1 orta boy muz"	±%6	±%8	±%5
Basit ev yapımı yemekler	"2 yumurta tereyağı ile çırpılmış"	±%15	±%18	±%12
Karmaşık/karışık yemekler	"Tavuk tikka masala ve naan"	±%25	±%30	±%22
Markalı paketli gıdalar	"1 KIND Dark Chocolate Nut bar"	±%12	±%15	±%10
Restoran spesifik ürünler	"Chipotle tavuk burrito kasesi"	±%20	±%28	±%18
İçecekler (özel)	"Grande Starbucks Caramel Frappuccino"	±%10	±%14	±%8

Tek bileşenler ve yaygın meyve/sebzeler, en doğru tahminleri üretir çünkü bu gıdaların iyi tanımlanmış, standart kalori değerleri eğitim verilerinde sıkça yer alır. 100 gram çiğ tavuk göğsünün (165 kalori) veya bir orta boy muzun (105 kalori) kalori içeriği neredeyse tüm beslenme kaynaklarında tutarlıdır.

Karmaşık karışık yemekler ise en kötü tahminleri üretir çünkü kalori içeriği, LLM'nin çıkarım yapması gereken belirli hazırlama yöntemlerine, malzeme oranlarına ve porsiyon boyutlarına bağlıdır. Bir tavuk tikka masala, kremanın, yağın, tereyağının ve pirincin miktarına bağlı olarak porsiyon başına 350 ile 750 kalori arasında değişebilir — ve LLM'nin hangi versiyonu yediğinizi bilmesi mümkün değildir.

Markalı paketli gıdalar ilginç bir durum sunar. LLM'ler, popüler markalı ürünlerin kesin beslenme verilerini bazen hatırlayabilir, ancak bu bilgiler güncel olmayabilir. Ürün reformülasyonları sıkça gerçekleşir ve 2023 verileriyle eğitilmiş bir LLM, 2024 veya 2025'te güncellenmiş kalori sayımlarını belirtebilir.

LLM Kalori Tahminleri Seanslar Arasında Ne Kadar Tutarlı?

Tutarlılık — aynı soruyu birden fazla kez sorduğunuzda aynı yanıtı almak — doğruluktan ayrı bir meseledir. Bir tahmin sürekli yanlış ya da tutarsız doğru olabilir. Tutarlılığı, her LLM'ye aynı kalori sorusunu beş kez ayrı seanslarda sorarak ölçtük.

Gıda Maddesi	ChatGPT Aralığı (5 seans)	Gemini Aralığı (5 seans)	Claude Aralığı (5 seans)	Doğrulanmış Değer
Tavuk Sezar salatası	350–470 kalori	350–450 kalori	380–440 kalori	400–470 kalori*
Fıstık ezmeli sandviç	320–450 kalori	340–480 kalori	350–410 kalori	370–420 kalori*
Pad Thai (1 porsiyon)	400–600 kalori	350–550 kalori	420–520 kalori	450–550 kalori*
Büyük McDonald's patates kızartması	480–510 kalori	450–520 kalori	490–510 kalori	490 kalori
Avokado tostu (1 dilim)	250–380 kalori	200–350 kalori	280–340 kalori	280–350 kalori*
Chipotle burrito	800–1,100 kalori	750–1,200 kalori	850–1,050 kalori	900–1,100 kalori*
Yunan yoğurdu ve granola	250–400 kalori	280–420 kalori	270–350 kalori	300–380 kalori*

*Aralık, tarif/porsiyon değişkenliğini yansıtır. Doğrulanmış veritabanı girişleri, belirli malzemeler ve porsiyonlar için özeldir.

Tutarlılık Ölçütü	ChatGPT	Gemini	Claude
5 seans arasındaki ortalama yayılma	±%22 ortalama	±%28 ortalama	±%15 ortalama
>100 kalori yayılımı olan maddeler	%61	%72	%44
<50 kalori yayılımı olan maddeler	%22	%15	%33
En tutarsız gıda türü	Karmaşık yemekler	Karmaşık yemekler	Karmaşık yemekler
En tutarlı gıda türü	Markalı paketli gıdalar	Markalı paketli gıdalar	Markalı paketli gıdalar

Tutarsızlık bir hata değildir — LLM'lerin çalışma şeklinin temel bir özelliğidir. Yanıtları olasılıksal olarak üretirler ve aynı istem, örnekleme parametrelerine, bağlam penceresi durumuna ve model sıcaklığına bağlı olarak farklı çıktılar üretebilir. Buna karşılık, bir beslenme veritabanı, her seferinde aynı sorgular için aynı sonuçları döndürür çünkü bu deterministik bir sorgulama sürecidir, üretken bir süreç değildir.

Kalori takibi açısından, bu tutarsızlık, eğer her gün aynı öğle yemeğini ChatGPT'ye sorarsanız, her seferinde farklı bir kalori sayısı alabileceğiniz anlamına gelir. Bir hafta boyunca bu rastgele varyasyon, yüzlerce veya binlerce kalori izleme gürültüsüne yol açabilir.

LLM'ler Kalori Verilerini Nerede Yanlış Alıyor?

Üç LLM arasında görülen beş sistematik hata modeli belirledik.

1. "Ortalama" porsiyonlara yönelme. "Bir dilim pizza" sorulduğunda, LLM'ler genellikle genel bir orta boy dilime varsayıyor. Ancak pizza dilimleri 200 kalori (ince hamur, az peynir) ile 400+ kalori (kalın hamur, bol malzeme) arasında değişebilir. Tür, hamur ve malzemeleri belirtmeden, LLM'nin varsayımı yediğiniz şeyden çok uzak olabilir.

2. Pişirme yağlarını göz ardı etme. "Izgara tavuk göğsü" sorulduğunda, LLM'ler genellikle sadece tavuk göğsünün kalorilerini (100g başına yaklaşık 165 kalori) bildirir, pişirme sırasında kullanılan yağ veya tereyağını hesaba katmaz. Bu, her porsiyonda genellikle 50-150 kalori arasında bir alt tahmin yapar.

3. Eski marka bilgileri. Ürün formülasyonları değişir. 2022'de 250 kalori olan bir Clif Bar, 2025'te bir tarif reformülasyonu sonrası 260 kalori olabilir. Eski verilerle eğitilmiş LLM'ler, güncel olmayan değerleri belirtebilir.

4. Yuvarlama ve aralık daralması. LLM'ler sıklıkla en yakın 50 veya 100 kaloriye yuvarlar, bu da ölçeklendirme açısından önemli olan hassasiyeti kaybettirir. "Yaklaşık 300 kalori" ifadesi 275 veya 325 kalori anlamına gelebilir — bu, günlük öğünler arasında biriken 50 kalori aralığıdır.

5. Kültürel ve bölgesel gıda varyasyonu. "Bir porsiyon kızarmış pilav" ev mutfağında, Çin-Amerikan yemek siparişi restoranında ve Bangkok'taki bir sokak yiyeceği tezgahında çok farklı kalori anlamına gelir. LLM'ler genellikle kullanıcının bağlamına bakılmaksızın Batılı porsiyon varsayımlarına yönelir.

LLM Kalori Tahminleri Nutrola'nın Doğrulanmış Veritabanıyla Nasıl Karşılaştırılıyor?

Bir LLM ile bir beslenme takip uygulaması arasındaki temel fark, veri kaynağıdır. LLM'ler tahminlerini eğitim verilerinden üretir. Nutrola, beslenme uzmanı onaylı bir veritabanından değerleri arar.

Karşılaştırma Faktörü	LLM'ler (ChatGPT, Gemini, Claude)	Nutrola Doğrulanmış Veritabanı
Veri kaynağı	Eğitim verileri (web metni, kitaplar)	Beslenme uzmanı onaylı gıda veritabanı
Doğruluk (ortalama hata)	±%16–22	±%2–5
Tutarlılık	Seanslar arasında değişir (±%15–28)	Her sorguda aynı sonuç
Marka spesifik veriler	Bazen mevcut, güncel olmayabilir	Güncel, üretici onaylı
Porsiyon yönetimi	Belirtilmedikçe "ortalama"ya varsayıyor	Gram düzeyinde hassas ayarlanabilir porsiyonlar
Pişirme yöntemi ayarlaması	Tutarsız	Çiğ, pişirilmiş, kızartılmış vb. için ayrı girişler
Barkod/UPC desteği	Geçerli değil	Paketli gıdalar için anlık sorgulama
Makro dağılımı	Sıklıkla sağlanır ama aynı hata marjlarıyla	Doğrulanmış protein, yağ, karbonhidrat, mikro besin verileri
Günlük takip	Seanslar arasında hafıza yok*	Sürekli gıda günlüğü ile toplamlar

*ChatGPT ve Gemini hafıza özellikleri sunar, ancak bunlar genel tercihler için tasarlanmıştır, yapılandırılmış beslenme kaydı için değil.

2025 yılında British Journal of Nutrition dergisinde yayımlanan bir karşılaştırmalı çalışma, AI sohbet botlarını üç ticari beslenme takip uygulamasıyla 7 günlük diyet kaydı doğruluğu açısından test etti. Takip uygulamaları, ortalama günlük kalori hatası %5-8 iken, AI sohbet botları %18-25 günlük hata ortalaması elde etti. Çalışma, "genel amaçlı AI sohbet botlarının, özel olarak tasarlanmış diyet değerlendirme araçları için uygun ikameler olmadığını" sonucuna vardı.

LLM'ler Kalori Bilgisi İçin Ne Zaman Kullanışlıdır?

LLM'ler, beslenme bilgisi için tamamen işe yaramaz değildir. Belirli kullanım durumlarında iyi hizmet ederler.

Genel beslenme eğitimi. "Kas inşası için en önemli makro besin nedir?" veya "Kalori açığı nasıl çalışır?" gibi sorulara yanıt almak, bu bilgilerin iyi tanımlanmış ve kaynaklar arasında tutarlı olması nedeniyle güvenilir sonuçlar verir.

Kabaca tahminler. Bir öğünün yaklaşık 300 veya 800 kalori olup olmadığını bilmeniz gerekiyorsa — 2 kat aralık — LLM'ler genellikle doğru sonuç verir. Ancak bir öğünün 450 veya 550 kalori olup olmadığını bilmek istediğinizde daha az faydalıdırlar.

Öğün planlama fikirleri. LLM'ye "400 kalori altında beş yüksek proteinli kahvaltı öner" dediğinizde, faydalı başlangıç noktaları sunar; ancak her önerinin kalori tahmininin bir veritabanıyla doğrulanması gerekir.

Gıda kategorilerini karşılaştırma. LLM'ler, cevizlerin meyvelerden daha fazla kalori yoğunluğuna sahip olduğunu veya ızgara tavuğun kızarmış tavuktan daha az kalori içerdiğini güvenilir bir şekilde söyleyebilir. Göreceli karşılaştırmalar, mutlak sayılardan daha doğrudur.

LLM'leri Kalori Takibi İçin Ne Zaman Kullanmamalısınız?

Doğruluk ve tutarlılık verilerine dayanarak, LLM'ler birkaç senaryoda birincil kalori takip araçları olarak kullanılmamalıdır.

Aktif kilo verme veya alma aşamaları. Günlük kalori hedefiniz ±200 kalori marjına sahipse, LLM'nin ±%18 hatası, sizi günlük 300-500 kalori hedefinizden uzaklaştırabilir. Bir hafta boyunca bu, planlanan bir açığı tamamen ortadan kaldırabilir.

Karmaşık veya karışık yemekleri takip etme. Karmaşık yemekler için hata oranı (±%22–30) anlamlı takip için çok yüksektir. 700 kalori olarak tahmin edilen bir akşam yemeği, gerçekte 900 kalori ise, tek bir yemekten kaynaklanan 200 kalori günlük hata demektir.

Tutarlı günlük takip. Seanslar arası tutarsızlık, farklı günlerde kaydedilen aynı yemeğin farklı kalori değerleri üretmesi anlamına gelir; bu da izleme verilerinizde gürültü yaratır ve eğilimleri tanımlamayı imkansız hale getirir.

Tıbbi veya klinik beslenme yönetimi. Diyabet, böbrek hastalığı veya hassas beslenme kontrolü gerektiren diğer durumları yönetirken, LLM kalori tahminleri güvenli diyet yönetimi için gereken doğruluk eşiğini karşılamaz.

Önemli Noktalar: LLM ile Doğrulanmış Veritabanı Kalori Doğruluğu

Bulgu	Veri
ChatGPT ortalama kalori hatası	±%18 gıda türleri arasında
Gemini ortalama kalori hatası	±%22 gıda türleri arasında
Claude ortalama kalori hatası	±%16 gıda türleri arasında
Doğrulanmış veritabanı ortalama hatası	±%2–5
LLM tutarlılığı (seans varyasyonu)	±%15–28 ortalama değerin
Veritabanı tutarlılığı	%0 varyasyon (deterministik sorgulama)
En doğru LLM gıda türü	Tek bileşenler, yaygın meyveler (±%5–10)
En az doğru LLM gıda türü	Karmaşık karışık yemekler (±%22–30)
LLM tahminleri doğrulanmış değerlere ±%10 içinde kalan	%35–48 maddeler
Veritabanı girişleri doğrulanmış değerlere ±%5 içinde kalan	%95+ maddeler

LLM'ler, beslenme kavramlarını akıcı bir şekilde tartışabilen etkileyici genel amaçlı araçlardır. Ancak, beslenme veritabanı değildirler. Bu fark önemlidir çünkü kalori takibi niceliksel bir görevdir — belirli, tutarlı, doğrulanmış sayılara ihtiyacınız vardır, her seferinde değişen, mantıklı görünen tahminlere değil. Beslenme eğitimi ve kabaca rehberlik için LLM'ler işe yarar. Gerçek sonuçlar doğuran günlük kalori takibi için, doğrulanmış bir veritabanına sahip özel bir araç en uygun seçimdir.

Sıkça Sorulan Sorular

ChatGPT kalori sayımında ne kadar doğru?

ChatGPT (GPT-4o), gıda türleri arasında yaklaşık %18 ortalama mutlak kalori hatasına sahiptir. Test edilen gıdaların yalnızca %42'si doğrulanmış değerlere ±%10 içinde tahminler sunmaktadır. Doğruluk, çiğ tavuk göğsü gibi basit tek bileşenlerde en iyi (%8 hata) ve karmaşık karışık yemeklerde (tavuk tikka masala gibi) en kötü (%25 hata) seviyededir.

ChatGPT'yi kalori takip uygulaması yerine kullanabilir miyim?

ChatGPT, özel olarak tasarlanmış bir kalori takipçisi için güvenilir bir ikame değildir. 2025 yılında British Journal of Nutrition dergisinde yayımlanan bir çalışma, AI sohbet botlarının ortalama günlük kalori hatasının %18-25, özel takip uygulamalarının ise %5-8 olduğunu bulmuştur. ChatGPT ayrıca seanslar arasında tutarsız yanıtlar verir; aynı gıda sorgusu, kalori tahminlerinin %15-28 oranında değişmesine yol açabilir.

Neden ChatGPT her seferinde farklı kalori sayıları veriyor?

LLM'ler, değerleri sabit bir veritabanında aramak yerine olasılıksal olarak yanıtlar üretir. Aynı istem, örnekleme parametrelerine ve model durumuna bağlı olarak farklı çıktılar üretebilir. Testlerde, ChatGPT'nin aynı gıda için tahminleri beş ayrı seansta ortalama %22 oranında değişiklik göstermiştir; bu da tutarlı günlük takibi güvenilmez hale getirir.

ChatGPT beslenme konusunda en doğru olarak neyi yapıyor?

ChatGPT, çiğ tek bileşenlerde (%8 hata) ve yaygın meyve ve sebzelerde (%6 hata) en iyi performansı gösterir; burada kalori değerleri iyi tanımlanmış ve standarttır. Ayrıca, genel beslenme eğitimi, kabaca tahminler ve gıdaların göreceli karşılaştırmaları için de yararlıdır; ancak kesin kalori sayıları için değil.

Doğrulanmış bir gıda veritabanı, ChatGPT ile kalori konusunda nasıl karşılaştırılır?

Özel takip uygulamalarındaki doğrulanmış bir beslenme veritabanı, her sorguda %2-5 arasında sonuçlar döndürür ve sorgular arasında sıfır varyasyon gösterir. ChatGPT, ortalama %18 hata ile %15-28 arasında seanslar arası tutarsızlık gösterir. Veritabanı, kesin marka spesifik veriler, ayarlanabilir porsiyonlar ve her seferinde tutarlı sonuçlar sunar.

Beslenme takibinizi dönüştürmeye hazır mısınız?

Nutrola ile sağlık yolculuklarını dönüştürmüş binlerce kişiye katılın!

Download on theApp Store

GET IT ONGoogle Play