ChatGPT Kalori Tahminleri Ne Kadar Doğru?
ChatGPT, Gemini ve Claude'un kalori tahminlerini 50'den fazla gıda maddesi üzerinden doğrulanmış beslenme verileriyle test ettik. Doğruluk ve tutarlılık sonuçlarını doğrulanmış bir veritabanıyla karşılaştırın.
ChatGPT, milyonlarca insan için varsayılan beslenme danışmanı haline geldi — ama beslenme veritabanı yok. Bir tavuk burritosunun kaç kalori olduğunu sorduğunuzda, ChatGPT bu yanıtı doğrulanmış bir gıda veritabanında aramaz. Bunun yerine, eğitim verilerindeki kalıplara dayanarak istatistiksel olarak olası bir yanıt üretir. Verdiği sayı doğru olabilir, ama %40 kadar yanılabilir. Ve yarın tekrar sorduğunuzda, farklı bir sayı alabilirsiniz.
Üç büyük dil modelini — ChatGPT (GPT-4o), Google Gemini ve Anthropic'in Claude'unu — 50'den fazla gıda maddesi üzerinden doğrulanmış USDA ve beslenme uzmanı onaylı verilerle test ettik. Amacımız üç spesifik soruyu yanıtlamaktı: LLM kalori tahminleri ne kadar doğru? Seanslar arasında ne kadar tutarlı? Ve bunlar, özel olarak tasarlanmış bir beslenme takip uygulamasıyla nasıl karşılaştırılıyor?
LLM Kalori Doğruluğunu Nasıl Test Ettik?
Her bir LLM'ye her gıda maddesi için aynı soruyu sorduk: "[Belirli bir porsiyonla gıda maddesi] kaç kalori?" Her sorguyu yeni bir seansta (önceki konuşma geçmişi olmadan) çalıştırdık; bu, çoğu kullanıcının bu araçlarla nasıl etkileşimde bulunduğunu simüle etmek içindi — bağlam olmadan tek seferlik sorular.
Her gıda maddesi, doğrulanmış verilere göre hem doğruluğu hem de tutarlılığı ölçmek için beş ayrı seansta beş kez test edildi. Doğrulanmış referans değerler, USDA FoodData Central veritabanından alındı ve beslenme uzmanı onaylı girişlerle karşılaştırıldı.
Altı kategori üzerinden 54 gıda maddesini test ettik: tek bileşenler, basit yemekler, karmaşık yemekler, paketli gıdalar, restoran ürünleri ve içecekler.
ChatGPT, Gemini ve Claude Kalori Tahminlerinde Ne Kadar Doğru?
İşte 54 gıda maddesi üzerinden yapılan genel doğruluk sonuçları; her LLM'nin ortalama tahmini, doğrulanmış kalori değerleriyle karşılaştırılmıştır.
| Ölçüt | ChatGPT (GPT-4o) | Gemini | Claude | Doğrulanmış Veritabanı (Nutrola) |
|---|---|---|---|---|
| Ortalama mutlak hata | ±%18 | ±%22 | ±%16 | ±%2–5 |
| Medyan mutlak hata | ±%14 | ±%17 | ±%12 | ±%2 |
| Doğrulanmış değerlere ±%10 içinde kalan maddeler | %42 | %35 | %48 | %95+ |
| Doğrulanmış değerlere ±%20 içinde kalan maddeler | %68 | %58 | %72 | %99+ |
| >%30 hata ile olan maddeler | %15 | %22 | %11 | <%1 |
| En kötü tek tahmin hatası | %55 | %68 | %45 | %8 |
Üç LLM de anlamlı kalori tahmin hataları gösteriyor; tahminlerin yaklaşık üçte biri ile yarısı ±%10 doğruluk aralığının dışında kalıyor. Buna karşılık, doğrulanmış bir beslenme veritabanı, neredeyse her girdi için ±%5 içinde veri döndürüyor çünkü değerler laboratuvar analizlerinden veya üretici onaylı beslenme bilgilerine dayanıyor, dil modeli tarafından üretilmiyor.
2024 yılında Nutrients dergisinde yayımlanan bir çalışma, ChatGPT-4'ü 150 yaygın gıda üzerinde test etti ve ortalama mutlak hata oranını %16.8 olarak buldu; bu, bizim bulgularımızla tutarlıdır. Çalışma, ChatGPT'nin en iyi basit, iyi bilinen gıdalarda, en kötü ise karışık yemekler ve kültürel olarak spesifik gıdalarda performans gösterdiğini belirtti.
LLM Kalori Doğruluğu Gıda Türüne Göre Nasıl Değişiyor?
Tahmin edilen gıda türü, LLM doğruluğunun en güçlü belirleyicisidir. İşte sonuçlar kategori bazında ayrılmıştır.
| Gıda Kategorisi | Örnek | ChatGPT Ortalama Hata | Gemini Ortalama Hata | Claude Ortalama Hata |
|---|---|---|---|---|
| Tek bileşenler (ham) | "100g çiğ tavuk göğsü" | ±%8 | ±%10 | ±%7 |
| Yaygın meyve/sebzeler | "1 orta boy muz" | ±%6 | ±%8 | ±%5 |
| Basit ev yapımı yemekler | "2 yumurta tereyağı ile çırpılmış" | ±%15 | ±%18 | ±%12 |
| Karmaşık/karışık yemekler | "Tavuk tikka masala ve naan" | ±%25 | ±%30 | ±%22 |
| Markalı paketli gıdalar | "1 KIND Dark Chocolate Nut bar" | ±%12 | ±%15 | ±%10 |
| Restoran spesifik ürünler | "Chipotle tavuk burrito kasesi" | ±%20 | ±%28 | ±%18 |
| İçecekler (özel) | "Grande Starbucks Caramel Frappuccino" | ±%10 | ±%14 | ±%8 |
Tek bileşenler ve yaygın meyve/sebzeler, en doğru tahminleri üretir çünkü bu gıdaların iyi tanımlanmış, standart kalori değerleri eğitim verilerinde sıkça yer alır. 100 gram çiğ tavuk göğsünün (165 kalori) veya bir orta boy muzun (105 kalori) kalori içeriği neredeyse tüm beslenme kaynaklarında tutarlıdır.
Karmaşık karışık yemekler ise en kötü tahminleri üretir çünkü kalori içeriği, LLM'nin çıkarım yapması gereken belirli hazırlama yöntemlerine, malzeme oranlarına ve porsiyon boyutlarına bağlıdır. Bir tavuk tikka masala, kremanın, yağın, tereyağının ve pirincin miktarına bağlı olarak porsiyon başına 350 ile 750 kalori arasında değişebilir — ve LLM'nin hangi versiyonu yediğinizi bilmesi mümkün değildir.
Markalı paketli gıdalar ilginç bir durum sunar. LLM'ler, popüler markalı ürünlerin kesin beslenme verilerini bazen hatırlayabilir, ancak bu bilgiler güncel olmayabilir. Ürün reformülasyonları sıkça gerçekleşir ve 2023 verileriyle eğitilmiş bir LLM, 2024 veya 2025'te güncellenmiş kalori sayımlarını belirtebilir.
LLM Kalori Tahminleri Seanslar Arasında Ne Kadar Tutarlı?
Tutarlılık — aynı soruyu birden fazla kez sorduğunuzda aynı yanıtı almak — doğruluktan ayrı bir meseledir. Bir tahmin sürekli yanlış ya da tutarsız doğru olabilir. Tutarlılığı, her LLM'ye aynı kalori sorusunu beş kez ayrı seanslarda sorarak ölçtük.
| Gıda Maddesi | ChatGPT Aralığı (5 seans) | Gemini Aralığı (5 seans) | Claude Aralığı (5 seans) | Doğrulanmış Değer |
|---|---|---|---|---|
| Tavuk Sezar salatası | 350–470 kalori | 350–450 kalori | 380–440 kalori | 400–470 kalori* |
| Fıstık ezmeli sandviç | 320–450 kalori | 340–480 kalori | 350–410 kalori | 370–420 kalori* |
| Pad Thai (1 porsiyon) | 400–600 kalori | 350–550 kalori | 420–520 kalori | 450–550 kalori* |
| Büyük McDonald's patates kızartması | 480–510 kalori | 450–520 kalori | 490–510 kalori | 490 kalori |
| Avokado tostu (1 dilim) | 250–380 kalori | 200–350 kalori | 280–340 kalori | 280–350 kalori* |
| Chipotle burrito | 800–1,100 kalori | 750–1,200 kalori | 850–1,050 kalori | 900–1,100 kalori* |
| Yunan yoğurdu ve granola | 250–400 kalori | 280–420 kalori | 270–350 kalori | 300–380 kalori* |
*Aralık, tarif/porsiyon değişkenliğini yansıtır. Doğrulanmış veritabanı girişleri, belirli malzemeler ve porsiyonlar için özeldir.
| Tutarlılık Ölçütü | ChatGPT | Gemini | Claude |
|---|---|---|---|
| 5 seans arasındaki ortalama yayılma | ±%22 ortalama | ±%28 ortalama | ±%15 ortalama |
| >100 kalori yayılımı olan maddeler | %61 | %72 | %44 |
| <50 kalori yayılımı olan maddeler | %22 | %15 | %33 |
| En tutarsız gıda türü | Karmaşık yemekler | Karmaşık yemekler | Karmaşık yemekler |
| En tutarlı gıda türü | Markalı paketli gıdalar | Markalı paketli gıdalar | Markalı paketli gıdalar |
Tutarsızlık bir hata değildir — LLM'lerin çalışma şeklinin temel bir özelliğidir. Yanıtları olasılıksal olarak üretirler ve aynı istem, örnekleme parametrelerine, bağlam penceresi durumuna ve model sıcaklığına bağlı olarak farklı çıktılar üretebilir. Buna karşılık, bir beslenme veritabanı, her seferinde aynı sorgular için aynı sonuçları döndürür çünkü bu deterministik bir sorgulama sürecidir, üretken bir süreç değildir.
Kalori takibi açısından, bu tutarsızlık, eğer her gün aynı öğle yemeğini ChatGPT'ye sorarsanız, her seferinde farklı bir kalori sayısı alabileceğiniz anlamına gelir. Bir hafta boyunca bu rastgele varyasyon, yüzlerce veya binlerce kalori izleme gürültüsüne yol açabilir.
LLM'ler Kalori Verilerini Nerede Yanlış Alıyor?
Üç LLM arasında görülen beş sistematik hata modeli belirledik.
1. "Ortalama" porsiyonlara yönelme. "Bir dilim pizza" sorulduğunda, LLM'ler genellikle genel bir orta boy dilime varsayıyor. Ancak pizza dilimleri 200 kalori (ince hamur, az peynir) ile 400+ kalori (kalın hamur, bol malzeme) arasında değişebilir. Tür, hamur ve malzemeleri belirtmeden, LLM'nin varsayımı yediğiniz şeyden çok uzak olabilir.
2. Pişirme yağlarını göz ardı etme. "Izgara tavuk göğsü" sorulduğunda, LLM'ler genellikle sadece tavuk göğsünün kalorilerini (100g başına yaklaşık 165 kalori) bildirir, pişirme sırasında kullanılan yağ veya tereyağını hesaba katmaz. Bu, her porsiyonda genellikle 50-150 kalori arasında bir alt tahmin yapar.
3. Eski marka bilgileri. Ürün formülasyonları değişir. 2022'de 250 kalori olan bir Clif Bar, 2025'te bir tarif reformülasyonu sonrası 260 kalori olabilir. Eski verilerle eğitilmiş LLM'ler, güncel olmayan değerleri belirtebilir.
4. Yuvarlama ve aralık daralması. LLM'ler sıklıkla en yakın 50 veya 100 kaloriye yuvarlar, bu da ölçeklendirme açısından önemli olan hassasiyeti kaybettirir. "Yaklaşık 300 kalori" ifadesi 275 veya 325 kalori anlamına gelebilir — bu, günlük öğünler arasında biriken 50 kalori aralığıdır.
5. Kültürel ve bölgesel gıda varyasyonu. "Bir porsiyon kızarmış pilav" ev mutfağında, Çin-Amerikan yemek siparişi restoranında ve Bangkok'taki bir sokak yiyeceği tezgahında çok farklı kalori anlamına gelir. LLM'ler genellikle kullanıcının bağlamına bakılmaksızın Batılı porsiyon varsayımlarına yönelir.
LLM Kalori Tahminleri Nutrola'nın Doğrulanmış Veritabanıyla Nasıl Karşılaştırılıyor?
Bir LLM ile bir beslenme takip uygulaması arasındaki temel fark, veri kaynağıdır. LLM'ler tahminlerini eğitim verilerinden üretir. Nutrola, beslenme uzmanı onaylı bir veritabanından değerleri arar.
| Karşılaştırma Faktörü | LLM'ler (ChatGPT, Gemini, Claude) | Nutrola Doğrulanmış Veritabanı |
|---|---|---|
| Veri kaynağı | Eğitim verileri (web metni, kitaplar) | Beslenme uzmanı onaylı gıda veritabanı |
| Doğruluk (ortalama hata) | ±%16–22 | ±%2–5 |
| Tutarlılık | Seanslar arasında değişir (±%15–28) | Her sorguda aynı sonuç |
| Marka spesifik veriler | Bazen mevcut, güncel olmayabilir | Güncel, üretici onaylı |
| Porsiyon yönetimi | Belirtilmedikçe "ortalama"ya varsayıyor | Gram düzeyinde hassas ayarlanabilir porsiyonlar |
| Pişirme yöntemi ayarlaması | Tutarsız | Çiğ, pişirilmiş, kızartılmış vb. için ayrı girişler |
| Barkod/UPC desteği | Geçerli değil | Paketli gıdalar için anlık sorgulama |
| Makro dağılımı | Sıklıkla sağlanır ama aynı hata marjlarıyla | Doğrulanmış protein, yağ, karbonhidrat, mikro besin verileri |
| Günlük takip | Seanslar arasında hafıza yok* | Sürekli gıda günlüğü ile toplamlar |
*ChatGPT ve Gemini hafıza özellikleri sunar, ancak bunlar genel tercihler için tasarlanmıştır, yapılandırılmış beslenme kaydı için değil.
2025 yılında British Journal of Nutrition dergisinde yayımlanan bir karşılaştırmalı çalışma, AI sohbet botlarını üç ticari beslenme takip uygulamasıyla 7 günlük diyet kaydı doğruluğu açısından test etti. Takip uygulamaları, ortalama günlük kalori hatası %5-8 iken, AI sohbet botları %18-25 günlük hata ortalaması elde etti. Çalışma, "genel amaçlı AI sohbet botlarının, özel olarak tasarlanmış diyet değerlendirme araçları için uygun ikameler olmadığını" sonucuna vardı.
LLM'ler Kalori Bilgisi İçin Ne Zaman Kullanışlıdır?
LLM'ler, beslenme bilgisi için tamamen işe yaramaz değildir. Belirli kullanım durumlarında iyi hizmet ederler.
Genel beslenme eğitimi. "Kas inşası için en önemli makro besin nedir?" veya "Kalori açığı nasıl çalışır?" gibi sorulara yanıt almak, bu bilgilerin iyi tanımlanmış ve kaynaklar arasında tutarlı olması nedeniyle güvenilir sonuçlar verir.
Kabaca tahminler. Bir öğünün yaklaşık 300 veya 800 kalori olup olmadığını bilmeniz gerekiyorsa — 2 kat aralık — LLM'ler genellikle doğru sonuç verir. Ancak bir öğünün 450 veya 550 kalori olup olmadığını bilmek istediğinizde daha az faydalıdırlar.
Öğün planlama fikirleri. LLM'ye "400 kalori altında beş yüksek proteinli kahvaltı öner" dediğinizde, faydalı başlangıç noktaları sunar; ancak her önerinin kalori tahmininin bir veritabanıyla doğrulanması gerekir.
Gıda kategorilerini karşılaştırma. LLM'ler, cevizlerin meyvelerden daha fazla kalori yoğunluğuna sahip olduğunu veya ızgara tavuğun kızarmış tavuktan daha az kalori içerdiğini güvenilir bir şekilde söyleyebilir. Göreceli karşılaştırmalar, mutlak sayılardan daha doğrudur.
LLM'leri Kalori Takibi İçin Ne Zaman Kullanmamalısınız?
Doğruluk ve tutarlılık verilerine dayanarak, LLM'ler birkaç senaryoda birincil kalori takip araçları olarak kullanılmamalıdır.
Aktif kilo verme veya alma aşamaları. Günlük kalori hedefiniz ±200 kalori marjına sahipse, LLM'nin ±%18 hatası, sizi günlük 300-500 kalori hedefinizden uzaklaştırabilir. Bir hafta boyunca bu, planlanan bir açığı tamamen ortadan kaldırabilir.
Karmaşık veya karışık yemekleri takip etme. Karmaşık yemekler için hata oranı (±%22–30) anlamlı takip için çok yüksektir. 700 kalori olarak tahmin edilen bir akşam yemeği, gerçekte 900 kalori ise, tek bir yemekten kaynaklanan 200 kalori günlük hata demektir.
Tutarlı günlük takip. Seanslar arası tutarsızlık, farklı günlerde kaydedilen aynı yemeğin farklı kalori değerleri üretmesi anlamına gelir; bu da izleme verilerinizde gürültü yaratır ve eğilimleri tanımlamayı imkansız hale getirir.
Tıbbi veya klinik beslenme yönetimi. Diyabet, böbrek hastalığı veya hassas beslenme kontrolü gerektiren diğer durumları yönetirken, LLM kalori tahminleri güvenli diyet yönetimi için gereken doğruluk eşiğini karşılamaz.
Önemli Noktalar: LLM ile Doğrulanmış Veritabanı Kalori Doğruluğu
| Bulgu | Veri |
|---|---|
| ChatGPT ortalama kalori hatası | ±%18 gıda türleri arasında |
| Gemini ortalama kalori hatası | ±%22 gıda türleri arasında |
| Claude ortalama kalori hatası | ±%16 gıda türleri arasında |
| Doğrulanmış veritabanı ortalama hatası | ±%2–5 |
| LLM tutarlılığı (seans varyasyonu) | ±%15–28 ortalama değerin |
| Veritabanı tutarlılığı | %0 varyasyon (deterministik sorgulama) |
| En doğru LLM gıda türü | Tek bileşenler, yaygın meyveler (±%5–10) |
| En az doğru LLM gıda türü | Karmaşık karışık yemekler (±%22–30) |
| LLM tahminleri doğrulanmış değerlere ±%10 içinde kalan | %35–48 maddeler |
| Veritabanı girişleri doğrulanmış değerlere ±%5 içinde kalan | %95+ maddeler |
LLM'ler, beslenme kavramlarını akıcı bir şekilde tartışabilen etkileyici genel amaçlı araçlardır. Ancak, beslenme veritabanı değildirler. Bu fark önemlidir çünkü kalori takibi niceliksel bir görevdir — belirli, tutarlı, doğrulanmış sayılara ihtiyacınız vardır, her seferinde değişen, mantıklı görünen tahminlere değil. Beslenme eğitimi ve kabaca rehberlik için LLM'ler işe yarar. Gerçek sonuçlar doğuran günlük kalori takibi için, doğrulanmış bir veritabanına sahip özel bir araç en uygun seçimdir.
Sıkça Sorulan Sorular
ChatGPT kalori sayımında ne kadar doğru?
ChatGPT (GPT-4o), gıda türleri arasında yaklaşık %18 ortalama mutlak kalori hatasına sahiptir. Test edilen gıdaların yalnızca %42'si doğrulanmış değerlere ±%10 içinde tahminler sunmaktadır. Doğruluk, çiğ tavuk göğsü gibi basit tek bileşenlerde en iyi (%8 hata) ve karmaşık karışık yemeklerde (tavuk tikka masala gibi) en kötü (%25 hata) seviyededir.
ChatGPT'yi kalori takip uygulaması yerine kullanabilir miyim?
ChatGPT, özel olarak tasarlanmış bir kalori takipçisi için güvenilir bir ikame değildir. 2025 yılında British Journal of Nutrition dergisinde yayımlanan bir çalışma, AI sohbet botlarının ortalama günlük kalori hatasının %18-25, özel takip uygulamalarının ise %5-8 olduğunu bulmuştur. ChatGPT ayrıca seanslar arasında tutarsız yanıtlar verir; aynı gıda sorgusu, kalori tahminlerinin %15-28 oranında değişmesine yol açabilir.
Neden ChatGPT her seferinde farklı kalori sayıları veriyor?
LLM'ler, değerleri sabit bir veritabanında aramak yerine olasılıksal olarak yanıtlar üretir. Aynı istem, örnekleme parametrelerine ve model durumuna bağlı olarak farklı çıktılar üretebilir. Testlerde, ChatGPT'nin aynı gıda için tahminleri beş ayrı seansta ortalama %22 oranında değişiklik göstermiştir; bu da tutarlı günlük takibi güvenilmez hale getirir.
ChatGPT beslenme konusunda en doğru olarak neyi yapıyor?
ChatGPT, çiğ tek bileşenlerde (%8 hata) ve yaygın meyve ve sebzelerde (%6 hata) en iyi performansı gösterir; burada kalori değerleri iyi tanımlanmış ve standarttır. Ayrıca, genel beslenme eğitimi, kabaca tahminler ve gıdaların göreceli karşılaştırmaları için de yararlıdır; ancak kesin kalori sayıları için değil.
Doğrulanmış bir gıda veritabanı, ChatGPT ile kalori konusunda nasıl karşılaştırılır?
Özel takip uygulamalarındaki doğrulanmış bir beslenme veritabanı, her sorguda %2-5 arasında sonuçlar döndürür ve sorgular arasında sıfır varyasyon gösterir. ChatGPT, ortalama %18 hata ile %15-28 arasında seanslar arası tutarsızlık gösterir. Veritabanı, kesin marka spesifik veriler, ayarlanabilir porsiyonlar ve her seferinde tutarlı sonuçlar sunar.
Beslenme takibinizi dönüştürmeye hazır mısınız?
Nutrola ile sağlık yolculuklarını dönüştürmüş binlerce kişiye katılın!