Yapay Zeka Kalori Takibinin Bilimi: Fotoğraf Tanımanın Çalışma Prensibi

Yapay zeka destekli kalori takibinin arkasındaki bilgisayarla görme sürecinin teknik bir açıklaması: görüntü sınıflandırması, nesne tespiti, anlamlı segmentasyon, derinlik tahmini, hacim tahmini ve veritabanı eşleştirmesi. Tekniklere göre doğruluk tabloları ve yayımlanmış araştırmalara referanslar içerir.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Yemeğinizi fotoğrafladığınızda ve bir kalori takip uygulaması yemeği tanıyıp besin içeriğini saniyeler içinde tahmin ettiğinde, bu sonuç, görüntü sınıflandırması, nesne tespiti, porsiyon boyutu tahmini ve veritabanı eşleştirmesi içeren çok aşamalı bir bilgisayarla görme sürecinin çıktısıdır. Her aşama, kendi doğruluk kısıtlamalarını ve hata kaynaklarını beraberinde getirir. Bu sürecin nasıl çalıştığını ve nerelerde aksaklıklar yaşandığını anlamak, yapay zeka destekli kalori takibinin güvenilir bir diyet izleme aracı olup olmadığını değerlendirmek için kritik öneme sahiptir.

Bu makale, gıda tanıma sürecinin arkasındaki bilgisayarla görme sürecinin teknik bir analizini sunmakta; makine öğrenimi mimarilerini, yayımlanmış doğruluk standartlarını, yapay zekanın arkasındaki besin veritabanının kritik rolünü ve bilimdeki güncel durumu kapsamaktadır.

Yapay Zeka Kalori Takip Süreci: Altı Aşama

Yapay zeka destekli gıda tanıma tek bir teknoloji değildir. Bu, her bir aşamanın yeterli bir şekilde çalışması gereken ardışık işlem aşamalarından oluşan bir süreçtir.

Aşama Teknik Görev Ana Zorluk Hata Katkısı
1. Görüntü ön işleme Aydınlatma, çözünürlük, yönlendirme normalizasyonu Gerçek dünya fotoğrafçılığı koşullarındaki değişkenlik Düşük (iyi çözüldü)
2. Gıda tespiti Görüntüde gıda bölgelerini bulma Birden fazla gıda, örtüşen nesneler, kısmi örtülme Orta
3. Gıda sınıflandırması Her gıda maddesinin ne olduğunu belirleme Gıdalar arasındaki görsel benzerlikler (pirinç çeşitleri, peynirler) Orta ile yüksek
4. Porsiyon tahmini Her gıdadan ne kadar olduğunu belirleme Çoğu fotoğrafta mutlak ölçek referansı yok Yüksek
5. Veritabanı eşleştirmesi Tanımlanan gıdayı bir besin veritabanı kaydına bağlama Belirsiz eşleşmeler, hazırlama yöntemi varyasyonları Düşük ile orta (veritabanına bağlı)
6. Besin hesaplama Porsiyon × birim başına besin değerleri Önceki aşamalardan kaynaklanan bileşik hata Süreç doğruluğuna bağlı

Aşama 1: Görüntü Ön İşleme

Herhangi bir gıda tanıma işlemi gerçekleşmeden önce, ham fotoğrafın normalleştirilmesi gerekir. Bu, aşağıdakilerin ayarlanmasını içerir:

  • Aydınlatma değişkenliği. Floresan, akkor, doğal veya flaş aydınlatma altında çekilen fotoğraflar, aynı gıda için farklı renk profilleri üretir. Modern ön işleme süreçleri, aydınlatmaya bağlı sınıflandırma hatalarını azaltmak için renk sürekliliği algoritmaları ve öğrenilmiş normalizasyon kullanır.
  • Çözünürlük ve format. Farklı cihazlardan gelen görüntüler farklı çözünürlüklere sahiptir. Ön işleme süreci, görüntüleri standart bir giriş boyutuna (genellikle sınıflandırma modelleri için 224×224 veya 384×384 piksel, tespit modelleri için daha yüksek) yeniden boyutlandırır.
  • Yönlendirme. Fotoğraflar doğrudan yukarıdan (porsiyon tahmini için ideal) veya açılı olarak çekilebilir. Geometrik normalizasyon, mümkün olduğunda görüntü açısını ayarlamak için kullanılır.

Bu aşama, mevcut teknoloji tarafından iyi bir şekilde çözülmüştür ve genel sürece minimal hata katkısı sağlar.

Aşama 2: Gıda Tespiti (Nesne Tespiti)

Gıda tespiti, "Bu görüntüde gıda maddeleri nerede?" sorusunu yanıtlar. Bu, bir nesne tespiti problemidir ve tek bir fotoğrafın bir tabakta veya birden fazla yemekte birden fazla gıda maddesi içermesi durumunda karmaşık hale gelir.

Kullanılan Mimariler

YOLO (You Only Look Once). YOLO ailesi dedektörleri (YOLOv5, YOLOv8 ve sonraki sürümler), tüm görüntüyü tek bir ileri geçişte işler ve aynı anda sınırlayıcı kutular ve sınıf tahminleri üretir. YOLO, gerçek zamanlı hızı nedeniyle üretim gıda tanıma sistemlerinde tercih edilmektedir ve genellikle mobil donanımda 50 milisaniyenin altında çıkarım süreleri elde etmektedir.

Faster R-CNN. İlk olarak ilgi alanları öneren ve ardından her alanı sınıflandıran iki aşamalı bir dedektördür. Faster R-CNN, karmaşık sahnelerde tek aşamalı dedektörlerden biraz daha yüksek doğruluk elde eder, ancak çıkarım süresinin artması pahasına.

DETR (Detection Transformer). Facebook AI Research'ün transformer tabanlı dedektörü, nesne sınırlayıcı kutularını doğrudan tahmin etmek için dikkat mekanizmaları kullanır. DETR, örtüşen ve gizlenmiş gıda maddelerini, çerçeve önerileri olmadan daha iyi yönetir ve bu nedenle karmaşık yemek sahneleri için uygundur.

Gıda Görüntülerindeki Tespit Zorlukları

Gıda tespiti, genel nesne tespitine kıyasla benzersiz zorluklar sunar:

  • Belirgin sınırlar yok. Tabaktaki gıdalar genellikle birbirine dokunur veya örtüşür (makarna üzerindeki sos, salatada peynir). Araçlar veya yayalar gibi, gıda maddelerinin keskin kenarları nadiren bulunur.
  • Değişken sunum. Aynı gıda, hazırlama yöntemi, tabaklama tarzı ve eşlik eden gıdalara bağlı olarak dramatik şekilde farklı görünebilir.
  • Ölçek değişkenliği. Tek bir badem ve bir bütün pizza aynı yemek fotoğrafında görünebilir, bu da geniş bir nesne ölçeği aralığında tespit gerektirir.

Aguilar ve ark. (2018), Multimedia Tools and Applications dergisinde yayımladıkları çalışmada gıda tespit modellerini değerlendirmiş ve tespit doğruluğunun (ortalama Ortalama Doğruluk, mAP ile ölçülen) sahne karmaşıklığına bağlı olarak %60 ile %85 arasında değiştiğini bulmuşlardır. Tek nesne fotoğrafları %90'ın üzerinde tespit oranları elde ederken, beş veya daha fazla öğe içeren karmaşık yemeklerde bu oran %70'in altına düşmüştür.

Aşama 3: Gıda Sınıflandırması (Görüntü Sınıflandırması)

Gıda maddeleri tespit edildikten ve konumlandırıldıktan sonra, her tespit edilen bölgenin sınıflandırılması gerekir: bu tavuk mu, balık mı, tofu mu yoksa tempeh mi? Bu, bir görüntü sınıflandırma problemidir ve gıda tanıma sürecinin en çok araştırılan aşamasıdır.

Kullanılan Mimariler

Konvolüsyonel Sinir Ağları (CNN'ler). ResNet, EfficientNet ve Inception mimarileri, gıda sınıflandırma araştırmalarının temel taşları olmuştur. Bu modeller, ardışık konvolüsyon katmanları aracılığıyla hiyerarşik görsel özellikleri (doku, şekil, renk desenleri) çıkarır. Meyers ve ark. (2015), Google'ın Im2Calories makalesinde, gıda sınıflandırması için Inception tabanlı bir mimari kullanmış ve 2,500 sınıflık gıda veri setinde yaklaşık %79'luk bir en yüksek doğruluk rapor etmiştir.

Vision Transformers (ViT). Dosovitskiy ve ark. (2021) tarafından tanıtılan Vision Transformers, doğal dil işleme alanındaki kendine dikkat mekanizmasını görüntü tanımaya uygular. ViT'ler, görüntüleri parçalara ayırır ve bunları diziler olarak işler, böylece modelin sınırlı algılama alanlarına sahip CNN'lerin kaçırabileceği genel görüntü bağlamını yakalamasını sağlar. ViT ve Swin Transformer mimarilerini kullanan son gıda sınıflandırma çalışmaları, standart gıda tanıma standartlarında CNN bazlarına göre %3-7 oranında iyileşmeler rapor etmiştir.

Hibrit mimariler. Modern üretim sistemleri genellikle CNN özellik çıkarımını transformer tabanlı akıl yürütme ile birleştirerek her iki yaklaşımın güçlü yönlerinden yararlanır.

Gıda Kategorisine Göre Sınıflandırma Doğruluğu

Sınıflandırma doğruluğu, gıda türüne göre önemli ölçüde değişiklik göstermektedir.

Gıda Kategorisi Tipik En Yüksek Doğruluk Ana Zorluk
Tam meyveler (elma, muz, portakal) %90–%95 Yüksek görsel belirginlik
Tek bileşenli proteinler (biftek, balık filetosu) %80–%90 Pişirme yöntemi varyasyonları
Tahıllar ve nişastalar (pirinç, makarna, ekmek) %75–%85 Çeşitler arasında benzer görünüm
Karışık yemekler (sote, karnıyarık, köri) %55–%70 Yüzeyden görünmeyen bileşen kompozisyonu
İçecekler %40–%60 Farklı bileşimlere sahip görsel olarak aynı sıvılar
Soslar ve baharatlar %30–%50 Benzer görsel görünüm, çok farklı kalori yoğunluğu

Veriler, Meyers ve ark. (2015), Bossard ve ark. (2014) ve Thames ve ark. (2021) tarafından derlenmiştir.

Sınıflandırma zorluğu, benzer görünüme sahip ancak çok farklı besin profillerine sahip gıdalar için en şiddetli şekilde hissedilmektedir. Beyaz pirinç ve karnabahar pirinci görsel olarak benzer ancak kalori yoğunluğu açısından beş kat farklılık göstermektedir. Tam süt ve yağsız süt görsel olarak ayırt edilemez. Normal ve diyet sodanın görünüşe göre ayrılması mümkün değildir.

Karşılaştırmalı Veri Setleri

Food-101 (Bossard ve ark., 2014). 101 gıda kategorisi ile her biri 1,000 görüntü. Gıda sınıflandırma araştırmaları için en yaygın kullanılan kıyaslama. Günümüzdeki en son teknoloji modeller, bu kıyaslamada %95'in üzerinde en yüksek doğruluk elde etmektedir, ancak kategorilerin görece küçük sayısı (101) gerçek dünya çeşitliliğini daha az temsil etmektedir.

ISIA Food-500 (Min ve ark., 2020). Yaklaşık 400,000 görüntü ile 500 gıda kategorisi. Gerçek dünya gıda çeşitliliğini daha iyi temsil etmektedir. Bu kıyaslamada en yüksek doğruluk genellikle %65-80 arasında değişmektedir.

UEC Food-256 (Kawano ve Yanagida, 2015). 256 Japon gıda kategorisi. Kültürel olarak spesifik gıda tanıma zorluğunu göstermektedir, çünkü Batı gıda veri setlerinde eğitilen modeller, Asya mutfaklarında zayıf performans gösterirken, tam tersi de geçerlidir.

Aşama 4: Porsiyon Boyutu Tahmini

Porsiyon tahmini, yapay zeka kalori takip sürecindeki en zayıf halka olarak geniş çapta kabul edilmektedir. Bir gıda doğru bir şekilde tanımlansa bile, yanlış bir porsiyon tahmini doğrudan yanlış bir kalori sayısına dönüşmektedir.

Teknikler

Referans Nesne Ölçeklendirme. Bazı uygulamalar, kullanıcıların fotoğrafta bir referans nesne (kredi kartı, madeni para veya kullanıcının parmağı) eklemelerini istemektedir. Referans nesnenin bilinen boyutları, gıda boyutlarını tahmin etmek için bir ölçek referansı sağlar. Dehais ve ark. (2017), referans nesne yöntemlerini değerlendirerek, bir referans nesne mevcut olduğunda porsiyon tahmin hatalarının %15-25 arasında olduğunu bulmuşlardır.

Derinlik Tahmini. Stereo kamera sistemleri (iki lens) veya bazı akıllı telefonlarda bulunan LiDAR sensörleri, gıda yüzeyinin 3D yeniden yapılandırılmasını sağlayan derinlik bilgisi sunar. Kap konteyner geometrisi ve gıda yoğunluğu ile ilgili varsayımlar ile birleştirildiğinde, derinlik verileri hacimsel tahmin yapmayı mümkün kılar. Meyers ve ark. (2015), derinlik tabanlı tahminin tek görüntü yöntemlerine kıyasla porsiyon hatalarını azalttığını bildirmiştir, ancak derinlik sensörleri tüm cihazlarda mevcut değildir.

Monoküler Derinlik Tahmini. Tek görüntülerden derinliği tahmin etmek için eğitilmiş makine öğrenimi modelleri, özel donanım olmadan 3D gıda geometrisini yaklaşık olarak tahmin edebilir. Doğruluk, fiziksel derinlik sensörlerinden daha düşük olsa da, herhangi bir akıllı telefon kamerasına uygulanabilir.

Öğrenilmiş Hacim Tahmini. Bilinen hacimlerle eşleştirilmiş gıda görüntüleri veri setlerinde eğitilmiş uçtan uca modeller, açık 3D yeniden yapılandırma olmadan doğrudan porsiyon boyutunu tahmin edebilir. Thames ve ark. (2021), bu tür modelleri değerlendirerek ortalama porsiyon tahmin hatalarının %20-40 arasında olduğunu rapor etmiştir.

Porsiyon Tahmini Doğruluk Tablosu

Yöntem Ortalama Mutlak Hata Özel Donanım Gerektirir Referans
Referans nesne (kredi kartı) %15–25 Hayır (sadece referans nesne) Dehais ve ark. (2017)
Stereo kamera derinliği %12–20 Evet (çift kamera) Meyers ve ark. (2015)
LiDAR derinliği %10–18 Evet (LiDAR donanımlı telefon) Son yayımlanmamış kıyaslamalar
Monoküler derinlik tahmini (ML) %20–35 Hayır Thames ve ark. (2021)
Öğrenilmiş hacim (uçtan uca) %20–40 Hayır Thames ve ark. (2021)
Kullanıcı kendi tahmini (AI yok) %20–50 Hayır Williamson ve ark. (2003)

Tablo, tüm otomatik yöntemlerin, insan tahminini (Williamson ve ark., 2003, Obezite Araştırması) desteklemeden daha iyi performans gösterdiğini göstermektedir, ancak hiçbiri sürekli olarak %10'un altında hata elde edememektedir. Bağlam açısından, 400 kalorilik bir yemekte %25'lik bir porsiyon tahmin hatası, 100 kalorilik bir sapmaya dönüşmektedir; bu da birden fazla yemekte birikirse mütevazı bir kalori açığını ortadan kaldıracak kadar büyüktür.

Aşama 5: Veritabanı Eşleştirmesi — Kritik Aşama

Bu aşama, teknik tartışmalarda en az dikkat çeken ancak nihai doğruluk üzerinde en büyük etkiye sahip olan aşamadır. AI bir gıdayı tanımlayıp porsiyonunu tahmin ettikten sonra, tanımlanan gıdayı bir besin veritabanı kaydına eşleştirmesi gerekir; böylece kalori ve besin değerlerini alabilir.

Bu eşleşmenin kalitesi tamamen temel veritabanının kalitesine bağlıdır. AI doğru bir şekilde "ızgara tavuk göğsü, 150 gram" olarak tanımlasa bile, bunu 100 gram başına 130 kalori (USDA analizli değeri 100 gram başına 165 kalori) olarak listeleyen bir kitle kaynaklı veritabanı kaydına eşleştirirse, nihai kalori tahmini %27 oranında düşük olacaktır; bu, AI'nın başarısız olmasından değil, arkasındaki veritabanının yanlış olmasından kaynaklanmaktadır.

Bu, farklı yapay zeka kalori takip uygulamalarını ayıran temel içgüdüdür: Yapay zeka gıda tanıma doğruluğu, arkasındaki besin veritabanı kadar faydalıdır.

Veritabanı Eşleştirme Karşılaştırması

AI Takip Uygulaması Gıda Tanıma Veritabanı Altyapısı Genel Güvenilirlik
Nutrola AI fotoğraf + ses tanıma 1.8M USDA kaynaklı, beslenme uzmanı tarafından doğrulanmış girişler Yüksek tanıma + yüksek veri doğruluğu
Cal AI AI fotoğraf tahmini Sahip olunan veritabanı (sınırlı şeffaflık) Orta tanıma + belirsiz veri doğruluğu
AI ekleyen kitle kaynaklı DB uygulamaları AI fotoğraf tanıma Kitle kaynaklı, doğrulanmamış girişler Orta tanıma + düşük veri doğruluğu

Nutrola'nın mimarisi, bu kritik bağımlılığı ele almak üzere özel olarak tasarlanmıştır. AI fotoğraf tanıma ve ses kaydı özellikleri, tanıma ve porsiyon tahmini aşamalarını yönetirken, USDA FoodData Central'dan elde edilen 1.8 milyon beslenme uzmanı tarafından doğrulanmış girişlerden oluşan arka uç veritabanı, her tanımlanan gıda ile ilişkilendirilen besin verilerinin bilimsel olarak doğru olmasını sağlar. Bu endişelerin ayrılması, AI gıda tanımanın iyileştirilmesinin doğrudan takip doğruluğundaki iyileşmelere dönüşmesini sağlar; veritabanı hatalarının aşağıda etkisini azaltmadan.

Eğitim Verisi Gereksinimleri

Bir gıda tanıma modelini eğitmek, büyük, etiketlenmiş gıda görüntüleri veri setleri gerektirir. Eğitim verisinin kalitesi ve çeşitliliği, model performansını doğrudan etkiler.

Veri seti boyutu. En son teknoloji gıda tanıma modelleri genellikle 100,000 ile birkaç milyon etiketlenmiş görüntüden oluşan veri setleri üzerinde eğitilmektedir. Google'ın Im2Calories (Meyers ve ark., 2015) milyonlarca gıda görüntüsünden oluşan özel bir veri seti kullanmıştır. Kamuya açık veri setleri, Food-101 (101,000 görüntü) ve ISIA Food-500 (400,000 görüntü) gibi, önemli ölçüde daha küçüktür.

Etiket kalitesi. Her eğitim görüntüsü, gıda kategorisi ile doğru bir şekilde etiketlenmelidir. Yanlış etiketlenmiş eğitim verileri, yanlış ilişkiler öğrenen modeller üretir. Gıda görüntüleri için etiketleme, benzer görünümlü gıdaların (jasmin pirinci ile basmati pirinci, grup balığı ile morina) ayırt edilmesinin zor olması nedeniyle alan uzmanlığı gerektirir.

Çeşitlilik gereksinimleri. Eğitim verileri, gıda sunumunun tam çeşitliliğini temsil etmelidir: farklı mutfaklar, tabaklama stilleri, aydınlatma koşulları, kamera açıları ve porsiyon boyutları. Çoğunlukla Batı gıda fotoğrafları üzerinde eğitilen modeller, Asya, Afrika veya Orta Doğu mutfaklarında zayıf performans gösterir.

Porsiyon etiketleri. Porsiyon tahmini eğitimi için, görüntüler gerçek ağırlık ölçümleri ile eşleştirilmelidir. Bu etiketleri oluşturmak, gıdaların tartılmadan önce ve sonra fotoğraflanmasını gerektirir; bu da emek yoğun bir süreçtir ve porsiyon tahmini eğitim setlerinin boyutunu sınırlamaktadır.

Bileşik Hata Problemi

Yapay zeka kalori takibindeki en önemli teknik kavram bileşik hatadır. Sürecin her aşaması belirsizlikler getirir ve bu belirsizlikler çarpılır.

Izgara somon, pirinç ve brokoli içeren bir yemeği düşünelim:

  1. Tespit doğruluğu: %90 (her gıda maddesi doğru bir şekilde konumlandırılmış).
  2. Sınıflandırma doğruluğu: %85 (her gıda doğru bir şekilde tanımlanmış).
  3. Porsiyon tahmini doğruluğu: %75 (porsiyon gerçek değerin %25 içinde).
  4. Veritabanı eşleştirme doğruluğu: %95 (doğrulanmış bir veritabanı için) veya %80 (kitle kaynaklı bir veritabanı için).

Tüm aşamaların üç gıda maddesi için başarıyla tamamlanma olasılığı:

  • Doğrulanmış veritabanı ile: (0.90 × 0.85 × 0.75 × 0.95)^3 = 0.548^3 = %16.5, tüm üç öğenin tamamen doğru olma olasılığı.
  • Kitle kaynaklı veritabanı ile: (0.90 × 0.85 × 0.75 × 0.80)^3 = 0.459^3 = %9.7, tüm üç öğenin tamamen doğru olma olasılığı.

Bu hesaplamalar, bileşik hatanın mevcut teknoloji ile mükemmel doğruluğun elde edilmesini neden imkansız hale getirdiğini göstermektedir. Ancak, aynı zamanda herhangi bir bireysel aşamanın iyileştirilmesinin genel süreci de iyileştirdiğini göstermektedir. Veritabanı eşleştirme aşaması, optimize edilmesi en kolay olanıdır (doğrulanmış bir veritabanı kullanmak) ve her öğede anlamlı bir doğruluk iyileştirmesi sağlar.

Güncel Durum ve Sınırlamalar

İyi Olanlar

  • Tek nesne tanıma. Bilinen bir mutfaktan tek bir net fotoğraflanmış gıda maddesinin tanımlanması, modern mimarilerle %90'ın üzerinde doğruluk elde etmektedir.
  • Yaygın gıdalar. En sık tüketilen gıdalar, bol miktarda eğitim verisine sahiptir ve güvenilir bir şekilde tanınmaktadır.
  • Barkod artırımı. Paketlenmiş bir gıda barkod ile tanımlanabiliyorsa, tanıma doğruluğu %100'e yaklaşmaktadır (sadece barkod okunabilirliği ile sınırlıdır).

Zorlayıcı Olanlar

  • Karışık yemekler. Sulu yemekler, karnıyarıklar, sote yemekler ve diğer karışık yemekler, bireysel bileşenlerin görsel olarak ayrılamadığı durumlarda zordur. Model, genel yemeği tahmin edebilir ancak spesifik bileşen kompozisyonunu belirleyemez.
  • Gizli bileşenler. Pişirme sırasında eklenen yağlar, tereyağı, şeker ve soslar kalorik olarak önemli olsa da, genellikle son tabaklanmış yemekte görünmez. İki yemek kaşığı yağda pişirilmiş bir sebze yemeği, pişirme spreyi ile pişirilmiş bir yemeğe benzer görünse de, kalori farkı yaklaşık 240 kaloridir.
  • Porsiyon doğruluğu. 2D görüntülerden hacimsel tahmin, mevcut yöntemler için en zayıf halkadır ve %20-40 hata oranları tipiktir.
  • Kültürel gıda çeşitliliği. Batı mutfağında eğitilen modeller, Asya, Afrika, Orta Doğu ve Latin Amerika gıdalarında zayıf performans gösterir; bu da küresel gıda tüketiminin önemli bir kısmını temsil eder.

Sıkça Sorulan Sorular

AI fotoğraflı kalori takibi ne kadar doğrudur?

Mevcut AI gıda tanıma sistemleri, iyi temsil edilen gıda kategorilerinden tek nesne tanıma doğruluğu olarak %75-95 arasında başarı elde etmektedir. Ancak, porsiyon tahmini önemli bir hata eklemektedir (%20-40, Thames ve ark., 2021). Nihai kalori tahmini doğruluğu, tanıma doğruluğu, porsiyon doğruluğu ve eşleşme arkasındaki veritabanı doğruluğunun bileşik etkisine bağlıdır. Nutrola gibi, AI tanımasını doğrulanmış bir USDA kaynaklı veritabanı ile birleştiren uygulamalar, veritabanı hata bileşenini en aza indirir.

Gıda tanıma uygulamaları hangi makine öğrenimi modellerini kullanmaktadır?

Çoğu üretim gıda tanıma sistemi, sınıflandırma için konvolüsyonel sinir ağları (ResNet, EfficientNet) veya Vision Transformers (ViT, Swin Transformer) kullanmakta, tespit için YOLO veya DETR kullanmakta ve porsiyon tahmini için ayrı modeller kullanmaktadır. Spesifik mimariler ve eğitim detayları, çoğu ticari uygulama için özel bilgilerdir.

AI, beyaz pirinç ve karnabahar pirinci gibi benzer gıdaları ayırt edebilir mi?

Bu, önemli bir zorluk olmaya devam etmektedir. Farklı besin profillerine sahip görsel olarak benzer gıdalar, bilgisayarla görme gıda tanımanın bilinen bir sınırlamasıdır. Modeller, bazı benzer gıdaları ayırt eden ince görsel ipuçlarını (doku, tahıl yapısı) öğrenebilir, ancak bu durumlarda doğruluk önemli ölçüde düşmektedir. Bu, AI tanımasının kullanıcı onayı ve doğrulanmış bir veritabanı ile eşleştirilmesi gerektiği anlamına gelir; tamamen otonom bir sistem olarak kullanılmamalıdır.

AI gıda tanıma arkasındaki veritabanı neden önemlidir?

AI gıda tanıma, gıdanın ne olduğunu belirler. Veritabanı ise o gıda ile ilişkili besin değerlerini belirler. Hatta mükemmel gıda tanıması, veritabanı kaydı yanlışsa yanlış kalori tahminleri üretir. Doğru tanımlanan gıdaların bilimsel olarak doğru besin verileri ile eşleştirilmesini sağlamak için USDA FoodData Central'a bağlı bir doğrulanmış veritabanı (Nutrola'nın 1.8 milyon girişi gibi) gereklidir. Bu nedenle, veritabanı kalitesi, genel takip doğruluğu için AI model kalitesi kadar önemlidir.

Gelecekte AI kalori takibi nasıl gelişecek?

Üç aktif araştırma alanı iyileştirmeleri yönlendirecektir: (1) daha büyük ve daha çeşitli eğitim veri setleri, küresel mutfaklar arasında sınıflandırma doğruluğunu artıracaktır; (2) akıllı telefonlardaki LiDAR ve çoklu kamera derinlik algılama, porsiyon tahminini geliştirecektir; (3) görsel tanımayı metin/ses bağlamı ile birleştiren çok modlu modeller (kullanıcının ne yediğini söylediği) belirsizliği azaltacaktır. Nutrola'nın fotoğraf AI ve ses kaydı kombinasyonu, gıda tanıma doğruluğunu artırmak için hem görsel hem de dil girdilerini kullanarak bu çok modlu yaklaşımı zaten uygulamaktadır.

Beslenme takibinizi dönüştürmeye hazır mısınız?

Nutrola ile sağlık yolculuklarını dönüştürmüş binlerce kişiye katılın!