Sesli Günlük AI'si Doğal Dili Nasıl Anlıyor ve Besin Takibi Yapıyor
Sesli besin kaydı arkasındaki NLP sürecine teknik bir derin dalış — otomatik konuşma tanıma, adlandırılmış varlık tanıma, besin ayrıştırma, miktar normalizasyonu ve güven skorlama.
Telefonunuza "Tam buğday tostunun üzerinde cheddar peynirli iki çırpılmış yumurta yedim" dediğinizde, bu ifadenin tam olarak kaydedilmiş bir öğün olarak doğru makrolarla görünmesi neredeyse sihirli bir his veriyor. Bu sorunsuz deneyimin arkasında, ham sesi iki saniyeden daha kısa bir sürede yapılandırılmış besin verisine dönüştüren karmaşık bir doğal dil işleme süreci yatıyor. Bu süreci anlamak, sesli kaydın neden en hızlı ve en doğru besin takibi yöntemlerinden biri haline geldiğini ortaya koyuyor.
Sesli günlük AI'si, konuşulan öğün tanımlarını kesin ve doğrulanmış besin girişlerine dönüştürmek için çok aşamalı bir NLP süreci kullanıyor — otomatik konuşma tanıma (ASR), niyet sınıflandırma, adlandırılmış varlık tanıma (NER), besin ayrıştırma, miktar normalizasyonu, veritabanı eşleştirme ve güven skorlama.
Bu makale, bu sürecin her aşamasını ele alıyor, temel teknolojiyi açıklıyor ve tek bir konuşma cümlesinin nasıl tam bir besin kaydı girişine dönüştüğünü gösteriyor.
Sesli Besin Kaydı için Yedi Aşamalı NLP Süreci
Sesli besin takibi tek bir algoritma değil. Her biri farklı bir sorunu çözen özel modellerden oluşan bir zincirdir. Bir öğün tanımı söylediğinizde, kelimeleriniz bir besin girişi logunu oluşturana kadar yedi farklı işleme aşamasından geçer.
Aşağıdaki tablo, tek bir ifadenin tüm süreç boyunca nasıl ilerlediğini göstermektedir:
| Aşama | Süreç | Girdi | Çıktı |
|---|---|---|---|
| 1. ASR | Konuşmadan metne | Ses dalgası | "iki çırpılmış yumurta tam buğday tostunun üzerinde cheddar ile" |
| 2. Niyet Tanıma | Kullanıcı niyetini sınıflandırma | Ham transkript | Niyet: besin_kayıt (güven 0.97) |
| 3. NER | Besin varlıklarını çıkarma | Sınıflandırılmış transkript | [çırpılmış yumurta, cheddar, tam buğday tost] |
| 4. Ayrıştırma | Belirsiz varlıkları çözme | Ham besin varlıkları | [çırpılmış yumurta (USDA: 01132), cheddar peyniri (USDA: 01009), tam buğday ekmeği, kızartılmış (USDA: 20090)] |
| 5. Miktar Normalizasyonu | Miktarları standartlaştırma | "iki", varsayılan porsiyon | [2 büyük yumurta (100g), 1 dilim cheddar (28g), 2 dilim tost (56g)] |
| 6. Veritabanı Eşleştirme | Doğrulanmış girişlerle eşleştirme | Ayrıştırılmış varlıklar + miktarlar | Kalori, protein, yağ, karbonhidrat, mikro besinlerle tam besin profilleri |
| 7. Güven Skorlama | Kesinliği değerlendirme | Tüm süreç çıktıları | Genel güven: 0.94 — otomatik olarak kaydedildi |
Her aşama farklı makine öğrenimi tekniklerine dayanır ve herhangi bir aşamadaki hatalar aşağıya doğru yayılır. Tüm sürecin doğru çalışması, güvenilir sesli kaydı karmaşık tahminlerden ayıran unsurdur.
Aşama 1: Otomatik Konuşma Tanıma (ASR) — Sesi Metne Dönüştürme
İlk zorluk, ham ses dalgasını metne dönüştürmektir. Modern ASR sistemleri, büyük dil modellerinin (GPT ve Claude gibi) arkasındaki aynı model ailesini kullanan dönüştürücü tabanlı mimarilerle, yüz binlerce saatlik çok dilli konuşma verisi üzerinde eğitilmiştir.
ASR'nin Besin Tanımları için Çalışma Şekli
ASR modelleri, sesi üç aşamada işler:
Özellik çıkarımı: Ham ses dalgası, zaman içinde ses frekanslarının görsel temsili olan bir spektrograma dönüştürülür. Spektrogram daha sonra genellikle 25 milisaniye genişliğinde ve 10 milisaniye kayma ile örtüşen çerçevelere bölünür.
Kodlayıcı işleme: Bir dönüştürücü kodlayıcı, spektrogram çerçevelerini işler ve sesler arasındaki bağlamsal ilişkileri öğrenir. Model, örneğin "cheddar" kelimesinin ses dizisinin, "chedder" veya "checker" kelimelerine göre gıda ile ilgili konuşma bağlamında daha olası olduğunu anlar.
Çözücü üretimi: Bir dönüştürücü çözücü, en olası metin dizisini üretir ve birden fazla hipotezi aynı anda değerlendirmek için beam search kullanır. Çözücü, akustik belirsizlikleri çözmek için dil modeli olasılıklarını uygular.
Whisper (OpenAI, 2022) gibi modern ASR sistemleri, temiz İngilizce konuşmada yüzde 5'in altında kelime hata oranları elde eder. Besin spesifik kelime dağarcığı için, öğün tanımları üzerinde ince ayar yapmak doğruluğu daha da artırabilir ve yaygın besin terimlerinde kelime hata oranlarını yüzde 3'ün altına çekebilir.
Besin Kelime Dağarcığı Zorluğu
Besin kelime dağarcığı, ASR için benzersiz zorluklar sunar:
- Ödünç alınmış kelimeler ve yabancı terimler: "gnocchi", "tzatziki" ve "acai" gibi kelimeler, kaynak dillerinin telaffuz kurallarını takip eder.
- Eş sesli kelimeler: "Flower" ile "flour", "leek" ile "leak", "mussel" ile "muscle".
- Marka isimleri: Genel eğitim verilerinde yer almayan binlerce özel gıda ürünü adı.
- Bölgesel telaffuzlar: "Pecan" kelimesi, İngilizce konuşulan bölgelerde farklı telaffuz edilir.
Besin alanı veri setlerinde ASR modellerinin ince ayar yapılması — genellikle 5,000 ile 50,000 saat arasında gıda ile ilgili konuşma içeren — bu zorlukları aşmak için modelin öğün tanımlarıyla ilgili istatistiksel kalıpları öğrenmesini sağlar.
Aşama 2: Niyet Tanıma — Bu Bir Besin Kaydı Talebi mi?
Kullanıcının bir beslenme uygulamasına söylediği her şey bir öğün tanımı değildir. Niyet tanıma, transkripti birkaç kategoriden birine sınıflandırır:
| Niyet | Örnek İfade | Eylem |
|---|---|---|
| besin_kayıt | "Öğle yemeğinde bir tavuk Caesar salatası yedim" | NER sürecine yönlendir |
| su_kayıt | "İki bardak su içtim" | Su alımını kaydet |
| soru | "Bir avokado kaç kalori?" | AI asistanına yönlendir |
| düzeltme | "Aslında o beyaz pirinç değil, kahverengi pirinçti" | Önceki girişi düzenle |
| silme | "Son öğünümü kaldır" | Girişi sil |
Niyet sınıflandırması genellikle tam transkripti işleyen ve tüm olası niyetler arasında bir olasılık dağılımı üreten ince ayar yapılmış bir dönüştürücü modeli kullanır. Besin kaydı için eşik genellikle yüksek ayarlanır — genellikle 0.90'ın üzerinde bir güven ile — rastgele bir gıda bahsini kaydetmemek için.
Kompütasyonel Dilbilim Derneği'nden (ACL, 2023) yapılan araştırmalar, alan spesifik niyet sınıflandırıcılarının sadece 10,000 etiketlenmiş örnekle ince ayar yapıldığında F1 puanlarının 0.96'nın üzerinde olduğunu göstermiştir; bu da bu sürecin en güvenilir aşamalarından biri olmasını sağlar.
Aşama 3: Adlandırılmış Varlık Tanıma (NER) — Besin Varlıklarını Çıkarma
Adlandırılmış varlık tanıma, AI'nin bir cümleden belirli gıda maddelerini, miktarları ve belirteçleri tanımlayıp çıkardığı aşamadır. Bu, sesli besin kaydının temel dilbilgisel zorluğudur.
Besin NER'deki Varlık Türleri
Besin spesifik bir NER modeli, birkaç varlık türünü tanımak üzere eğitilmiştir:
| Varlık Türü | Etiket | Örnekler |
|---|---|---|
| Gıda maddesi | FOOD | çırpılmış yumurta, tavuk göğsü, kahverengi pirinç |
| Miktar | QTY | iki, 200 gram, bir fincan, yarım |
| Belirteç | MOD | ızgara, cheddar ile, az yağlı, organik |
| Marka | BRAND | Chobani, Barilla, Kirkland |
| Öğün bağlamı | MEAL | kahvaltıda, atıştırmalık olarak, antrenmandan sonra |
| Kap | CONT | bir kâse, bir tabak, bir bardak |
"İki çırpılmış yumurta tam buğday tostunun üzerinde cheddar ile" örnek ifadesi için NER modeli şu çıktıyı üretir:
[QTY: iki] [FOOD: çırpılmış yumurta] [MOD: cheddar ile] [MOD: tam buğday tostunun üzerinde]
Bileşen Besin Tanımları
En zor NER zorluklarından biri, bileşen besin tanımlarıdır — yemeklerin tek bir tabak adı yerine malzeme kombinasyonları olarak tanımlanması. Birisi "brokoli, biber ve soya soslu tavuk sote" dediğinde, modelin bunun tek bir bileşik yemek mi yoksa beş ayrı öğe mi olduğunu belirlemesi gerekir.
Modern NER sistemleri, bağımlılık çözümlemesi ile geliştirilmiş bir BIO (Başlangıç, İçinde, Dışında) etiketleme şemasını kullanarak bunu yönetir. Bağımlılık çözümleyici, kelimeler arasındaki sözdizimsel ilişkileri tanımlar, böylece "tavuk sote" tek bir yemek olarak anlaşılırken "brokoli, biber ve soya sosu" bileşenleri olarak tanınır ve "jasmin pirinci" ayrı bir eşlik olarak tanımlanır.
FoodBase (2019) ve TAC-KBP gıda varlık korpusları gibi besin NER veri setlerinde benchmark performansı, gıda varlıklarının çıkarımında 0.89 ile 0.93 arasında F1 puanları göstermektedir; hatalar nadir veya bölgesel yemeklerde yoğunlaşmıştır.
Aşama 4: Besin Varlık Ayrıştırma — Tam Olarak Ne Demek İstiyorsunuz?
Besin varlıkları çıkarıldıktan sonra, süreç belirsizlikleri çözmelidir. Doğal dil, bağlama, bölgeye veya kişisel alışkanlıklara bağlı olarak farklı gıdalara atıfta bulunabilecek kelimelerle doludur.
Yaygın Ayrıştırma Zorlukları
| Belirsiz Terim | Olası Yorumlar | Ayrıştırma Sinyali |
|---|---|---|
| Cips | Patates cipsi (ABD), kızarmış patates (İngiltere), tortilla cipsi, muz cipsi | Kullanıcı yeri, önceki belirteçler, öğün bağlamı |
| Bisküvi | Kurabiye (İngiltere), scone benzeri ekmek (ABD Güneyi), kraker (Asya'nın bazı bölgeleri) | Kullanıcı yeri, eşlik eden yiyecekler |
| Jöle | Jelatin tatlısı (ABD), meyve reçeli (İngiltere) | Öğün bağlamı (ekmekte mi yoksa tatlı olarak mı) |
| Puding | Krema tatlısı (ABD), Yorkshire pudingi gibi fırın yemeği (İngiltere) | Öğün bağlamı, belirteçler |
| Mısır | Mısır koçanı, konserve mısır, mısır unu, patlamış mısır | Belirteçler, hazırlama bağlamı |
| Tost | Ekmek dilimi, içki kadehi | Niyet sınıflandırması (zaten çözüldü) |
Ayrıştırma, birden fazla sinyale dayanır:
- Kullanıcı yeri: Uygulamanın dil ve bölge ayarları güçlü bir ön bilgi sağlar. Avustralyalı bir kullanıcının "cips" demesi, daha olası olarak kalın kesilmiş patates kızartması anlamına gelir; Amerikalı bir kullanıcı ise daha olası olarak ince patates cipsi anlamına gelir.
- Bağlamsal belirteçler: "Ketchup ile cips" patates kızartması anlamına gelir; "salsa ile cips" tortilla cipsi anlamına gelir; "paketlenmiş cips" paketlenmiş patates cipsi anlamına gelir.
- Öğün geçmişi: Eğer bir kullanıcı düzenli olarak İngiliz tarzı yemekler kaydediyorsa, ayrıştırma modeli ön bilgilerini buna göre ayarlayabilir.
- Gömme benzerliği: Dönüştürücü tabanlı gömme yöntemleri, gıdaları bağlamsal olarak benzer olanların bir araya toplandığı bir anlamsal alanda yerleştirir, böylece model çevresindeki dilsel bağlama en iyi uyan yorumu seçebilir.
Aşama 5: Miktar Normalizasyonu — Doğal Dili Gram Olarak Dönüştürme
İnsanlar genellikle gıda miktarlarını gram cinsinden tanımlamazlar. "Bir fincan", "bir avuç", "büyük bir kâse", "iki dilim" veya hiç bir şey demeden (bir standart porsiyonu ima ederek) söylerler. Miktar normalizasyonu, bu doğal tanımları, veritabanı girişlerine eşleştirilebilecek standartlaştırılmış metrik miktarlarına dönüştürür.
Yaygın Miktar İfadeleri ve Normalleştirilmiş Değerleri
| Doğal İfade | Gıda Bağlamı | Normalleştirilmiş Değer | Kaynak |
|---|---|---|---|
| Bir fincan | Pişirilmiş pirinç | 186g | USDA standart referansı |
| Bir fincan | Süt | 244g (244ml) | USDA standart referansı |
| Bir avuç | Karışık kuruyemiş | 28–30g | Beslenme araştırma konsensüsü |
| Bir avuç | Yaban mersini | 40–50g | USDA porsiyon tahmini |
| Bir dilim | Ekmek | 25–30g | Sektör ortalaması |
| Bir dilim | Pizza (büyük, 14") | 107g | USDA standart referansı |
| Bir kâse | Sütlü tahıl | 240–300g toplam | FDA referans miktarı |
| Bir parça | Tavuk göğsü | 120–174g | USDA standart porsiyonları |
| Bir damla | Zeytinyağı | 5–7ml | Mutfak standardı |
| Bir çimdik | Soya sosu | 5ml | Mutfak standardı |
Buradaki karmaşıklık, "bir fincan" pirincin (186g) "bir fincan" ıspanaktan (30g) veya "bir fincan" unun (125g) çok farklı bir ağırlığa sahip olmasıdır. Miktar normalizasyonu, sadece birimlere değil, gıdalara da duyarlı olmalıdır.
Modern yaklaşımlar, iyi tanımlanmış birimler (fincan, yemek kaşığı, tatlı kaşığı) için arama tabloları ile belirsiz miktarlar (bir avuç, damla, büyük bir kâse) için öğrenilmiş regresyon modellerini birleştirir. Bu regresyon modelleri, USDA'nın Gıda ve Besin Veritabanı için Diyet Çalışmaları (FNDDS) ve benzeri kaynaklardan porsiyon boyutu veri setleri üzerinde eğitilmiştir.
Hiçbir miktar belirtilmediğinde — "Çırpılmış yumurta ve tost yedim" gibi — sistem, genellikle bir yemek sırasında tüketilen miktarı temsil eden standart USDA referans porsiyonlarına varsayılan olarak döner.
Aşama 6: Veritabanı Eşleştirme — Varlıkları Doğrulanmış Besin Verilerine Eşleştirme
Ayrıştırılmış besin varlıkları ve normalleştirilmiş miktarlar elde edildikten sonra, süreç her bir öğeyi besin veritabanında belirli bir girişle eşleştirmelidir. İşte burada NLP süreci, gıda bilimleri veritabanı ile buluşur.
Eşleştirme Süreci
Veritabanı eşleştirme, aşağıdakilerin bir kombinasyonunu kullanır:
- Tam dize eşleştirme: Gıda adının veritabanında doğrudan araması. Yaygın gıdalar için hızlı ve güvenilir.
- Yakın dize eşleştirme: Levenshtein mesafesi ve benzeri algoritmalar, yazım varyasyonları, kısaltılmış adlar ve küçük transkripsiyon hatalarını yönetir. "Scrmbled eggs" hâlâ "çırpılmış yumurta" ile eşleşir.
- Anlamsal arama: Dönüştürücü tabanlı cümle gömme yöntemleri, anlamlarına göre eşleştirme yapmayı sağlar. "Sunny side up" ifadesi, kelimelerin neredeyse örtüşmediği "kızartılmış yumurta, çırpılmış değil" veritabanı girişine eşleşir.
- Hiyerarşik geri dönüş: Eğer tam bir gıda eşleşmesi yoksa, sistem en yakın ana kategoriye geri döner. "Büyükanne'nin özel köftesi" "ev yapımı köfte" olarak USDA veritabanına eşleştirilir.
Temel veritabanının kalitesi bu aşamada kritik öneme sahiptir. Hükümet gıda bileşim tablolarından (USDA FoodData Central, EFSA, FSANZ) alınan ve beslenme uzmanları tarafından doğrulanan girişlere sahip bir doğrulanmış besin veritabanı, kullanıcı tarafından gönderilen veritabanlarına göre çok daha güvenilir sonuçlar sağlar.
Nutrola, resmi gıda bileşim verileri ile çapraz referanslanmış girişlere sahip bir doğrulanmış besin veritabanı kullanır; bu da sesli kayıt sürecinin döndürdüğü son kalori ve makro değerlerinin laboratuvar analizine dayalı besin verilerine dayandığı anlamına gelir. 95'ten fazla paketlenmiş ürünün kapsandığı barkod tarama ile birleştirildiğinde, veritabanı eşleştirme aşaması hem bütün gıdalar hem de paketlenmiş ürünler arasında yüksek eşleşme oranları elde eder.
Aşama 7: Güven Skorlama — Ne Zaman Kaydedilir ve Ne Zaman Sorulur
Son aşama, her bir önceki aşamadan gelen güven skorlarını bir genel kesinlik metriğine toplar. Bu skor, sistemin öğünü otomatik olarak kaydedip kaydetmeyeceğini, kullanıcının onayını isteyip istemeyeceğini veya açıklama talep edip etmeyeceğini belirler.
Güven Eşikleri ve Eylemler
| Genel Güven | Eylem | Örnek Senaryo |
|---|---|---|
| 0.95–1.00 | Otomatik olarak kaydet | Yaygın yemek, net miktarlar, tam veritabanı eşleşmesi |
| 0.80–0.94 | Onay isteme ile kaydet | Biraz belirsiz miktar veya gıda varyantı |
| 0.60–0.79 | Kullanıcı seçimi için en iyi 2-3 seçeneği göster | Belirsiz gıda adı veya birden fazla olası eşleşme |
| 0.60'nın altında | Kullanıcıdan yeniden ifade etmesini veya daha fazla ayrıntı vermesini iste | Belirsiz konuşma, bilinmeyen gıda veya yüksek derecede belirsiz tanım |
Güven skorlama tek bir sayı değil, alt puanların ağırlıklı bir kombinasyonudur:
- ASR güveni: Konuşmadan metne modelinin ne kadar kesin olduğu? (Çözümlenen dizinin posterior olasılığı ile ölçülür)
- NER güveni: Besin varlıkları ne kadar net bir şekilde tanımlandı? (Varlık sınırı F1 ile ölçülür)
- Ayrıştırma güveni: Olası yorumlar arasında net bir kazanan var mıydı? (En iyi 1 ve en iyi 2 aday arasındaki olasılık farkı ile ölçülür)
- Veritabanı eşleşme güveni: Eşleşme, doğrulanmış bir veritabanı girişine ne kadar yakındı? (Gömme benzerliğinin kosinüs benzerliği ile ölçülür)
Bu çok katmanlı güven sistemi, sesli kaydın hem hızlı hem de doğru olmasını sağlar. Yüksek güvenli yorumlar anında kaydedilirken, düşük güvenli durumlar hedeflenmiş açıklama soruları tetikler, genel hata mesajları yerine.
Dönüştürücü Modeller ve Büyük Dil Modelleri Sesli Besin Kaydını Nasıl İyileştirir?
Yukarıda tanımlanan tüm süreç, dönüştürücü mimarilerinin (Vaswani ve diğerleri, 2017) ve büyük dil modellerinin (LLM'ler) ortaya çıkışıyla dönüşmüştür. Eski sesli kayıt sistemleri, her aşama için ayrı, bağımsız olarak eğitilmiş modeller kullanıyordu. Modern sistemler giderek daha fazla, birden fazla aşamayı aynı anda yöneten birleşik dönüştürücü modeller kullanıyor.
Temel Gelişmeler
- Uçtan uca ASR: Dönüştürücü tabanlı ASR modelleri, ses dalgasını doğrudan metne dönüştürerek ara ses temsillerini ortadan kaldırır ve hata yayılmasını azaltır.
- Bağlamsal NER: BERT ve benzeri önceden eğitilmiş dil modelleri, gıda terimlerini bağlam içinde anlamaktadır; bu da bileşen tanımları için varlık çıkarımını önemli ölçüde iyileştirir.
- Sıfırdan ayrıştırma: Büyük dil modelleri, eğitim verilerinde hiç görmediği gıda terimlerini, geniş dünya bilgilerini kullanarak ayrıştırabilir. Milyonlarca tarif ve gıda tanımı okumuş bir model, "cips ve guac" ifadesinin tortilla cipsi ve guacamole anlamına geldiğini, bu ifadeyi açıkça eğitilmeden anlayabilir.
- Konuşma düzeltmesi: LLM'ler, doğal takip konuşmalarını mümkün kılar. AI "beyaz pirinç" kaydediyorsa ve kullanıcı "aslında karnabahar pirinciydi" diyorsa, model bunu bir düzeltme olarak anlar ve girişi buna göre günceller.
Nutrola'nın AI Diyet Asistanı, bu yetenekleri kullanarak kullanıcıların yalnızca sesle öğün kaydetmelerine değil, aynı zamanda takip soruları sormalarına, değişiklik talep etmelerine ve doğal bir konuşma aracılığıyla besin bilgileri almalarına olanak tanır.
Gerçek Dünya Doğruluğu: Sesli Kayıt Diğer Yöntemlerle Nasıl Karşılaştırılır?
Sesli kaydın doğruluğunun manuel metin girişi, barkod tarama ve fotoğraf tabanlı kayıtlara nasıl karşılaştırıldığı doğal bir sorudur.
| Kayıt Yöntemi | Ortalama Kalori Doğruluğu | Giriş Başına Ortalama Süre | Kullanıcı Çabası |
|---|---|---|---|
| Manuel metin araması | %85–90 (kullanıcı seçimine bağlı) | 45–90 saniye | Yüksek |
| Barkod tarama | %97–99 (sadece paketlenmiş gıdalar) | 5–10 saniye | Düşük |
| Fotoğraf kaydı (AI) | %85–92 (gıda karmaşıklığına bağlı) | 3–8 saniye | Düşük |
| Sesli kayıt (AI) | %88–94 (tanım netliğine bağlı) | 5–15 saniye | Çok düşük |
Sesli kaydın doğruluk avantajı, doğal dilin zenginliğinden gelir. Bir fotoğraf, tam süt ile az yağlı sütü ayırt edemez, ancak bir sesli tanım bunu yapabilir. Bir fotoğraf, burrito gibi katmanlı yemeklerle zorlanırken, bir sesli tanım — "siyah fasulye, salsa, ekşi krema ve guacamole ile tavuk burrito" — AI'ye açık malzeme bilgisi sağlar.
Sesli kaydın fotoğraf kaydı ile birleştirilmesi, her yöntemin zayıflıklarını kapatır. Ses, malzeme ayrıntılarını sağlar; fotoğraflar görsel porsiyon tahminini sağlar. Her ikisini birlikte kullanmak, Nutrola'nın çok modlu kayıt sisteminde desteklendiği gibi, günlük yemek takibi için en yüksek pratik doğruluğu sağlar.
Gizlilik ve Cihaz Üzerinde İşleme
Ses verisi doğası gereği kişiseldir. Modern sesli kayıt sistemleri, gizliliği birkaç mimari seçimle ele alır:
- Cihaz üzerinde ASR: Konuşmadan metne dönüştürme, kullanıcının cihazında gerçekleşir, böylece ham ses asla telefonun dışına çıkmaz.
- Sadece metin ile iletim: Sadece transkripte edilmiş metin, NER ve veritabanı eşleştirmesi için bulut sunucularına gönderilir.
- Ses kaydı yok: Ses kayıtları, transkriptiondan hemen sonra silinir.
- Şifreli süreç: İşleme aşamaları arasındaki tüm veriler uçtan uca şifreleme kullanarak iletilir.
Bu önlemler, sesli kaydın kolaylığının gizlilik pahasına olmamasını sağlar. Nutrola, bu gizlilik öncelikli ilkelerle ses verilerini işler, besin sonuçlarını Apple Health ve Google Fit ile senkronize ederken ham ses verilerini açığa çıkarmadan gerçekleştirir.
Sıkça Sorulan Sorular
Sesli besin kaydı, gıdaları manuel olarak yazmaktan ne kadar doğru?
Sesli besin kaydı, ortalama %88 ila %94 kalori doğruluğu sağlar; bu, manuel metin aramasıyla karşılaştırıldığında (yüzde 85 ila 90) benzer veya biraz daha iyidir. Sesin avantajı, kullanıcıların doğal olarak daha ayrıntılı tanımlar vermesidir — hazırlama yöntemleri, soslar ve malzeme ayrıntıları dahil — bu da AI'ye basit bir metin arama sorgusundan daha fazla bilgi sağlar.
Sesli kayıt AI'si, bir cümlede birden fazla öğe içeren gıda tanımlarını anlayabilir mi?
Evet. Modern NER modelleri, tek bir ifadeden birden fazla gıda varlığını çıkarmak üzere eğitilmiştir. "Avokado, kiraz domates ve balsamik soslu ızgara tavuk salatası" dediğinizde dört veya beş ayrı gıda varlığı üretilir; her biri kendi veritabanı girişi ile eşleştirilir ve bireysel kalori ve makro değerleri ile kaydedilir.
AI, söylediklerim hakkında emin değilse ne olur?
Sistem, çok katmanlı güven skorlama kullanır. Eğer genel güven %0.80'in altına düşerse, AI'nın en iyi yorumunu gösteren bir onay istemi göreceksiniz. %0.60'ın altında, uygulama sizden açıklık istemek için "Patates cipsi mi yoksa kızarmış patates mi demek istediniz?" gibi sorular sorar. Bu yaklaşım, hem yanlış kayıtları hem de gereksiz kesintileri en aza indirir.
Sesli kayıt çevrimdışı çalışır mı?
Modern cihaz üzerinde ASR modelleri, internet bağlantısı olmadan konuşmayı metne dönüştürebilir. Ancak, veritabanı eşleştirme ve ayrıştırma aşamaları genellikle tam besin veritabanına erişmek için bir sunucu bağlantısı gerektirir. Nutrola gibi bazı uygulamalar, en sık kaydedilen gıdaları yerel olarak önbelleğe alır, böylece en yaygın öğünlerinizi internet bağlantısı olmadan bile sesle kaydedebilirsiniz.
Sesli kayıt aksanları ve ana dili İngilizce olmayan konuşucuları nasıl ele alır?
Whisper gibi mevcut ASR modelleri, geniş bir aksan yelpazesini kapsayan çeşitli, çok dilli konuşma verileri üzerinde eğitilmiştir. Aksanlı İngilizce için kelime hata oranları genellikle ana dil konuşucularına göre 2 ila 5 puan daha yüksektir, ancak gıda spesifik kelime dağarcığı — büyük ölçüde standartlaştırılmış olduğundan — genel konuşmaya göre daha güvenilir bir şekilde tanınır. Gıda alanı sesleri üzerinde ince ayar yapmak, doğruluk farkını daha da daraltır.
Sesli kaydedilmiş bir öğünü sonradan düzeltebilir miyim?
Evet. LLM destekli asistanlara sahip sesli kayıt sistemleri, doğal düzeltmeleri destekler. "Pirinci karnabahar pirinci olarak değiştir" veya "son öğünümden peyniri çıkar" diyebilirsiniz ve AI, düzeltme niyetini çözerek mevcut girişi günceller. Nutrola'nın AI Diyet Asistanı, bu konuşma düzenleme iş akışını destekler.
Sesli besin kaydının konuşmadan kaydedilmiş girişe kadar olan süresi ne kadar hızlıdır?
Tipik bir öğün tanımı için uçtan uca gecikme 1.5 ila 3 saniye arasındadır. ASR, kısa bir ifade için 0.3 ila 0.8 saniye alır. NER ve ayrıştırma 0.2 ila 0.5 saniye ekler. Veritabanı eşleştirme ve güven skorlama ise 0.3 ila 0.7 saniye alır. Ağ gecikmesi kalan süreyi oluşturur. Sonuç, neredeyse anlık bir kayıt deneyimi sunar.
Sesli kayıt, kalori takibi için fotoğraf kaydından daha mı iyidir?
Hiçbir yöntem evrensel olarak daha iyi değildir. Sesli kayıt, malzemeleri kesin bir şekilde tanımlayabildiğinizde — ev yapımı yemekler, karışık yemekler ve besin açısından farklılık gösteren (tam süt ile az yağlı süt gibi) gıdalar için mükemmel bir şekilde çalışır. Fotoğraf kaydı, görsel olarak belirgin gıdalar için en iyi sonuçları verir; burada porsiyon boyutu ana değişkendir. Her iki yöntemi bir arada kullanmak, en kapsamlı takibi sağlar; bu nedenle Nutrola, fotoğraf, ses, barkod ve manuel kaydı tek bir uygulamada destekler ve sadece ayda 2.50 eurodan başlayan bir fiyatla 3 günlük ücretsiz deneme sunar.
Beslenme takibinizi dönüştürmeye hazır mısınız?
Nutrola ile sağlık yolculuklarını dönüştürmüş binlerce kişiye katılın!