10 Dilde Sesli Gıda Kaydı — AI, İngilizce Olmayan Yemekleri Ne Kadar İyi Anlıyor?
10 standart yemek ile 10 dilde sesli gıda kaydı test ettik. AI'nın hangi dillerde en iyi performansı gösterdiğini, nerelerde zorlandığını ve çok dilli NLP'nin dünya genelinde doğru beslenme takibini nasıl sağladığını keşfedin.
İngilizce sesli gıda kaydı oldukça iyi çalışıyor. Peki, yemeklerinizi Mandarin Çince, Türkçe veya Arapça olarak tanımladığınızda ne oluyor? Beslenme takip uygulamaları dünya genelinde yaygınlaşırken, birden fazla dilde sesli gıda tanımlarını anlayabilmek artık sadece hoş bir özellik değil, temel bir gereklilik haline geldi. Çok dilli sesli gıda kaydını, 10 standart yemek ile 10 dilde test ettik; gıda tanımlama doğruluğunu, miktar ayrıştırmasını ve veritabanı eşleştirmesini ölçtük.
100 yemek-dil kombinasyonu arasında, AI sesli gıda kaydı ana gıda maddesini %91 oranında doğru bir şekilde tanımladı. İngilizce, İspanyolca ve Portekizce en yüksek doğruluk oranlarına (yüzde 95 ile 97) ulaşırken, tonlama dillerinden Mandarin Çince ve karmaşık morfolojiye sahip diller olan Türkçe ve Arapça %83 ile %89 arasında doğruluk gösterdi — hala kullanılabilir, ancak daha sık açıklama istekleriyle.
Test: 10 Yemek, 10 Dil, 100 Kombinasyon
Farklı NLP zorlukları sunan, dünya mutfaklarını kapsayan 10 yemek seçtik — bileşenlerin birleşimi, kültürel olarak spesifik yemekler, sayısal miktarlar ve tanımlayıcı ağırlıklı açıklamalar. Her yemek, ana dilini konuşan kişiler tarafından 10 dilde tanımlandı ve sesli kayıt süreci üç kriter üzerinden değerlendirildi:
- Gıda tanımlama: AI ana gıda maddesini doğru bir şekilde tanıyabildi mi?
- Miktar doğruluğu: Sayısal miktarlar ve porsiyon boyutları doğru bir şekilde ayrıştırıldı mı?
- Veritabanı eşleşmesi: Doğru beslenme veritabanı girişi seçildi mi?
10 Test Yemeği
| Yemek # | Açıklama (İngilizce) | Ana NLP Zorluğu |
|---|---|---|
| 1 | İki çırpılmış yumurta ve cheddar peyniri | Miktar + tanımlayıcı |
| 2 | Izgara tavuk göğsü ve buharda pişirilmiş brokoli | İki ayrı madde + pişirme yöntemi |
| 3 | Tofu ile bir kâse miso çorbası | Kap miktarı + kültürel olarak spesifik yemek |
| 4 | Parmesanlı Spagetti Bolognese | Bileşik yemek adı + üst malzeme |
| 5 | Feta ve zeytinyağı soslu büyük bir Yunan salatası | Boyut tanımlayıcısı + birden fazla bileşen |
| 6 | 200 gram beyaz pirinç ve ızgara somon | Kesin metrik miktar + iki madde |
| 7 | Bir avuç badem ve bir muz | Belirsiz miktar + bağlaç |
| 8 | Tahin soslu tavuk döner dürüm | Kültürel olarak spesifik + bileşik madde |
| 9 | Fıstık ezmeli iki dilim tam buğday ekmeği | Miktar + çok kelimeli gıda isimleri |
| 10 | Sade kahve ve yaban mersinli muffin | Tanımlayıcı (sade) + bileşik gıda adı |
10 Dil
Diller, çeşitli dil ailelerini, yazı sistemlerini ve fonolojik özellikleri kapsayacak şekilde seçilmiştir:
- İngilizce — Cermen, Latin alfabesi, referans temel
- İspanyolca — Roman, Latin alfabesi, cinsiyetli isimler
- Mandarin Çince — Sino-Tibet, logografik yazı, tonlama (4 ton)
- Almanca — Cermen, Latin alfabesi, bileşik kelimeler, gramer durumları
- Türkçe — Türk, Latin alfabesi, eklemeli morfoloji
- Fransızca — Roman, Latin alfabesi, konuşmada bağlama ve elips
- Japonca — Japon, karma yazı (kanji/hiragana/katakana), onur seviyeleri
- Korece — Kore, Hangul yazısı, öz-nesne-fiil kelime sırası
- Portekizce — Roman, Latin alfabesi, burun ünlüleri
- Arapça — Sami, Arap alfabesi (sağdan sola), kök tabanlı morfoloji, diglossia
Tam Sonuçlar: Gıda Tanımlama Doğruluğu Dile ve Yemeğe Göre
Aşağıdaki tablo, AI'nın her yemek için her dilde ana gıda maddesini doğru bir şekilde tanıyıp tanımadığını göstermektedir. Bir onay işareti doğru tanımlamayı, bir X ise başarısızlık veya önemli bir yanlış tanımlamayı göstermektedir.
| Yemek | EN | ES | ZH | DE | TR | FR | JA | KO | PT | AR |
|---|---|---|---|---|---|---|---|---|---|---|
| 1. Çırpılmış yumurta + cheddar | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 9/10 |
| 2. Tavuk göğsü + brokoli | 10/10 | 10/10 | 9/10 | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 |
| 3. Miso çorbası + tofu | 10/10 | 9/10 | 10/10 | 9/10 | 8/10 | 9/10 | 10/10 | 10/10 | 9/10 | 8/10 |
| 4. Spagetti Bolognese | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 8/10 |
| 5. Yunan salatası + feta | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 7/10 |
| 6. 200g pirinç + somon | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 |
| 7. Bir avuç badem + muz | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 8/10 |
| 8. Tavuk döner dürüm | 10/10 | 9/10 | 7/10 | 8/10 | 9/10 | 9/10 | 7/10 | 7/10 | 9/10 | 10/10 |
| 9. Ekmek + fıstık ezmesi | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 9/10 |
| 10. Sade kahve + muffin | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 8/10 |
| Toplam (/100) | 97 | 95 | 87 | 94 | 87 | 95 | 88 | 87 | 96 | 85 |
Miktar Ayrıştırma Doğruluğu Dile Göre
Miktar ayrıştırma, AI'nın sayısal miktarları, belirsiz miktarları ("bir avuç", "bir kâse") ve metrik ölçümleri doğru bir şekilde yorumlayıp yorumlayamadığını ölçer. Bu, bir sistemin gıdayı doğru tanıyabilmesi ancak yanlış porsiyon boyutu atayabilmesi nedeniyle ayrı olarak test edilmektedir.
| Dil | Kesin Sayısal (örn. "200g", "iki") | Belirsiz Miktar (örn. "bir avuç") | Varsayılan Porsiyon (miktar belirtilmediğinde) | Genel Miktar Doğruluğu |
|---|---|---|---|---|
| İngilizce | %98 | %89 | %94 | %94 |
| İspanyolca | %97 | %87 | %93 | %92 |
| Portekizce | %97 | %86 | %93 | %92 |
| Fransızca | %96 | %85 | %92 | %91 |
| Almanca | %96 | %84 | %91 | %90 |
| Japonca | %93 | %80 | %90 | %88 |
| Korece | %92 | %79 | %89 | %87 |
| Türkçe | %91 | %78 | %88 | %86 |
| Mandarin Çince | %90 | %76 | %88 | %85 |
| Arapça | %89 | %74 | %87 | %83 |
Kesin sayısal miktarlar, tüm dillerde iyi bir şekilde ayrıştırılmaktadır çünkü sayılar nispeten öngörülebilir kalıpları takip eder. Belirsiz miktarlar ise en büyük zorluğu sunmaktadır, özellikle "bir avuç" veya "bir kâse" gibi ifadelerin İngilizce'de doğrudan bir karşılığının olmadığı dillerde.
Dil Özelinde Zorluklar ve NLP Sürecinin Bunları Nasıl Ele Aldığı
Mandarin Çince: Tonlama Ayrımları ve Ölçü Kelimeleri
Mandarin Çince, sesli gıda kaydı için iki büyük zorluk sunmaktadır.
Tonlama belirsizliği ASR'de: Mandarin'de dört ton ve bir nötr ton bulunmaktadır ve birçok gıda ile ilgili kelime yalnızca tonla farklılık göstermektedir. Örneğin, yükselen tonla "tang" çorba anlamına gelirken, düşen tonla "tang" şeker anlamına gelir. ASR modellerinin ses dalgasından tonu doğru bir şekilde tanıması, gürültülü ortamlarda veya hızlı konuşmada daha zor hale gelir.
Ölçü kelimeleri (sınıflandırıcılar): Çince, sayılar ile isimler arasında belirli ölçü kelimeleri kullanır. "İki yumurta" ifadesi "两个鸡蛋" (liǎng gè jīdàn) şeklindedir; burada "个" ölçü kelimesidir. Farklı gıdalar farklı ölçü kelimeleri gerektirir — "片" (piàn) dilimler için, "碗" (wǎn) kâseler için, "杯" (bēi) bardaklar için. NER modeli, bu sınıflayıcıları gıda tanımlayıcıları yerine miktar göstergeleri olarak tanımalıdır.
Tüm bu zorluklara rağmen, Mandarin sesli kaydı %87 gıda tanımlama doğruluğu elde etti çünkü modern sistemlerde (çok dilli Whisper dahil) kullanılan ASR modelleri geniş Mandarin konuşma verileri üzerinde eğitilmiştir ve Çince gıda kelime dağarcığı eğitim veri setlerinde iyi bir şekilde temsil edilmektedir.
Almanca: Bileşik Kelimeler ve Gramer Durumları
Almanca, kelimeleri boşluk bırakmadan birleştirerek bileşik isimler oluşturur. "Vollkornbrot" (tam tahıllı ekmek) "Voll" (tam) + "korn" (tahıl) + "Brot" (ekmek) kelimelerinin birleşiminden oluşan tek bir kelimedir. NER modeli, bu bileşenleri doğru bir şekilde eşleştirmek için parçalamalıdır.
Almanca'daki yaygın bileşik gıda kelimeleri şunlardır:
| Almanca Bileşik | Bileşenler | İngilizce Eşdeğeri |
|---|---|---|
| Erdnussbutter | Erdnuss + Butter | Fıstık ezmesi |
| Hühnerbrust | Hühner + Brust | Tavuk göğsü |
| Vollkornbrot | Voll + Korn + Brot | Tam tahıllı ekmek |
| Rühreier | Rühr + Eier | Çırpılmış yumurta |
| Olivenöl | Oliven + Öl | Zeytinyağı |
| Blaubeermuffin | Blaubeer + Muffin | Yaban mersinli muffin |
Almanca'nın gramer durumları da cümledeki rolüne bağlı olarak gıda isimlerini etkiler. "Ich hatte zwei Scheiben Brot mit Erdnussbutter" ifadesinde, nesne durumu kullanılır; bu, bu özel isimleri değiştirmese de, onlarla birlikte gelen tanımlayıcılar ve sıfatları değiştirebilir. Modern transformer tabanlı NER, bağlam kalıplarını öğrenerek durum çekimlerini iyi bir şekilde yönetmektedir.
Türkçe: Eklemeli Morfoloji
Türkçe, kök kelimelere ekler ekleyerek anlamı iletir ve bu, İngilizce'de genellikle birden fazla kelimeye yayılmış bilgiyi içeren uzun tek kelimeler oluşturur. "Yumurtalarımdan" ifadesi "benim yumurtalarımdan" anlamına gelir — kök (yumurta = yumurta), çoğul eki (-lar), sahiplik eki (-ım) ve ayrılma durumu eki (-dan) içeren tek bir kelimedir.
Gıda NER için zorluk, ağır eklenmiş bir biçimde kök gıda kelimesini tanımlamaktır. Alt kelime tokenizasyonu — BERT ve benzeri modellerin anlamlı parçalar oluşturmak için kelimeleri parçaladığı teknik — burada kritik öneme sahiptir. Türkçe'ye özgü modeller, BERTurk gibi, yaygın Türkçe ekleri ayrı tokenlar olarak içeren bir kelime dağarcığı kullanarak, modelin "yumurta"yı gıda varlığı olarak tanımasını sağlamaktadır; bu, uzun eklemeli biçimlerin bir parçası olarak ortaya çıksa bile.
Türkçe sesli kayıt doğruluğu %87, bu morfolojik karmaşıklığı yansıtmaktadır; en fazla hata, eğitim verilerinde iyi temsil edilmeyen daha az yaygın yemeklerde meydana gelmektedir.
Arapça: Kök Tabanlı Morfoloji ve Diglossia
Arapça, hem ASR hem de NER aşamalarında benzersiz zorluklar sunmaktadır.
Kök tabanlı morfoloji: Arapça kelimeler, sesli harf kalıpları ve eklerle üç harfli köklerden oluşur. Kök ط-ب-خ (t-b-kh, pişirme ile ilgili) "طبخ" (tabakh, pişirme), "مطبخ" (matbakh, mutfak), "طباخ" (tabbakh, aşçı) ve "مطبوخ" (matbookh, pişirilmiş) kelimelerini üretir. NER modellerinin, bu ilişkili biçimlerin gıda hazırlığı ile ilgili olduğunu tanıması gerekir.
Diglossia: Modern Standart Arapça (MSA) ile çeşitli konuşma lehçeleri arasında önemli bir fark vardır. Mısır'daki bir kullanıcı ızgara tavuk için "فراخ مشوية" (firakh mashwiya) derken, Levant bölgesindeki bir kullanıcı "دجاج مشوي" (dajaj mashwi) der. ASR ve NER modellerinin hem MSA'yı hem de ana lehçe varyantlarını ele alması gerekir.
Latin alfabesi dışındaki yazı: Arapça, sağdan sola yazılır ve kısa ünlüler genellikle yazımda atlanır. Bu, sesli kaydı doğrudan etkilemez (ses kaydı sesle başlar), ancak NER modelinin eğitim verilerinin Arapça metin temsillerini doğru bir şekilde ele alması gerekir.
Arapça, testimizde %85 doğruluk elde etti — 10 dil arasında en düşük olanı — esas olarak üç faktörden kaynaklanmaktadır: (1) diglossia — Modern Standart Arapça ile konuşma lehçeleri arasındaki önemli fark, modelin birçok telaffuz varyantını ele alması gerektiği anlamına gelir; (2) Avrupa dillerine kıyasla sınırlı etiketlenmiş eğitim verisi; ve (3) her gıda kavramı için birçok yüzey biçimi oluşturan kök tabanlı morfoloji. Konuşmacılar Modern Standart Arapça kullandığında, doğruluk yaklaşık %91'e yükselmektedir; bu, lehçe spesifik ince ayarların daha fazla iyileştirme için anahtar olduğunu göstermektedir.
Japonca: Çoklu Yazı Sistemleri ve Sayıcılar
Japonca, üç yazı sistemi (kanji, hiragana, katakana) kullanır ve Çince ölçü kelimelerine benzer karmaşık bir sayısal sayıcı sistemi vardır. Gıda ile ilgili konuşmalar genellikle Japonca ve İngilizce kökenli kelimelerin katakana ile yazılmasıyla karışır — "ブルーベリーマフィン" (buruberii mafin) "yaban mersinli muffin" ifadesinin katakana ile yazımıdır.
Japonca'daki ASR zorluğu, kod değiştirmedir: konuşmacılar doğal olarak Japonca gıda terimleri ile İngilizce kökenli kelimeleri karıştırır. Bir cümle "スクランブルエッグ二つとトースト" (sukuranburu eggu futatsu to toosuto) şeklinde olabilir; burada İngilizce kökenli "scrambled eggs" ve "toast" Japonca dil bilgisi ile karıştırılmıştır.
Modern çok dilli ASR, bu durumu iyi bir şekilde yönetmektedir çünkü eğitim verileri kod değiştirilmiş Japonca konuşmaları içermektedir. Japonca, %88 gıda tanımlama doğruluğu elde etti; hatalar, standart Japonca yerine bölgesel lehçe terimleriyle tanımlanan geleneksel Japon yemeklerinde yoğunlaşmıştır.
Fransızca: Bağlama, Elips ve Cinsiyetli Gıda İsimleri
Fransızca konuşma, kelimeler arasında ses bağlantısı (liaison) ve sesli harflerin önünde ünlülerin atlanması (elision) gibi özellikler taşır; bu, ses kaydında kelime sınırlarının belirsizleşmesine neden olabilir. "Les oeufs" (yumurtalar) ifadesi, "les" ile "oeufs" arasında bağlantılı bir sesle telaffuz edilir ve bu, kelime sınırlarının tespitini zorlaştırabilir.
Fransızca gıda isimleri cinsiyetlidir: "le poulet" (erkek, tavuk) ile "la salade" (dişi, salata). Cinsiyet, gıda tanımlamasını değiştirmese de, etrafındaki tanımlayıcılar ve sıfatlar üzerinde etkili olur; NER modeli, bağlamsal ipuçları olarak bunları kullanır. Cinsiyet belirteçlerinin yanlış tanımlanması, varlık çıkarım hatalarına yol açabilir.
Yine de Fransızca %95 doğruluk elde etti — diğer İngilizce olmayan diller arasında en yüksek olanlardan biri — çünkü Fransızca, geniş ASR eğitim verilerine sahiptir ve Fransız mutfağı küresel gıda veritabanlarında iyi bir şekilde temsil edilmektedir.
Korece: Öz-Nesne-Fiil Sırası ve Onur Düzeyleri
Korece, fiili cümlenin sonuna yerleştirir; bu, gıda maddelerinin cümlede daha önce yer alması anlamına gelir. "스크램블 에그 두 개와 토스트를 먹었어요" (scrambled eggs iki parça ve tost yedim) SOV sırasını takip eder. NER modelleri, esas olarak SVO diller (İngilizce gibi) üzerinde eğitildiği için bu farklı sıralamaya uyum sağlamalıdır.
Korece ayrıca, fiil sonlarını değiştiren ve cümle boyunca parçalar ekleyen farklı konuşma seviyeleri (resmi, nazik, gündelik) kullanır. Bu ek morfemler, gıda varlığı ile miktar belirteci arasındaki mesafeyi artırır; bu nedenle NER modeli, daha uzun mesafe bağımlılıklarını ele almalıdır.
Korece, %87 doğruluk elde etti; bu, Çince ve Türkçe ile karşılaştırılabilir bir düzeydir; miktar ayrıştırma, karmaşık sayıcı sistemi ve değişken konuşma seviyeleri nedeniyle en zayıf alan olmuştur.
Dillerin Genel Sesli Kayıt Doğruluğuna Göre Sıralanması
Gıda tanımlama, miktar ayrıştırma ve veritabanı eşleştirmesini tek bir ağırlıklı puan halinde birleştirerek aşağıdaki sıralama elde edilmiştir:
| Sıra | Dil | Gıda Tanımlama | Miktar Doğruluğu | DB Eşleşmesi | Genel Puan |
|---|---|---|---|---|---|
| 1 | İngilizce | %97 | %94 | %96 | %95.7 |
| 2 | Portekizce | %96 | %92 | %95 | %94.3 |
| 3 | İspanyolca | %95 | %92 | %94 | %93.7 |
| 4 | Fransızca | %95 | %91 | %93 | %93.0 |
| 5 | Almanca | %94 | %90 | %92 | %92.0 |
| 6 | Japonca | %88 | %88 | %90 | %88.7 |
| 7 | Korece | %87 | %87 | %88 | %87.3 |
| 8 | Türkçe | %87 | %86 | %87 | %86.7 |
| 9 | Mandarin Çince | %87 | %85 | %86 | %86.0 |
| 10 | Arapça | %85 | %83 | %84 | %84.0 |
En yüksek performans gösteren dil (İngilizce, %95.7) ile en düşük olan (Arapça, %84.0) arasındaki fark 11.7 yüzde puanıdır. Bu önemli bir farktır ancak daralmaktadır. 2023'te çok dilli ASR benchmark'larında eşdeğer fark yaklaşık 20 yüzde puan civarındaydı; bu, İngilizce dışındaki konuşma modellerindeki hızlı iyileşmeleri yansıtmaktadır.
Bazı Dillerin Diğerlerinden Daha Yüksek Puan Almasının Nedenleri
Doğruluk varyasyonunun çoğunu açıklayan üç faktör bulunmaktadır:
1. Eğitim Verisi Hacmi
ASR ve NER model performansı, her dil için mevcut olan eğitim verisi hacmi ile doğrudan ilişkilidir. İngilizce, Arapça veya Korece'den çok daha fazla etiketlenmiş konuşma verisine sahiptir. Common Voice veri seti (Mozilla, 2024) İngilizce için 19,000'den fazla doğrulanmış saat içerirken, Korece için 300 saatten az ve Arapça için 100 saatten az veri bulunmaktadır.
2. Gıda Veritabanı Kapsamı
İyi belgelenmiş gıda bileşimi veritabanlarına (İngilizce için USDA, Almanca için BLS, Fransızca için CIQUAL) sahip bölgelerde konuşulan diller, daha yüksek veritabanı eşleştirme puanları elde eder. Gıda bileşimi verilerinin daha az standartlaştırıldığı veya dijitalleştirildiği dillerde daha fazla eşleştirme hatası görülmektedir.
3. NLP için Dilsel Karmaşıklık
Eklemeli diller (Türkçe, Korece), tonlama dilleri (Çince) ve karmaşık morfolojiye sahip diller (Arapça), daha sofistike NLP süreçleri gerektirir. Ek işleme aşamaları, hata birikimi için daha fazla fırsat sunar.
Nutrola'nın Çok Dilli Sesli Kayıt Sürecini Nasıl Yönettiği
Nutrola'nın sesli kayıt süreci, çok dilli zorlukları birkaç mimari kararla ele almaktadır:
- Dil spesifik ASR modelleri: Tek bir çok dilli model yerine, sürecin kullanıcı dil ayarı bilindiğinde ses kaydını dil spesifik ince ayar yapılmış modellere yönlendirmesi, genel çok dilli ASR'ye göre %3 ila %5 puan daha yüksek doğruluk sağlamaktadır.
- Yerel farkındalık ile belirsizlik giderme: Gıda varlığı belirsizliği, kullanıcının yerel ayarını kullanarak bölgesel gıda isimlerini çözmektedir. "Chips" kelimesi, Londra, New York ve Sydney'deki kullanıcılara farklı şekilde çözülmektedir.
- Çapraz dilli gıda veritabanı: Doğrulanmış beslenme veritabanı, gıda girişlerini diller arasında eşleştirir; böylece "poulet grille" (Fransızca), "pollo a la plancha" (İspanyolca) ve "grilled chicken" (İngilizce) hepsi aynı doğrulanmış beslenme profiline karşılık gelir.
- Metin girişi için geri dönüş: Herhangi bir dilde ses güveni belirli bir eşik değerinin altına düştüğünde, kullanıcılar sorunsuz bir şekilde metin aramasına veya barkod taramasına geçebilir — Nutrola'nın barkod tarayıcısı, dünya genelinde paketlenmiş ürünlerin %95'inden fazlasını kapsar.
AI foto kaydı ve AI Diyet Asistanı ile birleştirildiğinde, bu çok dilli sesli yetenekler, Nutrola'yı dünya genelindeki kullanıcılar için pratik bir günlük beslenme takip aracı haline getirir. Tüm özellikler — desteklenen tüm dillerde sesli kayıt dahil — 3 günlük ücretsiz deneme ile ayda 2.50 eurodan başlayan fiyatlarla sunulmakta olup, herhangi bir katmanda reklam bulunmamaktadır.
Gelecek: 2026 ve Sonrasında Çok Dilli Sesli Kayıt
Çok dilli sesli gıda kaydını geliştiren birkaç gelişme bulunmaktadır:
- Lehçe spesifik ince ayar: Konuşma lehçelerini hedefleyen yeni veri setleri (Mısır Arapçası, Brezilya Portekizcesi, Kantonca) standart ve günlük konuşma arasındaki doğruluk farkını kapatmaktadır.
- Çok modlu girişler: Ses ile fotoğrafların birleştirilmesi, AI'nın çapraz doğrulama yapmasına olanak tanır — eğer fotoğraf pirinç gösteriyorsa ve ses "arroz" (İspanyolca pirinç) diyorsa, her iki mod için güven artar.
- Kendinden denetimli öğrenme: Etiketlenmemiş çok dilli ses üzerinde eğitilen modeller (wav2vec 2.0, HuBERT), transkripte ihtiyaç duymadan konuşma temsillerini öğrenir ve düşük kaynaklı diller için daha hızlı iyileşme sağlar.
- Kullanıcı geri bildirim döngüleri: Kullanıcıların yaptığı her düzeltme ("bu beyaz pirinç değil, kahverengi pirinç olmalı") o dilde modeli geliştirmek için bir eğitim sinyali haline gelir.
Sıkça Sorulan Sorular
AI sesli gıda kaydı hangi dillerde en iyi çalışıyor?
İngilizce, İspanyolca, Portekizce ve Fransızca, sesli gıda kaydı için en yüksek doğruluk oranını elde etmektedir; hepsi genel olarak %93'ün üzerinde puan almıştır. Bu diller, geniş ASR eğitim verilerinden, iyi belgelenmiş gıda veritabanlarından ve NLP işleme için nispeten basit morfolojiden faydalanmaktadır. Almanca, genel olarak %92 ile beşinci sıradadır.
Mandarin Çince'de yemekleri sesli kaydetmek ne kadar doğru?
Mandarin Çince sesli kaydı yaklaşık %86 genel doğruluk elde etmektedir. Ana zorluklar, ASR'deki tonlama ayrımları (örneğin, "tang" kelimesinin tonuna bağlı olarak farklı anlamlar taşıması) ve miktarlar için ölçü kelimeleri sistemidir. Açık telaffuz edilen yaygın gıdalar için doğruluk önemli ölçüde daha yüksektir. Belirsiz tanımlar yerine kesin sayısal miktarlar (örneğin "200克," 200 gram) kullanmak sonuçları önemli ölçüde iyileştirmektedir.
AI, diller arasında çevrilemeyen gıda isimlerini nasıl ele alıyor?
Kültürel olarak spesifik gıdalar, "shawarma," "miso" ve "tzatziki" gibi, yerel dildeki gıda isimlerini doğrudan beslenme profillerine eşleştiren çapraz dilli gıda varlık veritabanları aracılığıyla ele alınmaktadır. Bir Türkçe konuşan kişi "tavuk shawarma" dediğinde veya bir Japonca konuşan kişi "味噌汁" (miso çorbası) dediğinde, NER modeli bunları kendi dillerinde gıda varlıkları olarak tanır ve uygun veritabanı girişlerine eşleştirir; bu, İngilizce karşılığı olup olmamasına bakılmaksızın gerçekleşir.
Neden Arapça sesli kaydı diğer dillerden daha az doğru?
Arapça sesli kaydı genel olarak %84 puan alır; bu, esas olarak üç faktörden kaynaklanmaktadır: (1) diglossia — Modern Standart Arapça ile konuşma lehçeleri arasındaki önemli fark, modelin birçok telaffuz varyantını ele alması gerektiği anlamına gelir; (2) Avrupa dillerine kıyasla sınırlı etiketlenmiş eğitim verisi; ve (3) her gıda kavramı için birçok yüzey biçimi oluşturan kök tabanlı morfoloji. Konuşmacılar Modern Standart Arapça kullandığında, doğruluk yaklaşık %91'e yükselmektedir.
Sesli kayıt doğruluğu zamanla benim özel dilimde iyileşir mi?
Evet. Sesli kayıt sistemleri, iki mekanizma aracılığıyla iyileşmektedir: belirli bir dildeki tüm kullanıcılar arasında toplanan kullanıcı verileri üzerinden eğitilen küresel model güncellemeleri ve sizin özel telaffuz kalıplarınızı, sık kaydedilen gıdaları ve tercih ettiğiniz gıda isimlerini öğrenen kişiselleştirilmiş uyum. Düzenli kullanımın ardından iki ila üç hafta içinde, sistem genellikle sık kullandığınız yemekler için tanıma doğruluğunda ölçülebilir bir iyileşme gösterir.
Sesli kayıtta diller arasında karışık bir şekilde konuşabilir miyim, örneğin İspanyolca bir yemeği bazı İngilizce terimlerle tanımlamak?
Kod değiştirme — iki dili tek bir ifadede karıştırmak — çok dilli hanelerde yaygındır ve modern ASR modelleri tarafından giderek daha fazla desteklenmektedir. "Tuve un bowl de quinoa con grilled chicken" (İspanyolca ve İngilizce karışımı) demek, genel olarak çok dilli transformer modelleri tarafından doğru bir şekilde ayrıştırılacaktır. Ancak, doğruluk, tek dilli ifadelerden yaklaşık 5 ila 8 yüzde puan daha düşük olacaktır; bu nedenle bir dilde kalmak en iyi sonuçları verir.
Yabancı bir dilde en doğru sesli kayıt sonuçlarını nasıl alabilirim?
Dört uygulama doğruluğu artırır: (1) orta bir hızda ve net bir telaffuzla konuşmak; (2) mümkün olduğunca kesin miktarlar kullanmak ("200 gram" yerine "biraz"); (3) bölgesel argo veya kısaltmalar yerine standart gıda isimleri kullanmak; ve (4) AI bir şeyi yanlış yaptığında düzeltmeler yapmak, çünkü bu geri bildirim gelecekteki tanımayı doğrudan iyileştirir. Nutrola, ayrıca, sözlü olarak tanımlanması zor olan ürünler için fotoğraf kaydı veya barkod taramasına geçiş yapmayı destekler.
Nutrola, test edilen tüm 10 dilde sesli kaydı destekliyor mu?
Nutrola, bu makalede açıklanan tam NLP süreci ile birden fazla dilde sesli kaydı desteklemektedir. Uygulama, kullanıcının cihaz dilini otomatik olarak algılar ve ses girişini uygun dil spesifik modellere yönlendirir. Apple Health ve Google Fit senkronizasyonu, hangi dilde kayıt yaparsanız yapın çalışır ve beslenme verilerinizin sağlık ekosisteminizle sorunsuz bir şekilde entegre olmasını sağlar.
Beslenme takibinizi dönüştürmeye hazır mısınız?
Nutrola ile sağlık yolculuklarını dönüştürmüş binlerce kişiye katılın!