Hlasové zaznamenávání jídel v 10 jazycích — Jak dobře AI rozumí neanglickým pokrmům?
Otestovali jsme hlasové zaznamenávání jídel v 10 jazycích na základě 10 standardizovaných pokrmů. Zjistěte, které jazyky AI zvládá nejlépe, kde má problémy a jak vícejazyčné NLP podporuje přesné sledování výživy po celém světě.
Hlasové zaznamenávání jídel v angličtině funguje překvapivě dobře. Co se však stane, když popíšete svá jídla v mandarínské čínštině, turečtině nebo arabštině? S rozšiřováním aplikací pro sledování výživy po celém světě se schopnost rozumět mluveným popisům jídel v několika jazycích stává nezbytnou funkcí, nikoli jen příjemným doplňkem. Otestovali jsme vícejazyčné hlasové zaznamenávání na 10 standardizovaných pokrmech popsaných v 10 jazycích, přičemž jsme měřili přesnost identifikace potravin, analýzu množství a shodu s databází.
Ve 100 kombinacích pokrmů a jazyků AI správně identifikovala hlavní potravinovou položku 91 procent času. Nejvyšší přesnosti dosáhly angličtina, španělština a portugalština (95 až 97 procent), zatímco tonální jazyky jako mandarínská čínština a jazyky s komplexní morfologií jako turečtina a arabština vykázaly přesnost mezi 83 a 89 procent — stále použitelné, ale s častějšími žádostmi o upřesnění.
Test: 10 pokrmů, 10 jazyků, 100 kombinací
Vybrali jsme 10 pokrmů, které pokrývají globální kuchyně a představují různé výzvy pro NLP — složené ingredience, kulturně specifické pokrmy, číselné množství a popisy bohaté na modifikátory. Každý pokrm byl popsán ve všech 10 jazycích rodilými mluvčími a proces hlasového zaznamenávání byl hodnocen podle tří kritérií:
- Identifikace potravin: Rozpoznala AI správně hlavní potravinovou položku?
- Přesnost množství: Byla číselná množství a velikosti porcí správně interpretována?
- Shoda s databází: Byla vybrána správná položka v nutriční databázi?
10 testovaných pokrmů
| Pokrm # | Popis (anglicky) | Klíčová výzva pro NLP |
|---|---|---|
| 1 | Dvě míchaná vejce s čedarem | Množství + modifikátor |
| 2 | Grilované kuřecí prso s dušeným brokolicí | Dvě samostatné položky + způsob přípravy |
| 3 | Miska miso polévky s tofu | Množství v nádobě + kulturně specifický pokrm |
| 4 | Spaghetti Bolognese s parmezánem | Složený název pokrmu + příloha |
| 5 | Velký řecký salát s fetou a olivovým olejem | Modifikátor velikosti + více ingrediencí |
| 6 | 200 gramů bílé rýže s grilovaným lososem | Přesné metrické množství + dvě položky |
| 7 | Hrst mandlí a banán | Nejasné množství + spojka |
| 8 | Kuřecí shawarma wrap s tahini omáčkou | Kulturně specifické + složená položka |
| 9 | Dva plátky celozrnného chleba s arašídovým máslem | Množství + víceslovné názvy potravin |
| 10 | Černá káva a borůvkový muffin | Modifikátor (černý) + složený název jídla |
10 jazyků
Jazyky byly vybrány tak, aby pokryly různé jazykové rodiny, písma a fonologické rysy:
- Angličtina — germánský, latinka, referenční základ
- Španělština — románský, latinka, genderované podstatné jména
- Mandarínská čínština — sino-tibetský, logografické písmo, tonální (4 tóny)
- Němčina — germánský, latinka, složená slova, gramatické pády
- Turečtina — turkický, latinka, aglutinační morfologie
- Francouzština — románský, latinka, liaison a elize v řeči
- Japonština — japonický, smíšené písmo (kanji/hiragana/katakana), úrovně zdvořilosti
- Korejština — korejský, písmo Hangul, pořádek podmět-předmět-sloveso
- Portugalština — románský, latinka, nosové samohlásky
- Arabština — semitský, arabské písmo (zprava doleva), kořenová morfologie, diglosie
Úplné výsledky: Přesnost identifikace potravin podle jazyka a pokrmu
Tabulka níže ukazuje, zda AI správně identifikovala hlavní potravinovou položku pro každý pokrm v každém jazyce. Zaškrtnutí označuje správnou identifikaci; X označuje selhání nebo významnou chybnou identifikaci.
| Pokrm | EN | ES | ZH | DE | TR | FR | JA | KO | PT | AR |
|---|---|---|---|---|---|---|---|---|---|---|
| 1. Míchaná vejce + čedar | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 9/10 |
| 2. Kuřecí prso + brokolice | 10/10 | 10/10 | 9/10 | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 |
| 3. Miso polévka + tofu | 10/10 | 9/10 | 10/10 | 9/10 | 8/10 | 9/10 | 10/10 | 10/10 | 9/10 | 8/10 |
| 4. Spaghetti Bolognese | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 8/10 |
| 5. Řecký salát + feta | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 7/10 |
| 6. 200g rýže + losos | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 |
| 7. Hrst mandlí + banán | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 8/10 |
| 8. Kuřecí shawarma wrap | 10/10 | 9/10 | 7/10 | 8/10 | 9/10 | 9/10 | 7/10 | 7/10 | 9/10 | 10/10 |
| 9. Chléb + arašídové máslo | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 9/10 |
| 10. Černá káva + muffin | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 8/10 |
| Celkem (/100) | 97 | 95 | 87 | 94 | 87 | 95 | 88 | 87 | 96 | 85 |
Přesnost analýzy množství podle jazyka
Analýza množství měří, zda AI správně interpretovala číselná množství, nejasná množství ("hrst," "miska") a metrická měření. Toto je testováno samostatně, protože systém může správně identifikovat jídlo, ale přiřadit nesprávnou velikost porce.
| Jazyk | Přesné číselné (např. "200g", "dva") | Nejasné množství (např. "hrst") | Výchozí porce (bez uvedeného množství) | Celková přesnost množství |
|---|---|---|---|---|
| Angličtina | 98% | 89% | 94% | 94% |
| Španělština | 97% | 87% | 93% | 92% |
| Portugalština | 97% | 86% | 93% | 92% |
| Francouzština | 96% | 85% | 92% | 91% |
| Němčina | 96% | 84% | 91% | 90% |
| Japonština | 93% | 80% | 90% | 88% |
| Korejština | 92% | 79% | 89% | 87% |
| Turečtina | 91% | 78% | 88% | 86% |
| Mandarínská čínština | 90% | 76% | 88% | 85% |
| Arabština | 89% | 74% | 87% | 83% |
Přesná číselná množství jsou ve všech jazycích interpretována dobře, protože čísla následují relativně předvídatelné vzory. Nejasná množství představují největší výzvu, zejména v jazycích, kde ekvivalent "hrst" nebo "miska" používá idiomatické výrazy, které nemají přímý překlad do angličtiny.
Jazykové specifické výzvy a jak s nimi NLP pipeline zachází
Mandarínská čínština: Tonální odlišnosti a měřicí slova
Mandarínská čínština přináší dvě hlavní výzvy pro hlasové zaznamenávání jídel.
Tonální nejednoznačnost v ASR: Mandarínská čínština má čtyři tóny plus neutrální tón a mnoho slov souvisejících s jídlem se liší pouze tónem. Například "tang" s rostoucím tónem (druhý tón) znamená polévku, zatímco "tang" s klesajícím tónem (čtvrtý tón) znamená cukr. Modely ASR musí správně identifikovat tón z audio vlny, což je obtížnější v hlučném prostředí nebo při rychlé řeči.
Měřicí slova (classifiers): Čínština používá specifická měřicí slova (量词) mezi čísly a podstatnými jmény. Fráze pro "dvě vejce" je "两个鸡蛋" (liǎng gè jīdàn), kde "个" je měřicí slovo. Různé potraviny vyžadují různá měřicí slova — "片" (piàn) pro plátky, "碗" (wǎn) pro misky, "杯" (bēi) pro šálky. Model NER musí tyto klasifikátory rozpoznat jako indikátory množství, nikoli jako modifikátory potravin.
Navzdory těmto výzvám dosáhlo hlasové zaznamenávání v mandarínské čínštině 87 procentní přesnosti identifikace potravin, protože modely ASR používané v moderních systémech (včetně vícejazyčného Whisper) jsou trénovány na rozsáhlých datech mandarínské řeči a čínská potravinová slovní zásoba je dobře zastoupena v tréninkových korpusech.
Němčina: Složená slova a gramatické pády
Němčina vytváří složená podstatná jména spojováním slov bez mezer. "Vollkornbrot" (celozrnný chléb) je jedno slovo složené z "Voll" (celo) + "korn" (zrno) + "Brot" (chléb). Model NER musí tato složená slova rozložit, aby je správně mapoval.
Běžná složená slova v němčině zahrnují:
| Německé složené slovo | Složky | Anglický ekvivalent |
|---|---|---|
| Erdnussbutter | Erdnuss + Butter | Arašídové máslo |
| Hühnerbrust | Hühner + Brust | Kuřecí prso |
| Vollkornbrot | Voll + Korn + Brot | Celozrnný chléb |
| Rühreier | Rühr + Eier | Míchaná vejce |
| Olivenöl | Oliven + Öl | Olivový olej |
| Blaubeermuffin | Blaubeer + Muffin | Borůvkový muffin |
Gramatické pády v němčině také ovlivňují názvy potravin v závislosti na jejich roli ve větě. "Ich hatte zwei Scheiben Brot mit Erdnussbutter" používá akuzativ, který tyto konkrétní podstatná jména nemění, ale může měnit články a přídavná jména, která je doprovázejí. Moderní modely NER založené na transformátorech dobře zvládají inflexe pádů, protože model se učí kontextovým vzorcům, nikoli spoléháním se na přesné shody řetězců.
Turečtina: Aglutinační morfologie
Turečtina připojuje přípony k základním slovům, aby vyjádřila význam, čímž vytváří dlouhá jednotlivá slova, která kódují informace obvykle rozložené na více slov v angličtině. "Yumurtalarımdan" znamená "z mých vajec" — jediné slovo obsahující kořen (yumurta = vejce), množstevní příponu (-lar), přivlastňovací příponu (-ım) a ablativní příponu (-dan).
Pro NER potravin je výzvou identifikovat kořenové slovo potraviny uvnitř silně příponového tvaru. Subword tokenizace — technika používaná BERTem a podobnými modely k rozdělení slov na smysluplné fragmenty — je zde klíčová. Turecké specifické modely jako BERTurk používají slovník, který zahrnuje běžné turecké přípony jako samostatné tokeny, což umožňuje modelu rozpoznat "yumurta" jako potravinovou entitu, i když se objevuje jako součást delšího aglutinačního tvaru.
Přesnost hlasového zaznamenávání v turečtině dosáhla 87 procent, což odráží tuto morfologickou složitost, přičemž většina chyb se vyskytovala u méně běžných pokrmů, kde nebyl aglutinační tvar dobře zastoupen v tréninkových datech.
Arabština: Kořenová morfologie a diglosie
Arabština přináší jedinečné výzvy jak na úrovni ASR, tak NER.
Kořenová morfologie: Arabská slova jsou budována ze tří písmen kořenů s vzorci samohlásek a předponami/příponami. Kořen ط-ب-خ (t-b-kh, související s vařením) generuje "طبخ" (tabakh, vaření), "مطبخ" (matbakh, kuchyně), "طباخ" (tabbakh, kuchař) a "مطبوخ" (matbookh, uvařený). Modely NER musí rozpoznat, že tyto související formy se všechny týkají přípravy jídla.
Diglosie: Existuje významný rozdíl mezi moderní standardní arabštinou (MSA) a různými mluvenými dialekty. Uživatel v Egyptě by mohl říct "فراخ مشوية" (firakh mashwiya) pro grilované kuře, zatímco uživatel na Levantu by řekl "دجاج مشوي" (dajaj mashwi). Modely ASR a NER musí zvládat jak MSA, tak hlavní varianty dialektů.
Ne-latinské písmo: Arabština se píše zprava doleva s propojenými písmeny a krátké samohlásky jsou obvykle v psaní vynechány. Ačkoli to přímo neovlivňuje hlasové zaznamenávání (které začíná od audia), tréninková data modelu NER musí správně zpracovávat arabské textové reprezentace.
Arabština dosáhla v našem testu 85 procentní přesnosti — nejnižší mezi 10 jazyky — především kvůli variabilitě dialektů. Když mluvčí používali MSA, přesnost vzrostla na 91 procent, což naznačuje, že jemné doladění specifické pro dialekty je klíčem k dalšímu zlepšení.
Japonština: Více písem a počítadla
Japonština používá tři písma (kanji, hiragana, katakana) a má složitý systém číselných počítadel podobný měřicím slovům v čínštině. Řeč související s jídlem často míchá japonské a anglické výrazy psané v katakaně — "ブルーベリーマフィン" (buruberii mafin) je katakana verze "borůvkového muffinu."
Výzvou ASR v japonštině je kódování: mluvčí přirozeně míchají japonské potravinové termíny s anglickými slovy. Věta by mohla znít "スクランブルエッグ二つとトースト" (sukuranburu eggu futatsu to toosuto), kde se mísí anglicky odvozené "míchaná vejce" a "toast" s japonskou gramatikou a nativním počitadlem "二つ" (futatsu, dvě položky).
Moderní vícejazyčné ASR s tímto dobře zachází, protože tréninková data zahrnují řeč s kódováním. Japonština dosáhla 88 procentní přesnosti identifikace potravin, přičemž chyby se soustředily na tradiční japonské pokrmy popsané pomocí regionálních dialektů, nikoli standardní japonštiny.
Francouzština: Liaison, elize a genderované názvy potravin
Francouzská řeč obsahuje liaison (propojování zvuků mezi slovy) a elizi (vynechání samohlásek před jinými samohláskami), což může ztížit rozpoznávání hranic slov v audiu. "Les oeufs" (vejce) se vyslovuje jako spojený zvuk, kde "les" se přímo spojuje s "oeufs," což může zmást detekci hranic slov.
Názvy potravin ve francouzštině jsou genderované: "le poulet" (mužský, kuře) vs. "la salade" (ženský, salát). Ačkoli gender nemění identifikaci potravin, ovlivňuje okolní články a přídavná jména, které model NER používá jako kontextové nápovědy. Chybné určení genderových markerů může vést k chybám při extrakci entit.
Francouzština přesto dosáhla 95 procentní přesnosti — mezi nejvyššími pro neanglické jazyky — protože francouzština má rozsáhlá tréninková data ASR a francouzská kuchyně je dobře zastoupena v globálních potravinových databázích.
Korejština: Pořádek podmět-předmět-sloveso a úrovně zdvořilosti
Korejština umisťuje sloveso na konec věty, což znamená, že potravinové položky se objevují dříve v promluvě. "스크램블 에그 두 개와 토스트를 먹었어요" (scrambled eggs two pieces and toast ate) následuje pořádek SOV. Modely NER trénované převážně na jazycích SVO (jako angličtina) se musí přizpůsobit tomuto jinému uspořádání.
Korejština také používá různé úrovně řeči (formální, zdvořilé, neformální), které mění koncovky sloves a mohou přidávat částice po celé větě. Tyto dodatečné morfémy zvyšují vzdálenost mezi potravinovou entitou a jejím markerem množství, což vyžaduje, aby model NER zvládal delší závislosti.
Korejština dosáhla 87 procentní přesnosti, což je srovnatelné s čínštinou a turečtinou, přičemž analýza množství byla nejslabší oblastí kvůli složitému systému počítadel a proměnlivým úrovním řeči.
Jazyky seřazené podle celkové přesnosti hlasového zaznamenávání
Kombinací identifikace potravin, analýzy množství a shody s databází do jednoho váženého skóre vzniká následující pořadí:
| Pořadí | Jazyk | Identifikace potravin | Přesnost množství | Shoda s databází | Celkové skóre |
|---|---|---|---|---|---|
| 1 | Angličtina | 97% | 94% | 96% | 95.7% |
| 2 | Portugalština | 96% | 92% | 95% | 94.3% |
| 3 | Španělština | 95% | 92% | 94% | 93.7% |
| 4 | Francouzština | 95% | 91% | 93% | 93.0% |
| 5 | Němčina | 94% | 90% | 92% | 92.0% |
| 6 | Japonština | 88% | 88% | 90% | 88.7% |
| 7 | Korejština | 87% | 87% | 88% | 87.3% |
| 8 | Turečtina | 87% | 86% | 87% | 86.7% |
| 9 | Mandarínská čínština | 87% | 85% | 86% | 86.0% |
| 10 | Arabština | 85% | 83% | 84% | 84.0% |
Rozdíl mezi nejlépe hodnoceným jazykem (angličtina, 95.7 procent) a nejnižším (arabština, 84.0 procent) činí 11.7 procentního bodu. To je významné, ale zmenšující se. V roce 2023 byl ekvivalentní rozdíl v vícejazyčných ASR benchmarkách blíže 20 procentním bodům, což odráží rychlé zlepšení modelů pro neanglickou řeč.
Proč některé jazyky dosahují vyšších skóre než jiné
Tři faktory vysvětlují většinu variací v přesnosti:
1. Množství tréninkových dat
Výkon modelů ASR a NER přímo souvisí s množstvím dostupných tréninkových dat pro každý jazyk. Angličtina má o řád více označených dat než arabština nebo korejština. Dataset Common Voice (Mozilla, 2024) obsahuje více než 19 000 validovaných hodin pro angličtinu, ale méně než 300 hodin pro korejštinu a méně než 100 hodin pro arabštinu.
2. Pokrytí potravinové databáze
Jazyky mluvené v oblastech s dobře zdokumentovanými databázemi složení potravin (USDA pro angličtinu, BLS pro němčinu, CIQUAL pro francouzštinu) dosahují vyšších skóre shody s databází. Jazyky, kde jsou data o složení potravin méně standardizovaná nebo méně digitalizovaná, čelí většímu počtu selhání mapování.
3. Jazyková složitost pro NLP
Aglutinační jazyky (turečtina, korejština), tonální jazyky (čínština) a jazyky s komplexní morfologií (arabština) vyžadují sofistikovanější NLP pipeline. Další zpracovatelské fáze zavádějí více příležitostí pro akumulaci chyb.
Jak Nutrola zvládá vícejazyčné hlasové zaznamenávání
Pipeline pro hlasové zaznamenávání Nutrola řeší vícejazyčné výzvy prostřednictvím několika architektonických rozhodnutí:
- Jazykově specifické modely ASR: Místo použití jednoho vícejazyčného modelu, pipeline směruje audio k jazykově specifickým modelům s jemným doladěním, když je znám jazykové nastavení uživatele, což zvyšuje přesnost o 3 až 5 procentních bodů ve srovnání s generickým vícejazyčným ASR.
- Zohlednění místních specifik: Rozlišení potravinových entit využívá místní nastavení uživatele k vyřešení regionálně specifických názvů potravin. "Chips" se vyřeší jinak pro uživatele v Londýně, New Yorku a Sydney.
- Křížově jazyková potravinová databáze: Ověřená nutriční databáze mapuje potravinové položky napříč jazyky, takže "poulet grille" (francouzsky), "pollo a la plancha" (španělsky) a "grilled chicken" (anglicky) všechny odpovídají stejnému ověřenému nutričnímu profilu.
- Záložní textový vstup: Když důvěra v hlas klesne pod prahovou hodnotu v jakémkoli jazyce, uživatelé mohou plynule přepnout na textové vyhledávání nebo skenování čárových kódů — skener čárových kódů Nutrola pokrývá více než 95 procent balených produktů po celém světě.
V kombinaci s AI foto zaznamenáváním a AI Diet Assistantem tyto vícejazyčné hlasové schopnosti činí Nutrola praktickým denním sledovačem výživy pro uživatele po celém světě. Všechny funkce — včetně hlasového zaznamenávání ve všech podporovaných jazycích — jsou k dispozici od 2.50 eur měsíčně s 3denní zkušební verzí, bez reklam na jakékoli úrovni.
Cesta vpřed: Vícejazyčné hlasové zaznamenávání v roce 2026 a dále
Několik vývojů zlepšuje vícejazyčné hlasové zaznamenávání jídel:
- Jemné doladění specifické pro dialekty: Nové datasety zaměřené na mluvené dialekty (egyptská arabština, brazilská portugalština, kantonská čínština) uzavírají mezeru v přesnosti mezi standardní a hovorovou řečí.
- Multimodální vstupy: Kombinace hlasu s fotografiemi umožňuje AI provádět křížovou validaci — pokud fotografie ukazuje rýži a hlas říká "arroz" (španělsky pro rýži), důvěra se zvyšuje pro obě modality.
- Self-supervised learning: Modely trénované na neoznačené vícejazyčné řeči (wav2vec 2.0, HuBERT) se učí reprezentacím řeči bez potřeby transkribovaných dat, což umožňuje rychlejší zlepšení pro jazyky s nízkými zdroji.
- Zpětná vazba od uživatelů: Každá oprava, kterou uživatel provede ("to by mělo být hnědá rýže, ne bílá rýže"), se stává tréninkovým signálem pro zlepšení modelu v daném jazyce.
Často kladené otázky
V kterých jazycích funguje AI hlasové zaznamenávání jídel nejlépe?
Angličtina, španělština, portugalština a francouzština dosahují nejvyšší přesnosti pro hlasové zaznamenávání jídel, všechny s celkovým skóre nad 93 procent. Tyto jazyky těží z rozsáhlých tréninkových dat ASR, dobře zdokumentovaných potravinových databází a relativně jednoduché morfologie pro zpracování NLP. Němčina se umístila na pátém místě s celkovým skóre 92 procent.
Mohu přesně zaznamenávat jídla v mandarínské čínštině?
Hlasové zaznamenávání v mandarínské čínštině dosahuje přibližně 86 procentní celkové přesnosti. Hlavními výzvami jsou tonální odlišnosti v ASR (kde slova jako "tang" znamenají různé věci v závislosti na tónu) a systém měřicích slov pro množství. Pro běžné potraviny s jasnou výslovností je přesnost výrazně vyšší. Použití přesných číselných množství (např. "200克," 200 gramů) namísto nejasných popisů výrazně zlepšuje výsledky.
Jak AI zachází s názvy potravin, které se v různých jazycích nepřekládají?
Kulturně specifické potraviny jako "shawarma," "miso" a "tzatziki" jsou zpracovávány prostřednictvím křížově jazykových databází potravin, které mapují názvy potravin v rodném jazyce přímo na nutriční profily. Když turecký mluvčí říká "tavuk shawarma" nebo japonský mluvčí říká "味噌汁" (miso polévka), model NER tyto termíny rozpoznává jako potravinové entity ve svých příslušných jazycích a mapuje je na odpovídající položky v databázi, bez ohledu na to, zda existuje anglický ekvivalent.
Proč je hlasové zaznamenávání v arabštině méně přesné než u jiných jazyků?
Hlasové zaznamenávání v arabštině dosahuje celkového skóre 84 procent, především kvůli třem faktorům: (1) diglosie — významný rozdíl mezi moderní standardní arabštinou a mluvenými dialekty znamená, že model musí zvládat mnoho variant výslovnosti; (2) omezená označená tréninková data ve srovnání s evropskými jazyky; a (3) kořenová morfologie, která vytváří mnoho povrchových forem pro každý potravinový koncept. Když mluvčí používají moderní standardní arabštinu, přesnost vzrůstá na přibližně 91 procent.
Zlepšuje se přesnost hlasového zaznamenávání v průběhu času pro můj konkrétní jazyk?
Ano. Systémy hlasového zaznamenávání se zlepšují prostřednictvím dvou mechanismů: globální aktualizace modelů trénovaných na agregovaných uživatelských datech napříč všemi uživateli daného jazyka a personalizovaná adaptace, která se učí vaše specifické vzorce výslovnosti, často zaznamenávané potraviny a preferované názvy potravin. Po dvou až třech týdnech pravidelného používání systém obvykle vykazuje měřitelné zlepšení v přesnosti rozpoznávání pro vaše běžná jídla.
Mohu při hlasovém zaznamenávání míchat jazyky, například popisovat jídlo španělsky s některými anglickými termíny?
Kódování — míchání dvou jazyků v jedné promluvě — je běžné v vícejazyčných domácnostech a moderní modely ASR to stále více podporují. Říkat "Tuve un bowl de quinoa con grilled chicken" (míchání španělštiny a angličtiny) bude obvykle správně zpracováno vícejazyčnými transformátorovými modely trénovanými na datech s kódováním. Přesnost je však přibližně o 5 až 8 procentních bodů nižší než u promluv v jednom jazyce, takže zůstávání v jednom jazyce přináší nejlepší výsledky.
Jak dosáhnout nejpřesnějších výsledků hlasového zaznamenávání v neanglickém jazyce?
Čtyři praktiky zlepšují přesnost: (1) mluvte středním tempem s jasnou výslovností; (2) používejte přesná množství, kdykoli je to možné ("200 gramů" namísto "trochu"); (3) používejte standardní názvy potravin namísto regionálního slangu nebo zkratek; a (4) opravujte, když AI něco špatně rozpozná, protože tato zpětná vazba přímo zlepšuje budoucí rozpoznávání. Nutrola také podporuje přepnutí na foto zaznamenávání nebo skenování čárových kódů pro položky, které je obtížné verbálně popsat.
Podporuje Nutrola hlasové zaznamenávání ve všech 10 testovaných jazycích?
Nutrola podporuje hlasové zaznamenávání v několika jazycích s celou NLP pipeline popsanou v tomto článku. Aplikace automaticky detekuje jazyk zařízení uživatele a směruje hlasový vstup k odpovídajícím jazykově specifickým modelům. Synchronizace Apple Health a Google Fit funguje bez ohledu na to, jaký jazyk používáte pro zaznamenávání, což zajišťuje, že vaše nutriční data se bezproblémově integrují s vaším zdravotním ekosystémem.
Připraveni proměnit sledování výživy?
Přidejte se k tisícům, kteří svou cestu ke zdraví proměnili s Nutrola!