Rejestrowanie posiłków głosowo w 10 językach — Jak dobrze AI rozumie posiłki w językach innych niż angielski?
Przetestowaliśmy głosowe rejestrowanie posiłków w 10 językach na podstawie 10 ustandaryzowanych posiłków. Sprawdź, które języki AI obsługuje najlepiej, gdzie ma trudności i jak wielojęzyczne NLP wspiera dokładne śledzenie żywienia na całym świecie.
Głosowe rejestrowanie posiłków w języku angielskim działa zaskakująco dobrze. Ale co się dzieje, gdy opisujesz swoje posiłki w mandaryńskim chińskim, tureckim czy arabskim? W miarę jak aplikacje do śledzenia żywności zdobywają popularność na całym świecie, umiejętność rozumienia mówionych opisów jedzenia w różnych językach przestaje być tylko miłym dodatkiem — staje się kluczowym wymogiem. Przeprowadziliśmy test wielojęzycznego rejestrowania głosowego z użyciem 10 ustandaryzowanych posiłków opisanych w 10 językach, mierząc dokładność identyfikacji żywności, analizę ilości i dopasowanie do bazy danych.
W przypadku 100 kombinacji posiłków i języków, głosowe rejestrowanie AI poprawnie identyfikowało główny składnik żywności w 91 procentach przypadków. Najwyższą dokładność osiągnęły języki angielski, hiszpański i portugalski (95-97 procent), podczas gdy języki tonalne, takie jak mandaryński chiński, oraz języki o złożonej morfologii, takie jak turecki i arabski, wykazały dokładność w przedziale 83-89 procent — wciąż użyteczne, ale z częstszymi prośbami o wyjaśnienia.
Test: 10 posiłków, 10 języków, 100 kombinacji
Wybraliśmy 10 posiłków, które obejmują różnorodne kuchnie świata i stawiają różne wyzwania dla NLP — składniki złożone, dania specyficzne dla danej kultury, ilości liczbowe oraz opisy bogate w modyfikatory. Każdy posiłek został opisany w 10 językach przez rodzimych użytkowników, a proces rejestrowania głosowego oceniono według trzech kryteriów:
- Identyfikacja żywności: Czy AI poprawnie rozpoznało główny składnik(y) żywności?
- Dokładność ilości: Czy ilości liczbowe i wielkości porcji zostały poprawnie zinterpretowane?
- Dopasowanie do bazy danych: Czy wybrano poprawny wpis w bazie danych żywieniowych?
10 testowych posiłków
| Posiłek # | Opis (po angielsku) | Kluczowe wyzwanie NLP |
|---|---|---|
| 1 | Dwa jajka sadzone z serem cheddar | Ilość + modyfikator |
| 2 | Grillowana pierś z kurczaka z gotowanym brokułem | Dwa oddzielne składniki + metoda przygotowania |
| 3 | Miska zupy miso z tofu | Ilość pojemnika + danie specyficzne dla kultury |
| 4 | Spaghetti Bolognese z parmezanem | Nazwa złożonego dania + dodatek |
| 5 | Duża sałatka grecka z fetą i sosem oliwkowym | Modyfikator wielkości + wiele składników |
| 6 | 200 gramów białego ryżu z grillowanym łososiem | Dokładna ilość metryczna + dwa składniki |
| 7 | Garść migdałów i banan | Nieprecyzyjna ilość + spójnik |
| 8 | Wrap z kurczakiem shawarma z sosem tahini | Specyficzne dla kultury + złożony składnik |
| 9 | Dwa kawałki chleba pełnoziarnistego z masłem orzechowym | Ilość + wielowyrazowe nazwy żywności |
| 10 | Czarna kawa i muffinka z borówkami | Modyfikator (czarna) + złożona nazwa żywności |
10 języków
Języki zostały wybrane, aby objąć różnorodne rodziny językowe, systemy pisma i cechy fonologiczne:
- Angielski — germański, alfabet łaciński, punkt odniesienia
- Hiszpański — romański, alfabet łaciński, rzeczowniki z rodzajem
- Mandaryński chiński — sino-tybetański, pismo logograficzne, tonalny (4 tony)
- Niemiecki — germański, alfabet łaciński, złożone słowa, przypadki gramatyczne
- Turecki — turecki, alfabet łaciński, morfologia aglutynacyjna
- Francuski — romański, alfabet łaciński, liaison i elizja w mowie
- Japoński — japoniczny, mieszane pismo (kanji/hiragana/katakana), poziomy grzeczności
- Koreański — koreański, pismo Hangul, szyk podmiot-orzeczenie-dopełnienie
- Portugalski — romański, alfabet łaciński, samogłoski nosowe
- Arabski — semicki, pismo arabskie (od prawej do lewej), morfologia oparta na rdzeniach, diglosja
Pełne wyniki: Dokładność identyfikacji żywności według języka i posiłku
Tabela poniżej pokazuje, czy AI poprawnie zidentyfikowało główny składnik(y) żywności dla każdego posiłku w każdym języku. Zaznaczenie oznacza poprawną identyfikację; X oznacza błąd lub istotne błędne zidentyfikowanie.
| Posiłek | EN | ES | ZH | DE | TR | FR | JA | KO | PT | AR |
|---|---|---|---|---|---|---|---|---|---|---|
| 1. Jajka sadzone + cheddar | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 9/10 |
| 2. Pierś z kurczaka + brokuły | 10/10 | 10/10 | 9/10 | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 |
| 3. Zupa miso + tofu | 10/10 | 9/10 | 10/10 | 9/10 | 8/10 | 9/10 | 10/10 | 10/10 | 9/10 | 8/10 |
| 4. Spaghetti Bolognese | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 8/10 |
| 5. Sałatka grecka + feta | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 7/10 |
| 6. 200g ryżu + łosoś | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 |
| 7. Garść migdałów + banan | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 8/10 |
| 8. Wrap z kurczakiem shawarma | 10/10 | 9/10 | 7/10 | 8/10 | 9/10 | 9/10 | 7/10 | 7/10 | 9/10 | 10/10 |
| 9. Chleb + masło orzechowe | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 9/10 |
| 10. Czarna kawa + muffinka | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 8/10 |
| Razem (/100) | 97 | 95 | 87 | 94 | 87 | 95 | 88 | 87 | 96 | 85 |
Dokładność analizy ilości według języka
Analiza ilości mierzy, czy AI poprawnie zinterpretowało ilości liczbowe, nieprecyzyjne ilości ("garść", "miska") i miary metryczne. Jest to testowane osobno, ponieważ system może poprawnie zidentyfikować jedzenie, ale przypisać błędną wielkość porcji.
| Język | Dokładna ilość (np. "200g", "dwa") | Nieprecyzyjna ilość (np. "garść") | Domyślna porcja (brak ilości) | Ogólna dokładność ilości |
|---|---|---|---|---|
| Angielski | 98% | 89% | 94% | 94% |
| Hiszpański | 97% | 87% | 93% | 92% |
| Portugalski | 97% | 86% | 93% | 92% |
| Francuski | 96% | 85% | 92% | 91% |
| Niemiecki | 96% | 84% | 91% | 90% |
| Japoński | 93% | 80% | 90% | 88% |
| Koreański | 92% | 79% | 89% | 87% |
| Turecki | 91% | 78% | 88% | 86% |
| Mandaryński chiński | 90% | 76% | 88% | 85% |
| Arabski | 89% | 74% | 87% | 83% |
Dokładne ilości liczbowe są dobrze interpretowane we wszystkich językach, ponieważ liczby podążają za stosunkowo przewidywalnymi wzorcami. Nieprecyzyjne ilości stanowią największe wyzwanie, szczególnie w językach, w których odpowiednik "garści" lub "miski" używa idiomatycznych wyrażeń, które nie mają bezpośredniego tłumaczenia na angielski.
Wyzwania specyficzne dla języków i jak pipeline NLP sobie z nimi radzi
Mandaryński chiński: Tonalne różnice i słowa miary
Mandaryński chiński stawia dwa główne wyzwania dla głosowego rejestrowania posiłków.
Ambiwalencja tonalna w ASR: Mandaryński ma cztery tony plus ton neutralny, a wiele słów związanych z jedzeniem różni się tylko tonem. Na przykład "tang" z tonem rosnącym (drugi ton) oznacza zupę, podczas gdy "tang" z tonem opadającym (czwarty ton) oznacza cukier. Modele ASR muszą poprawnie zidentyfikować ton z fali dźwiękowej, co jest trudniejsze w hałaśliwych środowiskach lub przy szybkim mówieniu.
Słowa miary (klasyfikatory): Chiński używa specyficznych słów miary (量词) między liczbami a rzeczownikami. Fraza "dwa jajka" to "两个鸡蛋" (liǎng gè jīdàn), gdzie "个" jest słowem miary. Różne jedzenia wymagają różnych słów miary — "片" (piàn) dla plasterków, "碗" (wǎn) dla misek, "杯" (bēi) dla kubków. Model NER musi rozpoznać te klasyfikatory jako wskaźniki ilości, a nie modyfikatory żywności.
Mimo tych wyzwań, głosowe rejestrowanie w mandaryńskim osiągnęło 87 procent dokładności identyfikacji żywności, ponieważ modele ASR używane w nowoczesnych systemach (w tym wielojęzyczny Whisper) są trenowane na obszernej bazie danych mowy mandaryńskiej, a słownictwo żywności chińskiej jest dobrze reprezentowane w zbiorach treningowych.
Niemiecki: Złożone słowa i przypadki gramatyczne
Niemiecki tworzy złożone rzeczowniki, łącząc słowa bez spacji. "Vollkornbrot" (chleb pełnoziarnisty) to jedno słowo składające się z "Voll" (cały) + "korn" (ziarno) + "Brot" (chleb). Model NER musi rozłożyć te złożenia, aby poprawnie je zmapować.
Typowe złożone słowa żywności w niemieckim obejmują:
| Złożone słowo niemieckie | Składniki | Odpowiednik angielski |
|---|---|---|
| Erdnussbutter | Erdnuss + Butter | Masło orzechowe |
| Hühnerbrust | Hühner + Brust | Pierś z kurczaka |
| Vollkornbrot | Voll + Korn + Brot | Chleb pełnoziarnisty |
| Rühreier | Rühr + Eier | Jajka sadzone |
| Olivenöl | Oliven + Öl | Oliwa z oliwek |
| Blaubeermuffin | Blaubeer + Muffin | Muffinka z borówkami |
Przypadki gramatyczne w niemieckim również wpływają na nazwy żywności w zależności od ich roli w zdaniu. "Ich hatte zwei Scheiben Brot mit Erdnussbutter" używa przypadku biernika, który nie zmienia tych konkretnych rzeczowników, ale może zmieniać artykuły i przymiotniki, które je towarzyszą. Nowoczesne modele NER oparte na transformatorach dobrze radzą sobie z inflekcjami przypadków, ponieważ model uczy się wzorców kontekstowych, a nie polega na dokładnym dopasowywaniu ciągów.
Turecki: Morfologia aglutynacyjna
W tureckim do rdzeni słów dodawane są przyrostki, aby przekazać znaczenie, tworząc długie pojedyncze słowa, które kodują informacje zazwyczaj rozprzestrzenione na wiele słów w angielskim. "Yumurtalarımdan" oznacza "z moich jaj" — jedno słowo zawierające rdzeń (yumurta = jajko), przyrostek liczby mnogiej (-lar), przyrostek dzierżawczy (-ım) i przyrostek ablativu (-dan).
Dla NER w zakresie żywności wyzwaniem jest identyfikacja rdzenia słowa żywności w mocno przyrostkowanej formie. Tokenizacja subword — technika używana przez BERT i podobne modele do rozbijania słów na znaczące fragmenty — jest tutaj kluczowa. Modele specyficzne dla tureckiego, takie jak BERTurk, używają słownictwa, które zawiera powszechne przyrostki tureckie jako oddzielne tokeny, co umożliwia modelowi rozpoznanie "yumurta" jako jednostki żywności, nawet gdy występuje jako część dłuższej formy aglutynacyjnej.
Dokładność głosowego rejestrowania w tureckim wynosząca 87 procent odzwierciedla tę złożoność morfologiczną, a większość błędów występuje w przypadku mniej znanych potraw, gdzie forma aglutynacyjna nie była dobrze reprezentowana w danych treningowych.
Arabski: Morfologia oparta na rdzeniach i diglosja
Arabski stawia unikalne wyzwania zarówno na etapie ASR, jak i NER.
Morfologia oparta na rdzeniach: Słowa arabskie budowane są z trzech liter rdzeniowych z wzorami samogłoskowymi oraz przedrostkami/przyrostkami. Rdzeń ط-ب-خ (t-b-kh, związany z gotowaniem) generuje "طبخ" (tabakh, gotowanie), "مطبخ" (matbakh, kuchnia), "طباخ" (tabbakh, kucharz) i "مطبوخ" (matbookh, gotowany). Modele NER muszą rozpoznać, że te powiązane formy dotyczą wszystkich przygotowania żywności.
Diglosja: Istnieje znaczna różnica między nowoczesnym standardowym arabskim (MSA) a różnymi mówionymi dialektami. Użytkownik w Egipcie może powiedzieć "فراخ مشوية" (firakh mashwiya) na grillowanego kurczaka, podczas gdy użytkownik w Lewancie powie "دجاج مشوي" (dajaj mashwi). Modele ASR i NER muszą radzić sobie zarówno z MSA, jak i głównymi wariantami dialektów.
Pismo nielatynowe: Arabski pisany jest od prawej do lewej z połączonymi literami, a krótkie samogłoski zazwyczaj pomijane są w piśmie. Choć nie wpływa to bezpośrednio na rejestrowanie głosowe (które zaczyna się od dźwięku), dane treningowe modelu NER muszą poprawnie obsługiwać reprezentacje tekstowe w języku arabskim.
Arabski osiągnął 85 procent dokładności w naszym teście — najniższy wynik spośród 10 języków — głównie z powodu różnic dialektowych. Gdy mówcy używali MSA, dokładność wzrosła do 91 procent, co sugeruje, że dostosowanie do specyficznych dialektów jest kluczem do dalszej poprawy.
Japoński: Wiele systemów pisma i liczniki
Japoński używa trzech systemów pisma (kanji, hiragana, katakana) i ma złożony system liczbowych liczników podobny do chińskich słów miary. Mowa związana z jedzeniem często miesza japońskie i angielskie słowa zapożyczone pisane w katakanie — "ブルーベリーマフィン" (buruberii mafin) to katakana dla "muffinki z borówkami."
Wyzwanie ASR w języku japońskim to code-switching: mówcy naturalnie mieszają japońskie terminy żywnościowe z angielskimi słowami pochodzenia. Zdanie może brzmieć "スクランブルエッグ二つとトースト" (sukuranburu eggu futatsu to toosuto), mieszając angielskie "scrambled eggs" i "toast" z japońską gramatyką oraz rodzimym licznikiem "二つ" (futatsu, dwie sztuki).
Nowoczesne modele ASR wielojęzyczne dobrze sobie z tym radzą, ponieważ dane treningowe obejmują mowy japońskie z code-switchingiem. Japoński osiągnął 88 procent dokładności identyfikacji żywności, a błędy koncentrowały się na tradycyjnych potrawach japońskich opisanych przy użyciu terminów regionalnych, a nie standardowego japońskiego.
Francuski: Liaison, elizja i nazwy żywności z rodzajem
Mowa francuska charakteryzuje się liaison (łączeniem dźwięków między słowami) i elizją (pomijaniem samogłoskek przed innymi samogłoskami), co może utrudniać wykrywanie granic słów w dźwięku. "Les oeufs" (jajka) wymawia się jako połączony dźwięk, gdzie "les" łączy się bezpośrednio z "oeufs", co może mylić detekcję granic słów.
Nazwy żywności we francuskim mają rodzaj: "le poulet" (męski, kurczak) vs. "la salade" (żeński, sałatka). Choć rodzaj nie zmienia identyfikacji żywności, wpływa na towarzyszące artykuły i przymiotniki, które model NER wykorzystuje jako wskazówki kontekstowe. Błędne rozpoznanie znaczników rodzaju może prowadzić do błędów w ekstrakcji jednostek.
Mimo to francuski osiągnął 95 procent dokładności — jeden z najwyższych wyników wśród języków nieangielskich — ponieważ francuski ma obszerną bazę danych treningowych ASR, a kuchnia francuska jest dobrze reprezentowana w globalnych bazach danych żywności.
Koreański: Szyk podmiot-orzeczenie-dopełnienie i honorifics
Koreański umieszcza czasownik na końcu zdania, co oznacza, że składniki żywności pojawiają się wcześniej w wypowiedzi. "스크램블 에그 두 개와 토스트를 먹었어요" (scrambled eggs two pieces and toast ate) podąża za szykiem SOV. Modele NER trenowane głównie na językach SVO (takich jak angielski) muszą dostosować się do tego innego szyku.
Koreański używa również różnych poziomów mowy (formalny, grzeczny, casual), które zmieniają końcówki czasowników i mogą dodawać partykuły w całym zdaniu. Te dodatkowe morfemy zwiększają odległość między jednostką żywności a wskaźnikiem ilości, co wymaga od modelu NER radzenia sobie z dłuższymi zależnościami.
Koreański osiągnął 87 procent dokładności, co jest porównywalne z chińskim i tureckim, a analiza ilości była najsłabszym obszarem z powodu złożonego systemu liczników i zmiennych poziomów mowy.
Języki uporządkowane według ogólnej dokładności rejestrowania głosowego
Łącząc identyfikację żywności, analizę ilości i dopasowanie do bazy danych w jedną ważoną ocenę, uzyskujemy następujący ranking:
| Miejsce | Język | Identyfikacja żywności | Dokładność ilości | Dopasowanie do bazy danych | Ogólny wynik |
|---|---|---|---|---|---|
| 1 | Angielski | 97% | 94% | 96% | 95.7% |
| 2 | Portugalski | 96% | 92% | 95% | 94.3% |
| 3 | Hiszpański | 95% | 92% | 94% | 93.7% |
| 4 | Francuski | 95% | 91% | 93% | 93.0% |
| 5 | Niemiecki | 94% | 90% | 92% | 92.0% |
| 6 | Japoński | 88% | 88% | 90% | 88.7% |
| 7 | Koreański | 87% | 87% | 88% | 87.3% |
| 8 | Turecki | 87% | 86% | 87% | 86.7% |
| 9 | Mandaryński chiński | 87% | 85% | 86% | 86.0% |
| 10 | Arabski | 85% | 83% | 84% | 84.0% |
Różnica między najwyżej ocenianym językiem (angielski, 95.7 procent) a najniżej ocenianym (arabski, 84.0 procent) wynosi 11.7 punktów procentowych. To znacząca różnica, ale malejąca. W 2023 roku równoważna różnica w wielojęzycznych benchmarkach ASR wynosiła bliżej 20 punktów procentowych, co odzwierciedla szybkie postępy w modelach mowy w językach innych niż angielski.
Dlaczego niektóre języki osiągają wyższe wyniki niż inne
Trzy czynniki wyjaśniają większość różnic w dokładności:
1. Ilość danych treningowych
Wydajność modeli ASR i NER koreluje bezpośrednio z ilością dostępnych danych treningowych dla każdego języka. Angielski ma znacznie więcej oznaczonych danych mowy niż arabski czy koreański. Zbiór danych Common Voice (Mozilla, 2024) zawiera ponad 19 000 zweryfikowanych godzin dla angielskiego, ale mniej niż 300 godzin dla koreańskiego i poniżej 100 godzin dla arabskiego.
2. Zakres bazy danych żywności
Języki mówione w regionach z dobrze udokumentowanymi bazami danych składu żywności (USDA dla angielskiego, BLS dla niemieckiego, CIQUAL dla francuskiego) osiągają wyższe wyniki dopasowania do bazy danych. Języki, w których dane o składzie żywności są mniej ustandaryzowane lub mniej zdigitalizowane, doświadczają większej liczby błędów mapowania.
3. Złożoność językowa dla NLP
Języki aglutynacyjne (turecki, koreański), tonalne (chiński) oraz języki o złożonej morfologii (arabski) wymagają bardziej zaawansowanych pipeline'ów NLP. Dodatkowe etapy przetwarzania wprowadzają więcej możliwości akumulacji błędów.
Jak Nutrola radzi sobie z wielojęzycznym rejestrowaniem głosowym
Pipeline rejestrowania głosowego Nutrola adresuje wyzwania wielojęzyczne poprzez kilka decyzji architektonicznych:
- Modele ASR specyficzne dla języka: Zamiast używać jednego modelu wielojęzycznego, pipeline kieruje dźwięk do specyficznych modeli dostosowanych do języka, gdy znane jest ustawienie językowe użytkownika, co poprawia dokładność o 3 do 5 punktów procentowych w porównaniu do ogólnych modeli ASR.
- Rozwiązywanie niejednoznaczności z uwzględnieniem lokalizacji: Rozwiązywanie niejednoznaczności jednostek żywnościowych wykorzystuje lokalizację użytkownika do rozstrzygania nazw żywności specyficznych dla regionu. "Chips" rozwiązuje się inaczej dla użytkowników w Londynie, Nowym Jorku i Sydney.
- Wielojęzyczna baza danych żywności: Zweryfikowana baza danych żywieniowych mapuje wpisy żywnościowe w różnych językach, dzięki czemu "poulet grille" (francuski), "pollo a la plancha" (hiszpański) i "grilled chicken" (angielski) wszystkie odnoszą się do tego samego zweryfikowanego profilu żywieniowego.
- Możliwość przejścia do wpisu tekstowego: Gdy pewność głosu spada poniżej progu w jakimkolwiek języku, użytkownicy mogą płynnie przełączyć się na wyszukiwanie tekstowe lub skanowanie kodów kreskowych — skaner kodów kreskowych Nutrola obejmuje ponad 95 procent produktów pakowanych na całym świecie.
W połączeniu z AI do rejestrowania zdjęć i AI Diet Assistant, te wielojęzyczne możliwości głosowe czynią Nutrola praktycznym codziennym narzędziem do śledzenia żywienia dla użytkowników na całym świecie. Wszystkie funkcje — w tym rejestrowanie głosowe we wszystkich obsługiwanych językach — są dostępne już od 2,50 euro miesięcznie z 3-dniowym bezpłatnym okresem próbnym, bez reklam na żadnym poziomie.
Droga naprzód: Wielojęzyczne rejestrowanie głosowe w 2026 roku i później
Kilka wydarzeń poprawia wielojęzyczne rejestrowanie głosowe posiłków:
- Dostosowanie do specyficznych dialektów: Nowe zbiory danych skierowane na mówione dialekty (egipski arabski, brazylijski portugalski, kantoński) zamykają lukę w dokładności między mową standardową a potoczną.
- Wejścia multimodalne: Łączenie głosu z zdjęciami pozwala AI na krzyżową weryfikację — jeśli zdjęcie pokazuje ryż, a głos mówi "arroz" (hiszpański dla ryżu), pewność wzrasta dla obu modalności.
- Uczenie samonadzorowane: Modele trenowane na nienaświetlonym wielojęzycznym dźwięku (wav2vec 2.0, HuBERT) uczą się reprezentacji mowy bez potrzeby transkrybowanych danych, co umożliwia szybsze poprawy dla języków o niskich zasobach.
- Pętle sprzężenia zwrotnego od użytkowników: Każda korekta, jaką użytkownik wprowadza ("to powinno być brązowy ryż, a nie biały ryż"), staje się sygnałem treningowym do poprawy modelu w tym języku.
Najczęściej zadawane pytania
W jakich językach najlepiej działa głosowe rejestrowanie posiłków AI?
Angielski, hiszpański, portugalski i francuski osiągają najwyższą dokładność w rejestrowaniu posiłków głosowo, wszystkie zdobywając ponad 93 procent ogólnie. Te języki korzystają z obszernej bazy danych treningowych ASR, dobrze udokumentowanych baz danych żywności oraz stosunkowo prostych morfologii do przetwarzania NLP. Niemiecki zajmuje piątą pozycję z wynikiem 92 procent ogólnie.
Czy mogę dokładnie rejestrować posiłki w mandaryńskim chińskim?
Głosowe rejestrowanie w mandaryńskim chińskim osiąga około 86 procent ogólnej dokładności. Główne wyzwania to różnice tonalne w ASR (gdzie słowa takie jak "tang" mają różne znaczenia w zależności od tonu) oraz system słów miary dla ilości. Dla powszechnych potraw z wyraźną wymową dokładność jest znacznie wyższa. Używanie dokładnych ilości liczbowych (jak "200克," 200 gramów) zamiast nieprecyzyjnych opisów znacznie poprawia wyniki.
Jak AI radzi sobie z nazwami żywności, które nie mają tłumaczenia w innych językach?
Kulturowo specyficzne potrawy, takie jak "shawarma", "miso" i "tzatziki", są obsługiwane przez wielojęzyczne bazy danych jednostek żywnościowych, które bezpośrednio mapują nazwy potraw w rodzimym języku na profile żywieniowe. Gdy turecki mówca mówi "tavuk shawarma" lub japoński mówca mówi "味噌汁" (zupa miso), model NER rozpoznaje je jako jednostki żywnościowe w swoich językach i mapuje je do odpowiednich wpisów w bazie danych, niezależnie od tego, czy istnieje angielski odpowiednik.
Dlaczego rejestrowanie głosowe w języku arabskim jest mniej dokładne niż w innych językach?
Rejestrowanie głosowe w języku arabskim osiąga 84 procent ogólnie, głównie z powodu trzech czynników: (1) diglosja — znaczna różnica między nowoczesnym standardowym arabskim a mówionymi dialektami oznacza, że model musi radzić sobie z wieloma wariantami wymowy; (2) ograniczone oznaczone dane treningowe w porównaniu do języków europejskich; oraz (3) morfologia oparta na rdzeniach, która tworzy wiele form powierzchniowych dla każdego pojęcia żywności. Gdy mówcy używają nowoczesnego standardowego arabskiego, dokładność wzrasta do około 91 procent.
Czy dokładność rejestrowania głosowego poprawia się z czasem dla mojego konkretnego języka?
Tak. Systemy rejestrowania głosowego poprawiają się dzięki dwóm mechanizmom: globalnym aktualizacjom modelu trenowanym na zebranych danych użytkowników we wszystkich użytkownikach danego języka oraz personalizowanej adaptacji, która uczy się twoich specyficznych wzorców wymowy, często rejestrowanych potraw i preferowanych nazw żywności. Po dwóch do trzech tygodniach regularnego użytkowania system zazwyczaj wykazuje mierzalną poprawę w dokładności rozpoznawania twoich powszechnych posiłków.
Czy mogę mieszać języki podczas rejestrowania głosowego, na przykład opisując posiłek po hiszpańsku z niektórymi angielskimi terminami żywnościowymi?
Code-switching — mieszanie dwóch języków w jednej wypowiedzi — jest powszechne w wielojęzycznych gospodarstwach domowych i jest coraz częściej wspierane przez nowoczesne modele ASR. Mówiąc "Tuve un bowl de quinoa con grilled chicken" (mieszając hiszpański i angielski), zazwyczaj będzie poprawnie interpretowane przez wielojęzyczne modele transformatorowe trenowane na danych z code-switchingiem. Jednak dokładność jest około 5 do 8 punktów procentowych niższa niż w przypadku wypowiedzi w jednym języku, więc pozostawanie w jednym języku przynosi najlepsze wyniki.
Jak mogę uzyskać najdokładniejsze wyniki rejestrowania głosowego w języku innym niż angielski?
Cztery praktyki poprawiają dokładność: (1) mów w umiarkowanym tempie z wyraźną wymową; (2) używaj dokładnych ilości, gdy to możliwe ("200 gramów" zamiast "trochę"); (3) używaj standardowych nazw żywności zamiast slangowych lub skrótów regionalnych; oraz (4) wprowadzaj korekty, gdy AI popełnia błąd, ponieważ ta informacja zwrotna bezpośrednio poprawia przyszłe rozpoznawanie. Nutrola wspiera również przejście do rejestrowania zdjęć lub skanowania kodów kreskowych dla produktów, które trudno opisać werbalnie.
Czy Nutrola wspiera rejestrowanie głosowe we wszystkich 10 testowanych językach?
Nutrola wspiera rejestrowanie głosowe w wielu językach z pełnym pipeline'em NLP opisanym w tym artykule. Aplikacja automatycznie wykrywa język urządzenia użytkownika i kieruje dane głosowe do odpowiednich modeli specyficznych dla języka. Synchronizacja z Apple Health i Google Fit działa niezależnie od tego, w jakim języku rejestrujesz, zapewniając, że twoje dane żywieniowe integrują się płynnie z twoim ekosystemem zdrowotnym.
Gotowy, aby przeksztalcic sledzenie zywienia?
Dolacz do tysiecy osob, ktore przeksztalcily swoja podroz zdrowotna z Nutrola!