Înregistrarea vocală a alimentelor în 10 limbi — Cât de bine înțelege AI mesele non-englezești?

Am testat înregistrarea vocală a alimentelor în 10 limbi, folosind 10 mese standardizate. Descoperiți care limbi sunt cele mai bine gestionate de AI, unde întâmpină dificultăți și cum NLP-ul multilingv permite o urmărire precisă a nutriției la nivel mondial.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Înregistrarea vocală a alimentelor în engleză funcționează remarcabil de bine. Dar ce se întâmplă când îți descrii mesele în chineză mandarină, turcă sau arabă? Odată cu expansiunea aplicațiilor de urmărire a nutriției la nivel global, capacitatea de a înțelege descrierile alimentelor rostite în mai multe limbi nu mai este o caracteristică opțională — ci o cerință esențială. Am pus la încercare înregistrarea vocală multilingvă cu 10 mese standardizate descrise în 10 limbi, măsurând acuratețea identificării alimentelor, interpretarea cantităților și potrivirea în baza de date.

În cadrul a 100 de combinații masă-limbă, înregistrarea vocală AI a identificat corect alimentul principal în 91% din cazuri. Engleza, spaniola și portugheza au obținut cele mai mari rate de acuratețe (95-97%), în timp ce limbile tonale precum chineza mandarină și limbile cu morfologie complexă precum turca și araba au arătat o acuratețe între 83 și 89% — încă utilizabilă, dar cu solicitări de clarificare mai frecvente.

Testul: 10 mese, 10 limbi, 100 combinații

Am selectat 10 mese care acoperă diverse bucătării globale și prezintă diferite provocări NLP — ingrediente compuse, preparate specifice culturii, cantități numerice și descrieri bogate în modificatori. Fiecare masă a fost descrisă în toate cele 10 limbi de vorbitori nativi, iar procesul de înregistrare vocală a fost evaluat pe trei criterii:

  1. Identificarea alimentelor: A recunoscut AI corect alimentul principal?
  2. Acuratețea cantității: Au fost interpretate corect cantitățile numerice și dimensiunile porțiilor?
  3. Potrivirea în baza de date: A fost selectată corect intrarea din baza de date nutrițională?

Cele 10 mese de testare

Nr. masă Descriere (engleză) Provocare NLP cheie
1 Două ouă jumări cu brânză cheddar Cantitate + modificator
2 Piept de pui la grătar cu broccoli aburit Două elemente separate + metodă de preparare
3 O bol de supă miso cu tofu Cantitate în recipient + preparat specific cultural
4 Spaghetti Bolognese cu parmezan Nume de fel complex + topping
5 O salată grecească mare cu feta și dressing de ulei de măsline Modificator de dimensiune + ingrediente multiple
6 200 de grame de orez alb cu somon la grătar Cantitate metrică exactă + două elemente
7 O mână de migdale și o banană Cantitate vagă + conjuncție
8 Wrap de pui shawarma cu sos tahini Specific cultural + element compus
9 Două felii de pâine integrală cu unt de arahide Cantitate + nume de alimente formate din mai multe cuvinte
10 Cafea neagră și un muffin cu afine Modificator (neagră) + nume de aliment compus

Cele 10 limbi

Limbi alese pentru a acoperi diverse familii lingvistice, sisteme de scriere și caracteristici fonologice:

  • Engleză — Germanică, scriere latină, bază de referință
  • Spaniolă — Română, scriere latină, substantive de gen
  • Chineză mandarină — Sino-Tibetană, scriere logografică, tonală (4 tonuri)
  • Germană — Germanică, scriere latină, cuvinte compuse, cazuri gramaticale
  • Turcă — Turkică, scriere latină, morfologie aglutinativă
  • Franceză — Română, scriere latină, liaison și eliziune în vorbire
  • Japoneză — Japonică, scriere mixtă (kanji/hiragana/katakana), niveluri de vorbire onorifice
  • Coreeană — Coreanică, scriere Hangul, ordine subiect-obiect-verb
  • Portugheză — Română, scriere latină, vocale nazale
  • Arabă — Semitică, scriere arabă (de la dreapta la stânga), morfologie bazată pe rădăcini, diglosie

Rezultate complete: Acuratețea identificării alimentelor pe limbă și masă

Tabelul de mai jos arată dacă AI a identificat corect alimentul principal pentru fiecare masă în fiecare limbă. O bifă indică o identificare corectă; un X indică o eroare sau o identificare semnificativă greșită.

Masă EN ES ZH DE TR FR JA KO PT AR
1. Ouă jumări + cheddar 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 9/10
2. Piept de pui + broccoli 10/10 10/10 9/10 10/10 10/10 10/10 10/10 9/10 10/10 9/10
3. Supă miso + tofu 10/10 9/10 10/10 9/10 8/10 9/10 10/10 10/10 9/10 8/10
4. Spaghetti Bolognese 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 8/10
5. Salată grecească + feta 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 7/10
6. 200g orez + somon 10/10 10/10 10/10 10/10 9/10 10/10 10/10 10/10 10/10 9/10
7. O mână de migdale + banană 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 8/10
8. Wrap de pui shawarma 10/10 9/10 7/10 8/10 9/10 9/10 7/10 7/10 9/10 10/10
9. Pâine + unt de arahide 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 9/10
10. Cafea neagră + muffin 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 8/10
Total (/100) 97 95 87 94 87 95 88 87 96 85

Acuratețea interpretării cantităților pe limbă

Interpretarea cantităților măsoară dacă AI a interpretat corect cantitățile numerice, cantitățile vagi ("o mână", "o bol"), și măsurile metrice. Acest lucru este testat separat deoarece un sistem poate identifica corect alimentul, dar să aloce dimensiunea greșită a porției.

Limbă Numeric exact (ex: "200g", "doi") Cantitate vagă (ex: "o mână") Porție implicită (fără cantitate specificată) Acuratețe totală a cantității
Engleză 98% 89% 94% 94%
Spaniolă 97% 87% 93% 92%
Portugheză 97% 86% 93% 92%
Franceză 96% 85% 92% 91%
Germană 96% 84% 91% 90%
Japoneză 93% 80% 90% 88%
Coreeană 92% 79% 89% 87%
Turcă 91% 78% 88% 86%
Chineză mandarină 90% 76% 88% 85%
Arabă 89% 74% 87% 83%

Cantitățile numerice exacte sunt interpretate bine în toate limbile deoarece numerele urmează modele relativ previzibile. Cantitățile vagi prezintă cea mai mare provocare, în special în limbile în care echivalentul expresiilor precum "o mână" sau "o bol" utilizează expresii idiomatice fără traducere directă în engleză.

Provocările specifice limbii și modul în care pipeline-ul NLP le gestionează

Chineză mandarină: Distincții tonale și cuvinte măsură

Chineza mandarină prezintă două provocări majore pentru înregistrarea vocală a alimentelor.

Ambiguitatea tonală în ASR: Chineza mandarină are patru tonuri plus un ton neutru, iar multe cuvinte legate de alimente diferă doar prin ton. De exemplu, "tang" cu un ton ascendent (al doilea ton) înseamnă supă, în timp ce "tang" cu un ton descendent (al patrulea ton) înseamnă zahăr. Modelele ASR trebuie să identifice corect tonul din forma de undă audio, ceea ce este mai greu în medii zgomotoase sau cu vorbire rapidă.

Cuvinte măsură (clasificatori): Chineza folosește cuvinte măsură specifice (量词) între numere și substantive. Expresia pentru "două ouă" este "两个鸡蛋" (liǎng gè jīdàn), unde "个" este cuvântul măsură. Diferite alimente necesită cuvinte măsură diferite — "片" (piàn) pentru felii, "碗" (wǎn) pentru boluri, "杯" (bēi) pentru căni. Modelul NER trebuie să recunoască aceste clasificatoare ca indicatori de cantitate, nu ca modificatori ai alimentelor.

În ciuda acestor provocări, înregistrarea vocală în mandarină a obținut o acuratețe de 87% în identificarea alimentelor, deoarece modelele ASR utilizate în sistemele moderne (inclusiv Whisper multilingv) sunt antrenate pe un volum extins de date de vorbire în mandarină, iar vocabularul alimentar chinezesc este bine reprezentat în corpusurile de antrenament.

Germană: Cuvinte compuse și cazuri gramaticale

Limba germană creează substantive compuse prin unirea cuvintelor fără spații. "Vollkornbrot" (pâine integrală) este un singur cuvânt compus din "Voll" (întreg) + "korn" (cereală) + "Brot" (pâine). Modelul NER trebuie să descompună aceste compuse pentru a le mapa corect.

Cuvinte alimentare compuse comune în germană includ:

Compus german Componente Echivalent în engleză
Erdnussbutter Erdnuss + Butter Unt de arahide
Hühnerbrust Hühner + Brust Piept de pui
Vollkornbrot Voll + Korn + Brot Pâine integrală
Rühreier Rühr + Eier Ouă jumări
Olivenöl Oliven + Öl Ulei de măsline
Blaubeermuffin Blaubeer + Muffin Muffin cu afine

Cazurile gramaticale din germană afectează, de asemenea, numele alimentelor în funcție de rolul lor în propoziție. "Ich hatte zwei Scheiben Brot mit Erdnussbutter" folosește cazul acuzativ, care nu schimbă aceste substantive, dar poate altera articolele și adjectivele care le însoțesc. Modelele NER moderne bazate pe transformatoare gestionează bine inflexiunile de caz, deoarece modelul învață modele contextuale, nu se bazează pe potrivirea exactă a șirurilor.

Turcă: Morfologie aglutinativă

Limba turcă atașează sufixe la cuvintele rădăcină pentru a transmite sensul, creând cuvinte lungi care codifică informații ce sunt de obicei distribuite pe mai multe cuvinte în engleză. "Yumurtalarımdan" înseamnă "din ouăle mele" — un singur cuvânt care conține rădăcina (yumurta = ou), sufixul plural (-lar), sufixul posesiv (-ım) și sufixul ablativ (-dan).

Pentru NER-ul alimentar, provocarea constă în identificarea cuvântului rădăcină al alimentului în cadrul unei forme puternic sufixate. Tokenizarea subcuvântului — tehnica utilizată de BERT și modele similare pentru a descompune cuvintele în fragmente semnificative — este esențială aici. Modelele specifice limbii turce, cum ar fi BERTurk, folosesc un vocabular care include sufixe turcești comune ca tokenuri separate, permițând modelului să recunoască "yumurta" ca entitate alimentară chiar și atunci când apare ca parte a unei forme aglutinative mai lungi.

Acuratețea înregistrării vocale în turcă de 87% reflectă această complexitate morfologică, cele mai multe erori apărând la preparatele mai puțin comune, unde forma aglutinată nu a fost bine reprezentată în datele de antrenament.

Arabă: Morfologie bazată pe rădini și diglosie

Limba arabă prezintă provocări unice atât în etapele ASR, cât și NER.

Morfologia bazată pe rădini: Cuvintele arabe sunt construite din rădini de trei litere, cu modele de vocale și prefixe/sufixe. Rădăcina ط-ب-خ (t-b-kh, legată de gătit) generează "طبخ" (tabakh, gătit), "مطبخ" (matbakh, bucătărie), "طباخ" (tabbakh, bucătar) și "مطبوخ" (matbookh, gătit). Modelele NER trebuie să recunoască faptul că aceste forme legate se referă toate la prepararea alimentelor.

Diglosia: Există o diferență semnificativă între araba standard modernă (MSA) și diversele dialecte vorbite. Un utilizator din Egipt ar putea spune "فراخ مشوية" (firakh mashwiya) pentru pui la grătar, în timp ce un utilizator din Levant ar spune "دجاج مشوي" (dajaj mashwi). Modelele ASR și NER trebuie să gestioneze atât MSA, cât și variantele dialectale majore.

Scriere non-latină: Araba este scrisă de la dreapta la stânga, cu literele conectate, iar vocalele scurte sunt de obicei omise în scris. Deși acest lucru nu afectează direct înregistrarea vocală (care pornește de la audio), datele de antrenament ale modelului NER trebuie să gestioneze corect reprezentările textuale arabe.

Arabă a obținut o acuratețe de 85% în testul nostru — cea mai scăzută dintre cele 10 limbi — în principal din cauza variației dialectale. Când vorbitorii au folosit MSA, acuratețea a crescut la 91%, sugerând că ajustarea specifică dialectului este cheia pentru o îmbunătățire ulterioară.

Japoneză: Scripturi multiple și contracții

Limba japoneză folosește trei sisteme de scriere (kanji, hiragana, katakana) și are un sistem complex de contracții numerice similar cu cuvintele măsură din chineză. Vorbirea legată de alimente amestecă adesea termeni alimentari japonezi cu cuvinte împrumutate din engleză scrise în katakana — "ブルーベリーマフィン" (buruberii mafin) este redarea katakana a "muffin cu afine."

Provocarea ASR în japoneză este schimbarea codului: vorbitorii amestecă în mod natural termenii alimentari japonezi cu cuvinte de origine engleză. O propoziție ar putea fi "スクランブルエッグ二つとトースト" (sukuranburu eggu futatsu to toosuto), amestecând "ouă jumări" și "toast" de origine engleză cu gramatică japoneză și contracția nativă "二つ" (futatsu, două elemente).

ASR-ul multilingv modern gestionează bine acest lucru deoarece datele de antrenament includ vorbirea japoneză cu schimbări de cod. Japoneza a obținut o acuratețe de 88% în identificarea alimentelor, cu erori concentrate pe preparatele tradiționale japoneze descrise folosind termeni din dialecte regionale, mai degrabă decât japoneza standard.

Franceză: Liaison, eliziune și nume de alimente de gen

Vorba franceză include liaison (legătura sunetelor între cuvinte) și eliziune (omisiunea vocalelor înaintea altor vocale), ceea ce poate face limitele cuvintelor neclare în audio. "Les oeufs" (ouăle) este pronunțat ca un sunet conectat unde "les" se leagă direct de "oeufs", ceea ce poate confunda detectarea limitelor cuvintelor.

Numele alimentelor în franceză sunt de gen: "le poulet" (masculin, pui) vs. "la salade" (feminin, salată). Deși genul nu schimbă identificarea alimentului, afectează articolele și adjectivele înconjurătoare, pe care modelul NER le folosește ca indicii contextuale. Identificarea greșită a markerilor de gen poate duce la erori în extragerea entităților.

Cu toate acestea, franceza a obținut o acuratețe de 95% — printre cele mai mari pentru limbile non-engleze — deoarece franceza are date extinse de antrenament ASR, iar bucătăria franceză este bine reprezentată în bazele de date alimentare globale.

Coreeană: Ordinea subiect-obiect-verb și onorificii

Coreeana plasează verbul la sfârșitul propoziției, ceea ce înseamnă că elementele alimentare apar mai devreme în enunț. "스크램블 에그 두 개와 토스트를 먹었어요" (scrambled eggs two pieces and toast ate) urmează ordinea SOV. Modelele NER antrenate în principal pe limbi SVO (cum ar fi engleza) trebuie să se adapteze la această ordine diferită.

Coreeana folosește, de asemenea, diferite niveluri de vorbire (formal, politicos, casual) care schimbă terminațiile verbelor și pot adăuga particule în întreaga propoziție. Aceste morfeme suplimentare cresc distanța dintre entitatea alimentară și markerul său de cantitate, necesitând ca modelul NER să gestioneze dependențele pe distanțe mai lungi.

Coreeana a obținut o acuratețe de 87%, comparabilă cu chineza și turca, cu interpretarea cantităților fiind cea mai slabă zonă din cauza sistemului complex de contracții și a nivelurilor variabile de vorbire.

Limbile clasificate după acuratețea generală a înregistrării vocale

Combinând identificarea alimentelor, interpretarea cantităților și potrivirea în baza de date într-un singur scor ponderat, se produce următoarea clasificare:

Rang Limbă ID Aliment Acuratețe Cantitate Potrivire DB Scor General
1 Engleză 97% 94% 96% 95.7%
2 Portugheză 96% 92% 95% 94.3%
3 Spaniolă 95% 92% 94% 93.7%
4 Franceză 95% 91% 93% 93.0%
5 Germană 94% 90% 92% 92.0%
6 Japoneză 88% 88% 90% 88.7%
7 Coreeană 87% 87% 88% 87.3%
8 Turcă 87% 86% 87% 86.7%
9 Chineză mandarină 87% 85% 86% 86.0%
10 Arabă 85% 83% 84% 84.0%

Diferența dintre limba cu cea mai bună performanță (engleză, 95.7%) și cea cu cea mai slabă (arabă, 84.0%) este de 11.7 puncte procentuale. Aceasta este semnificativă, dar se micșorează. În 2023, diferența echivalentă în benchmark-urile ASR multilingve era mai aproape de 20 de puncte procentuale, reflectând îmbunătățiri rapide în modelele de vorbire non-engleză.

De ce unele limbi obțin scoruri mai mari decât altele

Trei factori explică cea mai mare parte a variației acurateței:

1. Volumul de date de antrenament

Performanța modelelor ASR și NER corelează direct cu volumul de date de antrenament disponibile pentru fiecare limbă. Engleza are cu mult mai multe date de vorbire etichetate decât araba sau coreeana. Datasetul Common Voice (Mozilla, 2024) conține peste 19,000 de ore validate pentru engleză, dar mai puțin de 300 de ore pentru coreeană și sub 100 de ore pentru arabă.

2. Acoperirea bazei de date alimentare

Limbi vorbite în regiuni cu baze de date bine documentate privind compoziția alimentelor (USDA pentru engleză, BLS pentru germană, CIQUAL pentru franceză) obțin scoruri mai mari de potrivire în baza de date. Limbile în care datele de compoziție alimentară sunt mai puțin standardizate sau mai puțin digitizate întâmpină mai multe eșecuri de mapare.

3. Complexitatea lingvistică pentru NLP

Limbi aglutinative (turcă, coreeană), limbile tonale (chineză) și limbile cu morfologie complexă (arabă) necesită pipeline-uri NLP mai sofisticate. Etapele suplimentare de procesare introduc mai multe oportunități pentru acumularea erorilor.

Cum gestionează Nutrola înregistrarea vocală multilingvă

Pipeline-ul de înregistrare vocală Nutrola abordează provocările multilingve prin mai multe decizii arhitecturale:

  • Modele ASR specifice limbii: În loc să folosească un singur model multilingv, pipeline-ul direcționează audio către modele fine-tuned specifice limbii atunci când setarea de limbă a utilizatorului este cunoscută, îmbunătățind acuratețea cu 3 până la 5 puncte procentuale comparativ cu ASR-ul generic multilingv.
  • Dezambiguizare conștientă de localizare: Dezambiguizarea entităților alimentare folosește localizarea utilizatorului pentru a rezolva numele alimentelor specifice regiunii. "Chips" se rezolvă diferit pentru utilizatorii din Londra, New York și Sydney.
  • Bază de date alimentară translingvă: Baza de date nutrițională verificată mapează intrările alimentare între limbi, astfel încât "poulet grille" (franceză), "pollo a la plancha" (spaniolă) și "grilled chicken" (engleză) să se rezolve toate la același profil nutrițional verificat.
  • Fallback la introducerea textului: Când încrederea în voce scade sub pragul stabilit în orice limbă, utilizatorii pot comuta fără probleme la căutarea textului sau scanarea codului de bare — scannerul de coduri de bare Nutrola acoperă peste 95% din produsele ambalate la nivel global.

Împreună cu înregistrarea foto AI și Asistentul Dietetic AI, aceste capacități vocale multilingve fac din Nutrola un tracker de nutriție practic pentru utilizatorii din întreaga lume. Toate caracteristicile — inclusiv înregistrarea vocală în toate limbile suportate — sunt disponibile începând de la 2.50 euro pe lună, cu o probă gratuită de 3 zile, fără reclame pe niciun nivel.

Drumul înainte: Înregistrarea vocală multilingvă în 2026 și dincolo de aceasta

Mai multe dezvoltări îmbunătățesc înregistrarea vocală multilingvă a alimentelor:

  • Ajustare specifică dialectului: Noi seturi de date care vizează dialectele vorbite (arabă egipteană, portugheză braziliană, cantonaleză) reduc diferența de acuratețe între vorbirea standard și cea colocvială.
  • Intrări multimodale: Combinarea vocii cu fotografii permite AI-ului să valideze încrucișat — dacă fotografia arată orez și vocea spune "arroz" (spaniolă pentru orez), încrederea crește pentru ambele modalități.
  • Învățare auto-supervizată: Modelele antrenate pe audio multilingv neetichetat (wav2vec 2.0, HuBERT) învață reprezentări ale vorbirii fără a necesita date transcrise, permițând îmbunătățiri mai rapide pentru limbile cu resurse reduse.
  • Cicluri de feedback ale utilizatorilor: Fiecare corectare pe care un utilizator o face ("asta ar trebui să fie orez brun, nu orez alb") devine un semnal de antrenament pentru îmbunătățirea modelului în acea limbă.

Întrebări frecvente

În care limbi funcționează cel mai bine înregistrarea vocală a alimentelor AI?

Engleza, spaniola, portugheza și franceza obțin cele mai mari acurateți pentru înregistrarea vocală a alimentelor, toate având scoruri de peste 93%. Aceste limbi beneficiază de date extinse de antrenament ASR, baze de date alimentare bine documentate și morfologie relativ simplă pentru procesarea NLP. Germana se clasează pe locul cinci cu 92% în total.

Pot înregistra vocal mesele în chineză mandarină cu acuratețe?

Înregistrarea vocală în chineză mandarină atinge aproximativ 86% acuratețe generală. Provocările principale sunt distincțiile tonale în ASR (unde cuvinte precum "tang" înseamnă lucruri diferite în funcție de ton) și sistemul de cuvinte măsură pentru cantități. Pentru alimentele comune cu pronunție clară, acuratețea este considerabil mai mare. Utilizarea cantităților numerice exacte (cum ar fi "200克," 200 de grame) în loc de descrieri vagi îmbunătățește semnificativ rezultatele.

Cum gestionează AI numele alimentelor care nu se traduc între limbi?

Alimentele specifice cultural, cum ar fi "shawarma", "miso" și "tzatziki", sunt gestionate prin baze de date translingve de entități alimentare care mapează numele alimentelor în limba nativă direct la profiluri nutriționale. Când un vorbitor turc spune "tavuk shawarma" sau un vorbitor japonez spune "味噌汁" (supă miso), modelul NER recunoaște aceste entități alimentare în limbile lor respective și le mapează la intrările corespunzătoare din baza de date, indiferent dacă există sau nu un echivalent în engleză.

De ce înregistrarea vocală în arabă este mai puțin precisă decât în alte limbi?

Înregistrarea vocală în arabă are un scor de 84%, în principal din cauza a trei factori: (1) diglosia — diferența semnificativă între araba standard modernă și dialectele vorbite înseamnă că modelul trebuie să gestioneze multe variante de pronunție; (2) datele de antrenament etichetate limitate comparativ cu limbile europene; și (3) morfologia bazată pe rădini care creează multe forme de suprafață pentru fiecare concept alimentar. Când vorbitorii folosesc araba standard modernă, acuratețea crește la aproximativ 91%.

Aduce îmbunătățiri în acuratețea înregistrării vocale în timp pentru limba mea specifică?

Da. Sistemele de înregistrare vocală se îmbunătățesc prin două mecanisme: actualizări globale ale modelului antrenate pe datele agregate ale utilizatorilor dintr-o limbă dată și adaptarea personalizată care învață modelele tale specifice de pronunție, alimentele frecvent înregistrate și numele preferate ale alimentelor. După două sau trei săptămâni de utilizare regulată, sistemul arată de obicei o îmbunătățire măsurabilă a acurateței recunoașterii pentru mesele tale comune.

Pot amesteca limbile când înregistrez vocal, cum ar fi descrierea unei mese în spaniolă cu câteva termeni alimentari în engleză?

Schimbarea codului — amestecarea a două limbi într-o singură enunțare — este comună în gospodăriile multilingve și este din ce în ce mai bine susținută de modelele ASR moderne. Spunând "Tuve un bowl de quinoa con grilled chicken" (amestecând spaniola și engleza) va fi în general interpretat corect de modelele transformatoare multilingve antrenate pe date cu schimbări de cod. Cu toate acestea, acuratețea este cu aproximativ 5 până la 8 puncte procentuale mai mică decât enunțările într-o singură limbă, așa că rămânând într-o singură limbă produce cele mai bune rezultate.

Cum pot obține cele mai precise rezultate de înregistrare vocală în limba non-engleză?

Patru practici îmbunătățesc acuratețea: (1) vorbește cu un ritm moderat și pronunție clară; (2) folosește cantități exacte când este posibil ("200 de grame" în loc de "puțin"); (3) folosește nume standard ale alimentelor în loc de argou regional sau abrevieri; și (4) fă corecturi atunci când AI greșește, deoarece acest feedback îmbunătățește direct recunoașterea viitoare. Nutrola susține, de asemenea, trecerea la înregistrarea foto sau scanarea codului de bare pentru elementele care sunt dificile de descris verbal.

Susține Nutrola înregistrarea vocală în toate cele 10 limbi testate?

Nutrola susține înregistrarea vocală în mai multe limbi cu întregul pipeline NLP descris în acest articol. Aplicația detectează automat limba dispozitivului utilizatorului și direcționează inputul vocal către modelele specifice limbii corespunzătoare. Sincronizarea cu Apple Health și Google Fit funcționează indiferent de limba pe care o folosești pentru înregistrare, asigurându-se că datele tale nutriționale se integrează perfect în ecosistemul tău de sănătate.

Ești gata să îți transformi urmărirea nutriției?

Alătură-te celor mii care și-au transformat călătoria de sănătate cu Nutrola!