Röstloggning på 10 Språk — Hur Väl Förstår AI Icke-Engelska Måltider?

Vi testade röstloggning av mat över 10 språk med 10 standardiserade måltider. Se vilka språk AI hanterar bäst, var den har svårigheter och hur flerspråkig NLP möjliggör noggrann kostspårning världen över.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Röstloggning av mat på engelska fungerar överraskande bra. Men vad händer när du beskriver dina måltider på mandarin, turkiska eller arabiska? Med kostspårningsappar som expanderar globalt är förmågan att förstå talade matbeskrivningar på flera språk inte längre en trevlig funktion — det är en grundläggande nödvändighet. Vi satte flerspråkig röstloggning på prov med 10 standardiserade måltider beskrivna på 10 språk, där vi mätte noggrannheten i matidentifiering, mängdanalys och databasmatchning.

Över 100 måltids-språkkombinationer identifierade AI röstloggning den primära matvaran korrekt 91 procent av tiden. Engelska, spanska och portugisiska uppnådde den högsta noggrannheten (95 till 97 procent), medan tonala språk som mandarin och språk med komplex morfologi som turkiska och arabiska visade noggrannhet mellan 83 och 89 procent — fortfarande användbart, men med fler förtydligande frågor.

Testet: 10 Måltider, 10 Språk, 100 Kombinationer

Vi valde 10 måltider som spänner över globala kök och presenterar olika NLP-utmaningar — sammansatta ingredienser, kulturellt specifika rätter, numeriska mängder och modifierartunga beskrivningar. Varje måltid beskrevs på alla 10 språk av modersmålstalare, och röstloggningssystemet utvärderades utifrån tre kriterier:

  1. Matidentifiering: Kände AI korrekt igen den primära matvaran?
  2. Mängdnoggrannhet: Var numeriska mängder och portionsstorlekar korrekt analyserade?
  3. Databasmatchning: Valdes rätt näringsdatabaspost?

De 10 Testmåltiderna

Måltid # Beskrivning (Engelska) Huvud-NLP Utmaning
1 Två scrambled eggs med cheddarost Mängd + modifierare
2 Grillad kycklingbröst med ångad broccoli Två separata objekt + tillagningsmetod
3 En skål misosoppa med tofu Behållarmängd + kulturellt specifik rätt
4 Spaghetti Bolognese med parmesan Sammansatt maträttsnamn + topping
5 En stor grekisk sallad med feta och olivoljedressing Störrelsemodifierare + flera ingredienser
6 200 gram vit ris med grillad lax Exakt metrisk mängd + två objekt
7 En handfull mandlar och en banan Vague mängd + konjunktion
8 Kyckling shawarma-wrap med tahinisås Kulturellt specifik + sammansatt objekt
9 Två skivor fullkornsbröd med jordnötssmör Mängd + flerordiga matnamn
10 Svart kaffe och en blåbärsmuffin Modifierare (svart) + sammansatt matnamn

De 10 Språken

Språken valdes för att täcka olika språkliga familjer, skriftsystem och fonologiska egenskaper:

  • Engelska — Germansk, latinskt alfabet, referensbaslinje
  • Spanska — Romansk, latinskt alfabet, genusnouns
  • Mandarin Kinesiska — Sino-tibetanska, logografiskt skriftsystem, tonalt (4 toner)
  • Tyska — Germansk, latinskt alfabet, sammansatta ord, grammatiska fall
  • Turkiska — Turkisk, latinskt alfabet, agglutinerande morfologi
  • Franska — Romansk, latinskt alfabet, liaison och elision i tal
  • Japanska — Japonic, blandat skriftsystem (kanji/hiragana/katakana), hedersnivåer i tal
  • Koreanska — Koreanska, Hangul-skrift, subjekt-objekt-verb ordning
  • Portugisiska — Romansk, latinskt alfabet, nasala vokaler
  • Arabiska — Semitisk, arabiskt skriftsystem (höger-till-vänster), rotbaserad morfologi, diglossi

Fullständiga Resultat: Noggrannhet i Matidentifiering efter Språk och Måltid

Tabellen nedan visar om AI korrekt identifierade den primära matvaran för varje måltid på varje språk. En bock indikerar korrekt identifiering; ett X indikerar ett misslyckande eller betydande felidentifiering.

Måltid EN ES ZH DE TR FR JA KO PT AR
1. Scrambled eggs + cheddar 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 9/10
2. Kycklingbröst + broccoli 10/10 10/10 9/10 10/10 10/10 10/10 10/10 9/10 10/10 9/10
3. Miso soppa + tofu 10/10 9/10 10/10 9/10 8/10 9/10 10/10 10/10 9/10 8/10
4. Spaghetti Bolognese 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 8/10
5. Grekisk sallad + feta 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 7/10
6. 200g ris + lax 10/10 10/10 10/10 10/10 9/10 10/10 10/10 10/10 10/10 9/10
7. Handfull mandlar + banan 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 8/10
8. Kyckling shawarma-wrap 10/10 9/10 7/10 8/10 9/10 9/10 7/10 7/10 9/10 10/10
9. Bröd + jordnötssmör 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 9/10
10. Svart kaffe + muffin 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 8/10
Totalt (/100) 97 95 87 94 87 95 88 87 96 85

Noggrannhet i Mängdanalys efter Språk

Mängdanalys mäter om AI korrekt tolkade numeriska mängder, vaga kvantiteter ("en handfull", "en skål") och metriska mått. Detta testas separat eftersom ett system kan identifiera maten korrekt men tilldela fel portionsstorlek.

Språk Exakt Numerisk (t.ex. "200g", "två") Vague Mängd (t.ex. "en handfull") Standardportion (ingen mängd angiven) Total Mängdnoggrannhet
Engelska 98% 89% 94% 94%
Spanska 97% 87% 93% 92%
Portugisiska 97% 86% 93% 92%
Franska 96% 85% 92% 91%
Tyska 96% 84% 91% 90%
Japanska 93% 80% 90% 88%
Koreanska 92% 79% 89% 87%
Turkiska 91% 78% 88% 86%
Mandarin Kinesiska 90% 76% 88% 85%
Arabiska 89% 74% 87% 83%

Exakta numeriska mängder analyseras väl över alla språk eftersom siffror följer relativt förutsägbara mönster. Vaga mängder utgör den största utmaningen, särskilt i språk där motsvarigheten till "en handfull" eller "en skål" använder idiomatiska uttryck utan direkt översättning.

Språk-specifika Utmaningar och Hur NLP Pipeline Hanterar Dem

Mandarin Kinesiska: Tonala Distinktioner och Måttord

Mandarin kinesiska presenterar två stora utmaningar för röstloggning av mat.

Tonala tvetydigheter i ASR: Mandarin har fyra toner plus en neutral ton, och många matrelaterade ord skiljer sig endast genom ton. Till exempel betyder "tang" med en stigande ton (andra tonen) soppa, medan "tang" med en fallande ton (fjärde tonen) betyder socker. ASR-modeller måste korrekt identifiera tonen från ljudvågen, vilket är svårare i bullriga miljöer eller med snabbt tal.

Måttord (klassificerare): Kinesiska använder specifika måttord (量词) mellan siffror och substantiv. Frasen för "två ägg" är "两个鸡蛋" (liǎng gè jīdàn), där "个" är måttordet. Olika livsmedel kräver olika måttord — "片" (piàn) för skivor, "碗" (wǎn) för skålar, "杯" (bēi) för koppar. NER-modellen måste känna igen dessa klassificerare som mängdindikatorer snarare än matmodifierare.

Trots dessa utmaningar uppnådde mandarin röstloggning 87 procent noggrannhet i matidentifiering eftersom de ASR-modeller som används i moderna system (inklusive flerspråkiga Whisper) är tränade på omfattande mandarin taldata, och kinesiska livsmedelsord är väl representerade i träningskorpusen.

Tyska: Sammansatta Ord och Grammatiska Fall

Tyska skapar sammansatta substantiv genom att sammanfoga ord utan mellanslag. "Vollkornbrot" (fullkornsbröd) är ett enda ord som består av "Voll" (hela) + "korn" (korn) + "Brot" (bröd). NER-modellen måste dekomponera dessa sammansättningar för att kartlägga dem korrekt.

Vanliga sammansatta matord på tyska inkluderar:

Tysk Sammansättning Komponenter Engelsk Motsvarighet
Erdnussbutter Erdnuss + Butter Jordnötssmör
Hühnerbrust Hühner + Brust Kycklingbröst
Vollkornbrot Voll + Korn + Brot Fullkornsbröd
Rühreier Rühr + Eier Scrambled eggs
Olivenöl Oliven + Öl Olivolja
Blaubeermuffin Blaubeer + Muffin Blåbärsmuffin

De grammatiska fallen i tyska påverkar också matnamn beroende på deras roll i meningen. "Ich hatte zwei Scheiben Brot mit Erdnussbutter" använder ackusativ, vilket inte ändrar dessa specifika substantiv men kan förändra artiklar och adjektiv som följer med dem. Moderna transformer-baserade NER hanterar fallböjningar väl eftersom modellen lär sig kontextuella mönster snarare än att förlita sig på exakt strängmatchning.

Turkiska: Agglutinativ Morfologi

Turkiska fäster suffix till rotord för att förmedla betydelse, vilket skapar långa enskilda ord som kodar information som vanligtvis sprids över flera ord på engelska. "Yumurtalarımdan" betyder "från mina ägg" — ett enda ord som innehåller roten (yumurta = ägg), pluralsuffix (-lar), possessivsuffix (-ım) och ablativsuffix (-dan).

För mat NER är utmaningen att identifiera rotmatordet inom en kraftigt suffixerad form. Subordtokenisering — tekniken som används av BERT och liknande modeller för att bryta ord i meningsfulla fragment — är avgörande här. Turkiska-specifika modeller som BERTurk använder ett vokabulär som inkluderar vanliga turkiska suffix som separata token, vilket gör att modellen kan känna igen "yumurta" som en matentitet även när det förekommer som en del av en längre agglutinerad form.

Noggrannheten för turkisk röstloggning på 87 procent återspeglar denna morfologiska komplexitet, där de flesta felen inträffade på mindre vanliga rätter där den agglutinerade formen inte var väl representerad i träningsdata.

Arabiska: Rotbaserad Morfologi och Diglossi

Arabiska presenterar unika utmaningar både vid ASR- och NER-stegen.

Rotbaserad morfologi: Arabiska ord byggs från tre bokstäver med vokalmönster och prefix/suffix. Rötterna ط-ب-خ (t-b-kh, relaterat till matlagning) genererar "طبخ" (tabakh, matlagning), "مطبخ" (matbakh, kök), "طباخ" (tabbakh, kock) och "مطبوخ" (matbookh, kokt). NER-modeller måste känna igen att dessa relaterade former alla rör matlagning.

Diglossi: Det finns en betydande skillnad mellan modern standardarabiska (MSA) och de olika talade dialekterna. En användare i Egypten kan säga "فراخ مشوية" (firakh mashwiya) för grillad kyckling, medan en användare i Levanten skulle säga "دجاج مشوي" (dajaj mashwi). ASR- och NER-modeller måste hantera både MSA och stora dialektvarianter.

Icke-latinskt alfabet: Arabiska skrivs från höger till vänster med sammanbundna bokstäver, och korta vokaler utelämnas vanligtvis i skrift. Även om detta inte direkt påverkar röstloggning (som börjar från ljud), måste NER-modellens träningsdata korrekt hantera arabiska textrepresentationer.

Arabiska uppnådde 85 procent noggrannhet i vårt test — det lägsta bland de 10 språken — främst på grund av dialektvariation. När talare använde MSA steg noggrannheten till 91 procent, vilket tyder på att dialekt-specifik finjustering är nyckeln till ytterligare förbättring.

Japanska: Flera Skriftformer och Räkneord

Japanska använder tre skriftsystem (kanji, hiragana, katakana) och har ett komplext system av numeriska räkneord liknande kinesiska måttord. Matrelaterat tal blandar ofta japanska och engelska lånord skrivna i katakana — "ブルーベリーマフィン" (buruberii mafin) är katakana-översättningen av "blueberry muffin."

ASR-utmaningen i japanska är kodväxling: talare blandar naturligt japanska mattermer med engelska ord. En mening kan vara "スクランブルエッグ二つとトースト" (sukuranburu eggu futatsu to toosuto), som blandar det engelska "scrambled eggs" och "toast" med japansk grammatik och det inhemska räkneordet "二つ" (futatsu, två objekt).

Moderna flerspråkiga ASR hanterar detta väl eftersom träningsdata inkluderar kodväxlat japanskt tal. Japanska uppnådde 88 procent noggrannhet i matidentifiering, med fel koncentrerade på traditionella japanska rätter som beskrivs med regionala dialekttermer snarare än standardjapanska.

Franska: Liaison, Elision och Genusmatnamn

Franskt tal kännetecknas av liaison (koppling av ljud mellan ord) och elision (bortfall av vokaler före andra vokaler), vilket kan göra ordgränser otydliga i ljud. "Les oeufs" (ägg) uttalas som ett sammanbundet ljud där "les" kopplas direkt till "oeufs", vilket potentiellt förvirrar ordgränsdetektering.

Franska matnamn är genusbundna: "le poulet" (maskulin, kyckling) vs. "la salade" (feminin, sallad). Även om genus inte förändrar matidentifieringen påverkar det omgivande artiklar och adjektiv, som NER-modellen använder som kontextuella ledtrådar. Felidentifiering av genusmarkörer kan leda till kedjefel i entitetsutvinning.

Franska uppnådde ändå 95 procent noggrannhet — bland de högsta för icke-engelska språk — eftersom franska har omfattande ASR-träningsdata och fransk mat är väl representerad i globala livsmedelsdatabaser.

Koreanska: Subjekt-Objekt-Verb Ordning och Hedersformer

Koreanska placerar verbet i slutet av meningen, vilket innebär att matobjekten kommer tidigare i yttrandet. "스크램블 에그 두 개와 토스트를 먹었어요" (scrambled eggs två bitar och toast åt) följer SOV-ordning. NER-modeller som tränats främst på SVO-språk (som engelska) måste anpassa sig till denna olika ordning.

Koreanska använder också olika talnivåer (formell, artig, avslappnad) som förändrar verbändelser och kan lägga till partiklar genom hela meningen. Dessa ytterligare morfem ökar avståndet mellan matentiteten och dess mängdmarkör, vilket kräver att NER-modellen hanterar längre beroenden.

Koreanska uppnådde 87 procent noggrannhet, jämförbar med kinesiska och turkiska, där mängdanalys var det svagaste området på grund av det komplexa räknesystemet och varierande talnivåer.

Språk Rangordnade efter Total Röstloggningsnoggrannhet

Genom att kombinera matidentifiering, mängdanalys och databasmatchning till en enda viktad poäng ger följande rangordning:

Rang Språk Mat ID Mängd Noggrannhet DB Match Total Poäng
1 Engelska 97% 94% 96% 95.7%
2 Portugisiska 96% 92% 95% 94.3%
3 Spanska 95% 92% 94% 93.7%
4 Franska 95% 91% 93% 93.0%
5 Tyska 94% 90% 92% 92.0%
6 Japanska 88% 88% 90% 88.7%
7 Koreanska 87% 87% 88% 87.3%
8 Turkiska 87% 86% 87% 86.7%
9 Mandarin Kinesiska 87% 85% 86% 86.0%
10 Arabiska 85% 83% 84% 84.0%

Klyftan mellan det högst presterande språket (engelska, 95.7 procent) och det lägsta (arabiska, 84.0 procent) är 11.7 procentenheter. Detta är betydande men minskar. År 2023 var den motsvarande klyftan i flerspråkiga ASR-benchmarks närmare 20 procentenheter, vilket återspeglar snabba förbättringar i icke-engelska talmodeller.

Varför Vissa Språk Får Högre Poäng Än Andra

Tre faktorer förklarar det mesta av noggrannhetsvariationerna:

1. Volym av Träningsdata

ASR- och NER-modellens prestanda korrelerar direkt med volymen av träningsdata som finns tillgänglig för varje språk. Engelska har oräkneliga gånger mer märkt taldata än arabiska eller koreanska. Common Voice-datasetet (Mozilla, 2024) innehåller över 19 000 validerade timmar för engelska men färre än 300 timmar för koreanska och under 100 timmar för arabiska.

2. Täckning av Livsmedelsdatabaser

Språk som talas i regioner med väldokumenterade livsmedelskompositionsdatabaser (USDA för engelska, BLS för tyska, CIQUAL för franska) uppnår högre databasmatchningspoäng. Språk där livsmedelskompositionsdata är mindre standardiserade eller mindre digitaliserade ser fler matchningsfel.

3. Språklig Komplexitet för NLP

Agglutinativa språk (turkiska, koreanska), tonala språk (kinesiska) och språk med komplex morfologi (arabiska) kräver mer sofistikerade NLP-pipelines. De ytterligare bearbetningsstegen introducerar fler möjligheter för felackumulering.

Hur Nutrola Hanterar Flerspråkig Röstloggning

Nutrolas röstloggningspipeline adresserar flerspråkiga utmaningar genom flera arkitektoniska beslut:

  • Språk-specifika ASR-modeller: Istället för att använda en enda flerspråkig modell, dirigerar pipelinen ljud till språk-specifika finjusterade modeller när användarens språkinställning är känd, vilket förbättrar noggrannheten med 3 till 5 procentenheter jämfört med generisk flerspråkig ASR.
  • Lokal medveten avklaring: Avklaring av matentiteter använder användarens lokal för att lösa regionspecifika matnamn. "Chips" löses olika för användare i London, New York och Sydney.
  • Tvärspråkig livsmedelsdatabas: Den verifierade näringsdatabasen kartlägger matposter över språk, så "poulet grille" (franska), "pollo a la plancha" (spanska) och "grilled chicken" (engelska) alla kopplas till samma verifierade näringsprofil.
  • Fallback till textinmatning: När röstkonfidensen sjunker under tröskeln i något språk kan användare sömlöst växla till textsökning eller streckkodsskanning — Nutrolas streckkodsskanner täcker över 95 procent av förpackade produkter globalt.

Tillsammans med AI-fotologgning och AI Diet Assistant gör dessa flerspråkiga röstfunktioner Nutrola till en praktisk daglig kostspårare för användare världen över. Alla funktioner — inklusive röstloggning på alla stödda språk — är tillgängliga från 2,50 euro per månad med en 3-dagars gratis provperiod, utan annonser på något nivå.

Vägen Framåt: Flerspråkig Röstloggning 2026 och Framåt

Flera utvecklingar förbättrar flerspråkig röstloggning av mat:

  • Dialekt-specifik finjustering: Nya dataset som riktar sig mot talade dialekter (egyptisk arabiska, brasiliansk portugisiska, kantonesiska) stänger noggrannhetsklyftan mellan standard och vardagligt tal.
  • Multimodala ingångar: Att kombinera röst med foton gör att AI kan korsvalidera — om fotot visar ris och rösten säger "arroz" (spanska för ris), ökar förtroendet för båda modaliteter.
  • Självövervakad inlärning: Modeller som tränats på oetiketterat flerspråkigt ljud (wav2vec 2.0, HuBERT) lär sig talrepresentationer utan att kräva transkriberad data, vilket möjliggör snabbare förbättring för språk med låg resurs.
  • Användarfeedbackloopar: Varje korrigering en användare gör ("det borde vara brunt ris, inte vitt ris") blir en träningssignal för att förbättra modellen på det språket.

Vanliga Frågor

Vilka språk fungerar AI röstloggning av mat bäst på?

Engelska, spanska, portugisiska och franska uppnår den högsta noggrannheten för röstloggning av mat, alla med poäng över 93 procent totalt. Dessa språk drar nytta av omfattande ASR-träningsdata, väldokumenterade livsmedelsdatabaser och relativt enkel morfologi för NLP-bearbetning. Tyska rankas femte med 92 procent totalt.

Kan jag röstlogga måltider på mandarin kinesiska noggrant?

Mandarin kinesisk röstloggning uppnår cirka 86 procent totalt noggrannhet. De största utmaningarna är tonala distinktioner i ASR (där ord som "tang" betyder olika saker beroende på ton) och måttordssystemet för mängder. För vanliga livsmedel med tydlig uttal är noggrannheten avsevärt högre. Att använda exakta numeriska mängder (som "200克," 200 gram) istället för vaga beskrivningar förbättrar resultaten avsevärt.

Hur hanterar AI matnamn som inte översätts mellan språk?

Kulturellt specifika livsmedel som "shawarma," "miso," och "tzatziki" hanteras genom tvärspråkiga livsmedelsentitetsdatabaser som kopplar inhemska livsmedelsnamn direkt till näringsprofiler. När en turkisk talare säger "tavuk shawarma" eller en japansk talare säger "味噌汁" (miso soppa), känner NER-modellen igen dessa som matentiteter på sina respektive språk och kopplar dem till de lämpliga databasposterna, oavsett om en engelsk motsvarighet finns.

Varför är arabisk röstloggning mindre noggrann än andra språk?

Arabisk röstloggning får 84 procent totalt, främst på grund av tre faktorer: (1) diglossi — den betydande skillnaden mellan modern standardarabiska och talade dialekter innebär att modellen måste hantera många uttalsvarianter; (2) begränsad märkt träningsdata jämfört med europeiska språk; och (3) rotbaserad morfologi som skapar många ytliga former för varje matkoncept. När talare använder modern standardarabiska stiger noggrannheten till cirka 91 procent.

Förbättras röstloggningsnoggrannheten över tid för mitt specifika språk?

Ja. Röstloggningssystem förbättras genom två mekanismer: globala modelluppdateringar som tränas på aggregerad användardata från alla användare av ett givet språk, och personlig anpassning som lär sig dina specifika uttalsmönster, ofta loggade livsmedel och föredragna matnamn. Efter två till tre veckors regelbunden användning visar systemet vanligtvis mätbar förbättring i igenkänningsnoggrannhet för dina vanliga måltider.

Kan jag blanda språk när jag röstloggar, som att beskriva en måltid på spanska med några engelska mattermer?

Kodväxling — att blanda två språk i ett enda yttrande — är vanligt i flerspråkiga hushåll och stöds alltmer av moderna ASR-modeller. Att säga "Tuve un bowl de quinoa con grilled chicken" (blanda spanska och engelska) kommer generellt att tolkas korrekt av flerspråkiga transformer-modeller som tränats på kodväxlade data. Noggrannheten är dock cirka 5 till 8 procentenheter lägre än för yttranden på ett enda språk, så att hålla sig till ett språk ger de bästa resultaten.

Hur får jag de mest exakta röstloggningsresultaten på ett icke-engelskt språk?

Fyra metoder förbättrar noggrannheten: (1) tala i en måttlig takt med tydlig uttal; (2) använd exakta mängder när det är möjligt ("200 gram" snarare än "lite"); (3) använd standardmatnamn snarare än regional slang eller förkortningar; och (4) gör korrigeringar när AI gör något fel, eftersom denna feedback direkt förbättrar framtida igenkänning. Nutrola stöder också att växla till fotologgning eller streckkodsskanning för objekt som är svåra att beskriva verbalt.

Stöder Nutrola röstloggning på alla 10 testade språk?

Nutrola stöder röstloggning på flera språk med hela NLP-pipelinen som beskrivs i denna artikel. Appen upptäcker automatiskt användarens enhetsspråk och dirigerar röstinmatning till de lämpliga språk-specifika modellerna. Apple Health och Google Fit-synkronisering fungerar oavsett vilket språk du använder för loggning, vilket säkerställer att dina näringsdata integreras sömlöst med ditt hälsosystem.

Redo att förvandla din näringsspårning?

Gå med tusentals som har förvandlat sin hälsoresa med Nutrola!