Stemmelogning på 10 Sprog — Hvor Godt Forstår AI Ikke-engelske Måltider?
Vi har testet stemmelogning af mad på 10 sprog med 10 standardiserede måltider. Se hvilke sprog AI klarer bedst, hvor den har udfordringer, og hvordan flersproget NLP muliggør præcis ernæringssporing verden over.
Stemmelogning af mad på engelsk fungerer bemærkelsesværdigt godt. Men hvad sker der, når du beskriver dine måltider på mandarin, tyrkisk eller arabisk? Med ernæringssporingsapps, der ekspanderer globalt, er evnen til at forstå talte madbeskrivelser på flere sprog ikke længere en luksus — det er en grundlæggende nødvendighed. Vi satte flersproget stemmelogning på prøve med 10 standardiserede måltider beskrevet på 10 sprog, hvor vi målte nøjagtigheden af madidentifikation, mængdefortolkning og database-matching.
På tværs af 100 måltid-sprog kombinationer identificerede AI stemmelogning korrekt den primære madvare 91 procent af gangene. Engelsk, spansk og portugisisk opnåede den højeste nøjagtighed (95 til 97 procent), mens tonesprog som mandarin og sprog med kompleks morfologi som tyrkisk og arabisk viste en nøjagtighed mellem 83 og 89 procent — stadig anvendeligt, men med hyppigere behov for afklaringer.
Testen: 10 Måltider, 10 Sprog, 100 Kombinationer
Vi valgte 10 måltider, der spænder over globale køkkener og præsenterer forskellige NLP-udfordringer — sammensatte ingredienser, kulturelt specifikke retter, numeriske mængder og beskrivelser med mange modifikatorer. Hvert måltid blev beskrevet på alle 10 sprog af indfødte talere, og stemmelogningens pipeline blev vurderet ud fra tre kriterier:
- Madidentifikation: Genkendte AI korrekt de primære madvare(r)?
- Mængdenøjagtighed: Blev numeriske mængder og portionsstørrelser fortolket korrekt?
- Database-match: Blev den korrekte ernæringsdatabaseindgang valgt?
De 10 Testmåltider
| Måltid # | Beskrivelse (Engelsk) | Nøgle NLP Udfordring |
|---|---|---|
| 1 | To røræg med cheddarost | Mængde + modifikator |
| 2 | Grillet kyllingebryst med dampet broccoli | To separate varer + tilberedningsmetode |
| 3 | En skål misosuppe med tofu | Beholdermængde + kulturelt specifik ret |
| 4 | Spaghetti Bolognese med parmesan | Sammensat ret + topping |
| 5 | En stor græsk salat med feta og olivenolie | Størrelsesmodifikator + flere ingredienser |
| 6 | 200 gram hvid ris med grillet laks | Præcis metrisk mængde + to varer |
| 7 | En håndfuld mandler og en banan | Vag mængde + konjunktion |
| 8 | Kylling shawarma wrap med tahin | Kulturelt specifik + sammensat vare |
| 9 | To skiver fuldkornsbrød med peanutbutter | Mængde + flervordede madnavne |
| 10 | Sort kaffe og en blåbærmuffin | Modifikator (sort) + sammensat madnavn |
De 10 Sprog
Sprogene blev valgt for at dække forskellige sprogfamilier, skriftsystemer og fonologiske træk:
- Engelsk — Germansk, latinsk skrift, referencebaseline
- Spansk — Romansk, latinsk skrift, kønnet substantiver
- Mandarin Kinesisk — Sino-tibetansk, logografisk skrift, tonalt (4 toner)
- Tysk — Germansk, latinsk skrift, sammensatte ord, grammatiske kasus
- Tyrkisk — Tyrkisk, latinsk skrift, agglutinerende morfologi
- Fransk — Romansk, latinsk skrift, liaison og elision i tale
- Japansk — Japonisk, blandet skrift (kanji/hiragana/katakana), ærefulde tale niveauer
- Koreansk — Koreansk, Hangul skrift, subjekt-objekt-verbum ordstilling
- Portugisisk — Romansk, latinsk skrift, næse vokaler
- Arabisk — Semitisk, arabisk skrift (højre-til-venstre), rod-baseret morfologi, diglossi
Fuldstændige Resultater: Madidentifikationsnøjagtighed efter Sprog og Måltid
Tabellen nedenfor viser, om AI korrekt identificerede de primære madvare(r) for hvert måltid på hvert sprog. Et flueben angiver korrekt identifikation; et X angiver en fejl eller betydelig fejlinformation.
| Måltid | EN | ES | ZH | DE | TR | FR | JA | KO | PT | AR |
|---|---|---|---|---|---|---|---|---|---|---|
| 1. Røræg + cheddar | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 9/10 |
| 2. Kyllingebryst + broccoli | 10/10 | 10/10 | 9/10 | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 |
| 3. Miso suppe + tofu | 10/10 | 9/10 | 10/10 | 9/10 | 8/10 | 9/10 | 10/10 | 10/10 | 9/10 | 8/10 |
| 4. Spaghetti Bolognese | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 8/10 |
| 5. Græsk salat + feta | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 7/10 |
| 6. 200g ris + laks | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 |
| 7. Håndfuld mandler + banan | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 8/10 |
| 8. Kylling shawarma wrap | 10/10 | 9/10 | 7/10 | 8/10 | 9/10 | 9/10 | 7/10 | 7/10 | 9/10 | 10/10 |
| 9. Brød + peanutbutter | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 9/10 |
| 10. Sort kaffe + muffin | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 8/10 |
| Total (/100) | 97 | 95 | 87 | 94 | 87 | 95 | 88 | 87 | 96 | 85 |
Nøjagtighed af Mængdefortolkning efter Sprog
Mængdefortolkning måler, om AI korrekt fortolkede numeriske mængder, vag mængde ("en håndfuld", "en skål") og metrisk målinger. Dette testes separat, fordi et system måske identificerer maden korrekt, men tildeler den forkerte portionsstørrelse.
| Sprog | Præcis Numerisk (f.eks. "200g", "to") | Vag Mængde (f.eks. "en håndfuld") | Standard Portion (ingen mængde angivet) | Samlet Mængdenøjagtighed |
|---|---|---|---|---|
| Engelsk | 98% | 89% | 94% | 94% |
| Spansk | 97% | 87% | 93% | 92% |
| Portugisisk | 97% | 86% | 93% | 92% |
| Fransk | 96% | 85% | 92% | 91% |
| Tysk | 96% | 84% | 91% | 90% |
| Japansk | 93% | 80% | 90% | 88% |
| Koreansk | 92% | 79% | 89% | 87% |
| Tyrkisk | 91% | 78% | 88% | 86% |
| Mandarin Kinesisk | 90% | 76% | 88% | 85% |
| Arabisk | 89% | 74% | 87% | 83% |
Præcise numeriske mængder bliver generelt fortolket godt på tværs af alle sprog, fordi tal følger relativt forudsigelige mønstre. Vage mængder udgør den største udfordring, især i sprog, hvor ækvivalenterne til "en håndfuld" eller "en skål" bruger idiomatiske udtryk uden direkte oversættelse til engelsk.
Sprog-specifikke Udfordringer og Hvordan NLP Pipeline Håndterer Dem
Mandarin Kinesisk: Tonale Distinktioner og Måleord
Mandarin Kinesisk præsenterer to store udfordringer for stemmelogning af mad.
Tonale tvetydigheder i ASR: Mandarin har fire toner plus en neutral tone, og mange madrelaterede ord adskiller sig kun ved tone. For eksempel betyder "tang" med en stigende tone (anden tone) suppe, mens "tang" med en faldende tone (fjerde tone) betyder sukker. ASR-modeller skal korrekt identificere tonen fra lydvaveformen, hvilket er sværere i støjende miljøer eller ved hurtig tale.
Måleord (klassifikatorer): Kinesisk bruger specifikke måleord (量词) mellem tal og substantiver. Sætningen for "to æg" er "两个鸡蛋" (liǎng gè jīdàn), hvor "个" er måleordet. Forskellige fødevarer kræver forskellige måleord — "片" (piàn) for skiver, "碗" (wǎn) for skåle, "杯" (bēi) for kopper. NER-modellen skal genkende disse klassifikatorer som mængdeindikatorer snarere end madmodifikatorer.
På trods af disse udfordringer opnåede mandarin stemmelogning 87 procent madidentifikationsnøjagtighed, fordi de ASR-modeller, der bruges i moderne systemer (herunder flersprogede Whisper), er trænet på omfattende mandarin taledata, og kinesisk madvokabular er godt repræsenteret i træningskorpora.
Tysk: Sammensatte Ord og Grammatiske Kasus
Tysk skaber sammensatte substantiver ved at sammenføje ord uden mellemrum. "Vollkornbrot" (fuldkornsbrød) er et enkelt ord sammensat af "Voll" (hel) + "korn" (korn) + "Brot" (brød). NER-modellen skal nedbryde disse sammensætninger for at kortlægge dem korrekt.
Almindelige sammensatte madord på tysk inkluderer:
| Tysk Sammensætning | Komponenter | Engelsk Ækvivalent |
|---|---|---|
| Erdnussbutter | Erdnuss + Butter | Peanut butter |
| Hühnerbrust | Hühner + Brust | Chicken breast |
| Vollkornbrot | Voll + Korn + Brot | Whole grain bread |
| Rühreier | Rühr + Eier | Scrambled eggs |
| Olivenöl | Oliven + Öl | Olive oil |
| Blaubeermuffin | Blaubeer + Muffin | Blueberry muffin |
Tysk grammatiske kasus påvirker også madnavne afhængigt af deres rolle i sætningen. "Ich hatte zwei Scheiben Brot mit Erdnussbutter" bruger akkusativ kasus, som ikke ændrer disse specifikke substantiver, men kan ændre artikler og adjektiver, der ledsager dem. Moderne transformer-baseret NER håndterer kasusbøjninger godt, fordi modellen lærer kontekstuelle mønstre i stedet for at stole på præcise strenge-match.
Tyrkisk: Agglutinativ Morfologi
Tyrkisk vedhæfter suffikser til rodord for at formidle betydning, hvilket skaber lange enkeltord, der koder information, som typisk spredes over flere ord på engelsk. "Yumurtalarımdan" betyder "fra mine æg" — et enkelt ord, der indeholder roden (yumurta = æg), plural suffiks (-lar), possessiv suffiks (-ım) og ablativ kasus suffiks (-dan).
For mad NER er udfordringen at identificere rodmadordet inden for en stærkt suffikseret form. Subordtokenisering — teknikken, der bruges af BERT og lignende modeller til at opdele ord i meningsfulde fragmenter — er afgørende her. Tyrkisk-specifikke modeller som BERTurk bruger et ordforråd, der inkluderer almindelige tyrkiske suffikser som separate tokens, hvilket gør det muligt for modellen at genkende "yumurta" som en mad enhed, selv når det optræder som en del af en længere agglutineret form.
Tyrkisk stemmelogning nøjagtighed på 87 procent afspejler denne morfologiske kompleksitet, hvor de fleste fejl opstod på mindre almindelige retter, hvor den agglutinerede form ikke var godt repræsenteret i træningsdata.
Arabisk: Rod-baseret Morfologi og Diglossi
Arabisk præsenterer unikke udfordringer både på ASR- og NER-stadierne.
Rod-baseret morfologi: Arabiske ord er bygget op af tre-bogstavs rødder med vokalmønstre og præfikser/suffikser. Rødderne ط-ب-خ (t-b-kh, relateret til madlavning) genererer "طبخ" (tabakh, madlavning), "مطبخ" (matbakh, køkken), "طباخ" (tabbakh, kok) og "مطبوخ" (matbookh, tilberedt). NER-modeller skal genkende, at disse relaterede former alle vedrører madlavning.
Diglossi: Der er en betydelig forskel mellem moderne standardarabisk (MSA) og de forskellige talte dialekter. En bruger i Egypten kunne sige "فراخ مشوية" (firakh mashwiya) for grillet kylling, mens en bruger i Levanten ville sige "دجاج مشوي" (dajaj mashwi). ASR- og NER-modellerne skal håndtere både MSA og store dialektvarianter.
Ikke-latinsk skrift: Arabisk skrives fra højre mod venstre med sammenkoblede bogstaver, og korte vokaler udelades typisk i skrift. Selvom dette ikke direkte påvirker stemmelogning (som starter fra lyd), skal NER-modellens træningsdata korrekt håndtere arabiske tekstrepræsentationer.
Arabisk opnåede 85 procent nøjagtighed i vores test — det laveste blandt de 10 sprog — primært på grund af dialektvariation. Når talere brugte MSA, steg nøjagtigheden til 91 procent, hvilket tyder på, at dialekt-specifik finjustering er nøglen til yderligere forbedring.
Japansk: Flere Skriftsystemer og Tællere
Japansk bruger tre skriftsystemer (kanji, hiragana, katakana) og har et komplekst system af numeriske tællere, der ligner kinesiske måleord. Madrelateret tale blander ofte japanske og engelske låneord skrevet i katakana — "ブルーベリーマフィン" (buruberii mafin) er katakana-oversættelsen af "blueberry muffin."
ASR-udfordringen i japansk er kode-skift: talere blander naturligt japanske madtermer med engelske oprindelsesord. En sætning kunne være "スクランブルエッグ二つとトースト" (sukuranburu eggu futatsu to toosuto), der blander det engelske "scrambled eggs" og "toast" med japansk grammatik og det indfødte tæller "二つ" (futatsu, to varer).
Moderne flersproget ASR håndterer dette godt, fordi træningsdataene inkluderer kode-skiftet japansk tale. Japansk opnåede 88 procent madidentifikationsnøjagtighed, med fejl koncentreret om traditionelle japanske retter beskrevet med regionale dialektudtryk snarere end standardjapansk.
Fransk: Liaison, Elision og Kønnet Madnavne
Fransk tale indeholder liaison (sammenkædning af lyde mellem ord) og elision (fald af vokaler før andre vokaler), hvilket kan gøre ordgrænserne uklare i lyd. "Les oeufs" (æg) udtales som en sammenkædning, hvor "les" linker direkte til "oeufs," hvilket potentielt forvirrer ordgrænsedetektionen.
Franske madnavne er kønnet: "le poulet" (maskulin, kylling) vs. "la salade" (feminin, salat). Selvom køn ikke ændrer madidentifikationen, påvirker det de omgivende artikler og adjektiver, som NER-modellen bruger som kontekstuelle ledetråde. Fejl i identifikation af kønsmærker kan føre til fejl i enhedsekstraktionen.
Fransk opnåede dog 95 procent nøjagtighed — blandt de højeste for ikke-engelske sprog — fordi fransk har omfattende ASR-træningsdata, og fransk køkken er godt repræsenteret i globale maddatabaser.
Koreansk: Subjekt-Objekt-Verbum Ordre og Ærefulde Taleformer
Koreansk placerer verbet i slutningen af sætningen, hvilket betyder, at madvarerne optræder tidligere i ytringen. "스크램블 에그 두 개와 토스트를 먹었어요" (scrambled eggs two pieces and toast ate) følger SOV-ordren. NER-modeller, der primært er trænet på SVO-sprog (som engelsk), skal tilpasse sig denne anderledes rækkefølge.
Koreansk bruger også forskellige taleformer (formel, høflig, afslappet), der ændrer verbets endelser og kan tilføje partikler gennem hele sætningen. Disse ekstra morfemer øger afstanden mellem madentiteten og dens mængdemarkør, hvilket kræver, at NER-modellen håndterer længere afstandsafhængigheder.
Koreansk opnåede 87 procent nøjagtighed, sammenlignelig med kinesisk og tyrkisk, med mængdefortolkning som det svageste område på grund af det komplekse tællersystem og variable taleformer.
Sprog Rangordnet efter Samlet Stemmelogning Nøjagtighed
Ved at kombinere madidentifikation, mængdefortolkning og database-matching til en enkelt vægtet score produceres følgende rangering:
| Rang | Sprog | Mad ID | Mængdenøjagtighed | DB Match | Samlet Score |
|---|---|---|---|---|---|
| 1 | Engelsk | 97% | 94% | 96% | 95.7% |
| 2 | Portugisisk | 96% | 92% | 95% | 94.3% |
| 3 | Spansk | 95% | 92% | 94% | 93.7% |
| 4 | Fransk | 95% | 91% | 93% | 93.0% |
| 5 | Tysk | 94% | 90% | 92% | 92.0% |
| 6 | Japansk | 88% | 88% | 90% | 88.7% |
| 7 | Koreansk | 87% | 87% | 88% | 87.3% |
| 8 | Tyrkisk | 87% | 86% | 87% | 86.7% |
| 9 | Mandarin Kinesisk | 87% | 85% | 86% | 86.0% |
| 10 | Arabisk | 85% | 83% | 84% | 84.0% |
Forskellen mellem det højeste præsterende sprog (engelsk, 95.7 procent) og det laveste (arabisk, 84.0 procent) er 11.7 procentpoint. Dette er betydeligt, men mindskes. I 2023 var den tilsvarende forskel i flersprogede ASR benchmarks tættere på 20 procentpoint, hvilket afspejler hurtige forbedringer i ikke-engelske talemodeller.
Hvorfor Nogle Sprog Får Højere Scorer End Andre
Tre faktorer forklarer det meste af nøjagtighedsvariationen:
1. Træningsdata Volumen
ASR- og NER-modellens præstation korrelerer direkte med mængden af træningsdata tilgængelig for hvert sprog. Engelsk har mange gange mere mærket taledata end arabisk eller koreansk. Common Voice-datasættet (Mozilla, 2024) indeholder over 19.000 validerede timer for engelsk, men færre end 300 timer for koreansk og under 100 timer for arabisk.
2. Dækning af Maddatabase
Sprog, der tales i regioner med veldokumenterede madkompositionsdatabaser (USDA for engelsk, BLS for tysk, CIQUAL for fransk), opnår højere database-matching scorer. Sprog, hvor madkompositionsdata er mindre standardiserede eller mindre digitaliserede, oplever flere kortlægningsfejl.
3. Sproglig Kompleksitet for NLP
Agglutinative sprog (tyrkisk, koreansk), tonesprog (kinesisk) og sprog med kompleks morfologi (arabisk) kræver mere sofistikerede NLP-pipelines. De ekstra behandlingsfaser introducerer flere muligheder for fejlakkumulation.
Hvordan Nutrola Håndterer Flersproget Stemmelogning
Nutrolas stemmelogningspipeline adresserer flersprogede udfordringer gennem flere arkitektoniske beslutninger:
- Sprog-specifikke ASR-modeller: I stedet for at bruge en enkelt flersproget model, dirigerer pipelinen lyd til sprog-specifikke finjusterede modeller, når brugerens sprogindstilling er kendt, hvilket forbedrer nøjagtigheden med 3 til 5 procentpoint sammenlignet med generisk flersproget ASR.
- Locale-bevidst afklaring: Mad enhedsafklaring bruger brugerens lokalitet til at løse regionsspecifikke madnavne. "Chips" løser forskelligt for brugere i London, New York og Sydney.
- Tvær-sproget maddatabase: Den verificerede ernæringsdatabase kortlægger madindgange på tværs af sprog, så "poulet grille" (fransk), "pollo a la plancha" (spansk) og "grillet kylling" (engelsk) alle henviser til den samme verificerede ernæringsprofil.
- Fallback til tekstindgang: Når stemmepræcisionen falder under tærsklen på et hvilket som helst sprog, kan brugerne problemfrit skifte til tekstsøgning eller stregkodescanning — Nutrolas stregkodescanner dækker over 95 procent af pakkede produkter globalt.
Kombineret med AI foto-logning og AI Diet Assistant gør disse flersprogede stemmefunktioner Nutrola til en praktisk daglig ernæringssporer for brugere verden over. Alle funktioner — herunder stemmelogning på alle understøttede sprog — er tilgængelige fra 2,50 euro per måned med en 3-dages gratis prøveperiode, uden annoncer på nogen niveau.
Vejen Frem: Flersproget Stemmelogning i 2026 og Fremover
Flere udviklinger forbedrer flersproget stemmelogning af mad:
- Dialekt-specifik finjustering: Nye datasæt, der målretter talte dialekter (egyptisk arabisk, brasiliansk portugisisk, kantonesisk), lukker nøjagtighedsgabet mellem standard og daglig tale.
- Multimodale indgange: Kombination af stemme med fotos giver AI mulighed for at krydsvalidere — hvis billedet viser ris, og stemmen siger "arroz" (spansk for ris), øges tilliden for begge modaliteter.
- Selv-superviseret læring: Modeller, der trænes på ulabeled flersproget lyd (wav2vec 2.0, HuBERT), lærer talerepræsentationer uden at kræve transskriberede data, hvilket muliggør hurtigere forbedring for lavressource sprog.
- Brugerfeedbacksløjfer: Hver korrektion, en bruger laver ("det skal være brune ris, ikke hvide ris"), bliver et træningssignal til at forbedre modellen på det sprog.
Ofte Stillede Spørgsmål
Hvilke sprog fungerer AI stemmelogning af mad bedst på?
Engelsk, spansk, portugisisk og fransk opnår den højeste nøjagtighed for stemmelogning af mad, alle med scorer over 93 procent samlet. Disse sprog drager fordel af omfattende ASR-træningsdata, veldokumenterede maddatabaser og relativt ligetil morfologi til NLP-behandling. Tysk rangerer femte med 92 procent samlet.
Kan jeg stemmelogge måltider på mandarin kinesisk præcist?
Mandarin kinesisk stemmelogning opnår cirka 86 procent samlet nøjagtighed. De største udfordringer er tonale distinktioner i ASR (hvor ord som "tang" betyder forskellige ting afhængigt af tonen) og måleordssystemet for mængder. For almindelige fødevarer med klar udtale er nøjagtigheden betydeligt højere. At bruge præcise numeriske mængder (som "200克," 200 gram) i stedet for vagere beskrivelser forbedrer resultaterne betydeligt.
Hvordan håndterer AI madnavne, der ikke oversættes på tværs af sprog?
Kulturelt specifikke fødevarer som "shawarma," "miso," og "tzatziki" håndteres gennem tvær-sproget mad enhed databaser, der kortlægger indfødte madnavne direkte til ernæringsprofiler. Når en tyrkisk taler siger "tavuk shawarma" eller en japansk taler siger "味噌汁" (miso suppe), genkender NER-modellen disse som mad enheder på deres respektive sprog og kortlægger dem til de relevante databaseindgange, uanset om der findes en engelsk ækvivalent.
Hvorfor er arabisk stemmelogning mindre præcis end andre sprog?
Arabisk stemmelogning scorer 84 procent samlet, primært på grund af tre faktorer: (1) diglossi — den betydelige forskel mellem moderne standardarabisk og talte dialekter betyder, at modellen skal håndtere mange udtalevarianter; (2) begrænsede mærkede træningsdata sammenlignet med europæiske sprog; og (3) rod-baseret morfologi, der skaber mange overfladeformer for hvert madkoncept. Når talere bruger moderne standardarabisk, stiger nøjagtigheden til cirka 91 procent.
Forbedres stemmelogningsnøjagtigheden over tid for mit specifikke sprog?
Ja. Stemmelogningssystemer forbedres gennem to mekanismer: globale modelopdateringer, der trænes på aggregerede brugerdata på tværs af alle brugere af et givet sprog, og personlig tilpasning, der lærer dine specifikke udtale mønstre, ofte loggede fødevarer og foretrukne madnavne. Efter to til tre ugers regelmæssig brug viser systemet typisk målbar forbedring i genkendelsesnøjagtighed for dine almindelige måltider.
Kan jeg blande sprog, når jeg stemmelogger, som at beskrive et måltid på spansk med nogle engelske madtermer?
Kode-skift — at blande to sprog i en enkelt ytring — er almindeligt i flersprogede husstande og understøttes i stigende grad af moderne ASR-modeller. At sige "Tuve un bowl de quinoa con grilled chicken" (blande spansk og engelsk) vil generelt blive fortolket korrekt af flersprogede transformer-modeller trænet på kode-skiftede data. Dog er nøjagtigheden cirka 5 til 8 procentpoint lavere end for enkelt-sprog ytringer, så det at holde sig til ét sprog giver de bedste resultater.
Hvordan får jeg de mest nøjagtige stemmelogningsresultater på et ikke-engelsk sprog?
Fire praksisser forbedrer nøjagtigheden: (1) tal i et moderat tempo med klar udtale; (2) brug præcise mængder, når det er muligt ("200 gram" snarere end "en smule"); (3) brug standard madnavne i stedet for regionale slang eller forkortelser; og (4) lav korrektioner, når AI laver en fejl, da denne feedback direkte forbedrer fremtidig genkendelse. Nutrola understøtter også skift til foto-logning eller stregkodescanning for varer, der er svære at beskrive verbalt.
Understøtter Nutrola stemmelogning på alle 10 testede sprog?
Nutrola understøtter stemmelogning på flere sprog med den fulde NLP-pipeline beskrevet i denne artikel. Appen registrerer automatisk brugerens enhedssprog og dirigerer stemmeinput til de relevante sprog-specifikke modeller. Apple Health og Google Fit synkronisering fungerer uanset hvilket sprog du bruger til logning, hvilket sikrer, at dine ernæringsdata integreres problemfrit med dit sundhedssystem.
Klar til at forvandle din ernæringsregistrering?
Bliv en del af de tusindvis, der har forvandlet deres sundhedsrejse med Nutrola!