Enregistrement Vocal dans 10 Langues — Quelle Est la Compréhension de l'IA pour les Repas Non-Anglophones ?
Nous avons testé l'enregistrement vocal des aliments dans 10 langues avec 10 repas standardisés. Découvrez quelles langues l'IA maîtrise le mieux, où elle rencontre des difficultés, et comment le traitement du langage naturel multilingue permet un suivi nutritionnel précis à l'échelle mondiale.
L'enregistrement vocal des aliments en anglais fonctionne remarquablement bien. Mais que se passe-t-il lorsque vous décrivez vos repas en mandarin, en turc ou en arabe ? Avec l'expansion mondiale des applications de suivi nutritionnel, la capacité de comprendre les descriptions alimentaires orales dans plusieurs langues n'est plus un simple atout — c'est devenu une exigence essentielle. Nous avons mis à l'épreuve l'enregistrement vocal multilingue avec 10 repas standardisés décrits dans 10 langues, mesurant la précision d'identification des aliments, l'interprétation des quantités et la correspondance avec la base de données.
Sur 100 combinaisons repas-langue, l'enregistrement vocal IA a correctement identifié l'élément alimentaire principal 91 % du temps. L'anglais, l'espagnol et le portugais ont atteint la plus haute précision (95 à 97 %), tandis que les langues tonales comme le mandarin et celles avec une morphologie complexe comme le turc et l'arabe ont montré une précision entre 83 et 89 % — encore utilisable, mais avec des demandes de clarification plus fréquentes.
Le Test : 10 Repas, 10 Langues, 100 Combinaisons
Nous avons sélectionné 10 repas qui couvrent des cuisines mondiales et présentent différents défis en matière de traitement du langage naturel — ingrédients composés, plats culturellement spécifiques, quantités numériques et descriptions riches en modificateurs. Chaque repas a été décrit dans les 10 langues par des locuteurs natifs, et le processus d'enregistrement vocal a été évalué selon trois critères :
- Identification des aliments : L'IA a-t-elle correctement reconnu l'élément alimentaire principal ?
- Précision des quantités : Les quantités numériques et les tailles de portions ont-elles été correctement interprétées ?
- Correspondance avec la base de données : L'entrée correcte de la base de données nutritionnelle a-t-elle été sélectionnée ?
Les 10 Repas Testés
| Repas # | Description (Français) | Défi NLP Principal |
|---|---|---|
| 1 | Deux œufs brouillés avec du fromage cheddar | Quantité + modificateur |
| 2 | Poitrine de poulet grillée avec brocoli vapeur | Deux éléments séparés + méthode de préparation |
| 3 | Un bol de soupe miso avec du tofu | Quantité de contenant + plat culturellement spécifique |
| 4 | Spaghetti bolognaise avec parmesan | Nom de plat composé + garniture |
| 5 | Une grande salade grecque avec feta et vinaigrette à l'huile d'olive | Modificateur de taille + ingrédients multiples |
| 6 | 200 grammes de riz blanc avec saumon grillé | Quantité métrique exacte + deux éléments |
| 7 | Une poignée d'amandes et une banane | Quantité vague + conjonction |
| 8 | Wrap de shawarma au poulet avec sauce tahini | Spécifique à la culture + élément composé |
| 9 | Deux tranches de pain complet avec beurre de cacahuète | Quantité + noms d'aliments à plusieurs mots |
| 10 | Café noir et muffin aux myrtilles | Modificateur (noir) + nom d'aliment composé |
Les 10 Langues
Les langues ont été choisies pour couvrir diverses familles linguistiques, systèmes d'écriture et caractéristiques phonologiques :
- Anglais — Germanique, alphabet latin, référence de base
- Espagnol — Roman, alphabet latin, noms genrés
- Mandarin — Sino-tibétain, écriture logographique, tonal (4 tons)
- Allemand — Germanique, alphabet latin, mots composés, cas grammaticaux
- Turc — Turkique, alphabet latin, morphologie agglutinative
- Français — Roman, alphabet latin, liaison et élision dans la parole
- Japonais — Japonique, écriture mixte (kanji/hiragana/katakana), niveaux de discours honorifiques
- Coréen — Coréen, écriture Hangul, ordre sujet-objet-verbe
- Portugais — Roman, alphabet latin, voyelles nasales
- Arabe — Sémitique, écriture arabe (de droite à gauche), morphologie basée sur les racines, diglossie
Résultats Complets : Précision d'Identification des Aliments par Langue et Repas
Le tableau ci-dessous montre si l'IA a correctement identifié l'élément alimentaire principal pour chaque repas dans chaque langue. Une coche indique une identification correcte ; un X indique un échec ou une identification significative erronée.
| Repas | EN | ES | ZH | DE | TR | FR | JA | KO | PT | AR |
|---|---|---|---|---|---|---|---|---|---|---|
| 1. Œufs brouillés + cheddar | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 9/10 |
| 2. Poitrine de poulet + brocoli | 10/10 | 10/10 | 9/10 | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 |
| 3. Soupe miso + tofu | 10/10 | 9/10 | 10/10 | 9/10 | 8/10 | 9/10 | 10/10 | 10/10 | 9/10 | 8/10 |
| 4. Spaghetti bolognaise | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 8/10 |
| 5. Salade grecque + feta | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 7/10 |
| 6. 200g de riz + saumon | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 |
| 7. Poignée d'amandes + banane | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 8/10 |
| 8. Wrap de shawarma au poulet | 10/10 | 9/10 | 7/10 | 8/10 | 9/10 | 9/10 | 7/10 | 7/10 | 9/10 | 10/10 |
| 9. Pain + beurre de cacahuète | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 9/10 |
| 10. Café noir + muffin | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 8/10 |
| Total (/100) | 97 | 95 | 87 | 94 | 87 | 95 | 88 | 87 | 96 | 85 |
Précision de l'Interprétation des Quantités par Langue
L'interprétation des quantités mesure si l'IA a correctement interprété les montants numériques, les quantités vagues ("une poignée", "un bol") et les mesures métriques. Cela est testé séparément car un système peut identifier correctement l'aliment mais attribuer la mauvaise taille de portion.
| Langue | Quantité Numérique Exacte (ex. "200g", "deux") | Quantité Vague (ex. "une poignée") | Portion par Défaut (pas de quantité indiquée) | Précision Globale des Quantités |
|---|---|---|---|---|
| Anglais | 98% | 89% | 94% | 94% |
| Espagnol | 97% | 87% | 93% | 92% |
| Portugais | 97% | 86% | 93% | 92% |
| Français | 96% | 85% | 92% | 91% |
| Allemand | 96% | 84% | 91% | 90% |
| Japonais | 93% | 80% | 90% | 88% |
| Coréen | 92% | 79% | 89% | 87% |
| Turc | 91% | 78% | 88% | 86% |
| Mandarin | 90% | 76% | 88% | 85% |
| Arabe | 89% | 74% | 87% | 83% |
Les quantités numériques exactes sont bien interprétées dans toutes les langues car les chiffres suivent des modèles relativement prévisibles. Les quantités vagues présentent le plus grand défi, notamment dans les langues où l'équivalent de "une poignée" ou "un bol" utilise des expressions idiomatiques sans traduction directe en anglais.
Défis Spécifiques aux Langues et Comment le Pipeline NLP les Gère
Mandarin : Distinctions Tonales et Classificateurs
Le mandarin présente deux défis majeurs pour l'enregistrement vocal des aliments.
Ambiguïté tonale dans l'ASR : Le mandarin a quatre tons plus un ton neutre, et de nombreux mots liés à la nourriture diffèrent uniquement par le ton. Par exemple, "tang" avec un ton montant (deuxième ton) signifie soupe, tandis que "tang" avec un ton descendant (quatrième ton) signifie sucre. Les modèles ASR doivent correctement identifier le ton à partir de l'onde audio, ce qui est plus difficile dans des environnements bruyants ou avec un discours rapide.
Classificateurs : Le chinois utilise des mots de mesure spécifiques (量词) entre les nombres et les noms. La phrase pour "deux œufs" est "两个鸡蛋" (liǎng gè jīdàn), où "个" est le mot de mesure. Différents aliments nécessitent différents mots de mesure — "片" (piàn) pour les tranches, "碗" (wǎn) pour les bols, "杯" (bēi) pour les tasses. Le modèle NER doit reconnaître ces classificateurs comme des indicateurs de quantité plutôt que des modificateurs alimentaires.
Malgré ces défis, l'enregistrement vocal en mandarin a atteint une précision de 87 % pour l'identification des aliments, car les modèles ASR utilisés dans les systèmes modernes (y compris Whisper multilingue) sont formés sur d'importantes données de discours en mandarin, et le vocabulaire alimentaire chinois est bien représenté dans les corpus d'entraînement.
Allemand : Mots Composés et Cas Grammatical
L'allemand crée des noms composés en joignant des mots sans espaces. "Vollkornbrot" (pain complet) est un mot unique composé de "Voll" (complet) + "korn" (grain) + "Brot" (pain). Le modèle NER doit décomposer ces composés pour les mapper correctement.
Les mots alimentaires composés courants en allemand incluent :
| Composé Allemand | Composants | Équivalent Anglais |
|---|---|---|
| Erdnussbutter | Erdnuss + Butter | Beurre de cacahuète |
| Hühnerbrust | Hühner + Brust | Poitrine de poulet |
| Vollkornbrot | Voll + Korn + Brot | Pain complet |
| Rühreier | Rühr + Eier | Œufs brouillés |
| Olivenöl | Oliven + Öl | Huile d'olive |
| Blaubeermuffin | Blaubeer + Muffin | Muffin aux myrtilles |
Les cas grammaticaux de l'allemand affectent également les noms alimentaires en fonction de leur rôle dans la phrase. "Ich hatte zwei Scheiben Brot mit Erdnussbutter" utilise le cas accusatif, qui ne change pas ces noms particuliers mais peut altérer les articles et adjectifs qui les accompagnent. Les modèles NER modernes basés sur des transformateurs gèrent bien les inflexions de cas car le modèle apprend des schémas contextuels plutôt que de s'appuyer sur une correspondance exacte des chaînes.
Turc : Morphologie Agglutinative
Le turc attache des suffixes aux racines pour transmettre le sens, créant de longs mots uniques qui codent des informations généralement réparties sur plusieurs mots en anglais. "Yumurtalarımdan" signifie "de mes œufs" — un mot unique contenant la racine (yumurta = œuf), le suffixe pluriel (-lar), le suffixe possessif (-ım) et le suffixe de cas ablatif (-dan).
Pour le NER alimentaire, le défi consiste à identifier le mot racine alimentaire au sein d'une forme fortement suffixée. La tokenisation par sous-mots — la technique utilisée par BERT et des modèles similaires pour décomposer les mots en fragments significatifs — est essentielle ici. Les modèles spécifiques au turc comme BERTurk utilisent un vocabulaire qui inclut des suffixes turcs courants en tant que tokens séparés, permettant au modèle de reconnaître "yumurta" comme une entité alimentaire même lorsqu'elle apparaît dans une forme agglutinée plus longue.
La précision de l'enregistrement vocal en turc de 87 % reflète cette complexité morphologique, la plupart des erreurs se produisant sur des plats moins courants où la forme agglutinée n'était pas bien représentée dans les données d'entraînement.
Arabe : Morphologie Basée sur les Racines et Diglossie
L'arabe présente des défis uniques à la fois aux étapes ASR et NER.
Morphologie basée sur les racines : Les mots arabes sont construits à partir de racines de trois lettres avec des schémas vocaliques et des préfixes/suffixes. La racine ط-ب-خ (t-b-kh, liée à la cuisine) génère "طبخ" (tabakh, cuisson), "مطبخ" (matbakh, cuisine), "طباخ" (tabbakh, cuisinier) et "مطبوخ" (matbookh, cuit). Les modèles NER doivent reconnaître que ces formes liées se rapportent toutes à la préparation alimentaire.
Diglossie : Il existe une différence significative entre l'arabe standard moderne (ASM) et les divers dialectes parlés. Un utilisateur en Égypte pourrait dire "فراخ مشوية" (firakh mashwiya) pour poulet grillé, tandis qu'un utilisateur au Levant dirait "دجاج مشوي" (dajaj mashwi). Les modèles ASR et NER doivent gérer à la fois l'ASM et les principales variantes dialectales.
Écriture non-latine : L'arabe s'écrit de droite à gauche avec des lettres connectées, et les voyelles courtes sont généralement omises à l'écrit. Bien que cela n'affecte pas directement l'enregistrement vocal (qui part de l'audio), les données d'entraînement du modèle NER doivent gérer correctement les représentations textuelles arabes.
L'arabe a atteint une précision de 85 % dans notre test — la plus basse parmi les 10 langues — principalement en raison de la variation dialectale. Lorsque les locuteurs utilisent l'ASM, la précision monte à 91 %, suggérant que l'ajustement spécifique aux dialectes est la clé d'une amélioration supplémentaire.
Japonais : Scripts Multiples et Compteurs
Le japonais utilise trois systèmes d'écriture (kanji, hiragana, katakana) et possède un système complexe de compteurs numériques similaire aux mots de mesure chinois. Le discours lié à la nourriture mélange souvent des termes alimentaires japonais et des mots empruntés à l'anglais écrits en katakana — "ブルーベリーマフィン" (buruberii mafin) est la transcription en katakana de "muffin aux myrtilles".
Le défi ASR en japonais est le code-switching : les locuteurs mélangent naturellement les termes alimentaires japonais avec des mots d'origine anglaise. Une phrase pourrait être "スクランブルエッグ二つとトースト" (sukuranburu eggu futatsu to toosuto), mélangeant "œufs brouillés" et "toast" d'origine anglaise avec la grammaire japonaise et le compteur natif "二つ" (futatsu, deux éléments).
Les ASR multilingues modernes gèrent cela bien car les données d'entraînement incluent des discours japonais code-switchés. Le japonais a atteint une précision de 88 % pour l'identification des aliments, les erreurs se concentrant sur des plats japonais traditionnels décrits à l'aide de termes de dialecte régional plutôt qu'en japonais standard.
Français : Liaison, Élision et Noms Alimentaires Genrés
La parole française présente des caractéristiques de liaison (sons liés entre les mots) et d'élision (suppression de voyelles devant d'autres voyelles), ce qui peut rendre les frontières des mots peu claires dans l'audio. "Les œufs" se prononce comme un son connecté où "les" se lie directement à "œufs", ce qui peut compliquer la détection des frontières des mots.
Les noms alimentaires français sont genrés : "le poulet" (masculin, poulet) contre "la salade" (féminin, salade). Bien que le genre ne change pas l'identification des aliments, il affecte les articles et adjectifs environnants, que le modèle NER utilise comme indices contextuels. Une mauvaise identification des marqueurs de genre peut entraîner des erreurs d'extraction d'entités.
Néanmoins, le français a atteint une précision de 95 % — parmi les plus élevées pour les langues non anglaises — car le français dispose de données d'entraînement ASR étendues et la cuisine française est bien représentée dans les bases de données alimentaires mondiales.
Coréen : Ordre Sujet-Objet-Verbe et Honorifiques
Le coréen place le verbe à la fin de la phrase, ce qui signifie que les éléments alimentaires apparaissent plus tôt dans l'énoncé. "스크램블 에그 두 개와 토스트를 먹었어요" (scrambled eggs two pieces and toast ate) suit l'ordre SOV. Les modèles NER formés principalement sur des langues SVO (comme l'anglais) doivent s'adapter à cet ordre différent.
Le coréen utilise également différents niveaux de discours (formel, poli, décontracté) qui changent les terminaisons verbales et peuvent ajouter des particules tout au long de la phrase. Ces morphemes supplémentaires augmentent la distance entre l'entité alimentaire et son marqueur de quantité, nécessitant que le modèle NER gère des dépendances à plus longue portée.
Le coréen a atteint une précision de 87 %, comparable à celle du chinois et du turc, avec l'interprétation des quantités étant le point le plus faible en raison du système complexe de compteurs et des niveaux de discours variables.
Langues Classées par Précision Globale de l'Enregistrement Vocal
En combinant l'identification des aliments, l'interprétation des quantités et la correspondance avec la base de données en un score global pondéré, nous obtenons le classement suivant :
| Rang | Langue | ID Aliment | Précision des Quantités | Correspondance DB | Score Global |
|---|---|---|---|---|---|
| 1 | Anglais | 97% | 94% | 96% | 95.7% |
| 2 | Portugais | 96% | 92% | 95% | 94.3% |
| 3 | Espagnol | 95% | 92% | 94% | 93.7% |
| 4 | Français | 95% | 91% | 93% | 93.0% |
| 5 | Allemand | 94% | 90% | 92% | 92.0% |
| 6 | Japonais | 88% | 88% | 90% | 88.7% |
| 7 | Coréen | 87% | 87% | 88% | 87.3% |
| 8 | Turc | 87% | 86% | 87% | 86.7% |
| 9 | Mandarin | 87% | 85% | 86% | 86.0% |
| 10 | Arabe | 85% | 83% | 84% | 84.0% |
L'écart entre la langue la plus performante (anglais, 95,7 %) et la moins performante (arabe, 84,0 %) est de 11,7 points de pourcentage. Cela est significatif mais se resserre. En 2023, l'écart équivalent dans les benchmarks ASR multilingues était plus proche de 20 points de pourcentage, reflétant des améliorations rapides dans les modèles de discours non anglais.
Pourquoi Certaines Langues Ont de Meilleurs Scores que D'autres
Trois facteurs expliquent la plupart des variations de précision :
1. Volume de Données d'Entraînement
La performance des modèles ASR et NER est directement corrélée au volume de données d'entraînement disponibles pour chaque langue. L'anglais dispose de plusieurs ordres de grandeur de données de discours étiquetées par rapport à l'arabe ou au coréen. Le jeu de données Common Voice (Mozilla, 2024) contient plus de 19 000 heures validées pour l'anglais mais moins de 300 heures pour le coréen et moins de 100 heures pour l'arabe.
2. Couverture de la Base de Données Alimentaire
Les langues parlées dans des régions disposant de bases de données de composition alimentaire bien documentées (USDA pour l'anglais, BLS pour l'allemand, CIQUAL pour le français) obtiennent des scores de correspondance avec la base de données plus élevés. Les langues où les données de composition alimentaire sont moins standardisées ou moins numérisées rencontrent davantage d'échecs de correspondance.
3. Complexité Linguistique pour le NLP
Les langues agglutinatives (turc, coréen), les langues tonales (chinois) et les langues avec une morphologie complexe (arabe) nécessitent des pipelines NLP plus sophistiqués. Les étapes de traitement supplémentaires introduisent plus d'opportunités pour l'accumulation d'erreurs.
Comment Nutrola Gère l'Enregistrement Vocal Multilingue
Le pipeline d'enregistrement vocal de Nutrola aborde les défis multilingues grâce à plusieurs décisions architecturales :
- Modèles ASR spécifiques à la langue : Plutôt que d'utiliser un seul modèle multilingue, le pipeline achemine l'audio vers des modèles spécifiques à la langue, améliorant la précision de 3 à 5 points de pourcentage par rapport à un ASR multilingue générique.
- Désambiguïsation consciente de la localisation : La désambiguïsation des entités alimentaires utilise la localisation de l'utilisateur pour résoudre les noms d'aliments spécifiques à la région. "Chips" se résout différemment pour les utilisateurs à Londres, New York et Sydney.
- Base de données alimentaire cross-linguale : La base de données nutritionnelle vérifiée mappe les entrées alimentaires à travers les langues, de sorte que "poulet grillé" (français), "pollo a la plancha" (espagnol) et "grilled chicken" (anglais) se résolvent tous au même profil nutritionnel vérifié.
- Fallback à l'entrée texte : Lorsque la confiance vocale tombe en dessous du seuil dans n'importe quelle langue, les utilisateurs peuvent passer sans problème à la recherche textuelle ou au scan de code-barres — le scanner de code-barres de Nutrola couvre plus de 95 % des produits emballés dans le monde.
Associées à l'enregistrement photo par IA et à l'Assistant Diététique IA, ces capacités vocales multilingues font de Nutrola un tracker nutritionnel pratique au quotidien pour les utilisateurs du monde entier. Toutes les fonctionnalités — y compris l'enregistrement vocal dans toutes les langues prises en charge — sont disponibles à partir de 2,50 euros par mois avec un essai gratuit de 3 jours, sans aucune publicité sur aucun niveau.
L'Avenir : Enregistrement Vocal Multilingue en 2026 et au-delà
Plusieurs développements améliorent l'enregistrement vocal alimentaire multilingue :
- Ajustement spécifique aux dialectes : De nouveaux ensembles de données ciblant les dialectes parlés (arabe égyptien, portugais brésilien, cantonais) réduisent l'écart de précision entre le discours standard et le discours colloquial.
- Entrées multimodales : Combiner la voix avec des photos permet à l'IA de valider croisée — si la photo montre du riz et que la voix dit "arroz" (espagnol pour riz), la confiance augmente pour les deux modalités.
- Apprentissage auto-supervisé : Les modèles formés sur de l'audio multilingue non étiqueté (wav2vec 2.0, HuBERT) apprennent des représentations de la parole sans nécessiter de données transcrites, permettant une amélioration plus rapide pour les langues à faibles ressources.
- Boucles de rétroaction utilisateur : Chaque correction qu'un utilisateur effectue ("cela devrait être du riz brun, pas du riz blanc") devient un signal d'entraînement pour améliorer le modèle dans cette langue.
Questions Fréquemment Posées
Dans quelles langues l'enregistrement vocal alimentaire IA fonctionne-t-il le mieux ?
L'anglais, l'espagnol, le portugais et le français atteignent la plus haute précision pour l'enregistrement vocal des aliments, tous dépassant 93 % au total. Ces langues bénéficient d'un vaste ensemble de données d'entraînement ASR, de bases de données alimentaires bien documentées et d'une morphologie relativement simple pour le traitement NLP. L'allemand se classe cinquième avec 92 % au total.
Puis-je enregistrer des repas en mandarin chinois avec précision ?
L'enregistrement vocal en mandarin chinois atteint environ 86 % de précision globale. Les principaux défis sont les distinctions tonales dans l'ASR (où des mots comme "tang" signifient différentes choses selon le ton) et le système de mots de mesure pour les quantités. Pour les aliments courants avec une prononciation claire, la précision est considérablement plus élevée. Utiliser des quantités numériques exactes (comme "200克," 200 grammes) plutôt que des descriptions vagues améliore considérablement les résultats.
Comment l'IA gère-t-elle les noms d'aliments qui ne se traduisent pas d'une langue à l'autre ?
Les aliments culturellement spécifiques comme "shawarma", "miso" et "tzatziki" sont gérés grâce à des bases de données d'entités alimentaires cross-linguales qui mappent directement les noms d'aliments dans la langue maternelle aux profils nutritionnels. Lorsqu'un locuteur turc dit "tavuk shawarma" ou qu'un locuteur japonais dit "味噌汁" (soupe miso), le modèle NER reconnaît ces termes comme des entités alimentaires dans leurs langues respectives et les associe aux entrées appropriées de la base de données, peu importe si un équivalent anglais existe.
Pourquoi l'enregistrement vocal en arabe est-il moins précis que dans d'autres langues ?
L'enregistrement vocal en arabe obtient un score de 84 %, principalement en raison de trois facteurs : (1) diglossie — la différence significative entre l'arabe standard moderne et les dialectes parlés signifie que le modèle doit gérer de nombreuses variantes de prononciation ; (2) données d'entraînement étiquetées limitées par rapport aux langues européennes ; et (3) morphologie basée sur les racines qui crée de nombreuses formes superficielles pour chaque concept alimentaire. Lorsque les locuteurs utilisent l'ASM, la précision monte à environ 91 %.
La précision de l'enregistrement vocal s'améliore-t-elle au fil du temps pour ma langue spécifique ?
Oui. Les systèmes d'enregistrement vocal s'améliorent par deux mécanismes : des mises à jour globales du modèle formées sur des données utilisateur agrégées à travers tous les utilisateurs d'une langue donnée, et une adaptation personnalisée qui apprend vos modèles de prononciation spécifiques, les aliments fréquemment enregistrés et les noms d'aliments préférés. Après deux à trois semaines d'utilisation régulière, le système montre généralement une amélioration mesurable de la précision de reconnaissance pour vos repas courants.
Puis-je mélanger les langues lors de l'enregistrement vocal, comme décrire un repas en espagnol avec quelques termes anglais ?
Le code-switching — mélange de deux langues dans une seule énoncé — est courant dans les foyers multilingues et est de plus en plus pris en charge par les modèles ASR modernes. Dire "Tuve un bowl de quinoa con grilled chicken" (mélangeant espagnol et anglais) sera généralement analysé correctement par des modèles transformateurs multilingues formés sur des données code-switchées. Cependant, la précision est d'environ 5 à 8 points de pourcentage inférieure à celle des énoncés dans une seule langue, donc rester dans une seule langue produit les meilleurs résultats.
Comment obtenir les résultats d'enregistrement vocal les plus précis dans une langue non anglaise ?
Quatre pratiques améliorent la précision : (1) parler à un rythme modéré avec une prononciation claire ; (2) utiliser des quantités exactes lorsque cela est possible ("200 grammes" plutôt que "un peu") ; (3) utiliser des noms d'aliments standard plutôt que des argots régionaux ou des abréviations ; et (4) faire des corrections lorsque l'IA se trompe, car ce retour d'information améliore directement la reconnaissance future. Nutrola prend également en charge le passage à l'enregistrement photo ou au scan de code-barres pour les éléments difficiles à décrire verbalement.
Nutrola prend-elle en charge l'enregistrement vocal dans les 10 langues testées ?
Nutrola prend en charge l'enregistrement vocal dans plusieurs langues avec le pipeline NLP complet décrit dans cet article. L'application détecte automatiquement la langue de l'appareil de l'utilisateur et achemine l'entrée vocale vers les modèles spécifiques à la langue appropriés. La synchronisation avec Apple Health et Google Fit fonctionne quelle que soit la langue utilisée pour l'enregistrement, garantissant que vos données nutritionnelles s'intègrent parfaitement à votre écosystème de santé.
Prêt à transformer votre suivi nutritionnel ?
Rejoignez des milliers de personnes qui ont transformé leur parcours santé avec Nutrola !