Enregistrement Vocal dans 10 Langues — Quelle Est la Compréhension de l'IA pour les Repas Non-Anglophones ?

4 avril 2026

Nous avons testé l'enregistrement vocal des aliments dans 10 langues avec 10 repas standardisés. Découvrez quelles langues l'IA maîtrise le mieux, où elle rencontre des difficultés, et comment le traitement du langage naturel multilingue permet un suivi nutritionnel précis à l'échelle mondiale.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

L'enregistrement vocal des aliments en anglais fonctionne remarquablement bien. Mais que se passe-t-il lorsque vous décrivez vos repas en mandarin, en turc ou en arabe ? Avec l'expansion mondiale des applications de suivi nutritionnel, la capacité de comprendre les descriptions alimentaires orales dans plusieurs langues n'est plus un simple atout — c'est devenu une exigence essentielle. Nous avons mis à l'épreuve l'enregistrement vocal multilingue avec 10 repas standardisés décrits dans 10 langues, mesurant la précision d'identification des aliments, l'interprétation des quantités et la correspondance avec la base de données.

Sur 100 combinaisons repas-langue, l'enregistrement vocal IA a correctement identifié l'élément alimentaire principal 91 % du temps. L'anglais, l'espagnol et le portugais ont atteint la plus haute précision (95 à 97 %), tandis que les langues tonales comme le mandarin et celles avec une morphologie complexe comme le turc et l'arabe ont montré une précision entre 83 et 89 % — encore utilisable, mais avec des demandes de clarification plus fréquentes.

Le Test : 10 Repas, 10 Langues, 100 Combinaisons

Nous avons sélectionné 10 repas qui couvrent des cuisines mondiales et présentent différents défis en matière de traitement du langage naturel — ingrédients composés, plats culturellement spécifiques, quantités numériques et descriptions riches en modificateurs. Chaque repas a été décrit dans les 10 langues par des locuteurs natifs, et le processus d'enregistrement vocal a été évalué selon trois critères :

Identification des aliments : L'IA a-t-elle correctement reconnu l'élément alimentaire principal ?
Précision des quantités : Les quantités numériques et les tailles de portions ont-elles été correctement interprétées ?
Correspondance avec la base de données : L'entrée correcte de la base de données nutritionnelle a-t-elle été sélectionnée ?

Les 10 Repas Testés

Repas #	Description (Français)	Défi NLP Principal
1	Deux œufs brouillés avec du fromage cheddar	Quantité + modificateur
2	Poitrine de poulet grillée avec brocoli vapeur	Deux éléments séparés + méthode de préparation
3	Un bol de soupe miso avec du tofu	Quantité de contenant + plat culturellement spécifique
4	Spaghetti bolognaise avec parmesan	Nom de plat composé + garniture
5	Une grande salade grecque avec feta et vinaigrette à l'huile d'olive	Modificateur de taille + ingrédients multiples
6	200 grammes de riz blanc avec saumon grillé	Quantité métrique exacte + deux éléments
7	Une poignée d'amandes et une banane	Quantité vague + conjonction
8	Wrap de shawarma au poulet avec sauce tahini	Spécifique à la culture + élément composé
9	Deux tranches de pain complet avec beurre de cacahuète	Quantité + noms d'aliments à plusieurs mots
10	Café noir et muffin aux myrtilles	Modificateur (noir) + nom d'aliment composé

Les 10 Langues

Les langues ont été choisies pour couvrir diverses familles linguistiques, systèmes d'écriture et caractéristiques phonologiques :

Anglais — Germanique, alphabet latin, référence de base
Espagnol — Roman, alphabet latin, noms genrés
Mandarin — Sino-tibétain, écriture logographique, tonal (4 tons)
Allemand — Germanique, alphabet latin, mots composés, cas grammaticaux
Turc — Turkique, alphabet latin, morphologie agglutinative
Français — Roman, alphabet latin, liaison et élision dans la parole
Japonais — Japonique, écriture mixte (kanji/hiragana/katakana), niveaux de discours honorifiques
Coréen — Coréen, écriture Hangul, ordre sujet-objet-verbe
Portugais — Roman, alphabet latin, voyelles nasales
Arabe — Sémitique, écriture arabe (de droite à gauche), morphologie basée sur les racines, diglossie

Résultats Complets : Précision d'Identification des Aliments par Langue et Repas

Le tableau ci-dessous montre si l'IA a correctement identifié l'élément alimentaire principal pour chaque repas dans chaque langue. Une coche indique une identification correcte ; un X indique un échec ou une identification significative erronée.

Repas	EN	ES	ZH	DE	TR	FR	JA	KO	PT	AR
1. Œufs brouillés + cheddar	10/10	10/10	9/10	10/10	9/10	10/10	9/10	9/10	10/10	9/10
2. Poitrine de poulet + brocoli	10/10	10/10	9/10	10/10	10/10	10/10	10/10	9/10	10/10	9/10
3. Soupe miso + tofu	10/10	9/10	10/10	9/10	8/10	9/10	10/10	10/10	9/10	8/10
4. Spaghetti bolognaise	10/10	10/10	9/10	10/10	9/10	10/10	9/10	9/10	10/10	8/10
5. Salade grecque + feta	9/10	9/10	8/10	9/10	8/10	9/10	8/10	8/10	9/10	7/10
6. 200g de riz + saumon	10/10	10/10	10/10	10/10	9/10	10/10	10/10	10/10	10/10	9/10
7. Poignée d'amandes + banane	9/10	9/10	8/10	9/10	8/10	9/10	8/10	8/10	9/10	8/10
8. Wrap de shawarma au poulet	10/10	9/10	7/10	8/10	9/10	9/10	7/10	7/10	9/10	10/10
9. Pain + beurre de cacahuète	10/10	10/10	9/10	10/10	9/10	10/10	9/10	9/10	10/10	9/10
10. Café noir + muffin	9/10	9/10	8/10	9/10	8/10	9/10	8/10	8/10	9/10	8/10
Total (/100)	97	95	87	94	87	95	88	87	96	85

Précision de l'Interprétation des Quantités par Langue

L'interprétation des quantités mesure si l'IA a correctement interprété les montants numériques, les quantités vagues ("une poignée", "un bol") et les mesures métriques. Cela est testé séparément car un système peut identifier correctement l'aliment mais attribuer la mauvaise taille de portion.

Langue	Quantité Numérique Exacte (ex. "200g", "deux")	Quantité Vague (ex. "une poignée")	Portion par Défaut (pas de quantité indiquée)	Précision Globale des Quantités
Anglais	98%	89%	94%	94%
Espagnol	97%	87%	93%	92%
Portugais	97%	86%	93%	92%
Français	96%	85%	92%	91%
Allemand	96%	84%	91%	90%
Japonais	93%	80%	90%	88%
Coréen	92%	79%	89%	87%
Turc	91%	78%	88%	86%
Mandarin	90%	76%	88%	85%
Arabe	89%	74%	87%	83%

Les quantités numériques exactes sont bien interprétées dans toutes les langues car les chiffres suivent des modèles relativement prévisibles. Les quantités vagues présentent le plus grand défi, notamment dans les langues où l'équivalent de "une poignée" ou "un bol" utilise des expressions idiomatiques sans traduction directe en anglais.

Défis Spécifiques aux Langues et Comment le Pipeline NLP les Gère

Mandarin : Distinctions Tonales et Classificateurs

Le mandarin présente deux défis majeurs pour l'enregistrement vocal des aliments.

Ambiguïté tonale dans l'ASR : Le mandarin a quatre tons plus un ton neutre, et de nombreux mots liés à la nourriture diffèrent uniquement par le ton. Par exemple, "tang" avec un ton montant (deuxième ton) signifie soupe, tandis que "tang" avec un ton descendant (quatrième ton) signifie sucre. Les modèles ASR doivent correctement identifier le ton à partir de l'onde audio, ce qui est plus difficile dans des environnements bruyants ou avec un discours rapide.

Classificateurs : Le chinois utilise des mots de mesure spécifiques (量词) entre les nombres et les noms. La phrase pour "deux œufs" est "两个鸡蛋" (liǎng gè jīdàn), où "个" est le mot de mesure. Différents aliments nécessitent différents mots de mesure — "片" (piàn) pour les tranches, "碗" (wǎn) pour les bols, "杯" (bēi) pour les tasses. Le modèle NER doit reconnaître ces classificateurs comme des indicateurs de quantité plutôt que des modificateurs alimentaires.

Malgré ces défis, l'enregistrement vocal en mandarin a atteint une précision de 87 % pour l'identification des aliments, car les modèles ASR utilisés dans les systèmes modernes (y compris Whisper multilingue) sont formés sur d'importantes données de discours en mandarin, et le vocabulaire alimentaire chinois est bien représenté dans les corpus d'entraînement.

Allemand : Mots Composés et Cas Grammatical

L'allemand crée des noms composés en joignant des mots sans espaces. "Vollkornbrot" (pain complet) est un mot unique composé de "Voll" (complet) + "korn" (grain) + "Brot" (pain). Le modèle NER doit décomposer ces composés pour les mapper correctement.

Les mots alimentaires composés courants en allemand incluent :

Composé Allemand	Composants	Équivalent Anglais
Erdnussbutter	Erdnuss + Butter	Beurre de cacahuète
Hühnerbrust	Hühner + Brust	Poitrine de poulet
Vollkornbrot	Voll + Korn + Brot	Pain complet
Rühreier	Rühr + Eier	Œufs brouillés
Olivenöl	Oliven + Öl	Huile d'olive
Blaubeermuffin	Blaubeer + Muffin	Muffin aux myrtilles

Les cas grammaticaux de l'allemand affectent également les noms alimentaires en fonction de leur rôle dans la phrase. "Ich hatte zwei Scheiben Brot mit Erdnussbutter" utilise le cas accusatif, qui ne change pas ces noms particuliers mais peut altérer les articles et adjectifs qui les accompagnent. Les modèles NER modernes basés sur des transformateurs gèrent bien les inflexions de cas car le modèle apprend des schémas contextuels plutôt que de s'appuyer sur une correspondance exacte des chaînes.

Turc : Morphologie Agglutinative

Le turc attache des suffixes aux racines pour transmettre le sens, créant de longs mots uniques qui codent des informations généralement réparties sur plusieurs mots en anglais. "Yumurtalarımdan" signifie "de mes œufs" — un mot unique contenant la racine (yumurta = œuf), le suffixe pluriel (-lar), le suffixe possessif (-ım) et le suffixe de cas ablatif (-dan).

Pour le NER alimentaire, le défi consiste à identifier le mot racine alimentaire au sein d'une forme fortement suffixée. La tokenisation par sous-mots — la technique utilisée par BERT et des modèles similaires pour décomposer les mots en fragments significatifs — est essentielle ici. Les modèles spécifiques au turc comme BERTurk utilisent un vocabulaire qui inclut des suffixes turcs courants en tant que tokens séparés, permettant au modèle de reconnaître "yumurta" comme une entité alimentaire même lorsqu'elle apparaît dans une forme agglutinée plus longue.

La précision de l'enregistrement vocal en turc de 87 % reflète cette complexité morphologique, la plupart des erreurs se produisant sur des plats moins courants où la forme agglutinée n'était pas bien représentée dans les données d'entraînement.

Arabe : Morphologie Basée sur les Racines et Diglossie

L'arabe présente des défis uniques à la fois aux étapes ASR et NER.

Morphologie basée sur les racines : Les mots arabes sont construits à partir de racines de trois lettres avec des schémas vocaliques et des préfixes/suffixes. La racine ط-ب-خ (t-b-kh, liée à la cuisine) génère "طبخ" (tabakh, cuisson), "مطبخ" (matbakh, cuisine), "طباخ" (tabbakh, cuisinier) et "مطبوخ" (matbookh, cuit). Les modèles NER doivent reconnaître que ces formes liées se rapportent toutes à la préparation alimentaire.

Diglossie : Il existe une différence significative entre l'arabe standard moderne (ASM) et les divers dialectes parlés. Un utilisateur en Égypte pourrait dire "فراخ مشوية" (firakh mashwiya) pour poulet grillé, tandis qu'un utilisateur au Levant dirait "دجاج مشوي" (dajaj mashwi). Les modèles ASR et NER doivent gérer à la fois l'ASM et les principales variantes dialectales.

Écriture non-latine : L'arabe s'écrit de droite à gauche avec des lettres connectées, et les voyelles courtes sont généralement omises à l'écrit. Bien que cela n'affecte pas directement l'enregistrement vocal (qui part de l'audio), les données d'entraînement du modèle NER doivent gérer correctement les représentations textuelles arabes.

L'arabe a atteint une précision de 85 % dans notre test — la plus basse parmi les 10 langues — principalement en raison de la variation dialectale. Lorsque les locuteurs utilisent l'ASM, la précision monte à 91 %, suggérant que l'ajustement spécifique aux dialectes est la clé d'une amélioration supplémentaire.

Japonais : Scripts Multiples et Compteurs

Le japonais utilise trois systèmes d'écriture (kanji, hiragana, katakana) et possède un système complexe de compteurs numériques similaire aux mots de mesure chinois. Le discours lié à la nourriture mélange souvent des termes alimentaires japonais et des mots empruntés à l'anglais écrits en katakana — "ブルーベリーマフィン" (buruberii mafin) est la transcription en katakana de "muffin aux myrtilles".

Le défi ASR en japonais est le code-switching : les locuteurs mélangent naturellement les termes alimentaires japonais avec des mots d'origine anglaise. Une phrase pourrait être "スクランブルエッグ二つとトースト" (sukuranburu eggu futatsu to toosuto), mélangeant "œufs brouillés" et "toast" d'origine anglaise avec la grammaire japonaise et le compteur natif "二つ" (futatsu, deux éléments).

Les ASR multilingues modernes gèrent cela bien car les données d'entraînement incluent des discours japonais code-switchés. Le japonais a atteint une précision de 88 % pour l'identification des aliments, les erreurs se concentrant sur des plats japonais traditionnels décrits à l'aide de termes de dialecte régional plutôt qu'en japonais standard.

Français : Liaison, Élision et Noms Alimentaires Genrés

La parole française présente des caractéristiques de liaison (sons liés entre les mots) et d'élision (suppression de voyelles devant d'autres voyelles), ce qui peut rendre les frontières des mots peu claires dans l'audio. "Les œufs" se prononce comme un son connecté où "les" se lie directement à "œufs", ce qui peut compliquer la détection des frontières des mots.

Les noms alimentaires français sont genrés : "le poulet" (masculin, poulet) contre "la salade" (féminin, salade). Bien que le genre ne change pas l'identification des aliments, il affecte les articles et adjectifs environnants, que le modèle NER utilise comme indices contextuels. Une mauvaise identification des marqueurs de genre peut entraîner des erreurs d'extraction d'entités.

Néanmoins, le français a atteint une précision de 95 % — parmi les plus élevées pour les langues non anglaises — car le français dispose de données d'entraînement ASR étendues et la cuisine française est bien représentée dans les bases de données alimentaires mondiales.

Coréen : Ordre Sujet-Objet-Verbe et Honorifiques

Le coréen place le verbe à la fin de la phrase, ce qui signifie que les éléments alimentaires apparaissent plus tôt dans l'énoncé. "스크램블 에그 두 개와 토스트를 먹었어요" (scrambled eggs two pieces and toast ate) suit l'ordre SOV. Les modèles NER formés principalement sur des langues SVO (comme l'anglais) doivent s'adapter à cet ordre différent.

Le coréen utilise également différents niveaux de discours (formel, poli, décontracté) qui changent les terminaisons verbales et peuvent ajouter des particules tout au long de la phrase. Ces morphemes supplémentaires augmentent la distance entre l'entité alimentaire et son marqueur de quantité, nécessitant que le modèle NER gère des dépendances à plus longue portée.

Le coréen a atteint une précision de 87 %, comparable à celle du chinois et du turc, avec l'interprétation des quantités étant le point le plus faible en raison du système complexe de compteurs et des niveaux de discours variables.

Langues Classées par Précision Globale de l'Enregistrement Vocal

En combinant l'identification des aliments, l'interprétation des quantités et la correspondance avec la base de données en un score global pondéré, nous obtenons le classement suivant :

Rang	Langue	ID Aliment	Précision des Quantités	Correspondance DB	Score Global
1	Anglais	97%	94%	96%	95.7%
2	Portugais	96%	92%	95%	94.3%
3	Espagnol	95%	92%	94%	93.7%
4	Français	95%	91%	93%	93.0%
5	Allemand	94%	90%	92%	92.0%
6	Japonais	88%	88%	90%	88.7%
7	Coréen	87%	87%	88%	87.3%
8	Turc	87%	86%	87%	86.7%
9	Mandarin	87%	85%	86%	86.0%
10	Arabe	85%	83%	84%	84.0%

L'écart entre la langue la plus performante (anglais, 95,7 %) et la moins performante (arabe, 84,0 %) est de 11,7 points de pourcentage. Cela est significatif mais se resserre. En 2023, l'écart équivalent dans les benchmarks ASR multilingues était plus proche de 20 points de pourcentage, reflétant des améliorations rapides dans les modèles de discours non anglais.

Pourquoi Certaines Langues Ont de Meilleurs Scores que D'autres

Trois facteurs expliquent la plupart des variations de précision :

1. Volume de Données d'Entraînement

La performance des modèles ASR et NER est directement corrélée au volume de données d'entraînement disponibles pour chaque langue. L'anglais dispose de plusieurs ordres de grandeur de données de discours étiquetées par rapport à l'arabe ou au coréen. Le jeu de données Common Voice (Mozilla, 2024) contient plus de 19 000 heures validées pour l'anglais mais moins de 300 heures pour le coréen et moins de 100 heures pour l'arabe.

2. Couverture de la Base de Données Alimentaire

Les langues parlées dans des régions disposant de bases de données de composition alimentaire bien documentées (USDA pour l'anglais, BLS pour l'allemand, CIQUAL pour le français) obtiennent des scores de correspondance avec la base de données plus élevés. Les langues où les données de composition alimentaire sont moins standardisées ou moins numérisées rencontrent davantage d'échecs de correspondance.

3. Complexité Linguistique pour le NLP

Les langues agglutinatives (turc, coréen), les langues tonales (chinois) et les langues avec une morphologie complexe (arabe) nécessitent des pipelines NLP plus sophistiqués. Les étapes de traitement supplémentaires introduisent plus d'opportunités pour l'accumulation d'erreurs.

Comment Nutrola Gère l'Enregistrement Vocal Multilingue

Le pipeline d'enregistrement vocal de Nutrola aborde les défis multilingues grâce à plusieurs décisions architecturales :

Modèles ASR spécifiques à la langue : Plutôt que d'utiliser un seul modèle multilingue, le pipeline achemine l'audio vers des modèles spécifiques à la langue, améliorant la précision de 3 à 5 points de pourcentage par rapport à un ASR multilingue générique.
Désambiguïsation consciente de la localisation : La désambiguïsation des entités alimentaires utilise la localisation de l'utilisateur pour résoudre les noms d'aliments spécifiques à la région. "Chips" se résout différemment pour les utilisateurs à Londres, New York et Sydney.
Base de données alimentaire cross-linguale : La base de données nutritionnelle vérifiée mappe les entrées alimentaires à travers les langues, de sorte que "poulet grillé" (français), "pollo a la plancha" (espagnol) et "grilled chicken" (anglais) se résolvent tous au même profil nutritionnel vérifié.
Fallback à l'entrée texte : Lorsque la confiance vocale tombe en dessous du seuil dans n'importe quelle langue, les utilisateurs peuvent passer sans problème à la recherche textuelle ou au scan de code-barres — le scanner de code-barres de Nutrola couvre plus de 95 % des produits emballés dans le monde.

Associées à l'enregistrement photo par IA et à l'Assistant Diététique IA, ces capacités vocales multilingues font de Nutrola un tracker nutritionnel pratique au quotidien pour les utilisateurs du monde entier. Toutes les fonctionnalités — y compris l'enregistrement vocal dans toutes les langues prises en charge — sont disponibles à partir de 2,50 euros par mois avec un essai gratuit de 3 jours, sans aucune publicité sur aucun niveau.

L'Avenir : Enregistrement Vocal Multilingue en 2026 et au-delà

Plusieurs développements améliorent l'enregistrement vocal alimentaire multilingue :

Ajustement spécifique aux dialectes : De nouveaux ensembles de données ciblant les dialectes parlés (arabe égyptien, portugais brésilien, cantonais) réduisent l'écart de précision entre le discours standard et le discours colloquial.
Entrées multimodales : Combiner la voix avec des photos permet à l'IA de valider croisée — si la photo montre du riz et que la voix dit "arroz" (espagnol pour riz), la confiance augmente pour les deux modalités.
Apprentissage auto-supervisé : Les modèles formés sur de l'audio multilingue non étiqueté (wav2vec 2.0, HuBERT) apprennent des représentations de la parole sans nécessiter de données transcrites, permettant une amélioration plus rapide pour les langues à faibles ressources.
Boucles de rétroaction utilisateur : Chaque correction qu'un utilisateur effectue ("cela devrait être du riz brun, pas du riz blanc") devient un signal d'entraînement pour améliorer le modèle dans cette langue.

Questions Fréquemment Posées

Dans quelles langues l'enregistrement vocal alimentaire IA fonctionne-t-il le mieux ?

L'anglais, l'espagnol, le portugais et le français atteignent la plus haute précision pour l'enregistrement vocal des aliments, tous dépassant 93 % au total. Ces langues bénéficient d'un vaste ensemble de données d'entraînement ASR, de bases de données alimentaires bien documentées et d'une morphologie relativement simple pour le traitement NLP. L'allemand se classe cinquième avec 92 % au total.

Puis-je enregistrer des repas en mandarin chinois avec précision ?

L'enregistrement vocal en mandarin chinois atteint environ 86 % de précision globale. Les principaux défis sont les distinctions tonales dans l'ASR (où des mots comme "tang" signifient différentes choses selon le ton) et le système de mots de mesure pour les quantités. Pour les aliments courants avec une prononciation claire, la précision est considérablement plus élevée. Utiliser des quantités numériques exactes (comme "200克," 200 grammes) plutôt que des descriptions vagues améliore considérablement les résultats.

Comment l'IA gère-t-elle les noms d'aliments qui ne se traduisent pas d'une langue à l'autre ?

Les aliments culturellement spécifiques comme "shawarma", "miso" et "tzatziki" sont gérés grâce à des bases de données d'entités alimentaires cross-linguales qui mappent directement les noms d'aliments dans la langue maternelle aux profils nutritionnels. Lorsqu'un locuteur turc dit "tavuk shawarma" ou qu'un locuteur japonais dit "味噌汁" (soupe miso), le modèle NER reconnaît ces termes comme des entités alimentaires dans leurs langues respectives et les associe aux entrées appropriées de la base de données, peu importe si un équivalent anglais existe.

Pourquoi l'enregistrement vocal en arabe est-il moins précis que dans d'autres langues ?

L'enregistrement vocal en arabe obtient un score de 84 %, principalement en raison de trois facteurs : (1) diglossie — la différence significative entre l'arabe standard moderne et les dialectes parlés signifie que le modèle doit gérer de nombreuses variantes de prononciation ; (2) données d'entraînement étiquetées limitées par rapport aux langues européennes ; et (3) morphologie basée sur les racines qui crée de nombreuses formes superficielles pour chaque concept alimentaire. Lorsque les locuteurs utilisent l'ASM, la précision monte à environ 91 %.

La précision de l'enregistrement vocal s'améliore-t-elle au fil du temps pour ma langue spécifique ?

Oui. Les systèmes d'enregistrement vocal s'améliorent par deux mécanismes : des mises à jour globales du modèle formées sur des données utilisateur agrégées à travers tous les utilisateurs d'une langue donnée, et une adaptation personnalisée qui apprend vos modèles de prononciation spécifiques, les aliments fréquemment enregistrés et les noms d'aliments préférés. Après deux à trois semaines d'utilisation régulière, le système montre généralement une amélioration mesurable de la précision de reconnaissance pour vos repas courants.

Puis-je mélanger les langues lors de l'enregistrement vocal, comme décrire un repas en espagnol avec quelques termes anglais ?

Le code-switching — mélange de deux langues dans une seule énoncé — est courant dans les foyers multilingues et est de plus en plus pris en charge par les modèles ASR modernes. Dire "Tuve un bowl de quinoa con grilled chicken" (mélangeant espagnol et anglais) sera généralement analysé correctement par des modèles transformateurs multilingues formés sur des données code-switchées. Cependant, la précision est d'environ 5 à 8 points de pourcentage inférieure à celle des énoncés dans une seule langue, donc rester dans une seule langue produit les meilleurs résultats.

Comment obtenir les résultats d'enregistrement vocal les plus précis dans une langue non anglaise ?

Quatre pratiques améliorent la précision : (1) parler à un rythme modéré avec une prononciation claire ; (2) utiliser des quantités exactes lorsque cela est possible ("200 grammes" plutôt que "un peu") ; (3) utiliser des noms d'aliments standard plutôt que des argots régionaux ou des abréviations ; et (4) faire des corrections lorsque l'IA se trompe, car ce retour d'information améliore directement la reconnaissance future. Nutrola prend également en charge le passage à l'enregistrement photo ou au scan de code-barres pour les éléments difficiles à décrire verbalement.

Nutrola prend-elle en charge l'enregistrement vocal dans les 10 langues testées ?

Nutrola prend en charge l'enregistrement vocal dans plusieurs langues avec le pipeline NLP complet décrit dans cet article. L'application détecte automatiquement la langue de l'appareil de l'utilisateur et achemine l'entrée vocale vers les modèles spécifiques à la langue appropriés. La synchronisation avec Apple Health et Google Fit fonctionne quelle que soit la langue utilisée pour l'enregistrement, garantissant que vos données nutritionnelles s'intègrent parfaitement à votre écosystème de santé.

Prêt à transformer votre suivi nutritionnel ?

Rejoignez des milliers de personnes qui ont transformé leur parcours santé avec Nutrola !

Download on theApp Store

GET IT ONGoogle Play