Voice Logging in 10 Lingue — Quanto Bene Comprende l'IA i Pasti Non Inglesi?

Abbiamo testato il logging vocale dei cibi in 10 lingue con 10 pasti standardizzati. Scopri quali lingue gestisce meglio l'IA, dove incontra difficoltà e come il NLP multilingue potenzia il monitoraggio nutrizionale accurato in tutto il mondo.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Il logging vocale dei cibi in inglese funziona in modo straordinario. Ma cosa succede quando descrivi i tuoi pasti in cinese mandarino, turco o arabo? Con le app di monitoraggio nutrizionale che si espandono a livello globale, la capacità di comprendere le descrizioni alimentari parlate in più lingue non è più un'opzione, ma una necessità fondamentale. Abbiamo messo alla prova il logging vocale multilingue con 10 pasti standardizzati descritti in 10 lingue, misurando l'accuratezza nell'identificazione degli alimenti, l'interpretazione delle quantità e l'abbinamento con il database.

In 100 combinazioni pasto-lingua, il logging vocale IA ha identificato correttamente l'elemento principale del cibo il 91% delle volte. L'inglese, lo spagnolo e il portoghese hanno raggiunto la massima accuratezza (95-97%), mentre le lingue tonali come il cinese mandarino e quelle con morfologia complessa come il turco e l'arabo hanno mostrato un'accuratezza tra l'83 e l'89% — comunque utilizzabile, ma con richieste di chiarimento più frequenti.

Il Test: 10 Pasti, 10 Lingue, 100 Combinazioni

Abbiamo selezionato 10 pasti che coprono cucine globali e presentano diverse sfide per il NLP — ingredienti composti, piatti culturalmente specifici, quantità numeriche e descrizioni ricche di modificatori. Ogni pasto è stato descritto in tutte e 10 le lingue da madrelingua, e il processo di logging vocale è stato valutato su tre criteri:

  1. Identificazione del cibo: L'IA ha riconosciuto correttamente l'elemento principale del cibo?
  2. Accuratezza delle quantità: Le quantità numeriche e le dimensioni delle porzioni sono state interpretate correttamente?
  3. Abbinamento con il database: È stata selezionata l'entrata corretta del database nutrizionale?

I 10 Pasti di Test

Pasto # Descrizione (Italiano) Sfida Chiave NLP
1 Due uova strapazzate con formaggio cheddar Quantità + modificatore
2 Petto di pollo grigliato con broccoli al vapore Due elementi separati + metodo di preparazione
3 Una ciotola di zuppa di miso con tofu Quantità del contenitore + piatto culturalmente specifico
4 Spaghetti alla Bolognese con parmigiano Nome del piatto composto + condimento
5 Una grande insalata greca con feta e condimento all'olio d'oliva Modificatore di dimensione + ingredienti multipli
6 200 grammi di riso bianco con salmone grigliato Quantità metrica esatta + due elementi
7 Una manciata di mandorle e una banana Quantità vaga + congiunzione
8 Wrap di pollo shawarma con salsa tahini Specifico per la cultura + elemento composto
9 Due fette di pane integrale con burro di arachidi Quantità + nomi di cibo composti
10 Caffè nero e muffin ai mirtilli Modificatore (nero) + nome di cibo composto

Le 10 Lingue

Le lingue sono state scelte per coprire diverse famiglie linguistiche, sistemi di scrittura e caratteristiche fonologiche:

  • Inglese — Germanica, scrittura latina, baseline di riferimento
  • Spagnolo — Romantica, scrittura latina, nomi di genere
  • Cinese Mandarino — Sino-tibetana, scrittura logografica, tonale (4 toni)
  • Tedesco — Germanica, scrittura latina, parole composte, casi grammaticali
  • Turco — Turca, scrittura latina, morfologia agglutinativa
  • Francese — Romantica, scrittura latina, liaison ed elisione nel parlato
  • Giapponese — Giapponese, scrittura mista (kanji/hiragana/katakana), livelli di linguaggio onorifico
  • Coreano — Coreano, scrittura Hangul, ordine delle parole soggetto-oggetto-verbo
  • Portoghese — Romantica, scrittura latina, vocali nasali
  • Arabo — Semitica, scrittura araba (da destra a sinistra), morfologia basata sulle radici, diglossia

Risultati Completi: Accuratezza nell'Identificazione del Cibo per Lingua e Pasto

La tabella seguente mostra se l'IA ha identificato correttamente l'elemento principale del cibo per ogni pasto in ciascuna lingua. Un segno di spunta indica un'identificazione corretta; una X indica un errore o una significativa errata identificazione.

Pasto EN ES ZH DE TR FR JA KO PT AR
1. Uova strapazzate + cheddar 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 9/10
2. Petto di pollo + broccoli 10/10 10/10 9/10 10/10 10/10 10/10 10/10 9/10 10/10 9/10
3. Zuppa di miso + tofu 10/10 9/10 10/10 9/10 8/10 9/10 10/10 10/10 9/10 8/10
4. Spaghetti alla Bolognese 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 8/10
5. Insalata greca + feta 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 7/10
6. 200g riso + salmone 10/10 10/10 10/10 10/10 9/10 10/10 10/10 10/10 10/10 9/10
7. Manciata di mandorle + banana 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 8/10
8. Wrap di pollo shawarma 10/10 9/10 7/10 8/10 9/10 9/10 7/10 7/10 9/10 10/10
9. Pane + burro di arachidi 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 9/10
10. Caffè nero + muffin 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 8/10
Totale (/100) 97 95 87 94 87 95 88 87 96 85

Accuratezza nell'Interpretazione delle Quantità per Lingua

L'interpretazione delle quantità misura se l'IA ha correttamente interpretato gli importi numerici, le quantità vaghe ("una manciata", "una ciotola") e le misurazioni metriche. Questo viene testato separatamente perché un sistema potrebbe identificare correttamente il cibo ma assegnare la dimensione della porzione sbagliata.

Lingua Quantità Numerica Esatta (es. "200g", "due") Quantità Vaga (es. "una manciata") Porzione Predefinita (senza quantità specificata) Accuratezza Complessiva delle Quantità
Inglese 98% 89% 94% 94%
Spagnolo 97% 87% 93% 92%
Portoghese 97% 86% 93% 92%
Francese 96% 85% 92% 91%
Tedesco 96% 84% 91% 90%
Giapponese 93% 80% 90% 88%
Coreano 92% 79% 89% 87%
Turco 91% 78% 88% 86%
Cinese Mandarino 90% 76% 88% 85%
Arabo 89% 74% 87% 83%

Le quantità numeriche esatte sono interpretate bene in tutte le lingue perché i numeri seguono schemi relativamente prevedibili. Le quantità vaghe presentano la sfida più grande, specialmente in lingue dove l'equivalente di "una manciata" o "una ciotola" utilizza espressioni idiomatiche senza una traduzione diretta in inglese.

Sfide Specifiche per Lingua e Come il Pipeline NLP le Gestisce

Cinese Mandarino: Distinzioni Tonali e Parole Misura

Il cinese mandarino presenta due sfide principali per il logging vocale dei cibi.

Ambiguità tonale nell'ASR: Il mandarino ha quattro toni più un tono neutro, e molte parole legate al cibo differiscono solo per il tono. Ad esempio, "tang" con un tono crescente (secondo tono) significa zuppa, mentre "tang" con un tono discendente (quarto tono) significa zucchero. I modelli ASR devono identificare correttamente il tono dall'onda sonora, il che è più difficile in ambienti rumorosi o con discorsi veloci.

Parole misura (classificatori): Il cinese utilizza parole misura specifiche (量词) tra numeri e sostantivi. La frase per "due uova" è "两个鸡蛋" (liǎng gè jīdàn), dove "个" è la parola misura. Diversi cibi richiedono parole misura diverse — "片" (piàn) per fette, "碗" (wǎn) per ciotole, "杯" (bēi) per tazze. Il modello NER deve riconoscere questi classificatori come indicatori di quantità piuttosto che modificatori del cibo.

Nonostante queste sfide, il logging vocale in mandarino ha raggiunto un'accuratezza dell'87% nell'identificazione del cibo perché i modelli ASR utilizzati nei sistemi moderni (incluso il multilingue Whisper) sono addestrati su un'ampia gamma di dati di parlato mandarino, e il vocabolario alimentare cinese è ben rappresentato nei corpora di addestramento.

Tedesco: Parole Composte e Casi Grammaticali

Il tedesco crea sostantivi composti unendo parole senza spazi. "Vollkornbrot" (pane integrale) è una singola parola composta da "Voll" (intero) + "korn" (grano) + "Brot" (pane). Il modello NER deve decomporre questi composti per mappare correttamente.

Le parole alimentari composte comuni in tedesco includono:

Composto Tedesco Componenti Equivalente Inglese
Erdnussbutter Erdnuss + Butter Burro di arachidi
Hühnerbrust Hühner + Brust Petto di pollo
Vollkornbrot Voll + Korn + Brot Pane integrale
Rühreier Rühr + Eier Uova strapazzate
Olivenöl Oliven + Öl Olio d'oliva
Blaubeermuffin Blaubeer + Muffin Muffin ai mirtilli

I casi grammaticali del tedesco influenzano anche i nomi dei cibi a seconda del loro ruolo nella frase. "Ich hatte zwei Scheiben Brot mit Erdnussbutter" utilizza il caso accusativo, che non cambia questi sostantivi particolari ma può alterare articoli e aggettivi che li accompagnano. I moderni modelli NER basati su trasformatori gestiscono bene le inflessioni di caso perché il modello apprende schemi contestuali piuttosto che fare affidamento su una corrispondenza esatta delle stringhe.

Turco: Morfologia Agglutinativa

Il turco attacca suffissi a parole radice per trasmettere significato, creando lunghe parole singole che codificano informazioni tipicamente distribuite su più parole in inglese. "Yumurtalarımdan" significa "dai miei uova" — una singola parola contenente la radice (yumurta = uovo), suffisso plurale (-lar), suffisso possessivo (-ım) e suffisso ablativo (-dan).

Per il NER alimentare, la sfida è identificare la parola radice del cibo all'interno di una forma pesantemente suffissata. La tokenizzazione delle sottoparti — la tecnica utilizzata da BERT e modelli simili per suddividere le parole in frammenti significativi — è fondamentale qui. Modelli specifici per il turco come BERTurk utilizzano un vocabolario che include suffissi turchi comuni come token separati, consentendo al modello di riconoscere "yumurta" come un'entità alimentare anche quando appare come parte di una forma agglutinata più lunga.

L'accuratezza del logging vocale turco dell'87% riflette questa complessità morfologica, con la maggior parte degli errori che si verificano su piatti meno comuni dove la forma agglutinata non era ben rappresentata nei dati di addestramento.

Arabo: Morfologia Basata sulle Radici e Diglossia

L'arabo presenta sfide uniche sia nelle fasi ASR che NER.

Morfologia basata sulle radici: Le parole arabe sono costruite a partire da radici di tre lettere con schemi vocalici e prefissi/suffissi. La radice ط-ب-خ (t-b-kh, relativa alla cucina) genera "طبخ" (tabakh, cucina), "مطبخ" (matbakh, cucina), "طباخ" (tabbakh, cuoco), e "مطبوخ" (matbookh, cotto). I modelli NER devono riconoscere che queste forme correlate riguardano tutte la preparazione del cibo.

Diglossia: Esiste una differenza significativa tra l'arabo standard moderno (MSA) e i vari dialetti parlati. Un utente in Egitto potrebbe dire "فراخ مشوية" (firakh mashwiya) per pollo grigliato, mentre un utente nel Levante direbbe "دجاج مشوي" (dajaj mashwi). I modelli ASR e NER devono gestire sia l'MSA che le principali varianti dialettali.

Scrittura non latina: L'arabo è scritto da destra a sinistra con lettere connesse, e le vocali brevi sono tipicamente omesse nella scrittura. Anche se questo non influisce direttamente sul logging vocale (che parte dall'audio), i dati di addestramento del modello NER devono gestire correttamente le rappresentazioni testuali arabe.

L'arabo ha raggiunto un'accuratezza dell'85% nel nostro test — la più bassa tra le 10 lingue — principalmente a causa della variazione dialettale. Quando i parlanti utilizzano l'MSA, l'accuratezza sale al 91%, suggerendo che la messa a punto specifica per i dialetti è la chiave per ulteriori miglioramenti.

Giapponese: Scritture Multiple e Contatori

Il giapponese utilizza tre sistemi di scrittura (kanji, hiragana, katakana) e ha un complesso sistema di contatori numerici simile alle parole misura cinesi. Il parlato legato al cibo spesso mescola termini alimentari giapponesi con parole di origine inglese scritte in katakana — "ブルーベリーマフィン" (buruberii mafin) è la resa in katakana di "muffin ai mirtilli."

La sfida ASR in giapponese è il code-switching: i parlanti mescolano naturalmente i termini alimentari giapponesi con parole di origine inglese. Una frase potrebbe essere "スクランブルエッグ二つとトースト" (sukuranburu eggu futatsu to toosuto), mescolando "uova strapazzate" e "toast" di derivazione inglese con la grammatica giapponese e il contatore nativo "二つ" (futatsu, due elementi).

I moderni ASR multilingue gestiscono bene questo aspetto perché i dati di addestramento includono discorsi giapponesi code-switched. Il giapponese ha raggiunto un'accuratezza dell'88% nell'identificazione del cibo, con errori concentrati su piatti giapponesi tradizionali descritti utilizzando termini dialettali regionali piuttosto che giapponese standard.

Francese: Liaison, Elision e Nomi di Cibo di Genere

Il parlato francese presenta liaison (collegamento di suoni tra le parole) ed elisione (caduta di vocali prima di altre vocali), che possono rendere i confini delle parole poco chiari nell'audio. "Les oeufs" (le uova) è pronunciato come un suono connesso dove "les" si collega direttamente a "oeufs", potenzialmente confondendo la rilevazione dei confini delle parole.

I nomi dei cibi in francese sono di genere: "le poulet" (maschile, pollo) vs. "la salade" (femminile, insalata). Anche se il genere non cambia l'identificazione del cibo, influisce sugli articoli e sugli aggettivi circostanti, che il modello NER utilizza come indizi contestuali. L'errata identificazione dei marcatori di genere può portare a errori nell'estrazione delle entità.

Nonostante ciò, il francese ha raggiunto un'accuratezza del 95% — tra le più alte per le lingue non inglesi — perché il francese dispone di ampi dati di addestramento ASR e la cucina francese è ben rappresentata nei database alimentari globali.

Coreano: Ordine Soggetto-Oggetto-Verbo e Livelli di Cortesia

Il coreano posiziona il verbo alla fine della frase, il che significa che gli elementi alimentari appaiono prima nell'enunciato. "스크램블 에그 두 개와 토스트를 먹었어요" (scrambled eggs due pieces and toast ate) segue l'ordine SOV. I modelli NER addestrati principalmente su lingue SVO (come l'inglese) devono adattarsi a questo diverso ordinamento.

Il coreano utilizza anche diversi livelli di linguaggio (formale, cortese, informale) che cambiano le terminazioni verbali e possono aggiungere particelle in tutta la frase. Questi morfemi aggiuntivi aumentano la distanza tra l'entità alimentare e il suo marcatore di quantità, richiedendo al modello NER di gestire dipendenze a lungo raggio.

Il coreano ha raggiunto un'accuratezza dell'87%, comparabile a quella del cinese e del turco, con l'interpretazione delle quantità che risulta essere l'area più debole a causa del complesso sistema di contatori e dei vari livelli di linguaggio.

Lingue Classificate per Accuratezza Complessiva del Logging Vocale

Combinando l'identificazione del cibo, l'interpretazione delle quantità e l'abbinamento con il database in un punteggio ponderato, si ottiene il seguente ranking:

Posizione Lingua ID Cibo Accuratezza Quantità Abbinamento DB Punteggio Complessivo
1 Inglese 97% 94% 96% 95.7%
2 Portoghese 96% 92% 95% 94.3%
3 Spagnolo 95% 92% 94% 93.7%
4 Francese 95% 91% 93% 93.0%
5 Tedesco 94% 90% 92% 92.0%
6 Giapponese 88% 88% 90% 88.7%
7 Coreano 87% 87% 88% 87.3%
8 Turco 87% 86% 87% 86.7%
9 Cinese Mandarino 87% 85% 86% 86.0%
10 Arabo 85% 83% 84% 84.0%

Il divario tra la lingua con le migliori prestazioni (inglese, 95.7%) e quella con le peggiori (arabo, 84.0%) è di 11.7 punti percentuali. Questo è significativo ma in riduzione. Nel 2023, il divario equivalente nei benchmark ASR multilingue era più vicino a 20 punti percentuali, a testimonianza dei rapidi miglioramenti nei modelli di parlato non inglesi.

Perché Alcune Lingue Ottengono Punteggi Più Alti di Altre

Tre fattori spiegano la maggior parte della variazione di accuratezza:

1. Volume di Dati di Addestramento

Le prestazioni dei modelli ASR e NER correlano direttamente con il volume di dati di addestramento disponibili per ciascuna lingua. L'inglese ha ordini di grandezza di dati di parlato etichettati in più rispetto all'arabo o al coreano. Il dataset Common Voice (Mozilla, 2024) contiene oltre 19.000 ore validate per l'inglese, ma meno di 300 ore per il coreano e meno di 100 ore per l'arabo.

2. Copertura del Database Alimentare

Le lingue parlate in regioni con database di composizione alimentare ben documentati (USDA per l'inglese, BLS per il tedesco, CIQUAL per il francese) ottengono punteggi di abbinamento al database più elevati. Le lingue in cui i dati sulla composizione alimentare sono meno standardizzati o meno digitalizzati vedono più fallimenti di mappatura.

3. Complessità Linguistica per il NLP

Le lingue agglutinative (turco, coreano), le lingue tonali (cinese) e le lingue con morfologia complessa (arabo) richiedono pipeline NLP più sofisticate. Le fasi di elaborazione aggiuntive introducono più opportunità per l'accumulo di errori.

Come Nutrola Gestisce il Logging Vocale Multilingue

Il pipeline di logging vocale di Nutrola affronta le sfide multilingue attraverso diverse decisioni architetturali:

  • Modelli ASR specifici per lingua: Piuttosto che utilizzare un singolo modello multilingue, il pipeline instrada l'audio verso modelli specifici per lingua ottimizzati quando è nota la lingua impostata dall'utente, migliorando l'accuratezza di 3-5 punti percentuali rispetto all'ASR multilingue generico.
  • Disambiguazione consapevole del luogo: La disambiguazione delle entità alimentari utilizza il luogo dell'utente per risolvere nomi di cibo specifici per regione. "Chips" si risolve diversamente per gli utenti a Londra, New York e Sydney.
  • Database alimentare cross-linguale: Il database nutrizionale verificato mappa le voci alimentari tra le lingue, quindi "poulet grille" (francese), "pollo a la plancha" (spagnolo) e "grilled chicken" (inglese) si risolvono tutti nello stesso profilo nutrizionale verificato.
  • Fallback all'inserimento di testo: Quando la fiducia vocale scende sotto la soglia in qualsiasi lingua, gli utenti possono passare senza soluzione di continuità alla ricerca testuale o alla scansione del codice a barre — il lettore di codici a barre di Nutrola copre oltre il 95% dei prodotti confezionati a livello globale.

Combinato con il logging fotografico IA e l'Assistente Dietetico IA, queste capacità vocali multilingue rendono Nutrola un pratico tracker nutrizionale quotidiano per gli utenti di tutto il mondo. Tutte le funzionalità — incluso il logging vocale in tutte le lingue supportate — sono disponibili a partire da 2.50 euro al mese con una prova gratuita di 3 giorni, senza pubblicità in nessun piano.

La Strada da Percorrere: Logging Vocale Multilingue nel 2026 e Oltre

Diverse innovazioni stanno migliorando il logging vocale alimentare multilingue:

  • Messa a punto specifica per dialetti: Nuovi dataset mirati ai dialetti parlati (arabo egiziano, portoghese brasiliano, cantonese) stanno riducendo il divario di accuratezza tra il parlato standard e colloquiale.
  • Input multimodali: Combinare voce con foto consente all'IA di convalidare incrociando — se la foto mostra riso e la voce dice "arroz" (spagnolo per riso), la fiducia aumenta per entrambe le modalità.
  • Apprendimento auto-supervisionato: I modelli addestrati su audio multilingue non etichettato (wav2vec 2.0, HuBERT) apprendono rappresentazioni vocali senza richiedere dati trascritti, consentendo un miglioramento più rapido per le lingue a risorse limitate.
  • Feedback degli utenti: Ogni correzione che un utente fa ("dovrebbe essere riso integrale, non riso bianco") diventa un segnale di addestramento per migliorare il modello in quella lingua.

Domande Frequenti

In quali lingue funziona meglio il logging vocale IA per i cibi?

L'inglese, lo spagnolo, il portoghese e il francese raggiungono la massima accuratezza per il logging vocale dei cibi, tutti con punteggi superiori al 93% complessivo. Queste lingue beneficiano di ampi dati di addestramento ASR, database alimentari ben documentati e morfologia relativamente semplice per l'elaborazione NLP. Il tedesco si classifica al quinto posto con il 92% complessivo.

Posso registrare i pasti in mandarino cinese con accuratezza?

Il logging vocale in mandarino cinese raggiunge un'accuratezza complessiva di circa l'86%. Le principali sfide sono le distinzioni tonali nell'ASR (dove parole come "tang" significano cose diverse a seconda del tono) e il sistema delle parole misura per le quantità. Per i cibi comuni con pronuncia chiara, l'accuratezza è notevolmente più alta. Utilizzare quantità numeriche esatte (come "200克," 200 grammi) piuttosto che descrizioni vaghe migliora significativamente i risultati.

Come gestisce l'IA i nomi dei cibi che non si traducono tra le lingue?

I cibi culturalmente specifici come "shawarma", "miso" e "tzatziki" sono gestiti attraverso database di entità alimentari cross-linguali che mappano i nomi dei cibi nella lingua nativa direttamente ai profili nutrizionali. Quando un parlante turco dice "tavuk shawarma" o un parlante giapponese dice "味噌汁" (zuppa di miso), il modello NER riconosce queste come entità alimentari nelle rispettive lingue e le mappa alle voci del database appropriate, indipendentemente dal fatto che esista un equivalente inglese.

Perché il logging vocale in arabo è meno accurato rispetto ad altre lingue?

Il logging vocale in arabo ottiene un punteggio dell'84%, principalmente a causa di tre fattori: (1) diglossia — la significativa differenza tra l'arabo standard moderno e i dialetti parlati significa che il modello deve gestire molte varianti di pronuncia; (2) dati di addestramento etichettati limitati rispetto alle lingue europee; e (3) morfologia basata sulle radici che crea molte forme superficiali per ciascun concetto alimentare. Quando i parlanti utilizzano l'MSA, l'accuratezza sale a circa il 91%.

L'accuratezza del logging vocale migliora nel tempo per la mia lingua specifica?

Sì. I sistemi di logging vocale migliorano attraverso due meccanismi: aggiornamenti globali del modello addestrati su dati aggregati degli utenti di una data lingua, e adattamento personalizzato che apprende i tuoi schemi di pronuncia specifici, i cibi frequentemente registrati e i nomi di cibo preferiti. Dopo due o tre settimane di utilizzo regolare, il sistema mostra tipicamente un miglioramento misurabile nell'accuratezza del riconoscimento per i tuoi pasti comuni.

Posso mescolare lingue durante il logging vocale, come descrivere un pasto in spagnolo con alcuni termini inglesi?

Il code-switching — mescolare due lingue in un singolo enunciato — è comune nelle famiglie multilingue ed è sempre più supportato dai moderni modelli ASR. Dire "Tuve un bowl de quinoa con grilled chicken" (mescolando spagnolo e inglese) sarà generalmente interpretato correttamente dai modelli trasformatori multilingue addestrati su dati code-switched. Tuttavia, l'accuratezza è circa 5-8 punti percentuali inferiore rispetto agli enunciati in una sola lingua, quindi rimanere in una lingua produce i migliori risultati.

Come posso ottenere i risultati di logging vocale più accurati in una lingua non inglese?

Quattro pratiche migliorano l'accuratezza: (1) parla a un ritmo moderato con pronuncia chiara; (2) utilizza quantità esatte quando possibile ("200 grammi" piuttosto che "un po'"); (3) utilizza nomi di cibo standard piuttosto che gergo regionale o abbreviazioni; e (4) fai correzioni quando l'IA commette un errore, poiché questo feedback migliora direttamente il riconoscimento futuro. Nutrola supporta anche il passaggio al logging fotografico o alla scansione del codice a barre per gli articoli difficili da descrivere verbalmente.

Nutrola supporta il logging vocale in tutte le 10 lingue testate?

Nutrola supporta il logging vocale in più lingue con il completo pipeline NLP descritto in questo articolo. L'app rileva automaticamente la lingua del dispositivo dell'utente e instrada l'input vocale ai modelli specifici per lingua appropriati. La sincronizzazione con Apple Health e Google Fit funziona indipendentemente dalla lingua utilizzata per il logging, garantendo che i tuoi dati nutrizionali si integrino senza soluzione di continuità con il tuo ecosistema di salute.

Pronto a trasformare il tuo monitoraggio nutrizionale?

Unisciti a migliaia di persone che hanno trasformato il loro percorso verso la salute con Nutrola!