Голосове ведення харчування десятьма мовами — Наскільки добре ШІ розуміє страви неанглійською?

Ми протестували голосове ведення харчування десятьма мовами з десятьма стандартизованими стравами. Дізнайтеся, які мови найкраще сприймає ШІ, де він має труднощі та як багатомовна NLP забезпечує точний моніторинг харчування по всьому світу.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Голосове ведення харчування англійською мовою працює надзвичайно добре. Але що відбувається, коли ви описуєте свої страви мандаринською, турецькою чи арабською? Оскільки додатки для моніторингу харчування розширюються по всьому світу, здатність розуміти усні описи їжі різними мовами стає не просто бажаною функцією — це основна вимога. Ми протестували багатомовне голосове ведення харчування на 10 стандартизованих стравах, описаних десятьма мовами, вимірюючи точність ідентифікації їжі, розуміння кількості та відповідність базі даних.

У 100 комбінаціях страва-мова голосове ведення ШІ правильно ідентифікувало основний продукт 91% часу. Англійська, іспанська та португальська досягли найвищої точності (95-97%), тоді як тональні мови, такі як мандаринська, та мови з складною морфологією, такі як турецька та арабська, показали точність від 83 до 89% — все ще прийнятно, але з частішими запитами на уточнення.

Тест: 10 страв, 10 мов, 100 комбінацій

Ми обрали 10 страв, які охоплюють світові кухні та представляють різні виклики для NLP — складні інгредієнти, культурно специфічні страви, числові кількості та описи з безліччю модифікаторів. Кожну страву описали носії мов у всіх 10 мовах, а процес голосового ведення оцінили за трьома критеріями:

  1. Ідентифікація їжі: Чи правильно ШІ розпізнало основний продукт(и)?
  2. Точність кількості: Чи були числові кількості та розміри порцій правильно інтерпретовані?
  3. Відповідність базі даних: Чи була обрана правильна запис у базі даних харчування?

10 тестових страв

Номер страви Опис (англійською) Основний виклик NLP
1 Два яйця, смажені з чеддером Кількість + модифікатор
2 Грильована куряча грудинка з паровою брокколі Два окремі продукти + метод приготування
3 Чаша місо-супу з тофу Кількість контейнера + культурно специфічна страва
4 Спагетті Болоньєзе з пармезаном Складна назва страви + топінг
5 Великий грецький салат з фетою та олійною заправкою Модифікатор розміру + кілька інгредієнтів
6 200 грамів білого рису з грильованим лососем Точна метрична кількість + два продукти
7 Жменя мигдалю та банан Розмита кількість + сполучник
8 Обгортка з курячим шаурмою та тахіні Культурно специфічна + складний продукт
9 Два шматки цільнозернового хліба з арахісовим маслом Кількість + багатослівні назви їжі
10 Чорна кава та кекс з чорницею Модифікатор (чорний) + складна назва їжі

10 мов

Мови були обрані для охоплення різних мовних сімей, систем письма та фонологічних особливостей:

  • Англійська — германська, латинський алфавіт, базовий орієнтир
  • Іспанська — романська, латинський алфавіт, гендерні іменники
  • Мандаринська — сіно-тибетська, логографічний алфавіт, тональна (4 тони)
  • Німецька — германська, латинський алфавіт, складні слова, граматичні випадки
  • Турецька — тюркська, латинський алфавіт, агглютинативна морфологія
  • Французька — романська, латинський алфавіт, зв'язок та елізія в мовленні
  • Японська — японська, змішаний алфавіт (канжі/хірагана/катакана), рівні ввічливості
  • Корейська — корейська, алфавіт Хангуль, порядок слів суб'єкт-об'єкт-дієслово
  • Португальська — романська, латинський алфавіт, носові голосні
  • Арабська — семітська, арабський алфавіт (зправа наліво), коренева морфологія, диглосія

Повні результати: Точність ідентифікації їжі за мовою та стравою

Таблиця нижче показує, чи правильно ШІ ідентифікувало основний продукт(и) для кожної страви в кожній мові. Галочка вказує на правильну ідентифікацію; X вказує на невдачу або значну помилку в ідентифікації.

Страва EN ES ZH DE TR FR JA KO PT AR
1. Яйця, смажені з чеддером 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 9/10
2. Куряча грудинка + брокколі 10/10 10/10 9/10 10/10 10/10 10/10 10/10 9/10 10/10 9/10
3. Місо-суп + тофу 10/10 9/10 10/10 9/10 8/10 9/10 10/10 10/10 9/10 8/10
4. Спагетті Болоньєзе 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 8/10
5. Грецький салат + фета 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 7/10
6. 200 г рису + лосось 10/10 10/10 10/10 10/10 9/10 10/10 10/10 10/10 10/10 9/10
7. Жменя мигдалю + банан 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 8/10
8. Обгортка з курячим шаурмою 10/10 9/10 7/10 8/10 9/10 9/10 7/10 7/10 9/10 10/10
9. Хліб + арахісове масло 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 9/10
10. Чорна кава + кекс 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 8/10
Всього (/100) 97 95 87 94 87 95 88 87 96 85

Точність розуміння кількості за мовою

Точність розуміння кількості вимірює, чи правильно ШІ інтерпретувало числові значення, розмиті кількості ("жменя", "чаша") та метричні вимірювання. Це тестується окремо, оскільки система може правильно ідентифікувати їжу, але призначити неправильний розмір порції.

Мова Точна числова (наприклад, "200г", "два") Розмита кількість (наприклад, "жменя") За замовчуванням порція (без зазначення кількості) Загальна точність кількості
Англійська 98% 89% 94% 94%
Іспанська 97% 87% 93% 92%
Португальська 97% 86% 93% 92%
Французька 96% 85% 92% 91%
Німецька 96% 84% 91% 90%
Японська 93% 80% 90% 88%
Корейська 92% 79% 89% 87%
Турецька 91% 78% 88% 86%
Мандаринська 90% 76% 88% 85%
Арабська 89% 74% 87% 83%

Точні числові кількості добре розпізнаються у всіх мовах, оскільки числа слідують відносно передбачуваним шаблонам. Розмиті кількості представляють найбільший виклик, особливо в мовах, де еквівалент "жмені" або "чаші" використовує ідіоматичні вирази, які не мають прямого перекладу англійською.

Виклики, специфічні для мов, та як NLP-процес їх вирішує

Мандаринська: Тональні відмінності та одиниці виміру

Мандаринська мова ставить перед голосовим веденням харчування два основні виклики.

Тональна неоднозначність в ASR: Мандарин має чотири тони плюс нейтральний тон, і багато слів, пов'язаних з їжею, відрізняються лише за тоном. Наприклад, "tang" з підвищеним тоном (другий тон) означає суп, тоді як "tang" з падаючим тоном (четвертий тон) означає цукор. Моделі ASR повинні правильно визначити тон з аудіосигналу, що важче в шумному середовищі або при швидкій мові.

Одиниці виміру (класифікатори): Китайська використовує специфічні одиниці виміру (量词) між числами та іменниками. Фраза "два яйця" звучить як "两个鸡蛋" (liǎng gè jīdàn), де "个" є одиницею виміру. Різні продукти вимагають різних одиниць виміру — "片" (piàn) для скибочок, "碗" (wǎn) для чаш, "杯" (bēi) для чашок. Модель NER повинна розпізнавати ці класифікатори як показники кількості, а не модифікатори їжі.

Незважаючи на ці виклики, голосове ведення мандаринською досягло 87% точності ідентифікації їжі, оскільки моделі ASR, що використовуються в сучасних системах (включаючи багатомовний Whisper), навчені на великій кількості даних мандаринської мови, а словниковий запас китайської їжі добре представлений у навчальних корпусах.

Німецька: Складні слова та граматичні випадки

Німецька мова створює складні іменники, об'єднуючи слова без пробілів. "Vollkornbrot" (цільнозерновий хліб) є одним словом, що складається з "Voll" (цілий) + "korn" (зерно) + "Brot" (хліб). Модель NER повинна розкласти ці складні слова, щоб правильно їх відобразити.

Звичні складні слова їжі німецькою включають:

Німецьке складне слово Компоненти Англійський еквівалент
Erdnussbutter Erdnuss + Butter Арахісове масло
Hühnerbrust Hühner + Brust Куряча грудинка
Vollkornbrot Voll + Korn + Brot Цільнозерновий хліб
Rühreier Rühr + Eier Яйця, смажені
Olivenöl Oliven + Öl Оливкова олія
Blaubeermuffin Blaubeer + Muffin Кекс з чорницею

Граматичні випадки німецької також впливають на назви їжі в залежності від їхньої ролі в реченні. "Ich hatte zwei Scheiben Brot mit Erdnussbutter" використовує акузативний випадок, який не змінює ці конкретні іменники, але може змінити артиклі та прикметники, що їх супроводжують. Сучасний NER на основі трансформерів добре справляється з відмінками, оскільки модель вивчає контекстуальні шаблони, а не покладається на точне співпадіння рядків.

Турецька: Агглютинативна морфологія

Турецька мова додає суфікси до кореневих слів, щоб передати значення, створюючи довгі слова, які кодують інформацію, зазвичай розподілену між кількома словами в англійській. "Yumurtalarımdan" означає "з моїх яєць" — одне слово, що містить корінь (yumurta = яйце), суфікс множини (-lar), суфікс власності (-ım) та суфікс аблативу (-dan).

Для NER в їжі виклик полягає в ідентифікації кореневого слова їжі в сильно суфіксованій формі. Токенізація підслів — техніка, що використовується BERT та подібними моделями для розбиття слів на значущі фрагменти — є критично важливою тут. Специфічні для турецької моделі, такі як BERTurk, використовують словник, що включає загальні турецькі суфікси як окремі токени, що дозволяє моделі розпізнавати "yumurta" як харчову сутність, навіть коли вона з'являється як частина довшої агглютинованої форми.

Точність голосового ведення турецькою на рівні 87% відображає цю морфологічну складність, причому більшість помилок виникає на менш поширених стравах, де агглютинована форма не була добре представлена в навчальних даних.

Арабська: Коренева морфологія та диглосія

Арабська мова ставить унікальні виклики на етапах ASR та NER.

Коренева морфологія: Арабські слова будуються з трьохлітерних коренів з голосними патернами та префіксами/суфіксами. Корінь ط-ب-خ (t-b-kh, пов'язаний з приготуванням їжі) генерує "طبخ" (tabakh, приготування їжі), "مطبخ" (matbakh, кухня), "طباخ" (tabbakh, кухар) та "مطبوخ" (matbookh, приготоване). Моделі NER повинні розпізнавати, що ці пов'язані форми всі стосуються приготування їжі.

Диглосія: Існує значна різниця між сучасною стандартною арабською (MSA) та різними розмовними діалектами. Користувач в Єгипті може сказати "فراخ مشوية" (firakh mashwiya) для грильованої курки, тоді як користувач на Леванті скаже "دجاج مشوي" (dajaj mashwi). Моделі ASR та NER повинні обробляти як MSA, так і основні варіанти діалектів.

Нелатинський алфавіт: Арабська пишеться справа наліво з з'єднаними літерами, а короткі голосні зазвичай опускаються в письмі. Хоча це безпосередньо не впливає на голосове ведення (яке починається з аудіо), навчальні дані моделі NER повинні правильно обробляти текстові представлення арабської.

Арабська досягла 85% точності в нашому тесті — найнижчої серед 10 мов — переважно через варіації діалектів. Коли носії використовували MSA, точність зросла до 91%, що свідчить про те, що тонке налаштування на специфіку діалектів є ключем до подальшого покращення.

Японська: Багатоалфавітність та лічильники

Японська використовує три системи письма (канжі, хірагана, катакана) і має складну систему числових лічильників, схожу на одиниці виміру китайською. У мовленні, пов'язаному з їжею, часто змішуються японські терміни з англійськими запозиченнями, написаними катаканою — "ブルーベリーマフィン" (buruberii mafin) є катаканським написанням "кексу з чорницею".

Виклик ASR в японській мові полягає в код-свічингу: носії природно змішують японські терміни їжі з англійськими словами. Речення може звучати як "スクランブルエッグ二つとトースト" (sukuranburu eggu futatsu to toosuto), змішуючи англійське "scrambled eggs" та "toast" з японською граматикою та рідним лічильником "二つ" (futatsu, два предмети).

Сучасний багатомовний ASR добре справляється з цим, оскільки навчальні дані включають код-свічене мовлення японською. Японська досягла 88% точності ідентифікації їжі, причому помилки зосереджені на традиційних японських стравах, описаних термінами регіональних діалектів, а не стандартною японською.

Французька: Зв'язок, елізія та гендерні назви їжі

Французька мова має особливості зв'язку (з'єднання звуків між словами) та елізії (опускання голосних перед іншими голосними), що може ускладнити виявлення меж слів в аудіо. "Les oeufs" (яйця) вимовляється як з'єднаний звук, де "les" з'єднується безпосередньо з "oeufs", що може ускладнити виявлення меж слів.

Назви їжі у французькій мають гендерні відмінності: "le poulet" (чоловічий, курка) проти "la salade" (жіночий, салат). Хоча гендер не змінює ідентифікацію їжі, він впливає на супутні артиклі та прикметники, які модель NER використовує як контекстуальні підказки. Неправильна ідентифікація гендерних маркерів може призвести до помилок у вилученні сутностей.

Попри це, французька досягла 95% точності — серед найвищих для неанглійських мов — оскільки французька має обширні навчальні дані ASR, а французька кухня добре представлена в глобальних базах даних їжі.

Корейська: Порядок суб'єкт-об'єкт-дієслово та ввічливі форми

Корейська ставить дієслово в кінець речення, що означає, що продукти з'являються раніше в висловлюванні. "스크램블 에그 두 개와 토스트를 먹었어요" (скрембл-егг два шматки і тост з'їли) слідує порядку SOV. Моделі NER, навчені переважно на мовах SVO (як англійська), повинні адаптуватися до цього іншого порядку.

Корейська також використовує різні рівні мовлення (формальний, ввічливий, неформальний), які змінюють закінчення дієслів і можуть додавати частки по всьому реченню. Ці додаткові морфеми збільшують відстань між сутністю їжі та її маркером кількості, що вимагає від моделі NER обробляти залежності на більших відстанях.

Корейська досягла 87% точності, що порівнянно з китайською та турецькою, причому розуміння кількості є найслабшою областю через складну систему лічильників та змінні рівні мовлення.

Мови, ранжовані за загальною точністю голосового ведення

Об'єднання ідентифікації їжі, розуміння кількості та відповідності базі даних у єдиний зважений бал дає наступний рейтинг:

Ранг Мова Ідентифікація їжі Точність кількості Відповідність базі даних Загальний бал
1 Англійська 97% 94% 96% 95.7%
2 Португальська 96% 92% 95% 94.3%
3 Іспанська 95% 92% 94% 93.7%
4 Французька 95% 91% 93% 93.0%
5 Німецька 94% 90% 92% 92.0%
6 Японська 88% 88% 90% 88.7%
7 Корейська 87% 87% 88% 87.3%
8 Турецька 87% 86% 87% 86.7%
9 Мандаринська 87% 85% 86% 86.0%
10 Арабська 85% 83% 84% 84.0%

Різниця між найкращою мовою (англійська, 95.7%) та найгіршою (арабська, 84.0%) становить 11.7 відсоткових пунктів. Це значно, але зменшується. У 2023 році еквівалентна різниця в багатомовних бенчмарках ASR становила близько 20 відсоткових пунктів, що відображає швидкі покращення в неанглійських мовних моделях.

Чому деякі мови отримують вищі бали, ніж інші

Три фактори пояснюють більшість варіацій точності:

1. Обсяг навчальних даних

Продуктивність моделей ASR та NER безпосередньо корелює з обсягом навчальних даних, доступних для кожної мови. Англійська має в рази більше маркованих даних мови, ніж арабська чи корейська. Набір даних Common Voice (Mozilla, 2024) містить понад 19,000 перевірених годин для англійської, але менше 300 годин для корейської та менше 100 годин для арабської.

2. Покриття бази даних їжі

Мови, що говорять у регіонах з добре задокументованими базами даних складу їжі (USDA для англійської, BLS для німецької, CIQUAL для французької), досягають вищих балів відповідності базі даних. Мови, де дані про склад їжі менш стандартизовані або менш оцифровані, стикаються з більшою кількістю невдач у відображенні.

3. Лінгвістична складність для NLP

Агглютинативні мови (турецька, корейська), тональні мови (китайська) та мови зі складною морфологією (арабська) вимагають більш складних NLP-процесів. Додаткові етапи обробки створюють більше можливостей для накопичення помилок.

Як Nutrola обробляє багатомовне голосове ведення

Процес голосового ведення Nutrola вирішує багатомовні виклики через кілька архітектурних рішень:

  • Моделі ASR, специфічні для мови: Замість використання однієї багатомовної моделі, процес перенаправляє аудіо на моделі, налаштовані на конкретну мову, коли відома мовна настройка користувача, що покращує точність на 3-5 відсоткових пунктів у порівнянні з загальними багатомовними ASR.
  • Уточнення, враховуючи локаль: Розрізнення харчових сутностей використовує локаль користувача для вирішення регіонально специфічних назв їжі. "Chips" розрізняється для користувачів у Лондоні, Нью-Йорку та Сіднеї.
  • Багатомовна база даних їжі: Перевірена база даних харчування відображає харчові записи між мовами, тому "poulet grille" (французькою), "pollo a la plancha" (іспанською) та "grilled chicken" (англійською) всі ведуть до одного перевіреного профілю харчування.
  • Резервування для текстового введення: Коли впевненість у голосі падає нижче порогу в будь-якій мові, користувачі можуть безперешкодно перейти до текстового пошуку або сканування штрих-коду — сканер штрих-кодів Nutrola охоплює понад 95% упакованих продуктів у всьому світі.

У поєднанні з AI-фото веденням та AI-дієтичним асистентом ці багатомовні можливості голосового ведення роблять Nutrola практичним щоденним трекером харчування для користувачів у всьому світі. Усі функції — включаючи голосове ведення всіма підтримуваними мовами — доступні за ціною від 2.50 євро на місяць з 3-денною безкоштовною пробною версією, без реклами на будь-якому рівні.

Дорога вперед: Багатомовне голосове ведення у 2026 році та далі

Кілька розробок покращують багатомовне голосове ведення харчування:

  • Тонке налаштування на специфіку діалектів: Нові набори даних, що націлені на розмовні діалекти (єгипетська арабська, бразильська португальська, кантонська), закривають розрив у точності між стандартною та розмовною мовою.
  • Мультимодальні введення: Поєднання голосу з фотографіями дозволяє ШІ перехресно перевіряти — якщо фото показує рис, а голос говорить "arroz" (іспанською для рису), впевненість зростає для обох модальностей.
  • Самонавчання: Моделі, навчені на ненадміченому багатомовному аудіо (wav2vec 2.0, HuBERT), вивчають представлення мови без потреби в транскрибованих даних, що дозволяє швидше покращуватися для мов з обмеженими ресурсами.
  • Цикли зворотного зв'язку користувачів: Кожне виправлення, яке робить користувач ("це має бути коричневий рис, а не білий"), стає навчальним сигналом для покращення моделі в цій мові.

Часто задавані питання

У яких мовах голосове ведення харчування працює найкраще?

Англійська, іспанська, португальська та французька досягають найвищої точності для голосового ведення харчування, усі отримують понад 93% загальної точності. Ці мови виграють від обширних навчальних даних ASR, добре задокументованих баз даних їжі та відносно простій морфології для обробки NLP. Німецька займає п'яте місце з 92% загальної точності.

Чи можу я точно вести харчування мандаринською?

Голосове ведення мандаринською досягає приблизно 86% загальної точності. Основні виклики — тональні відмінності в ASR (де слова, такі як "tang", означають різні речі в залежності від тону) та система одиниць виміру для кількостей. Для поширених продуктів з чіткою вимовою точність значно вища. Використання точних числових кількостей (наприклад, "200克," 200 грамів) замість розмитих описів значно покращує результати.

Як ШІ обробляє назви їжі, які не перекладаються між мовами?

Культурно специфічні продукти, такі як "шаурма", "місо" та "цатцкі", обробляються через багатомовні бази даних харчових сутностей, які безпосередньо відображають назви їжі рідною мовою на профілі харчування. Коли турецький носій говорить "tavuk shawarma" або японський носій говорить "味噌汁" (місо-суп), модель NER розпізнає ці терміни як харчові сутності в їхніх відповідних мовах і відображає їх на відповідні записи в базі даних, незалежно від того, чи існує англійський еквівалент.

Чому голосове ведення арабською менш точне, ніж інших мов?

Голосове ведення арабською отримує 84% загальної точності, переважно через три фактори: (1) диглосія — значна різниця між сучасною стандартною арабською та розмовними діалектами означає, що модель повинна обробляти багато варіантів вимови; (2) обмежені марковані навчальні дані в порівнянні з європейськими мовами; і (3) коренева морфологія, що створює багато поверхневих форм для кожного концепту їжі. Коли носії використовують сучасну стандартну арабську, точність зростає до приблизно 91%.

Чи покращується точність голосового ведення з часом для моєї конкретної мови?

Так. Системи голосового ведення покращуються через два механізми: глобальні оновлення моделей, навчені на агрегованих даних користувачів усіх користувачів даної мови, та персоналізовану адаптацію, яка вивчає ваші специфічні патерни вимови, часто ведені продукти та улюблені назви їжі. Після двох-трьох тижнів регулярного використання система зазвичай демонструє вимірюване покращення точності розпізнавання для ваших звичних страв.

Чи можу я змішувати мови під час голосового ведення, наприклад, описуючи страву іспанською з деякими англійськими термінами?

Код-свічинг — змішування двох мов в одному висловлюванні — є поширеним у багатомовних домогосподарствах і все більше підтримується сучасними моделями ASR. Сказавши "Tuve un bowl de quinoa con grilled chicken" (змішуючи іспанську та англійську), зазвичай буде правильно інтерпретовано багатомовними трансформерними моделями, навченими на код-свічених даних. Однак точність приблизно на 5-8 відсоткових пунктів нижча, ніж для висловлювань однією мовою, тому дотримання однієї мови забезпечує найкращі результати.

Як я можу отримати найточніші результати голосового ведення в неанглійській мові?

Чотири практики покращують точність: (1) говоріть помірним темпом з чіткою вимовою; (2) використовуйте точні кількості, коли це можливо ("200 грамів" замість "трохи"); (3) використовуйте стандартні назви їжі, а не регіональний сленг або скорочення; і (4) виправляйте, коли ШІ помиляється, оскільки цей зворотний зв'язок безпосередньо покращує майбутнє розпізнавання. Nutrola також підтримує перехід до фото ведення або сканування штрих-коду для продуктів, які важко описати усно.

Чи підтримує Nutrola голосове ведення всі 10 протестованих мов?

Nutrola підтримує голосове ведення кількома мовами з повним NLP-процесом, описаним у цій статті. Додаток автоматично визначає мову пристрою користувача та перенаправляє голосовий ввід на відповідні моделі, специфічні для мови. Синхронізація з Apple Health та Google Fit працює незалежно від того, якою мовою ви користуєтеся для ведення, що забезпечує безперешкодну інтеграцію ваших даних про харчування з вашою екосистемою здоров'я.

Готові трансформувати своє відстеження харчування?

Приєднуйтесь до тисяч, які трансформували свою подорож до здоров'я з Nutrola!