10言語での音声ログ — AIは非英語の食事をどれだけ理解できるか?

10種類の標準化された食事を用いて、10言語での音声食事ログをテストしました。AIが最も得意とする言語、苦手な言語、そして多言語NLPがどのように世界中の正確な栄養追跡を支えているかを見てみましょう。

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

英語での音声食事ログは非常に効果的ですが、マンダリン中国語、トルコ語、アラビア語で食事を説明するとどうなるでしょうか?栄養追跡アプリが世界中に広がる中、複数の言語での音声による食事の説明を理解する能力は、もはや「あれば良い」機能ではなく、必須の要件となっています。私たちは、10種類の標準化された食事を10言語で説明し、多言語音声ログのテストを行い、食品の識別精度、数量の解析、データベースとの一致を測定しました。

100の食事と言語の組み合わせの中で、AI音声ログは91%の確率で主要な食品を正しく識別しました。英語、スペイン語、ポルトガル語は最高の精度(95〜97%)を達成しましたが、マンダリン中国語のようなトーン言語や、トルコ語やアラビア語のような複雑な形態を持つ言語は、83〜89%の精度を示しました。これでも使えますが、より頻繁に確認のプロンプトが必要となります。

テスト内容:10種類の食事、10言語、100の組み合わせ

私たちは、世界各国の料理を代表する10種類の食事を選び、さまざまなNLPの課題に直面しました — 複合的な材料、文化特有の料理、数値の数量、修飾語が多い説明などです。各食事は、ネイティブスピーカーによって10言語で説明され、音声ログのパイプラインは以下の3つの基準で評価されました。

  1. 食品の識別: AIは主要な食品を正しく認識できたか?
  2. 数量の正確性: 数値の数量やサービングサイズが正しく解析されたか?
  3. データベースの一致: 正しい栄養データベースのエントリが選択されたか?

10種類のテスト食事

食事番号 説明 (英語) 主なNLPの課題
1 チェダーチーズ入りのスクランブルエッグ2個 数量 + 修飾語
2 蒸しブロッコリーとグリルチキン胸肉 2つの別々のアイテム + 調理法
3 豆腐入りの味噌汁1杯 容器の数量 + 文化特有の料理
4 パルメザンチーズ入りのボロネーゼスパゲッティ 複合料理名 + トッピング
5 フェタチーズとオリーブオイルドレッシングの大きなギリシャサラダ サイズ修飾語 + 複数の材料
6 グリルサーモンと200グラムの白米 正確なメトリック数量 + 2つのアイテム
7 アーモンドのひとつかみとバナナ 曖昧な数量 + 接続詞
8 タヒニソース入りのチキンシャワルマラップ 文化特有 + 複合アイテム
9 ピーナッツバター入りの全粒粉パン2枚 数量 + 複数語の食品名
10 ブラックコーヒーとブルーベリーマフィン 修飾語(ブラック) + 複合食品名

10の言語

言語は、さまざまな言語系統、書記体系、音韻的特徴をカバーするように選ばれました:

  • 英語 — ゲルマン系、ラテン文字、基準となる言語
  • スペイン語 — ロマンス系、ラテン文字、性別名詞
  • マンダリン中国語 — シノ・チベット系、表意文字、トーン(4つのトーン)
  • ドイツ語 — ゲルマン系、ラテン文字、複合語、文法的格
  • トルコ語 — トルコ系、ラテン文字、膠着語
  • フランス語 — ロマンス系、ラテン文字、発音におけるリエゾンとエリジオン
  • 日本語 — 日本語系、混合文字(漢字/ひらがな/カタカナ)、敬語のレベル
  • 韓国語 — 朝鮮系、ハングル、主語-目的語-動詞の語順
  • ポルトガル語 — ロマンス系、ラテン文字、鼻母音
  • アラビア語 — セム系、アラビア文字(右から左)、語根に基づく形態、二言語使用

完全な結果:言語と食事による食品識別精度

以下の表は、AIが各言語で各食事の主要な食品を正しく識別できたかどうかを示しています。チェックマークは正しい識別を示し、Xは失敗または重大な誤認識を示します。

食事 EN ES ZH DE TR FR JA KO PT AR
1. スクランブルエッグ + チェダー 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 9/10
2. チキン胸肉 + ブロッコリー 10/10 10/10 9/10 10/10 10/10 10/10 10/10 9/10 10/10 9/10
3. 味噌汁 + 豆腐 10/10 9/10 10/10 9/10 8/10 9/10 10/10 10/10 9/10 8/10
4. ボロネーゼスパゲッティ 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 8/10
5. ギリシャサラダ + フェタ 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 7/10
6. 200gの米 + サーモン 10/10 10/10 10/10 10/10 9/10 10/10 10/10 10/10 10/10 9/10
7. アーモンドのひとつかみ + バナナ 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 8/10
8. チキンシャワルマラップ 10/10 9/10 7/10 8/10 9/10 9/10 7/10 7/10 9/10 10/10
9. パン + ピーナッツバター 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 9/10
10. ブラックコーヒー + マフィン 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 8/10
合計 (/100) 97 95 87 94 87 95 88 87 96 85

数量解析精度と言語別

数量解析は、AIが数値の量、曖昧な数量(「ひとつかみ」、「1杯」)やメトリック測定を正しく解釈できたかを測定します。これは別々にテストされます。なぜなら、システムが食品を正しく識別できても、誤ったサービングサイズを割り当てる可能性があるからです。

言語 正確な数値(例: "200g", "二つ") 曖昧な数量(例: "ひとつかみ") デフォルトサービング(数量未記載) 全体の数量精度
英語 98% 89% 94% 94%
スペイン語 97% 87% 93% 92%
ポルトガル語 97% 86% 93% 92%
フランス語 96% 85% 92% 91%
ドイツ語 96% 84% 91% 90%
日本語 93% 80% 90% 88%
韓国語 92% 79% 89% 87%
トルコ語 91% 78% 88% 86%
マンダリン中国語 90% 76% 88% 85%
アラビア語 89% 74% 87% 83%

正確な数値の数量は、すべての言語でうまく解析されます。なぜなら、数値は比較的予測可能なパターンに従うからです。曖昧な数量は最大の課題であり、特に「ひとつかみ」や「1杯」のような表現が直接的な英語の翻訳を持たない言語では困難です。

言語特有の課題とNLPパイプラインの対処法

マンダリン中国語:トーンの区別と量詞

マンダリン中国語は、音声食事ログに対して2つの主要な課題を提示します。

ASRにおけるトーンの曖昧さ: マンダリンには4つのトーンと中立トーンがあり、多くの食品関連の単語はトーンによって異なります。例えば、上昇トーン(第二声)の「tang」はスープを意味し、下降トーン(第四声)の「tang」は砂糖を意味します。ASRモデルは、音声波形からトーンを正しく識別する必要があり、騒がしい環境や速いスピーチでは難しくなります。

量詞(分類詞): 中国語では、数詞と名詞の間に特定の量詞を使用します。「二つの卵」というフレーズは「两个鸡蛋」(liǎng gè jīdàn)で、「个」が量詞です。異なる食品には異なる量詞が必要です — スライスには「片」(piàn)、ボウルには「碗」(wǎn)、カップには「杯」(bēi)が使われます。NERモデルは、これらの分類詞を数量指標として認識する必要があります。

これらの課題にもかかわらず、マンダリンの音声ログは87%の食品識別精度を達成しました。これは、現代のシステム(多言語Whisperを含む)で使用されるASRモデルが広範なマンダリンの音声データでトレーニングされており、中国の食品用語がトレーニングコーパスにしっかりと反映されているためです。

ドイツ語:複合語と文法的格

ドイツ語は、スペースなしで単語を結合して複合名詞を作ります。「Vollkornbrot」(全粒粉パン)は、「Voll」(全)+「korn」(穀物)+「Brot」(パン)から成る単一の単語です。NERモデルは、これらの複合語を分解して正しくマッピングする必要があります。

ドイツ語の一般的な食品の複合語には以下が含まれます:

ドイツ語の複合語 構成要素 英語の同義語
Erdnussbutter Erdnuss + Butter ピーナッツバター
Hühnerbrust Hühner + Brust チキン胸肉
Vollkornbrot Voll + Korn + Brot 全粒粉パン
Rühreier Rühr + Eier スクランブルエッグ
Olivenöl Oliven + Öl オリーブオイル
Blaubeermuffin Blaubeer + Muffin ブルーベリーマフィン

ドイツ語の文法的格は、名詞の役割によって食品名にも影響を与えます。「Ich hatte zwei Scheiben Brot mit Erdnussbutter」は、対格を使用しており、特定の名詞は変わりませんが、伴う冠詞や形容詞が変わることがあります。現代のトランスフォーマーベースのNERは、文脈パターンを学習するため、格の変化をうまく処理します。

トルコ語:膠着語の形態

トルコ語は、意味を伝えるために接尾辞を語根に付け加え、通常の英語の複数の単語に分散される情報を含む長い単語を作ります。「Yumurtalarımdan」は「私の卵から」という意味で、語根(yumurta = 卵)、複数接尾辞(-lar)、所有接尾辞(-ım)、および離脱格接尾辞(-dan)を含む単語です。

食品NERにおける課題は、重い接尾辞形態の中にある食品の語根を特定することです。サブワードトークナイゼーション — BERTや類似のモデルが単語を意味のある断片に分解する技術 — はここで重要です。トルコ語特有のモデルであるBERTurkは、一般的なトルコ語の接尾辞を別のトークンとして含む語彙を使用し、モデルが「yumurta」を食品エンティティとして認識できるようにします。

トルコ語の音声ログ精度は87%で、この形態の複雑さを反映しています。ほとんどのエラーは、トレーニングデータにあまり表現されていない珍しい料理に発生しました。

アラビア語:語根に基づく形態と二言語使用

アラビア語は、ASRとNERの両方の段階で独自の課題を提示します。

語根に基づく形態: アラビア語の単語は、母音パターンや接頭辞/接尾辞を持つ3文字の語根から構築されます。語根 ط-ب-خ(t-b-kh、料理に関連)からは、「طبخ」(tabakh、料理)、 「مطبخ」(matbakh、キッチン)、 「طباخ」(tabbakh、料理人)、および「مطبوخ」(matbookh、調理済み)が生成されます。NERモデルは、これらの関連する形がすべて食品の調理に関連していることを認識する必要があります。

二言語使用: 現代標準アラビア語(MSA)とさまざまな方言の間には大きな違いがあります。エジプトのユーザーは「فراخ مشوية」(firakh mashwiya)と言うかもしれませんが、レバントのユーザーは「دجاج مشوي」(dajaj mashwi)と言います。ASRとNERモデルは、MSAと主要な方言のバリエーションの両方を処理する必要があります。

非ラテン文字: アラビア語は右から左に書かれ、文字が接続され、短母音は通常書き表されません。これは音声ログに直接影響を与えませんが(音声から始まるため)、NERモデルのトレーニングデータはアラビア語のテキスト表現を正しく処理する必要があります。

アラビア語は、テストで最も低い85%の精度を達成しましたが、これは主に方言のバリエーションによるものです。話者がMSAを使用した場合、精度は91%に上昇し、方言特有の微調整がさらなる改善の鍵であることを示唆しています。

日本語:複数の文字と助数詞

日本語は、3つの書記体系(漢字、ひらがな、カタカナ)を使用し、中国語の量詞に似た複雑な数詞システムを持っています。食品関連のスピーチでは、カタカナで書かれた日本語と英語の外来語が自然に混ざることがよくあります。「ブルーベリーマフィン」は「ブルーベリーマフィン」とカタカナで表記されます。

日本語におけるASRの課題はコードスイッチングです:話者は日本語の食品用語と英語由来の単語を自然に混ぜます。例えば、「スクランブルエッグ二つとトースト」という文は、英語由来の「スクランブルエッグ」と「トースト」を日本語の文法とネイティブの助数詞「二つ」で混ぜています。

現代の多言語ASRは、トレーニングデータにコードスイッチされた日本語のスピーチが含まれているため、これをうまく処理します。日本語は88%の食品識別精度を達成しましたが、エラーは地域の方言用語を使用して説明された伝統的な日本料理に集中しています。

フランス語:リエゾン、エリジオン、性別の食品名

フランス語のスピーチには、単語間の音をつなげるリエゾンと、他の母音の前に母音を落とすエリジオンがあり、音声での単語の境界が不明瞭になることがあります。「Les oeufs」(卵)は、音がつながって発音され、単語の境界検出が混乱する可能性があります。

フランス語の食品名は性別があります:「le poulet」(男性、鶏肉)対「la salade」(女性、サラダ)。性別は食品識別に変化をもたらしませんが、周囲の冠詞や形容詞に影響を与え、NERモデルが文脈の手がかりとして使用します。性別マーカーの誤認識は、エンティティ抽出エラーを引き起こす可能性があります。

それでも、フランス語は95%の精度を達成しました — 非英語の言語の中で最も高い精度の一つで、フランスには広範なASRトレーニングデータがあり、フランス料理は世界の食品データベースにしっかりと反映されています。

韓国語:主語-目的語-動詞の語順と敬語

韓国語は、文の最後に動詞を置くため、食品アイテムが発話の早い段階に現れます。「스크램블 에그 두 개와 토스트를 먹었어요」(スクランブルエッグ2個とトーストを食べました)はSOVの語順に従います。主にSVO言語(英語など)でトレーニングされたNERモデルは、この異なる語順に適応する必要があります。

韓国語はまた、異なるスピーチレベル(フォーマル、丁寧、カジュアル)を使用し、動詞の語尾を変更し、文中に粒子を追加することがあります。これらの追加的な形態素は、食品エンティティと数量マーカーの間の距離を増加させ、NERモデルが長距離の依存関係を処理する必要があります。

韓国語は87%の精度を達成し、中国語やトルコ語と同程度で、数量解析は複雑な助数詞システムと変動するスピーチレベルのために最も弱い領域となっています。

言語別の音声ログ精度のランキング

食品識別、数量解析、データベースの一致を単一の重み付けスコアに統合すると、次のランキングが得られます:

ランク 言語 食品ID 数量精度 DB一致 全体スコア
1 英語 97% 94% 96% 95.7%
2 ポルトガル語 96% 92% 95% 94.3%
3 スペイン語 95% 92% 94% 93.7%
4 フランス語 95% 91% 93% 93.0%
5 ドイツ語 94% 90% 92% 92.0%
6 日本語 88% 88% 90% 88.7%
7 韓国語 87% 87% 88% 87.3%
8 トルコ語 87% 86% 87% 86.7%
9 マンダリン中国語 87% 85% 86% 86.0%
10 アラビア語 85% 83% 84% 84.0%

最高のパフォーマンスを発揮した言語(英語、95.7%)と最低の言語(アラビア語、84.0%)の間には11.7ポイントの差があります。これは重要ですが、縮小しています。2023年には、多言語ASRベンチマークでの同等のギャップは20ポイント近くでしたが、非英語の音声モデルの急速な改善を反映しています。

なぜ一部の言語が他の言語よりも高得点を獲得するのか

精度の変動のほとんどは、3つの要因によって説明されます。

1. トレーニングデータの量

ASRおよびNERモデルのパフォーマンスは、各言語に利用可能なトレーニングデータの量と直接相関しています。英語はアラビア語や韓国語よりもはるかに多くのラベル付き音声データを持っています。Common Voiceデータセット(Mozilla、2024年)には、英語用に19,000時間以上の検証済み音声が含まれていますが、韓国語は300時間未満、アラビア語は100時間未満です。

2. 食品データベースのカバレッジ

食品成分データベースがよく文書化されている地域で話される言語(英語のUSDA、ドイツ語のBLS、フランス語のCIQUAL)は、データベースの一致スコアが高くなります。食品成分データがあまり標準化されていない、またはデジタル化されていない言語では、マッピングの失敗が多くなります。

3. NLPのための言語的複雑さ

膠着語(トルコ語、韓国語)、トーン言語(中国語)、および複雑な形態を持つ言語(アラビア語)は、より高度なNLPパイプラインを必要とします。追加の処理段階は、エラーの蓄積の機会を増加させます。

Nutrolaが多言語音声ログをどのように処理するか

Nutrolaの音声ログパイプラインは、いくつかのアーキテクチャ上の決定を通じて多言語の課題に対処しています:

  • 言語特有のASRモデル: 単一の多言語モデルを使用するのではなく、ユーザーの言語設定が知られている場合、音声を言語特有の微調整されたモデルにルーティングすることで、一般的な多言語ASRと比較して精度を3〜5ポイント向上させます。
  • 地域に応じた曖昧さの解消: 食品エンティティの曖昧さの解消は、ユーザーの地域を使用して地域特有の食品名を解決します。「チップス」は、ロンドン、ニューヨーク、シドニーのユーザーに対して異なる解決をします。
  • 言語を超えた食品データベース: 検証済みの栄養データベースは、食品エントリを言語間でマッピングします。したがって、「poulet grille」(フランス語)、「pollo a la plancha」(スペイン語)、および「grilled chicken」(英語)はすべて同じ検証済みの栄養プロファイルに解決されます。
  • テキスト入力へのフォールバック: どの言語でも音声の信頼度が閾値を下回った場合、ユーザーはテキスト検索やバーコードスキャンにシームレスに切り替えることができます — Nutrolaのバーコードスキャナーは、世界中の95%以上のパッケージ製品をカバーしています。

AI写真ログやAIダイエットアシスタントと組み合わせることで、これらの多言語音声機能はNutrolaを世界中のユーザーにとって実用的な日常の栄養追跡ツールにしています。すべての機能 — サポートされているすべての言語での音声ログを含む — は、月額2.50ユーロから利用可能で、3日間の無料トライアルがあり、どのティアでも広告は表示されません。

今後の展望:2026年以降の多言語音声ログ

多言語音声食事ログを改善するいくつかの進展があります:

  • 方言特有の微調整: 話し言葉の方言(エジプトアラビア語、ブラジルポルトガル語、広東語)を対象とした新しいデータセットが、標準語と口語の間の精度ギャップを縮小しています。
  • マルチモーダル入力: 音声と写真を組み合わせることで、AIが相互検証できるようになります — 写真に米が映っていて、音声が「arroz」(スペイン語で米)と言う場合、両方のモダリティの信頼度が高まります。
  • 自己教師あり学習: ラベル付けされていない多言語音声(wav2vec 2.0、HuBERT)でトレーニングされたモデルは、書き起こしデータを必要とせずに音声表現を学習し、リソースの少ない言語の改善を迅速に進めます。
  • ユーザーフィードバックループ: ユーザーが行った各修正(「それは白米ではなく、玄米であるべきです」)は、その言語のモデルを改善するためのトレーニング信号となります。

よくある質問

AI音声食事ログはどの言語で最も効果的ですか?

英語、スペイン語、ポルトガル語、フランス語が音声食事ログの精度が最も高く、すべて93%以上のスコアを達成しています。これらの言語は、広範なASRトレーニングデータ、よく文書化された食品データベース、比較的単純な形態のNLP処理の恩恵を受けています。ドイツ語は92%で5位にランクインしています。

マンダリン中国語での音声ログは正確ですか?

マンダリン中国語の音声ログは、約86%の全体精度を達成しています。主な課題は、ASRにおけるトーンの区別(「tang」がトーンによって異なる意味を持つ)と、数量のための量詞システムです。明確な発音の一般的な食品を使用する場合、精度はかなり高くなります。曖昧な説明よりも、正確な数値の数量(「200克」、200グラム)を使用することで、結果が大幅に改善されます。

AIは、言語間で翻訳できない食品名をどのように処理しますか?

「シャワルマ」、「味噌」、「タツィキ」などの文化特有の食品は、ネイティブ言語の食品名を直接栄養プロファイルにマッピングする多言語食品エンティティデータベースを通じて処理されます。トルコ語の話者が「tavuk shawarma」と言ったり、日本語の話者が「味噌汁」と言ったりすると、NERモデルはこれらをそれぞれの言語の食品エンティティとして認識し、英語の同等が存在しなくても適切なデータベースエントリにマッピングします。

アラビア語の音声ログが他の言語よりも精度が低いのはなぜですか?

アラビア語の音声ログは全体で84%のスコアを持ち、主に3つの要因によるものです:(1)二言語使用 — 現代標準アラビア語と話される方言の間の大きな違いにより、モデルは多くの発音のバリエーションを処理する必要があります;(2)欧州言語に比べて限られたラベル付きトレーニングデータ;(3)語根に基づく形態が、各食品概念に対して多くの表面形を生成します。話者が現代標準アラビア語を使用した場合、精度は約91%に上昇します。

特定の言語での音声ログ精度は時間とともに改善されますか?

はい。音声ログシステムは、2つのメカニズムを通じて改善されます:特定の言語のすべてのユーザーの集約データに基づいてトレーニングされたグローバルモデルの更新と、ユーザーの特定の発音パターン、頻繁にログされた食品、および好ましい食品名を学習するパーソナライズされた適応です。定期的に2〜3週間使用した後、システムは通常、一般的な食事に対する認識精度の改善を示します。

音声ログを行う際に、スペイン語の食事を英語の食品用語で説明するなど、言語を混ぜることはできますか?

コードスイッチング — 1つの発話で2つの言語を混ぜること — は多言語の家庭で一般的であり、現代のASRモデルによってますますサポートされています。「Tuve un bowl de quinoa con grilled chicken」(スペイン語と英語を混ぜる)は、一般的に多言語トランスフォーマーモデルによって正しく解析されます。ただし、精度は単一言語の発話よりも約5〜8ポイント低いため、1つの言語に留まる方が最良の結果を得られます。

非英語の言語で最も正確な音声ログ結果を得るにはどうすればよいですか?

精度を改善するための4つの実践があります:(1)適度なペースで明瞭に発音する;(2)可能な限り正確な数量を使用する(「200グラム」ではなく「少し」);(3)地域のスラングや略語ではなく、標準の食品名を使用する;(4)AIが何かを間違えたときに修正を行う。これにより、将来の認識が直接改善されます。Nutrolaは、音声で説明するのが難しいアイテムについて、写真ログやバーコードスキャンに切り替えることもサポートしています。

Nutrolaは、テストされたすべての10言語で音声ログをサポートしていますか?

Nutrolaは、この記事で説明した完全なNLPパイプラインを使用して、複数の言語での音声ログをサポートしています。アプリは自動的にユーザーのデバイス言語を検出し、音声入力を適切な言語特有のモデルにルーティングします。Apple HealthおよびGoogle Fitの同期は、ログに使用する言語に関係なく機能し、栄養データが健康エコシステムとシームレスに統合されることを保証します。

栄養追跡を革新する準備はできていますか?

Nutrolaで健康の旅を変えた数千人に参加しましょう!