Nauka stojąca za śledzeniem kalorii z wykorzystaniem AI: Jak działa rozpoznawanie zdjęć
Techniczne wyjaśnienie procesu rozpoznawania obrazów w śledzeniu kalorii z wykorzystaniem AI: klasyfikacja obrazów, wykrywanie obiektów, segmentacja semantyczna, szacowanie głębokości, szacowanie objętości i dopasowywanie do bazy danych. Zawiera tabele dokładności według technik oraz odniesienia do opublikowanych badań.
Kiedy robisz zdjęcie swojego posiłku, a aplikacja do śledzenia kalorii identyfikuje jedzenie i szacuje jego wartość odżywczą w ciągu kilku sekund, to efekt działania wieloetapowego procesu wizji komputerowej, który obejmuje klasyfikację obrazów, wykrywanie obiektów, szacowanie wielkości porcji oraz dopasowywanie do bazy danych. Każdy etap wprowadza własne ograniczenia dokładności i źródła błędów. Zrozumienie, jak działa ten proces i gdzie mogą występować problemy, jest kluczowe dla oceny, czy śledzenie kalorii z wykorzystaniem AI jest wiarygodnym narzędziem do monitorowania diety.
Artykuł ten przedstawia techniczną analizę procesu rozpoznawania żywności, omawiając architektury uczenia maszynowego, opublikowane wskaźniki dokładności, kluczową rolę bazy danych żywności w działaniu AI oraz aktualny stan wiedzy w tej dziedzinie.
Proces Śledzenia Kalorii z Wykorzystaniem AI: Sześć Etapów
Rozpoznawanie żywności z wykorzystaniem AI to nie pojedyncza technologia. To proces składający się z sekwencyjnych etapów przetwarzania, z których każdy musi działać wystarczająco dobrze, aby końcowy szacunek kalorii był sensowny.
| Etap | Zadanie techniczne | Kluczowe wyzwanie | Wkład błędu |
|---|---|---|---|
| 1. Wstępne przetwarzanie obrazów | Normalizacja oświetlenia, rozdzielczości, orientacji | Zmienność warunków fotograficznych w rzeczywistości | Niski (dobrze rozwiązany) |
| 2. Wykrywanie żywności | Lokalizacja obszarów z jedzeniem na obrazie | Wiele produktów, nakładające się elementy, częściowe zasłonięcie | Umiarkowany |
| 3. Klasyfikacja żywności | Identyfikacja, co to za produkt | Wizualne podobieństwo między produktami (rodzaje ryżu, sery) | Umiarkowane do wysokiego |
| 4. Szacowanie porcji | Określenie, ile każdego produktu jest obecne | Brak odniesienia do skali w większości zdjęć | Wysokie |
| 5. Dopasowywanie do bazy danych | Połączenie zidentyfikowanej żywności z wpisem w bazie danych | Ambiwalentne dopasowania, różnice w metodach przygotowania | Niski do umiarkowanego (zależy od bazy danych) |
| 6. Obliczanie składników odżywczych | Mnożenie porcji × składniki odżywcze na jednostkę | Złożony błąd z wszystkich poprzednich etapów | Zależy od dokładności procesu |
Etap 1: Wstępne Przetwarzanie Obrazów
Zanim jakiekolwiek rozpoznawanie żywności nastąpi, surowe zdjęcie musi zostać znormalizowane. Obejmuje to dostosowanie do:
- Zmienności oświetlenia. Zdjęcia wykonane w świetle fluorescencyjnym, żarowym, naturalnym lub błyskowym mają różne profile kolorystyczne dla tego samego jedzenia. Nowoczesne procesy wstępnego przetwarzania wykorzystują algorytmy stałości kolorów oraz nauczoną normalizację, aby zredukować błędy klasyfikacji zależne od oświetlenia.
- Rozdzielczości i formatu. Obrazy z różnych urządzeń mają różne rozdzielczości. Proces wstępnego przetwarzania zmienia rozmiar obrazów do standardowych wymiarów wejściowych (zazwyczaj 224×224 lub 384×384 pikseli dla modeli klasyfikacji, wyższe dla modeli wykrywania).
- Orientacji. Zdjęcia mogą być robione z góry (widok z góry, idealny do szacowania porcji) lub pod kątem. Normalizacja geometryczna dostosowuje kąt widzenia, gdy to możliwe.
Ten etap jest dobrze rozwiązany przez obecną technologię i wnosi minimalny błąd do całego procesu.
Etap 2: Wykrywanie Żywności (Wykrywanie Obiektów)
Wykrywanie żywności odpowiada na pytanie: "Gdzie w tym obrazie znajdują się produkty spożywcze?" To problem wykrywania obiektów, który staje się skomplikowany, gdy jedno zdjęcie zawiera wiele produktów na jednym talerzu lub w różnych naczyniach.
Wykorzystywane architektury
YOLO (You Only Look Once). Rodzina detektorów YOLO (YOLOv5, YOLOv8 i kolejne wersje) przetwarza cały obraz w jednym przebiegu, jednocześnie produkując ramki ograniczające i prognozy klas. YOLO jest preferowane w systemach rozpoznawania żywności ze względu na swoją szybkość w czasie rzeczywistym, osiągając zazwyczaj czasy wnioskowania poniżej 50 milisekund na sprzęcie mobilnym.
Faster R-CNN. Detektor dwustopniowy, który najpierw proponuje obszary zainteresowania, a następnie klasyfikuje każdy z tych obszarów. Faster R-CNN osiąga nieco wyższą dokładność niż detektory jednolitych etapów w złożonych scenach, ale kosztem wydłużonego czasu wnioskowania.
DETR (Detection Transformer). Detektor oparty na transformatorach opracowany przez Facebook AI Research wykorzystuje mechanizmy uwagi do bezpośredniego przewidywania ramki ograniczającej obiektów bez propozycji kotwic. DETR lepiej radzi sobie z nakładającymi się i zasłoniętymi produktami spożywczymi niż metody oparte na kotwicach, co czyni go odpowiednim do złożonych scen posiłków.
Wyzwania w wykrywaniu żywności na zdjęciach
Wykrywanie żywności stawia unikalne wyzwania w porównaniu do ogólnego wykrywania obiektów:
- Brak wyraźnych granic. Produkty na talerzu często się stykają lub nakładają (sos na makaronie, ser na sałatce). W przeciwieństwie do samochodów czy pieszych, produkty spożywcze rzadko mają wyraźne krawędzie.
- Zmienność prezentacji. To samo jedzenie może wyglądać dramatycznie inaczej w zależności od metody przygotowania, stylu podania i towarzyszących potraw.
- Zróżnicowanie skali. Pojedynczy migdał i cała pizza mogą pojawić się na tym samym zdjęciu posiłku, co wymaga wykrywania w szerokim zakresie skali obiektów.
Aguilar i in. (2018), publikując w Multimedia Tools and Applications, ocenili modele wykrywania żywności i stwierdzili, że dokładność wykrywania (mierzona średnią precyzją) wahała się od 60 do 85 procent w zależności od złożoności sceny. Zdjęcia pojedynczych produktów osiągnęły wskaźniki wykrywania powyżej 90 procent, podczas gdy złożone posiłki z pięcioma lub więcej składnikami spadły poniżej 70 procent.
Etap 3: Klasyfikacja Żywności (Klasyfikacja Obrazów)
Gdy produkty spożywcze są wykryte i zlokalizowane, każdy z wykrytych obszarów musi zostać sklasyfikowany: czy to kurczak, ryba, tofu czy tempeh? To problem klasyfikacji obrazów i jest to najbardziej badany etap procesu rozpoznawania żywności.
Wykorzystywane architektury
Splotowe sieci neuronowe (CNN). Architektury ResNet, EfficientNet i Inception były podstawą badań nad klasyfikacją żywności. Modele te wydobywają hierarchiczne cechy wizualne (tekstura, kształt, wzory kolorów) poprzez kolejne warstwy splotowe. Meyers i in. (2015) w pracy Google'a Im2Calories użyli architektury opartej na Inception do klasyfikacji żywności i zgłosili dokładność top-1 wynoszącą około 79 procent na zbiorze danych z 2500 klasami żywności.
Transformery wizji (ViT). Wprowadzone przez Dosovitskiy i in. (2021), Transformery Wizji stosują mechanizm uwagi z przetwarzania języka naturalnego do rozpoznawania obrazów. ViT dzieli obrazy na fragmenty i przetwarza je jako sekwencje, co pozwala modelowi uchwycić globalny kontekst obrazu, którego CNN z ograniczonymi polami recepcyjnymi mogą nie dostrzegać. Ostatnie prace nad klasyfikacją żywności z wykorzystaniem architektur ViT i Swin Transformer zgłosiły poprawę o 3-7 punktów procentowych w porównaniu do bazowych modeli CNN na standardowych benchmarkach rozpoznawania żywności.
Architektury hybrydowe. Nowoczesne systemy produkcyjne często łączą ekstrakcję cech CNN z rozumowaniem opartym na transformatorach, wykorzystując mocne strony obu podejść.
Dokładność Klasyfikacji według Kategorii Żywności
Dokładność klasyfikacji znacznie różni się w zależności od rodzaju żywności.
| Kategoria Żywności | Typowa Dokładność Top-1 | Kluczowe Wyzwanie |
|---|---|---|
| Owoce całe (jabłko, banan, pomarańcza) | 90–95% | Wysoka wizualna różnorodność |
| Białka jednoskładnikowe (stek, filet rybny) | 80–90% | Zróżnicowanie metod gotowania |
| Zboża i skrobia (ryż, makaron, chleb) | 75–85% | Podobny wygląd w różnych odmianach |
| Dania mieszane (smażone, zapiekanki, curry) | 55–70% | Składniki niewidoczne z powierzchni |
| Napoje | 40–60% | Wizualnie identyczne płyny o różnych składach |
| Sosy i przyprawy | 30–50% | Podobny wygląd wizualny, bardzo różna gęstość kaloryczna |
Dane zebrane z Meyers i in. (2015), Bossard i in. (2014) oraz Thames i in. (2021).
Wyzwanie klasyfikacyjne jest największe dla produktów, które wyglądają podobnie, ale mają bardzo różne profile odżywcze. Biały ryż i ryż kalafiorowy są wizualnie podobne, ale różnią się pięciokrotnie pod względem gęstości kalorycznej. Mleko pełne i odtłuszczone są wizualnie nieodróżnialne. Zwykła i dietetyczna cola nie mogą być rozróżnione jedynie na podstawie wyglądu.
Zbiory Danych Benchmarkowych
Food-101 (Bossard i in., 2014). 101 kategorii żywności z 1000 obrazów każda. Najczęściej wykorzystywany benchmark do badań nad klasyfikacją żywności. Obecne modele osiągają dokładność top-1 powyżej 95 procent na tym benchmarku, chociaż stosunkowo mała liczba kategorii (101) sprawia, że jest on mniej reprezentatywny dla różnorodności w rzeczywistości.
ISIA Food-500 (Min i in., 2020). 500 kategorii żywności z około 400 000 obrazów. Bardziej reprezentatywne dla rzeczywistej różnorodności żywności. Dokładność top-1 na tym benchmarku jest znacznie niższa, zazwyczaj wynosząc 65-80 procent.
UEC Food-256 (Kawano i Yanagida, 2015). 256 kategorii japońskiej żywności. Demonstruje wyzwanie związane z rozpoznawaniem żywności specyficznej kulturowo, ponieważ modele trenowane na zachodnich zbiorach danych żywności radzą sobie słabo z kuchniami azjatyckimi i odwrotnie.
Etap 4: Szacowanie Wielkości Porcji
Szacowanie wielkości porcji jest powszechnie uznawane za najsłabsze ogniwo w procesie śledzenia kalorii z wykorzystaniem AI. Nawet jeśli jedzenie zostało poprawnie zidentyfikowane, niepoprawne oszacowanie porcji bezpośrednio przekłada się na błędne obliczenie kalorii.
Techniki
Skalowanie obiektów odniesienia. Niektóre aplikacje proszą użytkowników o umieszczenie obiektu odniesienia (karty kredytowej, monety lub kciuka) na zdjęciu. Znane wymiary obiektu odniesienia dostarczają odniesienia do skali w celu oszacowania wymiarów żywności. Dehais i in. (2017) ocenili metody obiektów odniesienia i stwierdzili, że błędy szacowania porcji wynosiły 15-25 procent, gdy obiekt odniesienia był obecny.
Szacowanie głębokości. Systemy kamer stereoskopowych (dwa obiektywy) lub czujniki LiDAR (dostępne w niektórych smartfonach) dostarczają informacji o głębokości, co umożliwia 3D rekonstrukcję powierzchni żywności. Połączone z założeniami na temat geometrii pojemników i gęstości żywności, dane o głębokości umożliwiają oszacowanie objętości. Meyers i in. (2015) donieśli, że szacowanie oparte na głębokości zmniejszyło błędy szacowania porcji w porównaniu do metod opartych na pojedynczym obrazie, ale czujniki głębokości nie są dostępne we wszystkich urządzeniach.
Monokularne szacowanie głębokości. Modele uczenia maszynowego przeszkolone do szacowania głębokości z pojedynczych obrazów mogą przybliżyć 3D geometrię żywności bez specjalistycznego sprzętu. Dokładność jest niższa niż w przypadku fizycznych czujników głębokości, ale można je zastosować w każdym aparacie smartfona.
Nauczone szacowanie objętości. Modele end-to-end przeszkolone na zbiorach danych obrazów żywności sparowanych z znanymi objętościami mogą bezpośrednio przewidywać wielkość porcji bez wyraźnej rekonstrukcji 3D. Thames i in. (2021) ocenili takie modele i zgłosili średnie błędy szacowania porcji wynoszące 20-40 procent.
Tabela Dokładności Szacowania Porcji
| Metoda | Średni Błąd Bezwzględny | Wymaga Specjalnego Sprzętu | Źródło |
|---|---|---|---|
| Obiekt odniesienia (karta kredytowa) | 15–25% | Nie (tylko obiekt odniesienia) | Dehais i in. (2017) |
| Głębokość kamery stereoskopowej | 12–20% | Tak (podwójna kamera) | Meyers i in. (2015) |
| Głębokość LiDAR | 10–18% | Tak (telefon z LiDAR) | Ostatnie nieopublikowane benchmarki |
| Monokularne szacowanie głębokości (ML) | 20–35% | Nie | Thames i in. (2021) |
| Nauczona objętość (end-to-end) | 20–40% | Nie | Thames i in. (2021) |
| Samoocena użytkownika (bez AI) | 20–50% | Nie | Williamson i in. (2003) |
Tabela pokazuje, że wszystkie zautomatyzowane metody przewyższają oszacowanie ludzkie (Williamson i in., 2003, Obesity Research), ale żadna z nich nie osiąga błędów poniżej 10 procent w sposób konsekwentny. Dla kontekstu, błąd szacowania porcji wynoszący 25 procent w przypadku posiłku o wartości 400 kalorii przekłada się na odchylenie o 100 kalorii, co wystarcza, aby zniwelować umiarkowany deficyt kaloryczny, jeśli kumulowane jest to w wielu posiłkach.
Etap 5: Dopasowywanie do Bazy Danych — Kluczowy Krok
To etap, który otrzymuje najmniej uwagi w dyskusjach technicznych, ale ma największy wpływ na końcową dokładność. Po tym, jak AI zidentyfikuje żywność i oszacuje jej porcję, musi dopasować zidentyfikowane jedzenie do wpisu w bazie danych żywności, aby uzyskać wartości kaloryczne i składników odżywczych.
Jakość tego dopasowania zależy całkowicie od jakości bazy danych. Jeśli AI poprawnie zidentyfikuje "grillowaną pierś z kurczaka, 150 gramów", ale dopasuje ją do wpisu w bazie danych crowdsourced, który podaje 130 kalorii na 100 gramów (w porównaniu do wartości 165 kalorii na 100 gramów według USDA), końcowy szacunek kalorii będzie o 27 procent za niski, nie dlatego, że AI zawiodło, ale dlatego, że baza danych za nim jest niedokładna.
To fundamentalny wniosek, który oddziela różne aplikacje do śledzenia kalorii z wykorzystaniem AI: Dokładność identyfikacji żywności AI jest tak użyteczna, jak baza danych żywności, która za nią stoi.
Porównanie Dopasowywania do Bazy Danych
| Aplikacja do Śledzenia AI | Identyfikacja Żywności | Backend Bazy Danych | Ogólna Wiarygodność |
|---|---|---|---|
| Nutrola | AI rozpoznawanie zdjęć + głos | 1.8M wpisów weryfikowanych przez dietetyków, opartych na USDA | Wysoka identyfikacja + wysoka dokładność danych |
| Cal AI | Szacowanie zdjęć AI | Własna baza danych (ograniczona przejrzystość) | Umiarkowana identyfikacja + niepewna dokładność danych |
| Aplikacje dodające AI do bazy danych crowdsourced | Rozpoznawanie zdjęć AI | Baza danych crowdsourced, nieweryfikowane wpisy | Umiarkowana identyfikacja + niska dokładność danych |
Architektura Nutrola została specjalnie zaprojektowana, aby zająć się tym krytycznym uzależnieniem. Funkcje rozpoznawania zdjęć AI i rejestrowania głosu obsługują etapy identyfikacji i szacowania porcji, podczas gdy baza danych z 1,8 miliona wpisów zweryfikowanych przez dietetyków, pochodzących z USDA FoodData Central, zapewnia, że dane odżywcze związane z każdą zidentyfikowaną żywnością są naukowo dokładne. To oddzielenie zadań oznacza, że poprawa w rozpoznawaniu żywności AI bezpośrednio przekłada się na poprawę dokładności śledzenia, bez bycia podważaną przez błędy bazy danych w dalszej kolejności.
Wymagania dotyczące Danych Treningowych
Szkolenie modelu rozpoznawania żywności wymaga dużych, oznakowanych zbiorów danych obrazów żywności. Jakość i różnorodność danych treningowych bezpośrednio wpływają na wydajność modelu.
Rozmiar zbioru danych. Nowoczesne modele rozpoznawania żywności są zazwyczaj trenowane na zbiorach danych liczących od 100 000 do kilku milionów oznakowanych obrazów. Im2Calories Google'a (Meyers i in., 2015) wykorzystało własny zbiór danych milionów obrazów żywności. Publicznie dostępne zbiory danych, takie jak Food-101 (101 000 obrazów) i ISIA Food-500 (400 000 obrazów), są znacznie mniejsze.
Jakość etykiet. Każdy obraz treningowy musi być dokładnie oznakowany kategorią żywności. Błędnie oznaczone dane treningowe produkują modele, które uczą się niepoprawnych skojarzeń. W przypadku obrazów żywności etykietowanie wymaga wiedzy specjalistycznej, ponieważ podobnie wyglądające produkty (ryż jaśminowy vs. ryż basmati, grupers vs. dorsz) są trudne do odróżnienia dla osób bez doświadczenia.
Wymagania dotyczące różnorodności. Dane treningowe muszą reprezentować pełną różnorodność prezentacji żywności: różne kuchnie, style podania, warunki oświetleniowe, kąty kamery i rozmiary porcji. Modele trenowane głównie na zdjęciach żywności zachodniej radzą sobie słabo z kuchniami azjatyckimi, afrykańskimi, bliskowschodnimi czy latynoamerykańskimi.
Etykiety porcji. Aby trenować oszacowanie porcji, obrazy muszą być sparowane z rzeczywistymi pomiarami wagowymi. Tworzenie tych etykiet wymaga fotografowania żywności przed i po jej zważeniu, co jest pracochłonnym procesem, który ogranicza rozmiar zbiorów treningowych do oszacowania porcji.
Problem Złożonego Błędu
Najważniejszym pojęciem technicznym w śledzeniu kalorii z wykorzystaniem AI jest złożony błąd. Każdy etap procesu wprowadza niepewność, a te niepewności się mnożą.
Rozważmy posiłek z grillowanym łososiem, ryżem i brokułami:
- Dokładność wykrywania: 90% (każdy produkt poprawnie zlokalizowany).
- Dokładność klasyfikacji: 85% (każdy produkt poprawnie zidentyfikowany).
- Dokładność szacowania porcji: 75% (porcja w granicach 25% rzeczywistej).
- Dokładność dopasowania do bazy danych: 95% (dla zweryfikowanej bazy danych) lub 80% (dla bazy danych crowdsourced).
Łączne prawdopodobieństwo, że wszystkie etapy zakończą się sukcesem dla wszystkich trzech produktów:
- Przy zweryfikowanej bazie danych: (0.90 × 0.85 × 0.75 × 0.95)^3 = 0.548^3 = 16.5% szans, że wszystkie trzy produkty będą całkowicie dokładne.
- Przy bazie danych crowdsourced: (0.90 × 0.85 × 0.75 × 0.80)^3 = 0.459^3 = 9.7% szans, że wszystkie trzy produkty będą całkowicie dokładne.
Te obliczenia ilustrują, dlaczego złożony błąd sprawia, że idealna dokładność jest nieosiągalna przy obecnej technologii. Pokazują również, że poprawa któregokolwiek etapu poprawia cały proces. Etap dopasowywania do bazy danych jest najłatwiejszy do optymalizacji (użyj zweryfikowanej bazy danych zamiast crowdsourced) i zapewnia znaczną poprawę dokładności przy każdym posiłku.
Aktualny Stan Technologii i Ograniczenia
Co Działa Dobrze
- Rozpoznawanie pojedynczych produktów. Identyfikacja pojedynczego, wyraźnie sfotografowanego produktu z znanej kuchni osiąga dokładność powyżej 90 procent przy użyciu nowoczesnych architektur.
- Powszechnie spożywane produkty. Najczęściej spożywane produkty mają obfite dane treningowe i są niezawodnie rozpoznawane.
- Uzupełnienie kodu kreskowego. Gdy pakowane jedzenie można zidentyfikować za pomocą kodu kreskowego zamiast zdjęcia, dokładność identyfikacji zbliża się do 100 procent (ograniczone tylko przez czytelność kodu kreskowego).
Co Pozostaje Wyzwanie
- Dania mieszane. Gulasze, zapiekanki, smażone potrawy i inne dania mieszane, w których poszczególne składniki nie mogą być wizualnie oddzielone, pozostają trudne. Model może oszacować ogólną potrawę, ale nie jej konkretny składnik.
- Ukryte składniki. Oleje, masło, cukier i sosy dodawane podczas gotowania mają znaczenie kaloryczne, ale często są niewidoczne w finalnej potrawie. Smażone warzywa przygotowane w 2 łyżkach oleju wyglądają podobnie do tych przygotowanych w sprayu do gotowania, ale różnica kaloryczna wynosi około 240 kalorii.
- Dokładność porcji. Szacowanie objętości na podstawie obrazów 2D pozostaje najsłabszym ogniwem, z typowymi błędami wynoszącymi 20-40 procent dla obecnych metod.
- Różnorodność kulturowa żywności. Modele trenowane na kuchni zachodniej radzą sobie słabo z kuchniami azjatyckimi, afrykańskimi, bliskowschodnimi i latynoamerykańskimi, które stanowią znaczną część globalnej konsumpcji żywności.
Często Zadawane Pytania
Jak dokładne jest śledzenie kalorii oparte na zdjęciach AI?
Obecne systemy rozpoznawania żywności AI osiągają dokładność identyfikacji żywności wynoszącą 75-95 procent dla pojedynczych produktów z dobrze reprezentowanych kategorii żywności. Jednak szacowanie porcji wprowadza znaczący błąd (20-40 procent według Thames i in., 2021). Ostateczna dokładność szacunku kalorii zależy od złożonego efektu dokładności identyfikacji, dokładności porcji oraz dokładności bazy danych, która stoi za dopasowaniem. Aplikacje takie jak Nutrola, które łączą rozpoznawanie AI z zweryfikowaną bazą danych opartą na USDA, minimalizują komponent błędu bazy danych.
Jakie modele uczenia maszynowego wykorzystują aplikacje do rozpoznawania żywności?
Większość produkcyjnych systemów rozpoznawania żywności wykorzystuje splotowe sieci neuronowe (ResNet, EfficientNet) lub Transformery Wizji (ViT, Swin Transformer) do klasyfikacji, YOLO lub DETR do wykrywania oraz oddzielne modele do szacowania porcji. Szczegółowe architektury i dane treningowe są poufne dla większości komercyjnych aplikacji.
Czy AI potrafi odróżnić podobne produkty, takie jak biały ryż i ryż kalafiorowy?
To wciąż stanowi znaczące wyzwanie. Wizualnie podobne produkty z różnymi profilami odżywczymi to znane ograniczenie rozpoznawania żywności przy użyciu wizji komputerowej. Modele mogą uczyć się subtelnych wskazówek wizualnych (tekstura, struktura ziarna), które odróżniają niektóre podobne produkty, ale dokładność znacznie spada w tych przypadkach. To jeden z powodów, dla których identyfikacja AI powinna być łączona z potwierdzeniem użytkownika i zweryfikowaną bazą danych, a nie wykorzystywana jako całkowicie autonomiczny system.
Dlaczego baza danych stojąca za rozpoznawaniem żywności AI ma znaczenie?
Identyfikacja żywności AI określa, co to za produkt. Baza danych określa wartości odżywcze związane z tym produktem. Nawet doskonała identyfikacja żywności produkuje niedokładne oszacowania kalorii, jeśli wpis w bazie danych jest błędny. Zweryfikowana baza danych oparta na USDA FoodData Central (jak 1,8 miliona wpisów Nutrola) zapewnia, że poprawnie zidentyfikowane produkty są dopasowane do naukowo dokładnych danych odżywczych. Dlatego jakość bazy danych jest tak samo ważna jak jakość modelu AI dla ogólnej dokładności śledzenia.
Jak w przyszłości poprawi się śledzenie kalorii z wykorzystaniem AI?
Trzy obszary aktywnych badań przyczynią się do poprawy: (1) większe i bardziej zróżnicowane zbiory danych treningowych poprawią dokładność klasyfikacji w różnych kuchniach świata; (2) czujniki głębokości LiDAR i wielokamerowe na smartfonach poprawią szacowanie porcji; (3) modele multimodalne łączące rozpoznawanie wizualne z kontekstem tekstowym/głosowym (to, co użytkownik mówi, że je) zredukują niejednoznaczność. Połączenie rozpoznawania zdjęć AI i rejestrowania głosu w Nutrola już wdraża to podejście multimodalne, wykorzystując zarówno wizualne, jak i językowe dane wejściowe, aby poprawić dokładność identyfikacji żywności.
Gotowy, aby przeksztalcic sledzenie zywienia?
Dolacz do tysiecy osob, ktore przeksztalcily swoja podroz zdrowotna z Nutrola!