Nauka stojąca za śledzeniem kalorii z wykorzystaniem AI: Jak działa rozpoznawanie zdjęć

12 kwietnia 2026

Techniczne wyjaśnienie procesu rozpoznawania obrazów w śledzeniu kalorii z wykorzystaniem AI: klasyfikacja obrazów, wykrywanie obiektów, segmentacja semantyczna, szacowanie głębokości, szacowanie objętości i dopasowywanie do bazy danych. Zawiera tabele dokładności według technik oraz odniesienia do opublikowanych badań.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Kiedy robisz zdjęcie swojego posiłku, a aplikacja do śledzenia kalorii identyfikuje jedzenie i szacuje jego wartość odżywczą w ciągu kilku sekund, to efekt działania wieloetapowego procesu wizji komputerowej, który obejmuje klasyfikację obrazów, wykrywanie obiektów, szacowanie wielkości porcji oraz dopasowywanie do bazy danych. Każdy etap wprowadza własne ograniczenia dokładności i źródła błędów. Zrozumienie, jak działa ten proces i gdzie mogą występować problemy, jest kluczowe dla oceny, czy śledzenie kalorii z wykorzystaniem AI jest wiarygodnym narzędziem do monitorowania diety.

Artykuł ten przedstawia techniczną analizę procesu rozpoznawania żywności, omawiając architektury uczenia maszynowego, opublikowane wskaźniki dokładności, kluczową rolę bazy danych żywności w działaniu AI oraz aktualny stan wiedzy w tej dziedzinie.

Proces Śledzenia Kalorii z Wykorzystaniem AI: Sześć Etapów

Rozpoznawanie żywności z wykorzystaniem AI to nie pojedyncza technologia. To proces składający się z sekwencyjnych etapów przetwarzania, z których każdy musi działać wystarczająco dobrze, aby końcowy szacunek kalorii był sensowny.

Etap	Zadanie techniczne	Kluczowe wyzwanie	Wkład błędu
1. Wstępne przetwarzanie obrazów	Normalizacja oświetlenia, rozdzielczości, orientacji	Zmienność warunków fotograficznych w rzeczywistości	Niski (dobrze rozwiązany)
2. Wykrywanie żywności	Lokalizacja obszarów z jedzeniem na obrazie	Wiele produktów, nakładające się elementy, częściowe zasłonięcie	Umiarkowany
3. Klasyfikacja żywności	Identyfikacja, co to za produkt	Wizualne podobieństwo między produktami (rodzaje ryżu, sery)	Umiarkowane do wysokiego
4. Szacowanie porcji	Określenie, ile każdego produktu jest obecne	Brak odniesienia do skali w większości zdjęć	Wysokie
5. Dopasowywanie do bazy danych	Połączenie zidentyfikowanej żywności z wpisem w bazie danych	Ambiwalentne dopasowania, różnice w metodach przygotowania	Niski do umiarkowanego (zależy od bazy danych)
6. Obliczanie składników odżywczych	Mnożenie porcji × składniki odżywcze na jednostkę	Złożony błąd z wszystkich poprzednich etapów	Zależy od dokładności procesu

Etap 1: Wstępne Przetwarzanie Obrazów

Zanim jakiekolwiek rozpoznawanie żywności nastąpi, surowe zdjęcie musi zostać znormalizowane. Obejmuje to dostosowanie do:

Zmienności oświetlenia. Zdjęcia wykonane w świetle fluorescencyjnym, żarowym, naturalnym lub błyskowym mają różne profile kolorystyczne dla tego samego jedzenia. Nowoczesne procesy wstępnego przetwarzania wykorzystują algorytmy stałości kolorów oraz nauczoną normalizację, aby zredukować błędy klasyfikacji zależne od oświetlenia.
Rozdzielczości i formatu. Obrazy z różnych urządzeń mają różne rozdzielczości. Proces wstępnego przetwarzania zmienia rozmiar obrazów do standardowych wymiarów wejściowych (zazwyczaj 224×224 lub 384×384 pikseli dla modeli klasyfikacji, wyższe dla modeli wykrywania).
Orientacji. Zdjęcia mogą być robione z góry (widok z góry, idealny do szacowania porcji) lub pod kątem. Normalizacja geometryczna dostosowuje kąt widzenia, gdy to możliwe.

Ten etap jest dobrze rozwiązany przez obecną technologię i wnosi minimalny błąd do całego procesu.

Etap 2: Wykrywanie Żywności (Wykrywanie Obiektów)

Wykrywanie żywności odpowiada na pytanie: "Gdzie w tym obrazie znajdują się produkty spożywcze?" To problem wykrywania obiektów, który staje się skomplikowany, gdy jedno zdjęcie zawiera wiele produktów na jednym talerzu lub w różnych naczyniach.

Wykorzystywane architektury

YOLO (You Only Look Once). Rodzina detektorów YOLO (YOLOv5, YOLOv8 i kolejne wersje) przetwarza cały obraz w jednym przebiegu, jednocześnie produkując ramki ograniczające i prognozy klas. YOLO jest preferowane w systemach rozpoznawania żywności ze względu na swoją szybkość w czasie rzeczywistym, osiągając zazwyczaj czasy wnioskowania poniżej 50 milisekund na sprzęcie mobilnym.

Faster R-CNN. Detektor dwustopniowy, który najpierw proponuje obszary zainteresowania, a następnie klasyfikuje każdy z tych obszarów. Faster R-CNN osiąga nieco wyższą dokładność niż detektory jednolitych etapów w złożonych scenach, ale kosztem wydłużonego czasu wnioskowania.

DETR (Detection Transformer). Detektor oparty na transformatorach opracowany przez Facebook AI Research wykorzystuje mechanizmy uwagi do bezpośredniego przewidywania ramki ograniczającej obiektów bez propozycji kotwic. DETR lepiej radzi sobie z nakładającymi się i zasłoniętymi produktami spożywczymi niż metody oparte na kotwicach, co czyni go odpowiednim do złożonych scen posiłków.

Wyzwania w wykrywaniu żywności na zdjęciach

Wykrywanie żywności stawia unikalne wyzwania w porównaniu do ogólnego wykrywania obiektów:

Brak wyraźnych granic. Produkty na talerzu często się stykają lub nakładają (sos na makaronie, ser na sałatce). W przeciwieństwie do samochodów czy pieszych, produkty spożywcze rzadko mają wyraźne krawędzie.
Zmienność prezentacji. To samo jedzenie może wyglądać dramatycznie inaczej w zależności od metody przygotowania, stylu podania i towarzyszących potraw.
Zróżnicowanie skali. Pojedynczy migdał i cała pizza mogą pojawić się na tym samym zdjęciu posiłku, co wymaga wykrywania w szerokim zakresie skali obiektów.

Aguilar i in. (2018), publikując w Multimedia Tools and Applications, ocenili modele wykrywania żywności i stwierdzili, że dokładność wykrywania (mierzona średnią precyzją) wahała się od 60 do 85 procent w zależności od złożoności sceny. Zdjęcia pojedynczych produktów osiągnęły wskaźniki wykrywania powyżej 90 procent, podczas gdy złożone posiłki z pięcioma lub więcej składnikami spadły poniżej 70 procent.

Etap 3: Klasyfikacja Żywności (Klasyfikacja Obrazów)

Gdy produkty spożywcze są wykryte i zlokalizowane, każdy z wykrytych obszarów musi zostać sklasyfikowany: czy to kurczak, ryba, tofu czy tempeh? To problem klasyfikacji obrazów i jest to najbardziej badany etap procesu rozpoznawania żywności.

Wykorzystywane architektury

Splotowe sieci neuronowe (CNN). Architektury ResNet, EfficientNet i Inception były podstawą badań nad klasyfikacją żywności. Modele te wydobywają hierarchiczne cechy wizualne (tekstura, kształt, wzory kolorów) poprzez kolejne warstwy splotowe. Meyers i in. (2015) w pracy Google'a Im2Calories użyli architektury opartej na Inception do klasyfikacji żywności i zgłosili dokładność top-1 wynoszącą około 79 procent na zbiorze danych z 2500 klasami żywności.

Transformery wizji (ViT). Wprowadzone przez Dosovitskiy i in. (2021), Transformery Wizji stosują mechanizm uwagi z przetwarzania języka naturalnego do rozpoznawania obrazów. ViT dzieli obrazy na fragmenty i przetwarza je jako sekwencje, co pozwala modelowi uchwycić globalny kontekst obrazu, którego CNN z ograniczonymi polami recepcyjnymi mogą nie dostrzegać. Ostatnie prace nad klasyfikacją żywności z wykorzystaniem architektur ViT i Swin Transformer zgłosiły poprawę o 3-7 punktów procentowych w porównaniu do bazowych modeli CNN na standardowych benchmarkach rozpoznawania żywności.

Architektury hybrydowe. Nowoczesne systemy produkcyjne często łączą ekstrakcję cech CNN z rozumowaniem opartym na transformatorach, wykorzystując mocne strony obu podejść.

Dokładność Klasyfikacji według Kategorii Żywności

Dokładność klasyfikacji znacznie różni się w zależności od rodzaju żywności.

Kategoria Żywności	Typowa Dokładność Top-1	Kluczowe Wyzwanie
Owoce całe (jabłko, banan, pomarańcza)	90–95%	Wysoka wizualna różnorodność
Białka jednoskładnikowe (stek, filet rybny)	80–90%	Zróżnicowanie metod gotowania
Zboża i skrobia (ryż, makaron, chleb)	75–85%	Podobny wygląd w różnych odmianach
Dania mieszane (smażone, zapiekanki, curry)	55–70%	Składniki niewidoczne z powierzchni
Napoje	40–60%	Wizualnie identyczne płyny o różnych składach
Sosy i przyprawy	30–50%	Podobny wygląd wizualny, bardzo różna gęstość kaloryczna

Dane zebrane z Meyers i in. (2015), Bossard i in. (2014) oraz Thames i in. (2021).

Wyzwanie klasyfikacyjne jest największe dla produktów, które wyglądają podobnie, ale mają bardzo różne profile odżywcze. Biały ryż i ryż kalafiorowy są wizualnie podobne, ale różnią się pięciokrotnie pod względem gęstości kalorycznej. Mleko pełne i odtłuszczone są wizualnie nieodróżnialne. Zwykła i dietetyczna cola nie mogą być rozróżnione jedynie na podstawie wyglądu.

Zbiory Danych Benchmarkowych

Food-101 (Bossard i in., 2014). 101 kategorii żywności z 1000 obrazów każda. Najczęściej wykorzystywany benchmark do badań nad klasyfikacją żywności. Obecne modele osiągają dokładność top-1 powyżej 95 procent na tym benchmarku, chociaż stosunkowo mała liczba kategorii (101) sprawia, że jest on mniej reprezentatywny dla różnorodności w rzeczywistości.

ISIA Food-500 (Min i in., 2020). 500 kategorii żywności z około 400 000 obrazów. Bardziej reprezentatywne dla rzeczywistej różnorodności żywności. Dokładność top-1 na tym benchmarku jest znacznie niższa, zazwyczaj wynosząc 65-80 procent.

UEC Food-256 (Kawano i Yanagida, 2015). 256 kategorii japońskiej żywności. Demonstruje wyzwanie związane z rozpoznawaniem żywności specyficznej kulturowo, ponieważ modele trenowane na zachodnich zbiorach danych żywności radzą sobie słabo z kuchniami azjatyckimi i odwrotnie.

Etap 4: Szacowanie Wielkości Porcji

Szacowanie wielkości porcji jest powszechnie uznawane za najsłabsze ogniwo w procesie śledzenia kalorii z wykorzystaniem AI. Nawet jeśli jedzenie zostało poprawnie zidentyfikowane, niepoprawne oszacowanie porcji bezpośrednio przekłada się na błędne obliczenie kalorii.

Techniki

Skalowanie obiektów odniesienia. Niektóre aplikacje proszą użytkowników o umieszczenie obiektu odniesienia (karty kredytowej, monety lub kciuka) na zdjęciu. Znane wymiary obiektu odniesienia dostarczają odniesienia do skali w celu oszacowania wymiarów żywności. Dehais i in. (2017) ocenili metody obiektów odniesienia i stwierdzili, że błędy szacowania porcji wynosiły 15-25 procent, gdy obiekt odniesienia był obecny.

Szacowanie głębokości. Systemy kamer stereoskopowych (dwa obiektywy) lub czujniki LiDAR (dostępne w niektórych smartfonach) dostarczają informacji o głębokości, co umożliwia 3D rekonstrukcję powierzchni żywności. Połączone z założeniami na temat geometrii pojemników i gęstości żywności, dane o głębokości umożliwiają oszacowanie objętości. Meyers i in. (2015) donieśli, że szacowanie oparte na głębokości zmniejszyło błędy szacowania porcji w porównaniu do metod opartych na pojedynczym obrazie, ale czujniki głębokości nie są dostępne we wszystkich urządzeniach.

Monokularne szacowanie głębokości. Modele uczenia maszynowego przeszkolone do szacowania głębokości z pojedynczych obrazów mogą przybliżyć 3D geometrię żywności bez specjalistycznego sprzętu. Dokładność jest niższa niż w przypadku fizycznych czujników głębokości, ale można je zastosować w każdym aparacie smartfona.

Nauczone szacowanie objętości. Modele end-to-end przeszkolone na zbiorach danych obrazów żywności sparowanych z znanymi objętościami mogą bezpośrednio przewidywać wielkość porcji bez wyraźnej rekonstrukcji 3D. Thames i in. (2021) ocenili takie modele i zgłosili średnie błędy szacowania porcji wynoszące 20-40 procent.

Tabela Dokładności Szacowania Porcji

Metoda	Średni Błąd Bezwzględny	Wymaga Specjalnego Sprzętu	Źródło
Obiekt odniesienia (karta kredytowa)	15–25%	Nie (tylko obiekt odniesienia)	Dehais i in. (2017)
Głębokość kamery stereoskopowej	12–20%	Tak (podwójna kamera)	Meyers i in. (2015)
Głębokość LiDAR	10–18%	Tak (telefon z LiDAR)	Ostatnie nieopublikowane benchmarki
Monokularne szacowanie głębokości (ML)	20–35%	Nie	Thames i in. (2021)
Nauczona objętość (end-to-end)	20–40%	Nie	Thames i in. (2021)
Samoocena użytkownika (bez AI)	20–50%	Nie	Williamson i in. (2003)

Tabela pokazuje, że wszystkie zautomatyzowane metody przewyższają oszacowanie ludzkie (Williamson i in., 2003, Obesity Research), ale żadna z nich nie osiąga błędów poniżej 10 procent w sposób konsekwentny. Dla kontekstu, błąd szacowania porcji wynoszący 25 procent w przypadku posiłku o wartości 400 kalorii przekłada się na odchylenie o 100 kalorii, co wystarcza, aby zniwelować umiarkowany deficyt kaloryczny, jeśli kumulowane jest to w wielu posiłkach.

Etap 5: Dopasowywanie do Bazy Danych — Kluczowy Krok

To etap, który otrzymuje najmniej uwagi w dyskusjach technicznych, ale ma największy wpływ na końcową dokładność. Po tym, jak AI zidentyfikuje żywność i oszacuje jej porcję, musi dopasować zidentyfikowane jedzenie do wpisu w bazie danych żywności, aby uzyskać wartości kaloryczne i składników odżywczych.

Jakość tego dopasowania zależy całkowicie od jakości bazy danych. Jeśli AI poprawnie zidentyfikuje "grillowaną pierś z kurczaka, 150 gramów", ale dopasuje ją do wpisu w bazie danych crowdsourced, który podaje 130 kalorii na 100 gramów (w porównaniu do wartości 165 kalorii na 100 gramów według USDA), końcowy szacunek kalorii będzie o 27 procent za niski, nie dlatego, że AI zawiodło, ale dlatego, że baza danych za nim jest niedokładna.

To fundamentalny wniosek, który oddziela różne aplikacje do śledzenia kalorii z wykorzystaniem AI: Dokładność identyfikacji żywności AI jest tak użyteczna, jak baza danych żywności, która za nią stoi.

Porównanie Dopasowywania do Bazy Danych

Aplikacja do Śledzenia AI	Identyfikacja Żywności	Backend Bazy Danych	Ogólna Wiarygodność
Nutrola	AI rozpoznawanie zdjęć + głos	1.8M wpisów weryfikowanych przez dietetyków, opartych na USDA	Wysoka identyfikacja + wysoka dokładność danych
Cal AI	Szacowanie zdjęć AI	Własna baza danych (ograniczona przejrzystość)	Umiarkowana identyfikacja + niepewna dokładność danych
Aplikacje dodające AI do bazy danych crowdsourced	Rozpoznawanie zdjęć AI	Baza danych crowdsourced, nieweryfikowane wpisy	Umiarkowana identyfikacja + niska dokładność danych

Architektura Nutrola została specjalnie zaprojektowana, aby zająć się tym krytycznym uzależnieniem. Funkcje rozpoznawania zdjęć AI i rejestrowania głosu obsługują etapy identyfikacji i szacowania porcji, podczas gdy baza danych z 1,8 miliona wpisów zweryfikowanych przez dietetyków, pochodzących z USDA FoodData Central, zapewnia, że dane odżywcze związane z każdą zidentyfikowaną żywnością są naukowo dokładne. To oddzielenie zadań oznacza, że poprawa w rozpoznawaniu żywności AI bezpośrednio przekłada się na poprawę dokładności śledzenia, bez bycia podważaną przez błędy bazy danych w dalszej kolejności.

Wymagania dotyczące Danych Treningowych

Szkolenie modelu rozpoznawania żywności wymaga dużych, oznakowanych zbiorów danych obrazów żywności. Jakość i różnorodność danych treningowych bezpośrednio wpływają na wydajność modelu.

Rozmiar zbioru danych. Nowoczesne modele rozpoznawania żywności są zazwyczaj trenowane na zbiorach danych liczących od 100 000 do kilku milionów oznakowanych obrazów. Im2Calories Google'a (Meyers i in., 2015) wykorzystało własny zbiór danych milionów obrazów żywności. Publicznie dostępne zbiory danych, takie jak Food-101 (101 000 obrazów) i ISIA Food-500 (400 000 obrazów), są znacznie mniejsze.

Jakość etykiet. Każdy obraz treningowy musi być dokładnie oznakowany kategorią żywności. Błędnie oznaczone dane treningowe produkują modele, które uczą się niepoprawnych skojarzeń. W przypadku obrazów żywności etykietowanie wymaga wiedzy specjalistycznej, ponieważ podobnie wyglądające produkty (ryż jaśminowy vs. ryż basmati, grupers vs. dorsz) są trudne do odróżnienia dla osób bez doświadczenia.

Wymagania dotyczące różnorodności. Dane treningowe muszą reprezentować pełną różnorodność prezentacji żywności: różne kuchnie, style podania, warunki oświetleniowe, kąty kamery i rozmiary porcji. Modele trenowane głównie na zdjęciach żywności zachodniej radzą sobie słabo z kuchniami azjatyckimi, afrykańskimi, bliskowschodnimi czy latynoamerykańskimi.

Etykiety porcji. Aby trenować oszacowanie porcji, obrazy muszą być sparowane z rzeczywistymi pomiarami wagowymi. Tworzenie tych etykiet wymaga fotografowania żywności przed i po jej zważeniu, co jest pracochłonnym procesem, który ogranicza rozmiar zbiorów treningowych do oszacowania porcji.

Problem Złożonego Błędu

Najważniejszym pojęciem technicznym w śledzeniu kalorii z wykorzystaniem AI jest złożony błąd. Każdy etap procesu wprowadza niepewność, a te niepewności się mnożą.

Rozważmy posiłek z grillowanym łososiem, ryżem i brokułami:

Dokładność wykrywania: 90% (każdy produkt poprawnie zlokalizowany).
Dokładność klasyfikacji: 85% (każdy produkt poprawnie zidentyfikowany).
Dokładność szacowania porcji: 75% (porcja w granicach 25% rzeczywistej).
Dokładność dopasowania do bazy danych: 95% (dla zweryfikowanej bazy danych) lub 80% (dla bazy danych crowdsourced).

Łączne prawdopodobieństwo, że wszystkie etapy zakończą się sukcesem dla wszystkich trzech produktów:

Przy zweryfikowanej bazie danych: (0.90 × 0.85 × 0.75 × 0.95)^3 = 0.548^3 = 16.5% szans, że wszystkie trzy produkty będą całkowicie dokładne.
Przy bazie danych crowdsourced: (0.90 × 0.85 × 0.75 × 0.80)^3 = 0.459^3 = 9.7% szans, że wszystkie trzy produkty będą całkowicie dokładne.

Te obliczenia ilustrują, dlaczego złożony błąd sprawia, że idealna dokładność jest nieosiągalna przy obecnej technologii. Pokazują również, że poprawa któregokolwiek etapu poprawia cały proces. Etap dopasowywania do bazy danych jest najłatwiejszy do optymalizacji (użyj zweryfikowanej bazy danych zamiast crowdsourced) i zapewnia znaczną poprawę dokładności przy każdym posiłku.

Aktualny Stan Technologii i Ograniczenia

Co Działa Dobrze

Rozpoznawanie pojedynczych produktów. Identyfikacja pojedynczego, wyraźnie sfotografowanego produktu z znanej kuchni osiąga dokładność powyżej 90 procent przy użyciu nowoczesnych architektur.
Powszechnie spożywane produkty. Najczęściej spożywane produkty mają obfite dane treningowe i są niezawodnie rozpoznawane.
Uzupełnienie kodu kreskowego. Gdy pakowane jedzenie można zidentyfikować za pomocą kodu kreskowego zamiast zdjęcia, dokładność identyfikacji zbliża się do 100 procent (ograniczone tylko przez czytelność kodu kreskowego).

Co Pozostaje Wyzwanie

Dania mieszane. Gulasze, zapiekanki, smażone potrawy i inne dania mieszane, w których poszczególne składniki nie mogą być wizualnie oddzielone, pozostają trudne. Model może oszacować ogólną potrawę, ale nie jej konkretny składnik.
Ukryte składniki. Oleje, masło, cukier i sosy dodawane podczas gotowania mają znaczenie kaloryczne, ale często są niewidoczne w finalnej potrawie. Smażone warzywa przygotowane w 2 łyżkach oleju wyglądają podobnie do tych przygotowanych w sprayu do gotowania, ale różnica kaloryczna wynosi około 240 kalorii.
Dokładność porcji. Szacowanie objętości na podstawie obrazów 2D pozostaje najsłabszym ogniwem, z typowymi błędami wynoszącymi 20-40 procent dla obecnych metod.
Różnorodność kulturowa żywności. Modele trenowane na kuchni zachodniej radzą sobie słabo z kuchniami azjatyckimi, afrykańskimi, bliskowschodnimi i latynoamerykańskimi, które stanowią znaczną część globalnej konsumpcji żywności.

Często Zadawane Pytania

Jak dokładne jest śledzenie kalorii oparte na zdjęciach AI?

Obecne systemy rozpoznawania żywności AI osiągają dokładność identyfikacji żywności wynoszącą 75-95 procent dla pojedynczych produktów z dobrze reprezentowanych kategorii żywności. Jednak szacowanie porcji wprowadza znaczący błąd (20-40 procent według Thames i in., 2021). Ostateczna dokładność szacunku kalorii zależy od złożonego efektu dokładności identyfikacji, dokładności porcji oraz dokładności bazy danych, która stoi za dopasowaniem. Aplikacje takie jak Nutrola, które łączą rozpoznawanie AI z zweryfikowaną bazą danych opartą na USDA, minimalizują komponent błędu bazy danych.

Jakie modele uczenia maszynowego wykorzystują aplikacje do rozpoznawania żywności?

Większość produkcyjnych systemów rozpoznawania żywności wykorzystuje splotowe sieci neuronowe (ResNet, EfficientNet) lub Transformery Wizji (ViT, Swin Transformer) do klasyfikacji, YOLO lub DETR do wykrywania oraz oddzielne modele do szacowania porcji. Szczegółowe architektury i dane treningowe są poufne dla większości komercyjnych aplikacji.

Czy AI potrafi odróżnić podobne produkty, takie jak biały ryż i ryż kalafiorowy?

To wciąż stanowi znaczące wyzwanie. Wizualnie podobne produkty z różnymi profilami odżywczymi to znane ograniczenie rozpoznawania żywności przy użyciu wizji komputerowej. Modele mogą uczyć się subtelnych wskazówek wizualnych (tekstura, struktura ziarna), które odróżniają niektóre podobne produkty, ale dokładność znacznie spada w tych przypadkach. To jeden z powodów, dla których identyfikacja AI powinna być łączona z potwierdzeniem użytkownika i zweryfikowaną bazą danych, a nie wykorzystywana jako całkowicie autonomiczny system.

Dlaczego baza danych stojąca za rozpoznawaniem żywności AI ma znaczenie?

Identyfikacja żywności AI określa, co to za produkt. Baza danych określa wartości odżywcze związane z tym produktem. Nawet doskonała identyfikacja żywności produkuje niedokładne oszacowania kalorii, jeśli wpis w bazie danych jest błędny. Zweryfikowana baza danych oparta na USDA FoodData Central (jak 1,8 miliona wpisów Nutrola) zapewnia, że poprawnie zidentyfikowane produkty są dopasowane do naukowo dokładnych danych odżywczych. Dlatego jakość bazy danych jest tak samo ważna jak jakość modelu AI dla ogólnej dokładności śledzenia.

Jak w przyszłości poprawi się śledzenie kalorii z wykorzystaniem AI?

Trzy obszary aktywnych badań przyczynią się do poprawy: (1) większe i bardziej zróżnicowane zbiory danych treningowych poprawią dokładność klasyfikacji w różnych kuchniach świata; (2) czujniki głębokości LiDAR i wielokamerowe na smartfonach poprawią szacowanie porcji; (3) modele multimodalne łączące rozpoznawanie wizualne z kontekstem tekstowym/głosowym (to, co użytkownik mówi, że je) zredukują niejednoznaczność. Połączenie rozpoznawania zdjęć AI i rejestrowania głosu w Nutrola już wdraża to podejście multimodalne, wykorzystując zarówno wizualne, jak i językowe dane wejściowe, aby poprawić dokładność identyfikacji żywności.

Gotowy, aby przeksztalcic sledzenie zywienia?

Dolacz do tysiecy osob, ktore przeksztalcily swoja podroz zdrowotna z Nutrola!

Download on theApp Store

GET IT ONGoogle Play