Από το Ερευνητικό Εργαστήριο στο Τηλέφωνό σας: Η Υπολογιστική Όραση πίσω από τη Σύγχρονη Αναγνώριση Τροφίμων
Η τεχνητή νοημοσύνη που αναγνωρίζει το μεσημεριανό σας ξεκίνησε ως ερευνητική εργασία. Ακολουθεί η πορεία από τις ακαδημαϊκές ανακαλύψεις στην υπολογιστική όραση μέχρι την τεχνολογία αναγνώρισης τροφίμων που έχετε στην τσέπη σας.
Η τεχνολογία που σας επιτρέπει να τραβάτε μια φωτογραφία του δείπνου σας και να βλέπετε αμέσως την ανάλυση θερμίδων του δεν εμφανίστηκε από το πουθενά. Είναι το αποτέλεσμα δεκαετιών ακαδημαϊκής έρευνας, αμέτρητων δημοσιευμένων εργασιών και μιας συνεχούς ροής ανακαλύψεων στην υπολογιστική όραση και τη βαθιά μάθηση. Αυτό που ξεκίνησε ως ένα εξειδικευμένο ερευνητικό πρόβλημα στα πανεπιστημιακά εργαστήρια έχει εξελιχθεί σε μια δυνατότητα που χρησιμοποιούν καθημερινά εκατομμύρια άνθρωποι χωρίς δεύτερη σκέψη.
Αυτό το άρθρο παρακολουθεί την πλήρη πορεία της τεχνητής νοημοσύνης αναγνώρισης τροφίμων, από τις ρίζες της στην θεμελιώδη έρευνα υπολογιστικής όρασης μέχρι την αναγνώριση τροφίμων σε πραγματικό χρόνο που λειτουργεί στο τηλέφωνό σας. Στη διαδρομή, θα εξετάσουμε τις βασικές εργασίες, τα benchmark datasets, τις επίμονες προκλήσεις και την τεχνική που απαιτείται για να μετατραπούν τα αποτελέσματα του εργαστηρίου σε ένα αξιόπιστο προϊόν για τους καταναλωτές.
Η Σπίθα που Άλλαξε τα Πάντα: Το ImageNet και η Επανάσταση της Βαθιάς Μάθησης
Για να κατανοήσετε πώς λειτουργεί σήμερα η αναγνώριση τροφίμων, πρέπει να ξεκινήσετε με έναν διαγωνισμό που δεν είχε καμία σχέση με τα τρόφιμα.
Ο Διαγωνισμός ImageNet Large Scale Visual Recognition Challenge
Το 2009, η Fei-Fei Li και η ομάδα της στο Stanford δημοσίευσαν το ImageNet, ένα dataset που περιλαμβάνει πάνω από 14 εκατομμύρια εικόνες οργανωμένες σε περισσότερες από 20.000 κατηγορίες. Ο σχετικός διαγωνισμός ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ζητούσε από τους ερευνητές να δημιουργήσουν συστήματα που θα μπορούσαν να ταξινομήσουν εικόνες σε 1.000 κατηγορίες αντικειμένων, από αεροπλάνα μέχρι ζέβρες. Για αρκετά χρόνια, τα καλύτερα συστήματα χρησιμοποιούσαν χειροποίητα χαρακτηριστικά και παραδοσιακές τεχνικές μηχανικής μάθησης, πετυχαίνοντας ποσοστά σφάλματος top-5 γύρω στο 25 με 28 τοις εκατό.
Και τότε ήρθε το 2012.
Οι Alex Krizhevsky, Ilya Sutskever και Geoffrey Hinton παρουσίασαν ένα βαθύ συνελικτικό νευρωνικό δίκτυο που ονόμασαν AlexNet. Αυτό πέτυχε ποσοστό σφάλματος top-5 15.3 τοις εκατό, καταρρίπτοντας τη δεύτερη θέση κατά περισσότερους από 10 ποσοστιαίους βαθμούς. Αυτή δεν ήταν μια σταδιακή βελτίωση. Ήταν μια παραδειγματική αλλαγή που σήμανε την άφιξη της βαθιάς μάθησης ως την κυρίαρχη προσέγγιση στην υπολογιστική όραση.
Η εργασία, "ImageNet Classification with Deep Convolutional Neural Networks" (Krizhevsky et al., 2012), είναι μία από τις πιο αναφερόμενες εργασίες σε όλη την επιστήμη των υπολογιστών. Η επίδρασή της επεκτάθηκε πολύ πέρα από τον διαγωνισμό ImageNet. Ερευνητές σε κάθε υποτομέα της υπολογιστικής όρασης, συμπεριλαμβανομένης της αναγνώρισης τροφίμων, άρχισαν αμέσως να εξερευνούν πώς θα μπορούσαν να εφαρμοστούν τα βαθιά συνελικτικά νευρωνικά δίκτυα στα συγκεκριμένα προβλήματά τους.
Γιατί το ImageNet 2012 Ήταν Σημαντικό για τα Τρόφιμα
Πριν από το AlexNet, τα συστήματα αναγνώρισης τροφίμων βασίζονταν σε χειροποίητα χαρακτηριστικά: ιστογράμματα χρωμάτων, περιγραφείς υφής όπως τα Local Binary Patterns (LBP) και χαρακτηριστικά μορφής που εξάγονταν χρησιμοποιώντας αλγορίθμους όπως το SIFT (Scale-Invariant Feature Transform). Αυτές οι προσεγγίσεις δυσκολεύονταν να γενικεύσουν. Ένα σύστημα εκπαιδευμένο να αναγνωρίζει πίτσα χρησιμοποιώντας χαρακτηριστικά χρώματος και υφής θα αποτύγχανε όταν παρουσιαζόταν με μια πίτσα που είχε μια άγνωστη γαρνιτούρα ή ασυνήθιστο φωτισμό.
Τα βαθιά CNN άλλαξαν θεμελιωδώς την κατάσταση. Αντί να απαιτούν από τους ερευνητές να ορίσουν χειροκίνητα ποια οπτικά χαρακτηριστικά είναι σημαντικά, το δίκτυο μάθαινε διακριτικά χαρακτηριστικά απευθείας από τα δεδομένα. Αυτό σήμαινε ότι, δεδομένου ενός ικανού αριθμού εκπαιδευτικών εικόνων, ένα CNN μπορούσε να μάθει να αναγνωρίζει τρόφιμα υπό μια ευρεία γκάμα συνθηκών, διαχειριζόμενο παραλλαγές στον φωτισμό, τη γωνία, την παρουσίαση και την προετοιμασία που θα απέκλειαν τις χειροποίητες προσεγγίσεις.
Η Καταρράκωση των Βελτιώσεων: 2013 έως 2020
Τα χρόνια που ακολούθησαν το AlexNet παρήγαγαν μια ταχεία διαδοχή αρχιτεκτονικών καινοτομιών, η καθεμία από τις οποίες αύξανε την ακρίβεια και καθιστούσε την ανάπτυξη πιο πρακτική:
| Έτος | Αρχιτεκτονική | Κύρια Συνεισφορά | Top-5 Σφάλμα ImageNet |
|---|---|---|---|
| 2012 | AlexNet | Απέδειξε τη δυνατότητα των βαθιών CNN σε μεγάλη κλίμακα | 15.3% |
| 2014 | VGGNet | Έδειξε ότι το βάθος (16-19 στρώματα) βελτιώνει την ακρίβεια | 7.3% |
| 2014 | GoogLeNet (Inception) | Πολυδιάστατη εξαγωγή χαρακτηριστικών με αποδοτική υπολογιστική | 6.7% |
| 2015 | ResNet | Υπολειμματικές συνδέσεις που επιτρέπουν δίκτυα 152 στρωμάτων | 3.6% |
| 2017 | SENet | Μηχανισμοί προσοχής καναλιών | 2.3% |
| 2019 | EfficientNet | Σύνθετη κλιμάκωση για βέλτιστη ισορροπία ακρίβειας/αποτελεσματικότητας | 2.0% |
| 2020 | Vision Transformer (ViT) | Αυτοπροσοχή εφαρμοσμένη σε τμήματα εικόνας | 1.8% |
Κάθε μία από αυτές τις αρχιτεκτονικές υιοθετήθηκε γρήγορα από τους ερευνητές αναγνώρισης τροφίμων, οι οποίοι τις χρησιμοποίησαν ως στήριγμα για μοντέλα ειδικά για τρόφιμα.
Το Dataset Food-101: Δίνοντας στους Ερευνητές Ένα Κοινό Benchmark
Οι γενικής χρήσης ταξινομητές εικόνας εκπαιδευμένοι στο ImageNet μπορούσαν να διακρίνουν μια πίτσα από ένα αυτοκίνητο, αλλά η διάκριση της πίτσας μαργαρίτα από την πίτσα μπλάνκα απαιτεί ένα πολύ πιο λεπτό επίπεδο οπτικής διάκρισης. Η κοινότητα έρευνας αναγνώρισης τροφίμων χρειαζόταν το δικό της μεγάλο dataset.
Οι Bossard et al. και η Γέννηση του Food-101
Το 2014, οι Lukas Bossard, Matthieu Guillaumin και Luc Van Gool από το ETH Zurich δημοσίευσαν την εργασία "Food-101 -- Mining Discriminative Components with Random Forests" στην Ευρωπαϊκή Διάσκεψη Υπολογιστικής Όρασης (ECCV). Εισήγαγαν το dataset Food-101: 101.000 εικόνες που καλύπτουν 101 κατηγορίες τροφίμων, με 1.000 εικόνες ανά κατηγορία. Οι εικόνες συλλέχθηκαν σκόπιμα από πραγματικές πηγές (Foodspotting, μια κοινωνική πλατφόρμα κοινής χρήσης τροφίμων) αντί από ελεγχόμενα εργαστηριακά περιβάλλοντα, πράγμα που σημαίνει ότι περιλάμβαναν τον θόρυβο, την παραλλαγή και την ατέλεια των πραγματικών φωτογραφιών τροφίμων.
Το Food-101 καθόρισε ένα κοινό benchmark που επέτρεψε στους ερευνητές να συγκρίνουν τις προσεγγίσεις τους άμεσα. Η αρχική εργασία πέτυχε 50.76 τοις εκατό top-1 ακρίβεια χρησιμοποιώντας μια προσέγγιση τυχαίων δασών με χειροποίητα χαρακτηριστικά. Μέσα σε ένα χρόνο, οι προσεγγίσεις βαθιάς μάθησης ξεπέρασαν το 70 τοις εκατό. Μέχρι το 2018, μοντέλα που βασίζονταν σε αρχιτεκτονικές όπως το Inception και το ResNet ξεπέρασαν το 90 τοις εκατό top-1 ακρίβεια στο Food-101.
Άλλα Σημαντικά Datasets Τροφίμων
Το Food-101 ήταν το πιο ευρέως χρησιμοποιούμενο benchmark, αλλά η ερευνητική κοινότητα παρήγαγε αρκετά άλλα datasets που προώθησαν το πεδίο:
UEC-Food100 και UEC-Food256 (2012, 2014): Αναπτύχθηκαν από το Πανεπιστήμιο Ηλεκτρονικών Επικοινωνιών στην Ιαπωνία, αυτά τα datasets επικεντρώθηκαν στην ιαπωνική κουζίνα και εισήγαγαν σημειώσεις περιγράμματος για την ανίχνευση πολλών τροφίμων. Το UEC-Food256 επεκτάθηκε σε 256 κατηγορίες που καλύπτουν πολλές ασιατικές κουζίνες.
VIREO Food-172 (2016): Δημιουργήθηκε από το City University of Hong Kong, αυτό το dataset περιλάμβανε 172 κατηγορίες κινεζικών τροφίμων μαζί με σημειώσεις συστατικών, διευκολύνοντας την έρευνα στην αναγνώριση σε επίπεδο συστατικού.
Nutrition5k (2021): Αναπτύχθηκε από την Google Research, αυτό το dataset συνδύασε εικόνες τροφίμων με ακριβείς διατροφικές μετρήσεις που αποκτήθηκαν μέσω θερμιδομετρίας. Με 5.006 ρεαλιστικά πιάτα γευμάτων και εργαστηριακά επαληθευμένες μετρήσεις θερμίδων, το Nutrition5k παρείχε ένα dataset αλήθειας για την εκπαίδευση και την αξιολόγηση συστημάτων εκτίμησης μερίδας.
Food2K (2021): Ένα μεγάλης κλίμακας benchmark που περιλαμβάνει 2.000 κατηγορίες τροφίμων και πάνω από ένα εκατομμύριο εικόνες, σχεδιασμένο για να προωθήσει την αναγνώριση τροφίμων προς την κλίμακα της γενικής αναγνώρισης αντικειμένων.
MAFood-121 (2019): Επικεντρωμένο στην αναγνώριση τροφίμων πολλαπλών χαρακτηριστικών, συμπεριλαμβανομένου του τύπου κουζίνας και της μεθόδου προετοιμασίας παράλληλα με την κατηγορία τροφίμου, αντικατοπτρίζει την πραγματική ανάγκη να κατανοήσουμε όχι μόνο τι είναι ένα φαγητό αλλά και πώς έχει παρασκευαστεί.
Η διαθεσιμότητα αυτών των datasets ήταν ουσιώδης. Στη μηχανική μάθηση, η ποιότητα και η κλίμακα των εκπαιδευτικών δεδομένων συχνά έχουν μεγαλύτερη σημασία από την αρχιτεκτονική του μοντέλου. Κάθε νέο dataset επεκτείνει την γκάμα τροφίμων, κουζινών και οπτικών συνθηκών από τις οποίες τα μοντέλα μπορούν να μάθουν.
Γιατί τα Τρόφιμα Είναι Πιο Δύσκολα από την "Κανονική" Ανίχνευση Αντικειμένων
Οι ερευνητές που εργάζονται στην αναγνώριση τροφίμων ανακάλυψαν γρήγορα ότι τα τρόφιμα παρουσιάζουν μοναδικές προκλήσεις που δεν προκύπτουν στην γενική ανίχνευση αντικειμένων. Η κατανόηση αυτών των προκλήσεων εξηγεί γιατί ένα σύστημα που μπορεί να αναγνωρίζει αξιόπιστα αυτοκίνητα, σκύλους και κτίρια μπορεί να δυσκολεύεται με ένα πιάτο φαγητού.
Το Πρόβλημα της Ενδοκατηγορικής Παραλλαγής
Ένας χρυσός retriever μοιάζει με έναν χρυσό retriever είτε κάθεται, είτε τρέχει, είτε κοιμάται. Αλλά μια σαλάτα μπορεί να μοιάζει σχεδόν με οτιδήποτε. Μια ελληνική σαλάτα, μια σαλάτα Caesar, μια σαλάτα Waldorf και μια σαλάτα με κινόα και λάχανο μοιράζονται την ίδια ετικέτα κατηγορίας "σαλάτα" αλλά δεν έχουν σχεδόν τίποτα οπτικά κοινό. Αυτή η ενδοκατηγορική παραλλαγή είναι ακραία για τις κατηγορίες τροφίμων και υπερβαίνει κατά πολύ ό,τι βρίσκετε στις περισσότερες εργασίες αναγνώρισης αντικειμένων.
Αντίθετα, η διασύνδεση μεταξύ κατηγοριών είναι επίσης υψηλή. Ένα μπολ ντοματοσούπας και ένα μπολ κόκκινου κάρυ μπορεί να φαίνονται σχεδόν πανομοιότυπα από πάνω. Το τηγανητό ρύζι και το πιλάφι μοιράζονται οπτικά χαρακτηριστικά. Ένα μπαρ πρωτεΐνης και ένα μπράουνι μπορεί να είναι αδιάκριτα σε μια φωτογραφία. Τα οπτικά όρια μεταξύ των κατηγοριών τροφίμων είναι συχνά θολά με τρόπο που τα όρια μεταξύ αυτοκινήτων και φορτηγών δεν είναι.
Η Παραμορφωτική Φύση των Τροφίμων
Τα περισσότερα αντικείμενα που τα συστήματα υπολογιστικής όρασης εκπαιδεύονται να αναγνωρίζουν έχουν συνεπή γεωμετρική δομή. Μια καρέκλα έχει πόδια, κάθισμα και πλάτη. Τα τρόφιμα, αντίθετα, είναι παραμορφώσιμα, αμορφικά και απρόβλεπτα στην οπτική τους παρουσίαση. Μια μερίδα πουρέ πατάτας δεν έχει συνεπή σχήμα. Τα ζυμαρικά μπορούν να σερβιριστούν σε άπειρους συνδυασμούς. Ακόμα και η ίδια συνταγή που παρασκευάζεται από δύο διαφορετικούς ανθρώπους μπορεί να φαίνεται σημαντικά διαφορετική.
Αυτή η παραμορφωσιμότητα σημαίνει ότι τα χαρακτηριστικά που βασίζονται σε σχήματα, τα οποία είναι ισχυρά για την ανίχνευση άκαμπτων αντικειμένων, συμβάλλουν σχετικά λίγο στην αναγνώριση τροφίμων. Τα μοντέλα πρέπει να βασίζονται περισσότερο σε χρώμα, υφή και συμφραζόμενα.
Απόκρυψη και Μεικτά Πιάτα
Σε μια τυπική φωτογραφία γεύματος, τα τρόφιμα επικαλύπτονται και αποκρύπτονται το ένα από το άλλο. Σάλτσα καλύπτει το κρέας. Τυρί λιώνει πάνω από τα λαχανικά. Ρύζι βρίσκεται κάτω από ένα στιφάδο. Αυτά τα μοτίβα απόκρυψης δεν είναι απλώς κοινά, είναι ο κανόνας. Ένα σύστημα αναγνώρισης τροφίμων πρέπει να είναι ανθεκτικό στην μερική ορατότητα με έναν τρόπο που είναι πολύ πιο απαιτητικός από, για παράδειγμα, την ανίχνευση πεζών σε μια σκηνή δρόμου.
Τα μεικτά πιάτα παρουσιάζουν ένα ακόμη πιο δύσκολο πρόβλημα. Ένα μπurrito τυλίγει τα συστατικά του μέσα σε μια τορτίγια, κάνοντάς τα αόρατα. Ένα smoothie αναμειγνύει φρούτα και άλλα συστατικά σε ένα ομοιογενές υγρό. Ένα κασσερόλι συνδυάζει πολλά συστατικά σε μια ενιαία οπτική μάζα. Για αυτά τα τρόφιμα, η αναγνώριση πρέπει να βασίζεται στην ολική εμφάνιση και τις μαθημένες συσχετίσεις παρά στην αναγνώριση μεμονωμένων συστατικών.
Φωτισμός και Περιβαλλοντική Παραλλαγή
Οι φωτογραφίες τροφίμων τραβιούνται υπό εξαιρετικά μεταβλητές συνθήκες. Ο φωτισμός στα εστιατόρια κυμαίνεται από έντονο φθορισμό μέχρι χαμηλό φως κεριών. Οι κουζίνες στο σπίτι έχουν ασυνεπή θερμοκρασία χρώματος. Η φωτογραφία με φλας αλλάζει το φαινόμενο χρώμα των τροφίμων. Οι φωτογραφίες που τραβιούνται έξω σε μια ηλιόλουστη μέρα δεν μοιάζουν καθόλου με φωτογραφίες που τραβήχτηκαν σε ένα σκοτεινό γραφείο. Αυτή η παραλλαγή στις συνθήκες απεικόνισης επηρεάζει δραματικά τα χαρακτηριστικά που βασίζονται σε χρώμα, και καθώς το χρώμα είναι ένα από τα πιο ισχυρά στοιχεία για την αναγνώριση τροφίμων, δημιουργεί μια σημαντική πρόκληση.
Το Πρόβλημα Εκτίμησης Μερίδας: Όπου η Έρευνα Γίνεται Πραγματικά Δύσκολη
Η αναγνώριση του τι φαγητό υπάρχει σε ένα πιάτο είναι μόνο το μισό πρόβλημα. Για να είναι χρήσιμο για την παρακολούθηση της διατροφής, ένα σύστημα πρέπει επίσης να εκτιμήσει πόσο από κάθε φαγητό είναι παρόν. Αυτό είναι το πρόβλημα εκτίμησης μερίδας, και παραμένει μία από τις πιο ενεργές και προκλητικές περιοχές έρευνας υπολογιστικής τροφίμων.
Γιατί η Εκτίμηση Μερίδας Είναι Θεμελιωδώς Δύσκολη
Μια μόνο φωτογραφία 2D απορρίπτει τις πληροφορίες βάθους. Χωρίς να γνωρίζουμε την απόσταση από την κάμερα μέχρι το πιάτο, το μέγεθος του πιάτου ή το ύψος μιας μερίδας φαγητού, είναι αδύνατο να ανακτηθεί ο πραγματικός φυσικός όγκος του φαγητού από τις μετρήσεις pixel μόνο. Αυτή δεν είναι μια περιοριστική ικανότητα της τρέχουσας AI. Είναι μια μαθηματική πραγματικότητα της προβολικής γεωμετρίας. Ένα μικρό μπολ κοντά στην κάμερα και ένα μεγάλο μπολ μακριά παράγουν ταυτόσημες εικόνες.
Οι ερευνητές έχουν εξερευνήσει πολλές προσεγγίσεις για να παρακάμψουν αυτόν τον περιορισμό:
Μέθοδοι αναφοράς αντικειμένων: Ορισμένα συστήματα ζητούν από τον χρήστη να συμπεριλάβει ένα γνωστό αντικείμενο αναφοράς (ένα κέρμα, μια πιστωτική κάρτα, ένα συγκεκριμένο πιάτο) στο πλαίσιο. Με τη μέτρηση των διαστάσεων pixel του γνωστού αντικειμένου σε σχέση με το πραγματικό του μέγεθος, το σύστημα μπορεί να εκτιμήσει την κλίμακα. Το σύστημα TADA (Three-Dimensional Automatic Dietary Assessment) που αναπτύχθηκε στο Purdue University χρησιμοποίησε ένα σημάδι αναφοράς (ένα μοτίβο καρό) για αυτόν τον σκοπό. Αν και είναι ακριβές, αυτή η προσέγγιση προσθέτει τριβή που την καθιστά μη πρακτική για καθημερινή χρήση από τους καταναλωτές.
Εκτίμηση βάθους από μονοδιάστατες εικόνες: Τα νευρωνικά δίκτυα μπορούν να εκτιμήσουν χάρτες βάθους από μεμονωμένες εικόνες εκμεταλλευόμενα μαθημένες προτιμήσεις σχετικά με τυπικές σκηνές. Έρευνες από ομάδες στο Πανεπιστήμιο του Πίτσμπουργκ και το Georgia Tech έχουν εφαρμόσει την εκτίμηση βάθους από μονοδιάστατες εικόνες σε φωτογραφίες τροφίμων, επιτυγχάνοντας εκτιμήσεις όγκου εντός 15 με 25 τοις εκατό της αλήθειας σε ελεγχόμενες συνθήκες.
Ανακατασκευή πολλαπλών γωνιών: Ορισμένα ερευνητικά συστήματα ζητούν από τους χρήστες να καταγράψουν τρόφιμα από πολλές γωνίες, επιτρέποντας την τρισδιάστατη ανακατασκευή. Αν και πιο ακριβές, αυτό προσθέτει ξανά τριβή. Η έρευνα των Fang et al. (2019) έδειξε ότι ακόμη και δύο γωνίες μπορούν να βελτιώσουν σημαντικά την ακρίβεια εκτίμησης όγκου.
Μαθημένες προτιμήσεις μερίδας: Αντί να προσπαθούν να ανακτήσουν ακριβή φυσικό όγκο, ορισμένα συστήματα μαθαίνουν στατιστικές κατανομές τυπικών μεγεθών μερίδας για κάθε κατηγορία τροφίμου. Αν το σύστημα γνωρίζει ότι η μεσαία μερίδα μαγειρεμένου λευκού ρυζιού είναι περίπου 158 γραμμάρια, μπορεί να χρησιμοποιήσει αυτή την προτίμηση σε συνδυασμό με οπτικά στοιχεία σχετικά με το σχετικό μέγεθος του φαγητού στην εικόνα για να παράγει μια λογική εκτίμηση.
Κύριες Εργασίες Εκτίμησης Μερίδας
Πολλές εργασίες έχουν προχωρήσει την κατάσταση της τέχνης στην εκτίμηση μερίδας:
- Οι Meyers et al. (2015), "Im2Calories: Towards an Automated Mobile Vision Food Diary," από την Google Research, πρότειναν τη χρήση ενός CNN για την εκτίμηση περιεχομένου θερμίδων απευθείας από φωτογραφίες τροφίμων, παρακάμπτοντας την ρητή εκτίμηση όγκου.
- Οι Fang et al. (2019), "An End-to-End Image-Based Automatic Food Energy Estimation Technique Based on Learned Energy Distribution Maps," εισήγαγαν χάρτες κατανομής ενέργειας που προβλέπουν την πυκνότητα θερμίδων ανά pixel.
- Οι Thames et al. (2021), "Nutrition5k: Towards Automatic Nutritional Understanding of Generic Food," παρείχαν το πρώτο μεγάλο dataset με επαληθευμένη αλήθεια διατροφής μέσω θερμιδομετρίας, διευκολύνοντας την πιο αυστηρή αξιολόγηση των συστημάτων εκτίμησης μερίδας.
- Οι Lu et al. (2020) απέδειξαν ότι ο συνδυασμός της τμηματοποίησης τροφίμων με την εκτίμηση βάθους αποδίδει εκτιμήσεις μερίδας με μέσο απόλυτο σφάλμα κάτω από 20 τοις εκατό για κοινές κατηγορίες τροφίμων.
Η Διαφορά Μεταξύ Ακρίβειας Έρευνας και Απόδοσης στον Πραγματικό Κόσμο
Ένα από τα πιο σημαντικά και λιγότερο συζητημένα θέματα στην τεχνητή νοημοσύνη αναγνώρισης τροφίμων είναι η διαφορά μεταξύ της απόδοσης benchmark και της απόδοσης στον πραγματικό κόσμο. Η κατανόηση αυτής της διαφοράς είναι κρίσιμη για τον καθορισμό ρεαλιστικών προσδοκιών σχετικά με το τι μπορεί και τι δεν μπορεί να κάνει η τεχνολογία αναγνώρισης τροφίμων.
Συνθήκες Benchmark vs. Πραγματικότητα
Οι ερευνητικές εργασίες συνήθως αναφέρουν την ακρίβεια σε επιμελημένα σύνολα δοκιμών που προέρχονται από την ίδια κατανομή με τα δεδομένα εκπαίδευσης. Η ακρίβεια του Food-101 93 τοις εκατό ακούγεται εντυπωσιακή, αλλά σημαίνει ότι το μοντέλο δοκιμάστηκε σε εικόνες από την ίδια πηγή και παρόμοιες συνθήκες με τις εκπαιδευτικές του εικόνες. Όταν αναπτυχθεί στον πραγματικό κόσμο, η ακρίβεια μειώνεται για αρκετούς λόγους:
Μετατόπιση κατανομής: Οι χρήστες τραβούν φωτογραφίες με διαφορετικές κάμερες, φωτισμούς, γωνίες και συνθέσεις από αυτές που εκπροσωπούνται στα δεδομένα εκπαίδευσης. Ένα μοντέλο εκπαιδευμένο κυρίως σε φωτογραφίες τροφίμων από πάνω από ιστολόγια τροφίμων θα αποδώσει λιγότερο καλά όταν ένας χρήστης τραβήξει μια κεκλιμένη φωτογραφία με φλας σε ένα σκοτεινό εστιατόριο.
Τρόφιμα μακράς ουράς: Τα benchmark datasets καλύπτουν έναν περιορισμένο αριθμό κατηγοριών. Το Food-101 έχει 101 κατηγορίες, το Food2K έχει 2.000. Αλλά ένα πραγματικά παγκόσμιο σύστημα αναγνώρισης τροφίμων πρέπει να διαχειρίζεται δεκάδες χιλιάδες πιάτα. Η απόδοση σε σπάνια ή πολιτιστικά συγκεκριμένα τρόφιμα είναι συνήθως πολύ χαμηλότερη από τους αναφερόμενους μέσους όρους.
Σύνθετα γεύματα: Τα περισσότερα benchmarks αξιολογούν την ταξινόμηση ενός μόνο φαγητού. Τα πραγματικά γεύματα περιλαμβάνουν πολλά τρόφιμα σε ένα μόνο πιάτο, απαιτώντας ανίχνευση, τμηματοποίηση και ταξινόμηση ταυτόχρονα. Η ακρίβεια πολλών τροφίμων είναι συνεχώς χαμηλότερη από την ακρίβεια ενός μόνο φαγητού.
Συσσώρευση σφαλμάτων εκτίμησης μερίδας: Ακόμα και μικρά σφάλματα στην αναγνώριση τροφίμων συσσωρεύονται όταν συνδυάζονται με την εκτίμηση μερίδας. Εάν το σύστημα συγχέει την κινόα με το κουσκούς (μια πιθανή οπτική σύγχυση), εφαρμόζει τη λανθασμένη διατροφική πυκνότητα στην εκτίμηση όγκου του, με αποτέλεσμα σφάλματα τόσο στην ανάλυση μακροθρεπτικών συστατικών όσο και στην καταμέτρηση θερμίδων.
Ποσοτικοποιώντας τη Διαφορά
Οι δημοσιευμένες έρευνες προτείνουν τις εξής περίπου περιοχές απόδοσης:
| Εργασία | Ακρίβεια Benchmark | Ακρίβεια Πραγματικού Κόσμου |
|---|---|---|
| Ταξινόμηση ενός μόνο φαγητού (top-1) | 88-93% | 70-82% |
| Ταξινόμηση ενός μόνο φαγητού (top-5) | 96-99% | 88-94% |
| Ανίχνευση πολλών τροφίμων ανά αντικείμενο | 75-85% | 60-75% |
| Εκτίμηση μερίδας (εντός 20% της αλήθειας) | 65-75% | 45-60% |
| Εκτίμηση θερμίδων end-to-end (εντός 20%) | 55-65% | 35-50% |
Αυτοί οι αριθμοί αναδεικνύουν μια σημαντική αλήθεια: η τεχνητή νοημοσύνη αναγνώρισης τροφίμων είναι καλή και γίνεται καλύτερη, αλλά δεν είναι ακόμη αντικατάσταση για προσεκτική μέτρηση. Είναι ένα εργαλείο που μειώνει δραματικά την τριβή, αποδεχόμενο παράλληλα ένα γνωστό περιθώριο σφάλματος.
Χρονολόγιο Κύριων Ανακαλύψεων
Το παρακάτω χρονολόγιο συνοψίζει τα κύρια ορόσημα στην πορεία από την γενική έρευνα υπολογιστικής όρασης μέχρι την τεχνολογία αναγνώρισης τροφίμων στο τηλέφωνό σας:
2009 -- Δημοσίευση του dataset ImageNet. Η Fei-Fei Li και η ομάδα της στο Stanford δημοσιεύουν το dataset ImageNet, παρέχοντας το μεγάλο benchmark που θα τροφοδοτήσει την επανάσταση της βαθιάς μάθησης.
2012 -- Νίκη του AlexNet στο ILSVRC. Οι Krizhevsky, Sutskever και Hinton αποδεικνύουν ότι τα βαθιά συνελικτικά νευρωνικά δίκτυα ξεπερνούν δραματικά τις παραδοσιακές προσεγγίσεις στην ταξινόμηση εικόνας. Η εποχή της βαθιάς μάθησης αρχίζει.
2012 -- Δημοσίευση του UEC-Food100. Ένα από τα πρώτα μεγάλης κλίμακας datasets εικόνας τροφίμων, επικεντρωμένο στην ιαπωνική κουζίνα, καθορίζει την αναγνώριση τροφίμων ως διακριτό ερευνητικό πρόβλημα.
2014 -- Δημοσίευση του dataset Food-101. Οι Bossard et al. στο ETH Zurich δημοσιεύουν το benchmark που θα γίνει το πρότυπο αξιολόγησης για την έρευνα αναγνώρισης τροφίμων.
2014 -- GoogLeNet και VGGNet. Δύο επιδραστικές αρχιτεκτονικές αποδεικνύουν ότι οι βαθύτερες και πιο εξελιγμένες σχεδιάσεις δικτύων βελτιώνουν σημαντικά την ακρίβεια ταξινόμησης. Και οι δύο υιοθετούνται γρήγορα από τους ερευνητές αναγνώρισης τροφίμων.
2015 -- Εισαγωγή του ResNet. Οι He et al. στο Microsoft Research εισάγουν υπολειμματικές συνδέσεις, επιτρέποντας δίκτυα με περισσότερα από 100 στρώματα. Το ResNet γίνεται το πιο ευρέως χρησιμοποιούμενο backbone στα συστήματα αναγνώρισης τροφίμων για τα επόμενα χρόνια.
2015 -- Δημοσίευση της εργασίας Im2Calories. Η Google Research αποδεικνύει την εκτίμηση θερμίδων από φωτογραφίες τροφίμων, καθορίζοντας την άμεση ροή εικόνας προς διατροφή ως βιώσιμη ερευνητική κατεύθυνση.
2016 -- Ωρίμανση της ανίχνευσης αντικειμένων σε πραγματικό χρόνο. Το YOLO (Redmon et al., 2016) και το SSD (Liu et al., 2016) επιτρέπουν την ανίχνευση πολλών αντικειμένων σε λιγότερο από ένα δευτερόλεπτο, καθιστώντας εφικτή την ανίχνευση πολλών τροφίμων σε ένα πιάτο.
2017 -- Η μεταφορά μάθησης γίνεται τυπική πρακτική. Η ερευνητική κοινότητα συγκλίνει σε μια κοινή μεθοδολογία: προεκπαίδευση στο ImageNet, λεπτομερής εκπαίδευση σε datasets τροφίμων. Αυτή η προσέγγιση επιτυγχάνει ακρίβεια πάνω από 88 τοις εκατό στο Food-101.
2019 -- Δημοσίευση του EfficientNet. Οι Tan και Le στην Google εισάγουν τη σύνθετη κλιμάκωση, παράγοντας μοντέλα που είναι τόσο πιο ακριβή όσο και πιο αποδοτικά από τους προκατόχους τους. Αυτό καθιστά εφικτή την αναγνώριση τροφίμων υψηλής ακρίβειας σε κινητές συσκευές χωρίς υπολογιστική στο cloud.
2020 -- Δημοσίευση των Vision Transformers (ViT). Οι Dosovitskiy et al. στην Google αποδεικνύουν ότι οι αρχιτεκτονικές μετασχηματιστών, που αρχικά αναπτύχθηκαν για την επεξεργασία φυσικής γλώσσας, μπορούν να ανταγωνίζονται ή να ξεπερνούν τα CNN στην ταξινόμηση εικόνας. Αυτό ανοίγει νέες οδούς για την έρευνα αναγνώρισης τροφίμων.
2021 -- Δημοσίευση του dataset Nutrition5k. Η Google Research δημοσιεύει ένα dataset με επαληθευμένη αλήθεια διατροφής μέσω θερμιδομετρίας, παρέχοντας το πρώτο αυστηρό benchmark για την αξιολόγηση της εκτίμησης διατροφής end-to-end.
2022-2024 -- Εμφάνιση θεμελιωδών μοντέλων. Μεγάλα προεκπαιδευμένα μοντέλα όρασης-γλώσσας όπως το CLIP (Radford et al., 2021) και τα επόμενα μοντέλα επιτρέπουν την αναγνώριση τροφίμων zero-shot και few-shot, επιτρέποντας στα συστήματα να αναγνωρίζουν κατηγορίες τροφίμων που δεν έχουν εκπαιδευτεί ρητά.
2025-2026 -- Η εκτέλεση στη συσκευή γίνεται τυπική. Οι πρόοδοι στη συμπίεση μοντέλων, την ποσοτικοποίηση και τις κινητές μονάδες επεξεργασίας νευρώνων (NPUs) επιτρέπουν στα μοντέλα αναγνώρισης τροφίμων να λειτουργούν εξ ολοκλήρου στη συσκευή, εξαλείφοντας την καθυστέρηση και τις ανησυχίες για την ιδιωτικότητα που σχετίζονται με την επεξεργασία στο cloud.
Πώς η Nutrola Γεφυρώνει τη Διαφορά Μεταξύ Έρευνας και Πράξης
Η ακαδημαϊκή έρευνα που περιγράφεται παραπάνω είναι απαραίτητη αλλά όχι επαρκής για την κατασκευή ενός συστήματος αναγνώρισης τροφίμων που λειτουργεί αξιόπιστα για πραγματικούς ανθρώπους σε πραγματικές συνθήκες. Η διαφορά μεταξύ της δημοσίευσης μιας εργασίας με 93 τοις εκατό ακρίβεια στο Food-101 και της κυκλοφορίας ενός προϊόντος που οι χρήστες εμπιστεύονται για την καθημερινή παρακολούθηση της διατροφής τους είναι τεράστια. Εδώ είναι που η μηχανική, η στρατηγική δεδομένων και ο σχεδιασμός με επίκεντρο τον χρήστη γίνονται εξίσου σημαντικά με την αρχιτεκτονική του μοντέλου.
Εκπαίδευση σε Πραγματικές Κατανομές Δεδομένων Χρηστών
Τα ακαδημαϊκά datasets είναι επιμελημένα από ιστολόγια τροφίμων, κοινωνικά δίκτυα και ελεγχόμενες φωτογραφικές συνεδρίες. Οι πραγματικές φωτογραφίες χρηστών είναι πιο ακατάστατες: μερικώς φαγωμένα γεύματα, ακατάστατα φόντα, κακός φωτισμός, ασυνήθιστες γωνίες, πολλαπλά πιάτα στο πλαίσιο. Η Nutrola εκπαιδεύει τα μοντέλα της σε κατανομές δεδομένων που αντικατοπτρίζουν τα πραγματικά πρότυπα χρήσης, συμπεριλαμβανομένων των ατελών, πραγματικών εικόνων που οι χρήστες καταγράφουν. Αυτό κλείνει μια σημαντική μερίδα της διαφοράς μετατόπισης κατανομής.
Συνεχής Μάθηση και Κύκλοι Ανατροφοδότησης
Ένα στατικό μοντέλο που εκπαιδεύεται μία φορά και αναπτύσσεται θα υποβαθμιστεί καθώς η συμπεριφορά των χρηστών και οι τάσεις τροφίμων αλλάζουν. Η Nutrola εφαρμόζει συνεχείς ροές μάθησης που ενσωματώνουν διορθώσεις και ανατροφοδότηση από τους χρήστες. Όταν ένας χρήστης διορθώνει μια λανθασμένη αναγνώριση, αυτό το σήμα συγκεντρώνεται (με προστασίες ιδιωτικότητας) και χρησιμοποιείται για τη βελτίωση της απόδοσης του μοντέλου στα συγκεκριμένα τρόφιμα και τις συνθήκες όπου τα σφάλματα είναι πιο κοινά.
Συνδυασμός Πολλών Σημάτων
Αντί να βασίζεται αποκλειστικά στην οπτική ταξινόμηση, η Nutrola συνδυάζει την αναγνώριση βάσει εικόνας με συμφραζόμενα για να βελτιώσει την ακρίβεια. Η ώρα της ημέρας, η γεωγραφική περιοχή, η πρόσφατη ιστορία γευμάτων και οι προτιμήσεις του χρήστη λειτουργούν όλες ως προτιμήσεις που βοηθούν στην αποσαφήνιση οπτικά παρόμοιων τροφίμων. Ένα μπολ κόκκινου υγρού που φωτογραφήθηκε το πρωί στη Βόρεια Αμερική είναι πιο πιθανό να είναι χυμός ντομάτας παρά γκαζπάτσο, και το σύστημα μπορεί να χρησιμοποιήσει αυτό το συμφραζόμενο για να κάνει καλύτερες προβλέψεις.
Ειλικρινής Επικοινωνία Εμπιστοσύνης
Μία από τις πιο σημαντικές αποφάσεις σχεδίασης είναι πώς να επικοινωνηθεί η αβεβαιότητα. Όταν το μοντέλο είναι σίγουρο, η Nutrola παρουσιάζει την αναγνώρισή της απευθείας. Όταν η εμπιστοσύνη είναι χαμηλότερη, το σύστημα παρουσιάζει πολλές επιλογές και ζητά από τον χρήστη να επιβεβαιώσει. Αυτό το μοτίβο αλληλεπίδρασης σέβεται τους εγγενείς περιορισμούς της τεχνολογίας ενώ εξακολουθεί να μειώνει την τριβή σε σύγκριση με την χειροκίνητη καταγραφή. Αντί να προσποιείται ότι είναι τέλειο, το σύστημα είναι διαφανές σχετικά με το πότε χρειάζεται βοήθεια.
Βελτιστοποίηση για Διατροφική Ακρίβεια, Όχι Μόνο Ακρίβεια Ταξινόμησης
Τα ακαδημαϊκά benchmarks μετρούν την ακρίβεια ταξινόμησης: αναγνώρισε το μοντέλο σωστά το φαγητό; Αλλά για την παρακολούθηση διατροφής, το σχετικό μέτρο είναι η διατροφική ακρίβεια: πόσο κοντά είναι το εκτιμώμενο περιεχόμενο θερμίδων και μακροθρεπτικών συστατικών στις πραγματικές τιμές; Η Nutrola βελτιστοποιεί για αυτό το downstream μέτρο. Μια σύγχυση μεταξύ δύο οπτικά παρόμοιων τροφίμων με παρόμοια διατροφικά προφίλ (λευκό ρύζι έναντι ρυζιού γιασεμιού) έχει πολύ λιγότερη σημασία από μια σύγχυση μεταξύ δύο οπτικά παρόμοιων τροφίμων με πολύ διαφορετικά διατροφικά προφίλ (ένα κανονικό muffin έναντι ενός πρωτεϊνικού muffin). Το σύστημα είναι ρυθμισμένο ώστε να ελαχιστοποιεί τα σφάλματα που έχουν τη μεγαλύτερη επίδραση στις διατροφικές εκτιμήσεις.
Το Ερευνητικό Σύνορο: Τι Έρχεται Επόμενο
Η έρευνα αναγνώρισης τροφίμων συνεχίζει να προχωρά. Πολλές ενεργές κατευθύνσεις έρευνας έχουν τη δυνατότητα να κλείσουν περαιτέρω τη διαφορά μεταξύ της ακρίβειας εργαστηρίου και της απόδοσης στον πραγματικό κόσμο:
Αναγνώριση σε επίπεδο συστατικού: Μετάβαση από την ταξινόμηση σε επίπεδο πιάτου στην αναγνώριση μεμονωμένων συστατικών εντός ενός πιάτου. Αυτό επιτρέπει πιο ακριβή εκτίμηση διατροφής για σύνθετα τρόφιμα και υποστηρίζει τον έλεγχο διατροφικών περιορισμών (ανίχνευση αλλεργιογόνων, για παράδειγμα).
Τρισδιάστατη ανακατασκευή τροφίμων από μεμονωμένες εικόνες: Οι πρόοδοι στα νευρωνικά πεδία ακτινοβολίας (NeRFs) και την τρισδιάστατη ανακατασκευή από μονοδιάστατες εικόνες υποδηλώνουν ότι σύντομα θα είναι εφικτό να ανακατασκευαστεί ένα αρκετά ακριβές τρισδιάστατο μοντέλο ενός γεύματος από μια μόνο φωτογραφία, βελτιώνοντας σημαντικά την εκτίμηση μερίδας.
Προσωποποιημένα μοντέλα τροφίμων: Εκπαίδευση μοντέλων που προσαρμόζονται στα τυπικά γεύματα, τις προτιμώμενες ταβέρνες και τις μαγειρικές συνήθειες των ατόμων. Ένα μοντέλο που γνωρίζει ότι τρώτε το ίδιο πρωινό κάθε εργάσιμη ημέρα μπορεί να επιτύχει σχεδόν τέλεια ακρίβεια μέσω της προσωποποίησης.
Πολυδιάστατη λογική: Συνδυασμός οπτικής αναγνώρισης με κείμενο (περιγραφές μενού, ονόματα συνταγών) και ήχο (φωνητικές περιγραφές γευμάτων) για την οικοδόμηση πιο ανθεκτικών συστημάτων κατανόησης τροφίμων.
Ομοσπονδιακή μάθηση για τρόφιμα: Εκπαίδευση μοντέλων αναγνώρισης τροφίμων σε πολλές συσκευές χρηστών χωρίς κεντρικοποίηση των ακατέργαστων δεδομένων, διατηρώντας την ιδιωτικότητα ενώ επωφελείται από ποικιλία πραγματικών δεδομένων εκπαίδευσης.
Συχνές Ερωτήσεις
Πόσο ακριβής είναι σήμερα η AI αναγνώρισης τροφίμων σε σύγκριση με έναν διαιτολόγο;
Για κοινά τρόφιμα που φωτογραφίζονται σε καλές συνθήκες, η AI αναγνώρισης τροφίμων ανταγωνίζεται ή ξεπερνά την ταχύτητα ενός διαιτολόγου και επιτυγχάνει συγκρίσιμη ακρίβεια αναγνώρισης. Ένας πιστοποιημένος διαιτολόγος μπορεί συνήθως να αναγνωρίσει ένα φαγητό από μια φωτογραφία με 85 έως 95 τοις εκατό ακρίβεια. Τα τρέχοντα συστήματα AI επιτυγχάνουν παρόμοια ποσοστά για κατηγορίες τροφίμων που εκπροσωπούνται καλά. Ωστόσο, οι διαιτολόγοι εξακολουθούν να υπερτερούν της AI σε σπάνια ή αμφίβολα τρόφιμα, πολιτιστικά συγκεκριμένα πιάτα και εκτίμηση μερίδας. Το πρακτικό πλεονέκτημα της AI είναι η ταχύτητα και η διαθεσιμότητα: παρέχει μια άμεση εκτίμηση 24/7, ενώ οι συμβουλές διαιτολόγου είναι περιορισμένες και δαπανηρές.
Τι είναι το dataset Food-101 και γιατί είναι σημαντικό;
Το Food-101 είναι ένα benchmark dataset 101.000 εικόνων που καλύπτουν 101 κατηγορίες τροφίμων, που δημοσιεύθηκε από ερευνητές στο ETH Zurich το 2014. Είναι σημαντικό γιατί παρείχε το πρώτο ευρέως υιοθετημένο πρότυπο για την αξιολόγηση μοντέλων αναγνώρισης τροφίμων. Πριν από το Food-101, οι ερευνητές δοκίμαζαν τα συστήματά τους σε ιδιωτικά ή μικρής κλίμακας datasets, καθιστώντας αδύνατη τη σύγκριση αποτελεσμάτων. Το Food-101 επέτρεψε την αναπαραγωγή της έρευνας και προώθησε την ταχεία πρόοδο στην ακρίβεια ταξινόμησης τροφίμων, από περίπου 50 τοις εκατό το 2014 σε πάνω από 93 τοις εκατό μέχρι το 2020.
Γιατί είναι πιο δύσκολη η αναγνώριση τροφίμων σε σύγκριση με άλλα αντικείμενα;
Τα τρόφιμα παρουσιάζουν πολλές προκλήσεις που είναι σπάνιες στην γενική αναγνώριση αντικειμένων: ακραία οπτική παραλλαγή εντός της ίδιας κατηγορίας τροφίμων (σκεφτείτε όλα τα πράγματα που ονομάζονται "σαλάτα"), υψηλή οπτική ομοιότητα μεταξύ διαφορετικών κατηγοριών τροφίμων (ντοματοσούπα έναντι κόκκινου κάρυ), παραμορφώσιμα και αμορφικά σχήματα, συχνή απόκρυψη από σάλτσες και γαρνιτούρες, και ευρεία παραλλαγή στυλ προετοιμασίας σε διάφορους πολιτισμούς. Επιπλέον, τα τρόφιμα πρέπει να αναγνωρίζονται και να ποσοτικοποιούνται (εκτίμηση μερίδας), κάτι που προσθέτει μια διάσταση που οι περισσότερες εργασίες αναγνώρισης αντικειμένων δεν απαιτούν.
Πώς βοηθά η μεταφορά μάθησης στην αναγνώριση τροφίμων;
Η μεταφορά μάθησης περιλαμβάνει τη χρήση ενός νευρωνικού δικτύου που έχει προεκπαιδευτεί σε ένα μεγάλο γενικής χρήσης dataset (συνήθως το ImageNet) και την λεπτομερή εκπαίδευση σε ένα μικρότερο dataset ειδικά για τρόφιμα. Αυτό λειτουργεί επειδή τα χαμηλού επιπέδου οπτικά χαρακτηριστικά που έχουν μάθει από το ImageNet (άκρα, υφές, χρώματα, σχήματα) είναι ευρέως χρήσιμα και μεταφέρονται καλά σε εικόνες τροφίμων. Μόνο τα υψηλότερου επιπέδου, ειδικά για τρόφιμα χαρακτηριστικά πρέπει να μάθουν από την αρχή. Η μεταφορά μάθησης μειώνει δραματικά την ποσότητα δεδομένων εκπαίδευσης που απαιτούνται ειδικά για τρόφιμα και συνήθως βελτιώνει την ακρίβεια κατά 10 έως 20 ποσοστιαίες μονάδες σε σύγκριση με την εκπαίδευση από την αρχή.
Μπορεί η AI να εκτιμήσει μεγέθη μερίδας από μια μόνο φωτογραφία;
Η AI μπορεί να εκτιμήσει μεγέθη μερίδας από μια μόνο φωτογραφία, αλλά με σημαντική αβεβαιότητα. Χωρίς πληροφορίες βάθους, μια φωτογραφία 2D δεν μπορεί να προσδιορίσει με ακρίβεια τον όγκο του φαγητού. Τα σύγχρονα συστήματα συνδυάζουν μαθημένες προτιμήσεις μερίδας (στατιστική γνώση τυπικών μεγεθών μερίδας), σχετικές ενδείξεις μεγέθους (συγκρίνοντας το φαγητό με το πιάτο ή άλλα αντικείμενα) και εκτίμηση βάθους από μονοδιάστατες εικόνες για να παράγουν εκτιμήσεις που είναι συνήθως εντός 15 έως 30 τοις εκατό του πραγματικού μεγέθους μερίδας. Αυτό είναι αρκετά ακριβές για καθημερινή παρακολούθηση αλλά όχι αρκετά ακριβές για κλινική διατροφική αξιολόγηση.
Ποια είναι η διαφορά μεταξύ ταξινόμησης τροφίμων και ανίχνευσης τροφίμων;
Η ταξινόμηση τροφίμων αποδίδει μια μόνο ετικέτα σε ολόκληρη την εικόνα (αυτή η εικόνα περιέχει πίτσα). Η ανίχνευση τροφίμων αναγνωρίζει και εντοπίζει πολλαπλά τρόφιμα εντός μιας εικόνας, σχεδιάζοντας περιγράμματα γύρω από κάθε αντικείμενο και τα ταξινομεί ανεξάρτητα (αυτή η εικόνα περιέχει πίτσα στην επάνω αριστερή γωνία, σαλάτα στην κάτω δεξιά και ένα ψωμάκι στην κορυφή). Η ανίχνευση είναι μια πιο δύσκολη εργασία αλλά είναι απαραίτητη για τις πραγματικές φωτογραφίες γευμάτων, οι οποίες σχεδόν πάντα περιλαμβάνουν πολλά τρόφιμα.
Πώς χρησιμοποιεί η Nutrola αυτή την έρευνα;
Η Nutrola βασίζεται στο σύνολο της ακαδημαϊκής έρευνας αναγνώρισης τροφίμων που περιγράφεται σε αυτό το άρθρο, ενσωματώνοντας αρχιτεκτονικές αιχμής, εκπαιδεύοντας σε ποικιλία πραγματικών δεδομένων και βελτιστοποιώντας για διατροφική ακρίβεια αντί μόνο για ακρίβεια ταξινόμησης. Το σύστημα συνδυάζει την οπτική αναγνώριση με συμφραζόμενα και ανατροφοδότηση χρηστών για να παραδώσει ακρίβεια που ξεπερνά ό,τι επιτυγχάνει οποιαδήποτε μεμονωμένη ερευνητική εργασία σε απομόνωση. Η Nutrola επίσης συμβάλλει στην ερευνητική κοινότητα δημοσιεύοντας ευρήματα σχετικά με την απόδοση αναγνώρισης τροφίμων στον πραγματικό κόσμο και τις προκλήσεις της ανάπτυξης αυτών των συστημάτων σε μεγάλη κλίμακα.
Θα είναι ποτέ η AI αναγνώρισης τροφίμων 100 τοις εκατό ακριβής;
Η τέλεια ακρίβεια είναι απίθανη για αρκετούς λόγους. Ορισμένα τρόφιμα είναι πραγματικά οπτικά αδιάκριτα (λευκή ζάχαρη και αλάτι, για παράδειγμα). Η εκτίμηση μερίδας από εικόνες 2D έχει θεμελιώδεις μαθηματικούς περιορισμούς. Και η ποικιλία παγκόσμιων κουζινών σημαίνει ότι θα υπάρχουν πάντα τρόφιμα μακράς ουράς με περιορισμένα δεδομένα εκπαίδευσης. Ωστόσο, το σχετικό ερώτημα δεν είναι αν η τεχνολογία είναι τέλεια, αλλά αν είναι χρήσιμη. Σε τρέχοντα επίπεδα ακρίβειας, η AI αναγνώρισης τροφίμων μειώνει ήδη την τριβή της καταγραφής τροφίμων κατά 70 έως 80 τοις εκατό σε σύγκριση με την χειροκίνητη καταχώρηση, και η ακρίβεια συνεχίζει να βελτιώνεται με κάθε γενιά μοντέλων και δεδομένων εκπαίδευσης.
Συμπέρασμα
Η AI αναγνώρισης τροφίμων στο τηλέφωνό σας είναι το προϊόν μιας ερευνητικής πορείας που εκτείνεται σε περισσότερες από δέκα χρόνια. Ξεκίνησε με μια ανακάλυψη στην ταξινόμηση εικόνας στον διαγωνισμό ImageNet του 2012, απέκτησε εστίαση μέσω ειδικών datasets τροφίμων όπως το Food-101, αντιμετώπισε τις μοναδικές προκλήσεις των τροφίμων ως οπτική περιοχή και σταδιακά γεφύρωσε τη διαφορά μεταξύ ακαδημαϊκών benchmarks και απόδοσης στον πραγματικό κόσμο.
Αυτή η πορεία είναι μακριά από το να έχει τελειώσει. Η εκτίμηση μερίδας παραμένει ένα ανοιχτό ερευνητικό πρόβλημα. Οι κατηγορίες τροφίμων μακράς ουράς χρειάζονται καλύτερη κάλυψη. Η πραγματική ακρίβεια συνεχίζει να υστερεί σημαντικά σε σχέση με την ακρίβεια benchmark. Αλλά η πορεία είναι σαφής: κάθε χρόνο φέρνει καλύτερα μοντέλα, πλουσιότερα δεδομένα εκπαίδευσης και πιο εξελιγμένες προσεγγίσεις στα δύσκολα προβλήματα.
Η Nutrola υπάρχει στη διασταύρωση αυτής της έρευνας και των πρακτικών αναγκών των ανθρώπων που προσπαθούν να κατανοήσουν τι τρώνε. Διατηρώντας κοντά στην αιχμή της ακαδημαϊκής έρευνας ενώ διατηρεί μια αδιάκοπη εστίαση στην απόδοση στον πραγματικό κόσμο, εργαζόμαστε για να κάνουμε την υπόσχεση της αβίαστης, ακριβούς παρακολούθησης διατροφής πραγματικότητα για όλους.
Έτοιμοι να Μεταμορφώσετε την Παρακολούθηση της Διατροφής σας;
Εγγραφείτε σε χιλιάδες που έχουν μεταμορφώσει το ταξίδι της υγείας τους με το Nutrola!