
Προορισμός αυτή την εβδομάδα ανακοίνωσε ένα νέο μοντέλο τεχνητής νοημοσύνης (AI) ανοίξτε πηγή σύνδεση πολλών τύπων δεδομένων, συμπεριλαμβανομένων κειμένων, ακουστικών, οπτικών δεδομένων, θερμοκρασίας και μετρήσεων κίνησης. Το μοντέλο είναι μόνο ένα ερευνητικό έργο προς το παρόν, χωρίς άμεσες πρακτικές ή καταναλωτικές εφαρμογές. Ωστόσο, δείχνει ένα μέλλον συστημάτων γεννήτρια τεχνητή νοημοσύνη ικανή να δημιουργεί εμπειρίες που καθηλώνουν και πολυαισθητηριακή. Το όνομά του είναι Meta ImageBind και εξηγούμε πώς λειτουργεί.
Η Meta παρουσιάζει το ImageBind ένα νέο ανοιχτού κώδικα πολυαισθητηριακό μοντέλο AI. Δείτε πώς λειτουργεί και τι μπορεί να κάνει
Η καινοτομία ονομάζεται Meta ImageBind και είναι η πρώτη που συνδυάζουν έξι τύπους δεδομένων σε έναν ενιαίο πολυδιάστατο χώρο. Οι έξι τύποι δεδομένων που περιλαμβάνονται στο μοντέλο είναι:
- Οπτικά (με τη μορφή εικόνων και βίντεο)
- Θερμική (υπέρυθρη απεικόνιση)
- Testi
- Ήχου
- Σε βάθος πληροφορίες
- Ενδείξεις κίνησης που παράγονται από μια μονάδα αδρανειακής μέτρησης ή IMU

Διαβάστε επίσης: Η Meta εισάγει το SAM, το AI που προσδιορίζει μεμονωμένα στοιχεία μέσα στις εικόνες
Η ιδέα είναι ότι τα μελλοντικά συστήματα AI μπορούν να κάνουν διασταυρώστε αυτά τα δεδομένα με τον ίδιο τρόπο που κάνουν τα τρέχοντα συστήματα για την εισαγωγή κειμένου. Φανταστείτε, για παράδειγμα, μια φουτουριστική συσκευή εικονικής πραγματικότητας που παράγει όχι μόνο εισόδους ήχου και εικόνας, αλλά και το περιβάλλον μας και την κίνησή μας σε μια φυσική σκηνή. Ο χρήστης μπορεί να ζητήσει από το εργαλείο να μιμηθείτε ένα μακρύ θαλάσσιο ταξίδι, και δεν θα τον έβαζε μόνο σε ένα πλοίο με το βρυχηθμό των κυμάτων στο βάθος, αλλά και το αιωρούμενο κατάστρωμα κάτω από τα πόδια και το δροσερό αεράκι του αέρα του ωκεανού. Η ιδέα είναι ότι η πλατφόρμα συνδυάζει διάφορες μορφές δεδομένων για να δημιουργήσει το αποτέλεσμα.
Σε ανάρτησή του στο blog, ο Μέτα το σημειώνει θα μπορούσαν να προστεθούν άλλες ροές αισθητηριακής εισόδου σε μελλοντικά μοντέλα, συμπεριλαμβανομένων "εγκεφαλικά σήματα αφής, ομιλίας, όσφρησης και fMRI". Αυτή η λειτουργία που κυκλοφόρησε πρόσφατα δεν είναι ακόμη έτοιμη, επομένως η κοινότητα δεν είναι σε θέση να τη δοκιμάσει σε αυτό το αρχικό στάδιο, παρόλο που βρίσκεται σε προχωρημένο στάδιο ανάπτυξης.