Σας ενδιαφέρουν ΠΡΟΣΦΟΡΕΣ? Εξοικονομήστε χρήματα με τα κουπόνια μας WhatsApp o ΤΗΛΕΓΡΑΦΗΜΑ!

Τι είναι το Mamba, η αρχιτεκτονική που στοχεύει να ξεπεράσει πλήρως το GPT. Νέα εποχή της τεχνητής νοημοσύνης;

Σήμερα θέλω να πάω λίγο πιο τεχνικά. Μιλάμε για τεχνητή νοημοσύνη κάθε μέρα αλλά είναι σωστό να γνωρίζουμε σε τι βασίζεται και πώς λειτουργεί. Από αυτή την άποψη θέλω να σας παρουσιάσω mamba, μια νέα αρχιτεκτονική που υπόσχεται να αλλάξει i γλωσσικά μοντέλα όπως τους ξέρουμε σήμερα. Τα χαρακτηριστικά του Mamba, σε σύγκριση με αυτά του GPT, είναι εξαιρετικά ανώτερα όπως και αυτά που σου επιτρέπει να κάνεις.

Το Mamba είναι ένας νέος ορίζοντας για την τεχνητή νοημοσύνη

Η αρχιτεκτονική του μετασχηματιστή, που εισήχθη το 2016 μέσω της εργασίας "Η προσοχή είναι το μόνο που χρειάζεστε” από την Google, αντιπροσώπευε μια σημαντική ανακάλυψη για τα γλωσσικά μοντέλα, επιτρέποντάς τους να διατηρήσουν το πλαίσιο στις αλληλεπιδράσεις. Με λίγα λόγια: αρχιτεκτονική Το Transformer είναι ένα μοντέλο AI που χρησιμοποιείται για τη δημιουργία μοντέλων όπως το GPT (Generative Pretrained Transformer).

ΠΩΣ ΛΕΙΤΟΥΡΓΕΙ ΤΟ TRANSFORMER ARCHITECTURE

Η καρδιά της αρχιτεκτονικής του Transformer είναι ο μηχανισμός του "attenzione", που επιτρέπει στο μοντέλο να εστιάζει σε συγκεκριμένα μέρη ενός κειμένου ενώ δημιουργεί ή επεξεργάζεται ένα άλλο. Αυτός ο μηχανισμός κάνει τα Transformers ιδιαίτερα αποτελεσματικά στην κατανόηση του πλαισίου και των πολύπλοκων σχέσεων μέσα σε ένα κείμενο. Στην πράξη, μοντέλα που βασίζονται στην αρχιτεκτονική του Transformer, όπως το GPT, μαθαίνουν να δημιουργούν και να κατανοούν τη γλώσσα μέσα από δύο στάδια κύρια: εκπαίδευση (εκπαίδευση) και συμπέρασμα (δημιουργία κειμένου).
Κατά τη διάρκεια της εκπαίδευση, το μοντέλο εκπαιδεύεται σε μεγάλα σύνολα δεδομένων κειμένου για να κατανοήσει τις γλωσσικές δομές, τις σχέσεις μεταξύ των λέξεων, το πλαίσιο κ.λπ. Σε φάση του συμπέρασμα, το μοντέλο χρησιμοποιεί ό,τι έχει μάθει για να δημιουργήσει νέο κείμενο, να απαντήσει σε ερωτήσεις, να μεταφράσει γλώσσες και άλλες εργασίες επεξεργασίας γλώσσας.

Ωστόσο, η εμφάνιση του Mamba θα μπορούσε να σηματοδοτήσει την αρχή μιας νέας εποχής. Αυτή η αρχιτεκτονική υπόσχεται να είναι πιο αποτελεσματική, ικανό να ξεπεράσει ορισμένες βασικές προκλήσεις που αντιμετωπίζουν τα τρέχοντα μοντέλα όπως το GPT. Συγκεκριμένα, τρεις βασικές πτυχές κάνουν το Mamba μια πολλά υποσχόμενη αρχιτεκτονική:

  • μειωμένο κόστος συμπερασμάτων: Μια βασική πτυχή του Mamba είναι η σημαντική μείωση του κόστους συμπερασμάτων. Όπως είπα προηγουμένως, το συμπέρασμα είναι η διαδικασία με την οποία ένα μοντέλο τεχνητής νοημοσύνης, αφού εκπαιδευτεί, εφαρμόζει ό,τι έχει μάθει σε νέα δεδομένα, δημιουργώντας κείμενο ή εικόνες. Σε πολύπλοκα μοντέλα όπως το GPT-3 ή το GPT-4, αυτή η διαδικασία μπορεί να είναι ακριβή όσον αφορά τους υπολογιστικούς πόρους. Ο Μάμπα το υπόσχεται μειώσει αυτά τα κόστη έως και πέντε φορές σε σύγκριση με μοντέλα που βασίζονται σε μετασχηματιστές, τα οποία θα μπορούσαν να έχουν σημαντικό αντίκτυπο, ειδικά για εφαρμογές που απαιτούν γρήγορη παραγωγή απόκρισης ή εργασία με τεράστια σύνολα δεδομένων.
  • κόστος υπολογισμού γραμμικής προσοχής: Το δεύτερο πλεονέκτημα του Mamba αφορά την αποτελεσματικότητα στον υπολογισμό της προσοχής. Στα μοντέλα Transformer, το κόστος μεγαλώνει ενδεχομένως (ακριβώς σε επίπεδο δύναμης, δεν είναι σχήμα λόγου) όσο αυξάνεται η έκταση του κειμένου. Αυτό σημαίνει ότι όσο μεγαλύτερο είναι το κείμενο, τόσο περισσότεροι πόροι απαιτούνται για την επεξεργασία του, περιορίζοντας την πρακτικότητα των μοντέλων σε ορισμένες εφαρμογές. Η Mamba προτείνει μια λύση όπου το κόστος αυξάνεται γραμμικά σε σύγκριση με το μέγεθος του παραθύρου προσοχής, καθιστώντας την επεξεργασία μεγάλων κειμένων πιο διαχειρίσιμη και λιγότερο επαχθή από υπολογιστικούς όρους.
  • εξαιρετικά μεγαλύτερη εισροή: Το Mamba μπορούσε να χειριστεί ένα μέγιστο παράθυρο εισαγωγής έως 1 εκατομμύριο μάρκεςn, πολύ περισσότερο από ό,τι είναι δυνατό με την αρχιτεκτονική του Transformer. Αυτό σημαίνει ότι η Mamba θα μπορούσε, θεωρητικά, αναλύει και κατανοεί εξαιρετικά μεγάλα κείμενα, όπως ολόκληρα βιβλία, διατηρώντας τη συνοχή και τις λεπτομέρειες στο πλαίσιο. Για παράδειγμα, μπορεί να αναλύσει ένα ολόκληρο μυθιστόρημα διατηρώντας παράλληλα μια σαφή κατανόηση των χαρακτήρων, της πλοκής και των θεμάτων από την αρχή μέχρι το τέλος.

Παρά τις υποσχέσεις του Μάμπα, το χαρτί σόλβα αμφιβολίες για την επεκτασιμότητα του, ιδιαίτερα σε σύγκριση με τεράστια μοντέλα όπως το GPT-4, το οποίο έχει 175 δισεκατομμύρια παραμέτρους. Η επεκτασιμότητα, με πολύ απλά λόγια, αναφέρεται σε Η ικανότητα ενός συστήματος να χειρίζεται μια αύξηση της εργασίας ή να μεγαλώνει σε μέγεθος χωρίς να χάνει την αποτελεσματικότητά του. Φανταστείτε ένα μικρό εστιατόριο που τα πάει καλά με λίγους πελάτες. Εάν το εστιατόριο γίνει δημοφιλές και αρχίσει να έχει πολύ περισσότερους πελάτες, θα πρέπει να είναι σε θέση να χειριστεί αυτήν την αύξηση χωρίς να θέτει σε κίνδυνο την ποιότητα των υπηρεσιών ή του φαγητού. Εάν πετύχει, τότε είναι "κλιμακωτό".

Το Mamba, στην τρέχουσα κατάστασή του, έχει δοκιμαστεί μόνο με 3 δισεκατομμύρια παραμέτρους. Έτσι, παραμένει αβέβαιο εάν η απόδοση και η αποτελεσματικότητά του μπορούν να διατηρηθούν ή να βελτιωθούν όταν κλιμακωθούν σε μεγαλύτερα μεγέθη.

Gianluca Cobucci
Gianluca Cobucci

Παθιασμένοι με τον κώδικα, τις γλώσσες και τις γλώσσες, τις διεπαφές ανθρώπου-μηχανής. Το μόνο που είναι η τεχνολογική εξέλιξη με ενδιαφέρει. Προσπαθώ να αποκαλύψω το πάθος μου με απόλυτη σαφήνεια, στηριζόμενος σε αξιόπιστες πηγές και όχι «σε πρώτο πέρασμα».

Εγγραφή
Ειδοποίηση
επισκέπτης

0 Σχόλια
Ενσωματωμένα σχόλια
Δείτε όλα τα σχόλια
XiaomiToday.it
Λογότυπο