Υπερμεγέθη μοντέλα AI γιγάντια υπολογιστικά συστήματα φτάνουν σε οριακό σημείο

ΠΙΣΤΩΣΗ ΕΙΚΟΝΑΣ:

iStock

Υπερμεγέθη μοντέλα τεχνητής νοημοσύνης: Γιγαντιαία υπολογιστικά συστήματα φτάνουν στο οριακό σημείο

Τα μαθηματικά μοντέλα μηχανικής εκμάθησης γίνονται μεγαλύτερα και πιο εξελιγμένα κάθε χρόνο, αλλά οι ειδικοί πιστεύουν ότι αυτοί οι επεκτατικοί αλγόριθμοι πρόκειται να κορυφωθούν.

Συγγραφέας:
όνομα συγγραφέα
Quantumrun Foresight
Ιούνιος 2, 2023

Από το 2012, σημαντικές πρόοδοι στην τεχνητή νοημοσύνη (AI) σημειώνονται τακτικά, κυρίως λόγω της αύξησης της υπολογιστικής ισχύος («υπολογισμός» για συντομία). Ένα από τα μεγαλύτερα μοντέλα, που κυκλοφόρησε το 2020, χρησιμοποίησε 600,000 φορές περισσότερους υπολογισμούς από το πρώτο μοντέλο του 2012. Οι ερευνητές στο OpenAI παρατήρησαν αυτή την τάση το 2018 και προειδοποίησαν ότι αυτός ο ρυθμός ανάπτυξης δεν θα ήταν βιώσιμος για πολύ.

Πλαίσιο μοντέλων τεχνητής νοημοσύνης υπερμεγέθους

Πολλοί προγραμματιστές μηχανικής μάθησης (ML) χρησιμοποιούν μοντέλα μετασχηματιστών για βαθιά μάθηση (DL) λόγω των φαινομενικά απεριόριστων δυνατοτήτων τους. Παραδείγματα αυτών των μοντέλων περιλαμβάνουν Generative Pre-trained Transformer 2 (GPT-2), GPT-3, Bidirectional Encoder Representations from Transformers (BERT) και Turing Natural Language Generation (NLG). Αυτοί οι αλγόριθμοι έχουν συχνά εφαρμογές πραγματικού κόσμου, όπως η αυτόματη μετάφραση ή η πρόβλεψη χρονοσειρών.

Οι λειτουργίες τεχνητής νοημοσύνης πρέπει να επεκταθούν για να χωρέσουν περισσότερα δεδομένα εκπαίδευσης και να γίνουν καλύτεροι στις προβλέψεις. Αυτή η απαίτηση οδήγησε στην άνοδο υπερμεγέθων μοντέλων με δισεκατομμύρια παραμέτρους (μεταβλητές που χρησιμοποιούνται από αλγόριθμους για να κάνουν προβλέψεις). Αυτά τα μοντέλα αντιπροσωπεύονται από το GPT-3 του OpenAI (και την αλληλεπίδρασή του με το ChatGPT που ξεκίνησε τον Δεκέμβριο του 2022), το PanGu-alpha με έδρα την Κίνα, το Megatron-Turing NLG της Nvidia και το Gopher του DeepMind. Το 2020, η εκπαίδευση του GPT-3 απαιτούσε έναν υπερυπολογιστή που ήταν ανάμεσα στους πέντε μεγαλύτερους στον κόσμο.

Ωστόσο, αυτά τα μοντέλα τείνουν να απαιτούν τεράστιες ποσότητες ενεργοβόρων προπονητικών δεδομένων. Η βαθιά μάθηση έχει εξαρτηθεί από την ικανότητά της να χρησιμοποιεί τεράστια υπολογιστική ισχύ, αλλά αυτό θα αλλάξει σύντομα. Η εκπαίδευση είναι ακριβή, υπάρχουν όρια στα τσιπ τεχνητής νοημοσύνης και η εκπαίδευση μεγάλων μοντέλων φράζει τους επεξεργαστές, καθιστώντας δύσκολη τη διαχείρισή τους. Όσο μεγαλύτερη είναι η παράμετρος, τόσο πιο δαπανηρή είναι η εκπαίδευση αυτών των μοντέλων. Οι ειδικοί συμφωνούν ότι θα έρθει ένα σημείο όπου τα υπερμεγέθη μοντέλα τεχνητής νοημοσύνης μπορεί να γίνουν πολύ ακριβά και ενεργοβόρα για εκπαίδευση.

Αποδιοργανωτικός αντίκτυπος

Το 2020, το OpenAI υπολόγισε την ελάχιστη ποσότητα υπολογισμού που απαιτείται για την εκπαίδευση πολλών μοντέλων, λαμβάνοντας υπόψη τον αριθμό των παραμέτρων και το μέγεθος δεδομένων. Αυτές οι εξισώσεις εξηγούν πώς η ML απαιτεί τα δεδομένα να περάσουν πολλές φορές μέσα από το δίκτυο, πώς αυξάνεται ο υπολογισμός για κάθε πέρασμα καθώς αυξάνεται ο αριθμός των παραμέτρων και πόσα δεδομένα χρειάζονται καθώς αυξάνεται ο αριθμός των παραμέτρων.

Σύμφωνα με εκτιμήσεις Open AI, υποθέτοντας ότι οι προγραμματιστές μπορούν να επιτύχουν τη μέγιστη απόδοση, η κατασκευή GPT-4 (100 φορές μεγαλύτερη από το GPT-3 (17.5 τρισεκατομμύρια παράμετροι)) θα απαιτούσε 7,600 μονάδες επεξεργασίας γραφικών (GPU) που λειτουργούν για τουλάχιστον ένα χρόνο και κοστίζει περίπου 200 εκατομμύρια δολάρια. Ένα μοντέλο παραμέτρων 100 τρισεκατομμυρίων θα χρειαζόταν 83,000 GPU για να το τροφοδοτήσει για ένα χρόνο, κοστίζοντας περισσότερα από 2 δισεκατομμύρια δολάρια ΗΠΑ.

Ωστόσο, οι εταιρείες τεχνολογίας συνεργάζονται και πραγματοποιούν επενδύσεις στα συνεχώς διευρυνόμενα υπερμεγέθη μοντέλα τεχνητής νοημοσύνης τους, καθώς η ζήτηση για λύσεις ML αυξάνεται. Για παράδειγμα, η Baidu με έδρα την Κίνα και το Peng Cheng Lab κυκλοφόρησαν το PCL-BAIDU Wenxin, με 280 δισεκατομμύρια παραμέτρους. Το PCL-BAIDU χρησιμοποιείται ήδη από τις ειδήσεις, τη μηχανή αναζήτησης και τον ψηφιακό βοηθό της Baidu.

Η τελευταία έκδοση του προγράμματος Go-playing, που δημιούργησε η DeepMind τον Δεκέμβριο του 2021, έχει 280 δισεκατομμύρια παραμέτρους. Τα μοντέλα Google Switch-Transformer-GLaM έχουν εκπληκτικές παραμέτρους 1 τρισεκατομμύριο και 1.2 τρισεκατομμύρια, αντίστοιχα. Το Wu Dao 2.0 από την Ακαδημία Τεχνητής Νοημοσύνης του Πεκίνου είναι ακόμη πιο τεράστιο και έχει αναφερθεί ότι έχει 1.75 τρισεκατομμύρια παραμέτρους. Καθώς οι έξυπνες πόλεις και η αυτοματοποίηση συνεχίζουν να προκαλούν διακοπές, οι ειδικοί δεν είναι σίγουροι πώς η υπολογιστική τεχνητή νοημοσύνη θα υποστηρίξει ένα τέτοιο μέλλον.

Συνέπειες μοντέλων τεχνητής νοημοσύνης υπερμεγέθους

Οι ευρύτερες συνέπειες των υπερμεγέθων μοντέλων AI μπορεί να περιλαμβάνουν:

Αυξημένες επενδύσεις και ευκαιρίες για την ανάπτυξη τσιπ υπολογιστών AI που καταναλώνουν λιγότερη ενέργεια.
Η πρόοδος της τεχνητής νοημοσύνης επιβραδύνθηκε λόγω της έλλειψης υπολογιστικής ισχύος, οδηγώντας σε περισσότερη χρηματοδότηση για τεχνολογίες και λύσεις εξοικονόμησης ενέργειας.
Οι προγραμματιστές ML δημιουργούν εναλλακτικά μοντέλα εκτός από μετασχηματιστές, τα οποία μπορούν να οδηγήσουν σε ανακαλύψεις και καινοτομίες για πιο αποτελεσματικούς αλγόριθμους.
Λύσεις τεχνητής νοημοσύνης που εστιάζουν σε προβλήματα με επίκεντρο την εφαρμογή, προσαρμόζοντας τον υπολογισμό ανάλογα ή τροποποιώντας ανάλογα με τις ανάγκες αντί απλώς να υπερμεγέθους.
Πιο πολύπλοκα σύνολα δεδομένων που επιτρέπουν στα προγράμματα τεχνητής νοημοσύνης να εκτελούν καλύτερες προβλέψεις, συμπεριλαμβανομένων των μετεωρολογικών προβλέψεων, της ανακάλυψης του διαστήματος, των ιατρικών διαγνώσεων και του διεθνούς εμπορίου.

Ερωτήσεις για σχολιασμό

Εάν εργάζεστε στον τομέα της τεχνητής νοημοσύνης, ποια είναι κάποια πρόοδος στην ανάπτυξη καλύτερων μοντέλων ML;
Ποια είναι τα άλλα πιθανά οφέλη από τα μοντέλα με εκτεταμένα δεδομένα εκπαίδευσης για να μάθετε;

Πρόσθεσε στη λίστα