Übergroße KI-Modelle: Riesige Computersysteme erreichen den Wendepunkt

IMAGE CREDIT:
Bildnachweis
iStock

Übergroße KI-Modelle: Riesige Computersysteme erreichen den Wendepunkt

Übergroße KI-Modelle: Riesige Computersysteme erreichen den Wendepunkt

Untertiteltext
Mathematische Modelle für maschinelles Lernen werden von Jahr zu Jahr größer und ausgefeilter, aber Experten glauben, dass diese expansiven Algorithmen ihren Höhepunkt erreichen werden.
    • Autor:
    • Autorenname
      Quantumrun-Vorausschau
    • 2. Juni 2023

    Seit 2012 kam es regelmäßig zu erheblichen Fortschritten in der künstlichen Intelligenz (KI), die vor allem auf die zunehmende Rechenleistung (kurz „compute“) zurückzuführen sind. Eines der größten Modelle, das 2020 eingeführt wurde, nutzte 600,000 Mal mehr Rechenleistung als das erste Modell aus dem Jahr 2012. Forscher von OpenAI stellten diesen Trend im Jahr 2018 fest und warnten, dass diese Wachstumsrate nicht lange nachhaltig sein würde.

    Kontext übergroßer KI-Modelle

    Viele Entwickler von maschinellem Lernen (ML) nutzen Transformer-Modelle für Deep Learning (DL), weil ihr Potenzial scheinbar grenzenlos ist. Beispiele für diese Modelle sind Generative Pre-trained Transformer 2 (GPT-2), GPT-3, Bidirektionale Encoder-Repräsentationen von Transformern (BERT) und Turing Natural Language Generation (NLG). Diese Algorithmen haben häufig reale Anwendungen wie maschinelle Übersetzung oder Zeitreihenvorhersage. 

    Die Modi der künstlichen Intelligenz müssen erweitert werden, um mehr Trainingsdaten aufzunehmen und bessere Vorhersagen zu ermöglichen. Diese Anforderung hat zur Entstehung übergroßer Modelle mit Milliarden von Parametern (Variablen, die von Algorithmen zur Vorhersage verwendet werden) geführt. Diese Modelle werden durch GPT-3 von OpenAI (und seine im Dezember 2022 gestartete ChatGPT-Interaktion), das in China ansässige Unternehmen PanGu-alpha, Nvidias Megatron-Turing NLG und DeepMinds Gopher repräsentiert. Im Jahr 2020 war für das Training von GPT-3 ein Supercomputer erforderlich, der zu den fünf größten der Welt gehörte. 

    Allerdings erfordern diese Modelle tendenziell große Mengen an energieintensiven Trainingsdaten. Bisher war Deep Learning auf die Fähigkeit angewiesen, enorme Rechenleistung zu nutzen, aber das wird sich bald ändern. Das Training ist teuer, es gibt Grenzen für KI-Chips und das Training großer Modelle überlastet die Prozessoren, was es schwierig macht, sie alle zu verwalten. Je größer der Parameter, desto aufwendiger ist das Training dieser Modelle. Experten sind sich einig, dass das Training übergroßer KI-Modelle irgendwann zu teuer und energieintensiv werden könnte. 

    Störende Wirkung

    Im Jahr 2020 schätzte OpenAI unter Berücksichtigung der Anzahl der Parameter und der Datensatzgröße den minimalen Rechenaufwand, der zum Trainieren zahlreicher Modelle erforderlich ist. Diese Gleichungen berücksichtigen, wie ML erfordert, dass die Daten viele Male das Netzwerk durchlaufen, wie die Rechenleistung für jeden Durchgang steigt, wenn die Anzahl der Parameter zunimmt, und wie viele Daten benötigt werden, wenn die Anzahl der Parameter wächst.

    Schätzungen von Open AI zufolge würde der Bau von GPT-4 (100-mal größer als GPT-3 (17.5 Billionen Parameter)) unter der Annahme, dass Entwickler maximale Effizienz erreichen können, 7,600 Grafikprozessoren (GPUs) erfordern, die mindestens ein Jahr lang laufen, und ungefähr Kosten verursachen 200 Millionen US-Dollar. Ein Modell mit 100 Billionen Parametern würde 83,000 GPUs benötigen, um es ein Jahr lang mit Strom zu versorgen, was mehr als 2 Milliarden US-Dollar kosten würde.

    Dennoch arbeiten Technologiefirmen zusammen und investieren in ihre immer größer werdenden, übergroßen KI-Modelle, da die Nachfrage nach ML-Lösungen wächst. Beispielsweise haben das in China ansässige Unternehmen Baidu und das Peng Cheng Lab PCL-BAIDU Wenxin mit 280 Milliarden Parametern veröffentlicht. PCL-BAIDU wird bereits von den Newsfeeds, der Suchmaschine und dem digitalen Assistenten von Baidu verwendet. 

    Die neueste Version des Go-Playing-Programms, die DeepMind im Dezember 2021 erstellt hat, verfügt über 280 Milliarden Parameter. Die Google Switch-Transformer-GLaM-Modelle verfügen über unglaubliche 1 Billion bzw. 1.2 Billionen Parameter. Wu Dao 2.0 von der Beijing Academy of AI ist sogar noch massiver und soll 1.75 Billionen Parameter haben. Da intelligente Städte und Automatisierung weiterhin zu Störungen führen, sind sich Experten nicht sicher, wie KI-Rechnungen eine solche Zukunft unterstützen werden. 

    Implikationen übergroßer KI-Modelle

    Weitere Auswirkungen übergroßer KI-Modelle können sein: 

    • Erhöhte Investitionen und Möglichkeiten in die Entwicklung von KI-Computerchips, die weniger Energie verbrauchen. 
    • Der KI-Fortschritt wurde durch den Mangel an Rechenleistung verlangsamt, was zu mehr Mitteln für energiesparende Technologien und Lösungen führte.
    • ML-Entwickler erstellen alternative Modelle neben Transformatoren, die zu Entdeckungen und Innovationen für effizientere Algorithmen führen können.
    • KI-Lösungen konzentrieren sich auf anwendungsorientierte Probleme, indem sie die Rechenleistung entsprechend anpassen oder nach Bedarf modifizieren, anstatt nur zu überdimensionieren.
    • Komplexere Datensätze ermöglichen es KI-Programmen, bessere Vorhersagen zu treffen, darunter Wettervorhersagen, Weltraumforschung, medizinische Diagnosen und internationaler Handel.

    Fragen zum Kommentieren

    • Wenn Sie im KI-Bereich arbeiten, welche Fortschritte gibt es bei der Entwicklung besserer ML-Modelle?
    • Was sind die weiteren potenziellen Vorteile von Modellen mit umfangreichen Trainingsdaten, aus denen man lernen kann?

    Insight-Referenzen

    Für diesen Einblick wurde auf die folgenden beliebten und institutionellen Links verwiesen: