ระบบคอมพิวเตอร์ขนาดยักษ์รุ่น ai ขนาดใหญ่กำลังถึงจุดเปลี่ยน

เครดิตภาพ:

iStock

โมเดล AI ขนาดใหญ่พิเศษ: ระบบคอมพิวเตอร์ขนาดยักษ์กำลังมาถึงจุดเปลี่ยน

แบบจำลองทางคณิตศาสตร์ของแมชชีนเลิร์นนิงมีขนาดใหญ่ขึ้นและซับซ้อนมากขึ้นทุกปี แต่ผู้เชี่ยวชาญคิดว่าอัลกอริทึมที่กว้างขวางเหล่านี้กำลังจะถึงจุดสูงสุด

เขียนโดย:
ชื่อผู้เขียน
มองการณ์ไกลควอนตัมรัน
มิถุนายน 2, 2023

ตั้งแต่ปี 2012 เป็นต้นมา ความก้าวหน้าที่สำคัญในด้านปัญญาประดิษฐ์ (AI) ได้เกิดขึ้นอย่างสม่ำเสมอ โดยส่วนใหญ่ขับเคลื่อนโดยพลังการประมวลผลที่เพิ่มขึ้น (“คอมพิวเตอร์” หรือเรียกสั้นๆ ว่า “คอมพิวเตอร์”) หนึ่งในโมเดลที่ใหญ่ที่สุดที่เปิดตัวในปี 2020 ใช้การประมวลผลมากกว่ารุ่นแรกในปี 600,000 ถึง 2012 เท่า นักวิจัยจาก OpenAI สังเกตเห็นแนวโน้มนี้ในปี 2018 และเตือนว่าอัตราการเติบโตนี้จะไม่ยั่งยืนนาน

บริบทโมเดล AI ขนาดใหญ่พิเศษ

นักพัฒนาแมชชีนเลิร์นนิง (ML) จำนวนมากใช้โมเดลทรานสฟอร์เมอร์สำหรับการเรียนรู้เชิงลึก (DL) เนื่องจากศักยภาพที่ดูเหมือนไร้ขีดจำกัด ตัวอย่างของโมเดลเหล่านี้ ได้แก่ Generative Pre-trained Transformer 2 (GPT-2), GPT-3, Bidirectional Encoder Representation from Transformers (BERT) และ Turing Natural Language Generation (NLG) อัลกอริทึมเหล่านี้มักมีแอปพลิเคชันในโลกแห่งความเป็นจริง เช่น การแปลด้วยคอมพิวเตอร์หรือการทำนายอนุกรมเวลา

โหมดปัญญาประดิษฐ์ต้องขยายเพื่อรองรับข้อมูลการฝึกอบรมที่มากขึ้นและคาดการณ์ได้ดีขึ้น ข้อกำหนดนี้นำไปสู่การเพิ่มจำนวนของโมเดลขนาดใหญ่พิเศษที่มีพารามิเตอร์หลายพันล้านตัว (ตัวแปรที่อัลกอริทึมใช้ในการทำนาย) โมเดลเหล่านี้แสดงโดย GPT-3 ของ OpenAI (และการโต้ตอบ ChatGPT ที่เปิดตัวในเดือนธันวาคม 2022), PanGu-alpha จากประเทศจีน, Megatron-Turing NLG ของ Nvidia และ Gopher ของ DeepMind ในปี 2020 การฝึกอบรม GPT-3 ต้องใช้ซูเปอร์คอมพิวเตอร์ที่ใหญ่เป็นอันดับ XNUMX ของโลก

อย่างไรก็ตาม โมเดลเหล่านี้มักจะต้องการข้อมูลการฝึกอบรมที่ใช้พลังงานจำนวนมาก การเรียนรู้เชิงลึกขึ้นอยู่กับความสามารถในการใช้พลังการประมวลผลมหาศาล แต่สิ่งนี้จะเปลี่ยนไปในไม่ช้า การฝึกอบรมมีราคาแพง ชิป AI มีข้อจำกัด และการฝึกอบรมโมเดลขนาดใหญ่ทำให้โปรเซสเซอร์อุดตัน ทำให้ยากต่อการจัดการทั้งหมด ยิ่งพารามิเตอร์มีขนาดใหญ่เท่าใด การฝึกโมเดลเหล่านี้ก็ยิ่งมีค่าใช้จ่ายมากขึ้นเท่านั้น ผู้เชี่ยวชาญเห็นพ้องต้องกันว่าจะมีจุดที่แบบจำลอง AI ขนาดใหญ่เกินไปอาจมีราคาแพงเกินไปและใช้พลังงานมากในการฝึกอบรม

ผลกระทบก่อกวน

ในปี 2020 OpenAI ได้ประเมินจำนวนการประมวลผลขั้นต่ำที่จำเป็นในการฝึกโมเดลจำนวนมาก โดยพิจารณาจากจำนวนพารามิเตอร์และขนาดชุดข้อมูล สมการเหล่านี้อธิบายถึงวิธีที่ ML กำหนดให้ข้อมูลนั้นส่งผ่านเครือข่ายหลายครั้ง วิธีคำนวณสำหรับการส่งผ่านแต่ละครั้งจะเพิ่มขึ้นตามจำนวนพารามิเตอร์ที่เพิ่มขึ้น และจำนวนข้อมูลที่จำเป็นเมื่อจำนวนพารามิเตอร์เพิ่มขึ้น

จากการประมาณการของ Open AI สมมติว่านักพัฒนาสามารถบรรลุประสิทธิภาพสูงสุด การสร้าง GPT-4 (ใหญ่กว่า GPT-100 ถึง 3 เท่า (17.5 ล้านล้านพารามิเตอร์)) จะต้องใช้หน่วยประมวลผลกราฟิก (GPU) 7,600 หน่วยที่ทำงานเป็นเวลาอย่างน้อยหนึ่งปีและมีค่าใช้จ่ายประมาณ 200 ล้านเหรียญสหรัฐ โมเดลพารามิเตอร์ 100 ล้านล้านจะต้องใช้ GPU 83,000 ตัวในการขับเคลื่อนเป็นเวลาหนึ่งปี ซึ่งมีค่าใช้จ่ายมากกว่า 2 พันล้านเหรียญสหรัฐ

อย่างไรก็ตาม บริษัทด้านเทคโนโลยีได้ร่วมมือและลงทุนในโมเดล AI ขนาดใหญ่พิเศษที่ขยายตัวตลอดเวลา เนื่องจากความต้องการโซลูชัน ML เพิ่มขึ้น ตัวอย่างเช่น Baidu ในจีนและ Peng Cheng Lab เปิดตัว PCL-BAIDU Wenxin ซึ่งมีพารามิเตอร์ 280 พันล้านตัว PCL-BAIDU ถูกใช้งานโดยฟีดข่าว เครื่องมือค้นหา และผู้ช่วยดิจิทัลของ Baidu แล้ว

โปรแกรม Go-play เวอร์ชันล่าสุดซึ่ง DeepMind สร้างขึ้นในเดือนธันวาคม 2021 มีพารามิเตอร์ 280 พันล้านพารามิเตอร์ รุ่น Switch-Transformer-GLaM ของ Google มีพารามิเตอร์ 1 ล้านล้านและ 1.2 ล้านล้านพารามิเตอร์ตามลำดับ Wu Dao 2.0 จาก Beijing Academy of AI มีขนาดใหญ่กว่านั้นมาก และได้รับรายงานว่ามีพารามิเตอร์ 1.75 ล้านล้านพารามิเตอร์ ในขณะที่เมืองอัจฉริยะและระบบอัตโนมัติยังคงผลักดันการหยุดชะงัก ผู้เชี่ยวชาญไม่แน่ใจว่าการประมวลผลของ AI จะสนับสนุนอนาคตดังกล่าวได้อย่างไร

ผลกระทบของโมเดล AI ขนาดใหญ่พิเศษ

ความหมายที่กว้างกว่าของโมเดล AI ที่ขยายใหญ่ขึ้นอาจรวมถึง:

เพิ่มการลงทุนและโอกาสในการพัฒนาชิปคอมพิวเตอร์ AI ที่ใช้พลังงานน้อยลง
ความก้าวหน้าของ AI ช้าลงเนื่องจากขาดพลังในการประมวลผล ทำให้มีเงินทุนมากขึ้นสำหรับเทคโนโลยีและโซลูชั่นอนุรักษ์พลังงาน
นักพัฒนา ML สร้างโมเดลทางเลือกนอกเหนือจากทรานส์ฟอร์มเมอร์ ซึ่งอาจนำไปสู่การค้นพบและนวัตกรรมสำหรับอัลกอริทึมที่มีประสิทธิภาพมากขึ้น
โซลูชัน AI มุ่งเน้นไปที่ปัญหาของแอปพลิเคชันเป็นศูนย์กลาง ปรับการคำนวณตามนั้นหรือแก้ไขตามความจำเป็นแทนที่จะเพิ่มขนาด
ชุดข้อมูลที่ซับซ้อนมากขึ้นทำให้โปรแกรม AI สามารถคาดการณ์ได้ดีขึ้น รวมถึงการพยากรณ์อากาศ การค้นพบอวกาศ การวินิจฉัยทางการแพทย์ และการซื้อขายระหว่างประเทศ