Các mô hình AI siêu lớn: Các hệ thống máy tính khổng lồ đang đạt đến điểm bùng phát

TÍN DỤNG HÌNH ẢNH:
Tín dụng hình ảnh
iStock

Các mô hình AI siêu lớn: Các hệ thống máy tính khổng lồ đang đạt đến điểm bùng phát

Các mô hình AI siêu lớn: Các hệ thống máy tính khổng lồ đang đạt đến điểm bùng phát

Văn bản tiêu đề phụ
Các mô hình toán học máy học ngày càng lớn hơn và tinh vi hơn hàng năm, nhưng các chuyên gia cho rằng các thuật toán mở rộng này sắp đạt đến đỉnh điểm.
    • tác giả:
    • tên tác giả
      Tầm nhìn lượng tử
    • 2 Tháng Sáu, 2023

    Kể từ năm 2012, những tiến bộ đáng kể trong trí tuệ nhân tạo (AI) đã diễn ra thường xuyên, chủ yếu nhờ vào việc tăng sức mạnh tính toán (gọi tắt là “tính toán”). Một trong những mô hình lớn nhất, ra mắt vào năm 2020, sử dụng điện toán gấp 600,000 lần so với mô hình đầu tiên từ năm 2012. Các nhà nghiên cứu tại OpenAI đã ghi nhận xu hướng này vào năm 2018 và cảnh báo rằng tốc độ tăng trưởng này sẽ không bền vững lâu dài.

    Bối cảnh mô hình AI siêu lớn

    Nhiều nhà phát triển máy học (ML) sử dụng các mô hình máy biến áp để học sâu (DL) vì tiềm năng dường như vô hạn của chúng. Ví dụ về các mô hình này bao gồm Generative Pre-training Transformer 2 (GPT-2), GPT-3, Biểu diễn bộ mã hóa hai chiều từ Transformers (BERT) và Tạo ngôn ngữ tự nhiên Turing (NLG). Các thuật toán này thường có các ứng dụng trong thế giới thực như dịch máy hoặc dự đoán chuỗi thời gian. 

    Các chế độ trí tuệ nhân tạo phải mở rộng để chứa nhiều dữ liệu đào tạo hơn và dự đoán tốt hơn. Yêu cầu này đã dẫn đến sự gia tăng của các mô hình siêu lớn với hàng tỷ tham số (các biến được thuật toán sử dụng để đưa ra dự đoán). Các mô hình này được đại diện bởi GPT-3 của OpenAI (và tương tác ChatGPT của nó ra mắt vào tháng 2022 năm 2020), PanGu-alpha có trụ sở tại Trung Quốc, Megatron-Turing NLG của Nvidia và Gopher của DeepMind. Vào năm 3, việc đào tạo GPT-XNUMX yêu cầu một siêu máy tính nằm trong số năm siêu máy tính lớn nhất thế giới. 

    Tuy nhiên, những mô hình này có xu hướng yêu cầu một lượng lớn dữ liệu đào tạo sử dụng nhiều năng lượng. Học sâu phụ thuộc vào khả năng sử dụng sức mạnh tính toán khổng lồ của nó, nhưng điều này sẽ sớm thay đổi. Việc đào tạo rất tốn kém, có giới hạn đối với chip AI và việc đào tạo các mô hình lớn làm tắc nghẽn bộ xử lý, khiến việc quản lý tất cả chúng trở nên khó khăn. Tham số càng lớn thì việc đào tạo các mô hình này càng tốn kém. Các chuyên gia đồng ý rằng sẽ đến lúc các mô hình AI siêu lớn có thể trở nên quá đắt và tốn nhiều năng lượng để đào tạo. 

    Tác động gián đoạn

    Vào năm 2020, OpenAI đã ước tính lượng điện toán tối thiểu cần thiết để đào tạo nhiều mô hình, tính đến số lượng tham số và kích thước tập dữ liệu. Các phương trình này giải thích cách ML yêu cầu dữ liệu đó truyền qua mạng nhiều lần, cách tính toán cho mỗi lần truyền tăng lên khi số lượng tham số tăng lên và lượng dữ liệu cần thiết khi số lượng tham số tăng lên.

    Theo ước tính của Open AI, giả sử rằng các nhà phát triển có thể đạt được hiệu quả tối đa, việc xây dựng GPT-4 (lớn gấp 100 lần GPT-3 (17.5 nghìn tỷ tham số)) sẽ cần 7,600 đơn vị xử lý đồ họa (GPU) chạy trong ít nhất một năm và chi phí xấp xỉ 200 triệu USD. Một mô hình tham số 100 nghìn tỷ sẽ cần 83,000 GPU để cung cấp năng lượng cho nó trong một năm, tiêu tốn hơn 2 tỷ USD.

    Tuy nhiên, các công ty công nghệ đã hợp tác và đổ tiền đầu tư vào các mô hình AI siêu lớn ngày càng mở rộng của họ khi nhu cầu về các giải pháp ML tăng lên. Ví dụ, Baidu có trụ sở tại Trung Quốc và Peng Cheng Lab đã phát hành PCL-BAIDU Wenxin, với 280 tỷ tham số. PCL-BAIDU đã được sử dụng bởi nguồn cấp tin tức, công cụ tìm kiếm và trợ lý kỹ thuật số của Baidu. 

    Phiên bản chương trình chơi cờ vây mới nhất mà DeepMind tạo ra vào tháng 2021 năm 280 có 1 tỷ tham số. Các mẫu Google Switch-Transformer-GLaM có thông số đáng kinh ngạc lần lượt là 1.2 nghìn tỷ và 2.0 nghìn tỷ. Wu Dao 1.75 của Học viện AI Bắc Kinh thậm chí còn đồ sộ hơn và được báo cáo là có XNUMX nghìn tỷ tham số. Khi các thành phố thông minh và tự động hóa tiếp tục đẩy mạnh sự gián đoạn, các chuyên gia không chắc AI sẽ hỗ trợ như thế nào trong tương lai. 

    Ý nghĩa của các mô hình AI siêu lớn

    Ý nghĩa rộng hơn của các mô hình AI siêu lớn có thể bao gồm: 

    • Tăng đầu tư và cơ hội phát triển chip máy tính AI tiêu thụ ít năng lượng hơn. 
    • Tiến độ AI bị chậm lại do thiếu năng lực tính toán, dẫn đến việc phải tài trợ nhiều hơn cho các công nghệ và giải pháp tiết kiệm năng lượng.
    • Các nhà phát triển ML tạo ra các mô hình thay thế ngoài máy biến áp, điều này có thể dẫn đến những khám phá và đổi mới cho các thuật toán hiệu quả hơn.
    • Các giải pháp AI tập trung vào các vấn đề tập trung vào ứng dụng, điều chỉnh điện toán cho phù hợp hoặc sửa đổi khi cần thay vì chỉ tăng kích thước.
    • Các bộ dữ liệu phức tạp hơn cho phép các chương trình AI thực hiện dự đoán tốt hơn, bao gồm dự báo thời tiết, khám phá không gian, chẩn đoán y tế và giao dịch quốc tế.

    Các câu hỏi để bình luận

    • Nếu bạn làm việc trong lĩnh vực AI, thì có một số tiến bộ nào trong việc phát triển các mô hình ML tốt hơn?
    • Những lợi ích tiềm năng khác của các mô hình với dữ liệu đào tạo phong phú để học hỏi là gì?

    Tham khảo thông tin chi tiết

    Các liên kết phổ biến và liên kết thể chế sau đây đã được tham chiếu cho thông tin chi tiết này: