Dữ liệu tổng hợp: Tạo hệ thống AI chính xác bằng cách sử dụng các mô hình đã sản xuất

TÍN DỤNG HÌNH ẢNH:
Tín dụng hình ảnh
iStock

Dữ liệu tổng hợp: Tạo hệ thống AI chính xác bằng cách sử dụng các mô hình đã sản xuất

Dữ liệu tổng hợp: Tạo hệ thống AI chính xác bằng cách sử dụng các mô hình đã sản xuất

Văn bản tiêu đề phụ
Để tạo ra các mô hình trí tuệ nhân tạo (AI) chính xác, dữ liệu mô phỏng được tạo ra bởi một thuật toán đang chứng kiến ​​sự tiện ích ngày càng tăng.
    • tác giả:
    • tên tác giả
      Tầm nhìn lượng tử
    • 4 Tháng Năm, 2022

    Tóm tắt thông tin chi tiết

    Dữ liệu tổng hợp, một công cụ mạnh mẽ có nhiều ứng dụng từ chăm sóc sức khỏe đến bán lẻ, đang định hình lại cách phát triển và triển khai hệ thống AI. Bằng cách cho phép tạo các bộ dữ liệu đa dạng và phức tạp mà không gây nguy hiểm cho thông tin nhạy cảm, dữ liệu tổng hợp đang nâng cao hiệu quả trong các ngành, bảo vệ quyền riêng tư và giảm chi phí. Tuy nhiên, nó cũng đặt ra những thách thức, chẳng hạn như khả năng sử dụng sai mục đích trong việc tạo ra các phương tiện truyền thông lừa đảo, những lo ngại về môi trường liên quan đến tiêu thụ năng lượng và những thay đổi trong động lực thị trường lao động cần được quản lý cẩn thận.

    Ngữ cảnh dữ liệu tổng hợp

    Trong nhiều thập kỷ, dữ liệu tổng hợp đã tồn tại ở các dạng khác nhau. Nó có thể được tìm thấy trong các trò chơi máy tính như mô phỏng chuyến bay và mô phỏng vật lý mô tả mọi thứ từ nguyên tử đến thiên hà. Giờ đây, dữ liệu tổng hợp đang được ứng dụng trong các ngành như chăm sóc sức khỏe để giải quyết các thách thức về AI trong thế giới thực.

    Sự tiến bộ của AI tiếp tục gặp phải một số trở ngại trong việc triển khai. Ví dụ: các tập dữ liệu lớn được yêu cầu cung cấp các phát hiện đáng tin cậy, không có thành kiến ​​và tuân thủ các quy định về quyền riêng tư dữ liệu ngày càng chặt chẽ hơn. Giữa những thách thức này, dữ liệu được chú thích được tạo ra bởi các chương trình hoặc mô phỏng trên máy tính đã nổi lên như một sự thay thế cho dữ liệu chính hãng. Dữ liệu do AI tạo ra này, được gọi là dữ liệu tổng hợp, rất quan trọng để giải quyết các mối quan tâm về quyền riêng tư và xóa bỏ định kiến ​​vì nó có thể đảm bảo tính đa dạng của dữ liệu phản ánh thế giới thực.

    Ví dụ, các bác sĩ chăm sóc sức khỏe sử dụng dữ liệu tổng hợp trong lĩnh vực hình ảnh y tế để đào tạo hệ thống AI trong khi vẫn duy trì tính bảo mật của bệnh nhân. Ví dụ, công ty chăm sóc ảo Curai đã sử dụng 400,000 trường hợp y tế tổng hợp để đào tạo thuật toán chẩn đoán. Hơn nữa, các nhà bán lẻ như Caper sử dụng mô phỏng 3D để tạo tập dữ liệu tổng hợp gồm một nghìn bức ảnh chỉ từ năm bức ảnh sản phẩm. Theo một nghiên cứu của Gartner công bố vào tháng 2021 năm 2030 tập trung vào dữ liệu tổng hợp, hầu hết dữ liệu được sử dụng trong quá trình phát triển AI sẽ được sản xuất một cách nhân tạo theo luật pháp, tiêu chuẩn thống kê, mô phỏng hoặc các phương tiện khác vào năm XNUMX.

    Tác động gián đoạn

    Dữ liệu tổng hợp hỗ trợ trong việc bảo vệ quyền riêng tư và ngăn chặn vi phạm dữ liệu. Ví dụ: một bệnh viện hoặc công ty có thể cung cấp cho nhà phát triển dữ liệu y tế tổng hợp chất lượng cao để đào tạo hệ thống chẩn đoán ung thư dựa trên AI — dữ liệu phức tạp như dữ liệu trong thế giới thực mà hệ thống này dùng để diễn giải. Bằng cách này, các nhà phát triển có bộ dữ liệu chất lượng để sử dụng khi thiết kế và biên dịch hệ thống, đồng thời mạng lưới bệnh viện không có nguy cơ gây nguy hiểm cho dữ liệu y tế bệnh nhân nhạy cảm. 

    Dữ liệu tổng hợp hơn nữa có thể cho phép người mua dữ liệu thử nghiệm truy cập thông tin với mức giá thấp hơn so với các dịch vụ truyền thống. Theo Paul Walborsky, người đồng sáng lập AI Reverie, một trong những doanh nghiệp kinh doanh dữ liệu tổng hợp chuyên dụng đầu tiên, một hình ảnh duy nhất có giá 6 đô la từ dịch vụ dán nhãn có thể được tạo nhân tạo với giá sáu xu. Ngược lại, dữ liệu tổng hợp sẽ mở đường cho dữ liệu tăng cường, đòi hỏi phải thêm dữ liệu mới vào tập dữ liệu trong thế giới thực hiện có. Các nhà phát triển có thể xoay hoặc làm sáng một hình ảnh cũ để tạo một hình ảnh mới. 

    Cuối cùng, do các mối quan tâm về quyền riêng tư và các hạn chế của chính phủ, thông tin cá nhân tồn tại trong cơ sở dữ liệu ngày càng trở nên phức tạp và hợp pháp hóa, khiến thông tin trong thế giới thực khó được sử dụng để tạo các chương trình và nền tảng mới. Dữ liệu tổng hợp có thể cung cấp cho các nhà phát triển giải pháp thay thế dữ liệu có độ nhạy cảm cao.

    Hàm ý của dữ liệu tổng hợp 

    Ý nghĩa rộng hơn của dữ liệu tổng hợp có thể bao gồm:

    • Sự phát triển nhanh chóng của các hệ thống AI mới, cả về quy mô và tính đa dạng, giúp cải thiện các quy trình trong nhiều ngành và lĩnh vực chuyên môn, dẫn đến nâng cao hiệu quả trong các lĩnh vực như chăm sóc sức khỏe, vận tải và tài chính.
    • Cho phép các tổ chức chia sẻ thông tin cởi mở hơn và các nhóm cộng tác và hoạt động hiệu quả hơn, dẫn đến môi trường làm việc gắn kết hơn và khả năng giải quyết các dự án phức tạp một cách dễ dàng.
    • Các nhà phát triển và chuyên gia dữ liệu có thể gửi email hoặc mang theo các tập dữ liệu tổng hợp lớn trên máy tính xách tay của họ mà yên tâm khi biết rằng dữ liệu quan trọng không bị đe dọa, dẫn đến điều kiện làm việc linh hoạt và an toàn hơn.
    • Tần suất vi phạm an ninh mạng cơ sở dữ liệu giảm vì dữ liệu xác thực sẽ không cần phải truy cập hoặc chia sẻ thường xuyên nữa, dẫn đến môi trường kỹ thuật số an toàn hơn cho cả doanh nghiệp và cá nhân.
    • Các chính phủ có nhiều quyền tự do hơn trong việc thực thi luật quản lý dữ liệu chặt chẽ hơn mà không phải lo lắng về việc cản trở sự phát triển của ngành hệ thống AI, dẫn đến bối cảnh sử dụng dữ liệu được quản lý và minh bạch hơn.
    • Khả năng dữ liệu tổng hợp được sử dụng một cách phi đạo đức trong việc tạo ra các tác phẩm sâu hoặc các phương tiện lôi kéo khác, dẫn đến thông tin sai lệch và làm xói mòn niềm tin vào nội dung kỹ thuật số.
    • Sự thay đổi trong động lực thị trường lao động, với sự phụ thuộc ngày càng nhiều vào dữ liệu tổng hợp có khả năng làm giảm nhu cầu về vai trò thu thập dữ liệu, dẫn đến chuyển dịch việc làm trong một số lĩnh vực nhất định.
    • Tác động môi trường tiềm ẩn của việc tăng nguồn lực tính toán cần thiết để tạo và quản lý dữ liệu tổng hợp, dẫn đến mức tiêu thụ năng lượng cao hơn và các mối lo ngại liên quan đến môi trường.

    Các câu hỏi cần xem xét

    • Những ngành công nghiệp nào khác có thể được hưởng lợi từ dữ liệu tổng hợp?
    • Chính phủ nên thực hiện những quy định nào liên quan đến cách dữ liệu tổng hợp được tạo, sử dụng và triển khai? 

    Tham khảo thông tin chi tiết

    Các liên kết phổ biến và liên kết thể chế sau đây đã được tham chiếu cho thông tin chi tiết này: