合成數據:使用製造模型創建準確的 AI 系統

圖片來源:
圖片來源
iStock

合成數據:使用製造模型創建準確的 AI 系統

合成數據:使用製造模型創建準確的 AI 系統

副標題文字
為了創建準確的人工智能 (AI) 模型,由算法創建的模擬數據的實用性越來越高。
    • 作者:
    • 作者姓名
      量子運行遠見
    • 2022 年 5 月 4 日

    洞察總結

    合成數據是一種強大的工具,其應用範圍從醫療保健到零售,正在重塑人工智慧系統的開發和實施方式。 透過在不危及敏感資訊的情況下創建多樣化和複雜的資料集,合成資料正在提高各行業的效率、保護隱私並降低成本。 然而,它也帶來了挑戰,例如製造欺騙性媒體的潛在濫用、與能源消耗相關的環境問題以及需要謹慎管理的勞動力市場動態的變化。

    綜合數據上下文

    幾十年來,合成數據以不同的形式存在。 它可以在飛行模擬器等計算機遊戲和描繪從原子到星系的一切事物的物理模擬中找到。 現在,合成數據正在醫療保健等行業中應用,以解決現實世界中的人工智能挑戰。

    人工智能的進步繼續遇到幾個實施障礙。 例如,大數據集需要提供可靠的調查結果、沒有偏見並遵守越來越嚴格的數據隱私法規。 在這些挑戰中,由計算機模擬或程序創建的註釋數據已成為真實數據的替代品。 這種人工智能創建的數據被稱為合成數據,對於解決隱私問題和消除偏見至關重要,因為它可以確保反映現實世界的數據多樣性。

    例如,醫療保健從業者在醫學影像領域使用合成資料來訓練人工智慧系統,同時維護病患的機密性。 例如,虛擬護理公司 Curai 使用 400,000 萬個綜合醫療案例來訓練診斷演算法。 此外,Caper 等零售商使用 3D 模擬從短短 2021 張產品照片中建立包含 2030 張照片的合成資料集。 根據 Gartner XNUMX 年 XNUMX 月發布的一項針對合成數據的研究,到 XNUMX 年,人工智慧開發中使用的大部分數據將透過立法、統計標準、模擬或其他方式進行人工製造。

    破壞性影響

    合成數據有助於保護隱私和防止數據洩露。 例如,醫院或公司可能會向開發人員提供高質量的合成醫學數據來訓練基於 AI 的癌症診斷系統——這些數據與該系統要解釋的真實世界數據一樣複雜。 通過這種方式,開發人員在設計和編譯系統時可以使用高質量的數據集,並且醫院網絡不會冒危及敏感患者醫療數據的風險。 

    合成數據可以進一步允許測試數據的購買者以低於傳統服務的價格訪問信息。 AI Reverie 的聯合創始人保羅·沃爾博斯基 (Paul Walborsky) 表示,AI Reverie 是首批專門的合成數據企業之一,人工生成一張標籤服務成本為 6 美元的圖像只需 XNUMX 美分。 相反,合成數據將為增強數據鋪平道路,這需要將新數據添加到現有的真實世界數據集中。 開發人員可以旋轉或增亮舊圖像以製作新圖像。 

    最後,考慮到隱私問題和政府限制,數據庫中存在的個人信息正變得越來越合法和復雜,這使得真實世界的信息更難用於創建新的程序和平台。 合成數據可以為開發人員提供替代高度敏感數據的變通解決方案。

    綜合數據的影響 

    合成數據的更廣泛影響可能包括:

    • 新人工智慧系統在規模和多樣性方面的加速發展,並改善了許多行業和學科領域的流程,從而提高了醫療保健、交通和金融等行業的效率。
    • 使組織能夠更公開地共享訊息,使團隊能夠更有效地協作和運營,從而形成更具凝聚力的工作環境並能夠輕鬆處理複雜的專案。
    • 開發人員和資料專業人員能夠透過電子郵件發送或在筆記型電腦上攜帶大型合成資料集,並安全地知道關鍵資料不會受到威脅,從而實現更靈活和安全的工作條件。
    • 資料庫網路安全漏洞的頻率降低,因為不再需要頻繁存取或共享真實數據,為企業和個人帶來更安全的數位環境。
    • 政府獲得更多自由來實施更嚴格的資料管理立法,而不必擔心阻礙人工智慧系統的產業發展,從而形成更規範和透明的資料使用環境。
    • 合成資料有可能被不道德地用於創建深度偽造品或其他操縱性媒體,從而導致錯誤訊息和對數位內容信任的侵蝕。
    • 勞動力市場動態的變化,對合成數據的依賴增加,可能會減少對數據收集角色的需求,從而導致某些行業的工作流失。
    • 產生和管理合成資料所需的運算資源增加會對環境產生潛在影響,從而導致更高的能源消耗和相關的環境問題。

    需要考慮的問題

    • 還有哪些其他行業可以從合成數據中受益?
    • 關於如何創建、使用和部署合成數據,政府應實施哪些法規? 

    洞察參考

    此見解引用了以下流行和機構鏈接:

    麻省理工學院新聞 合成數據的真正前景