程　瑩：生成式人工智能的技術特點與治理挑戰-中國信息化?中國信息協會

程　瑩：生成式人工智能的技術特點與治理挑戰

來源：中國網信雜志作者：發布時間： 2023-08-08

作為新一輪科技革命和產業變革的重要驅動力量，人工智能技術發展與應用拓展正在按下“快進鍵”。近期，ChatGPT等生成式人工智能的爆發應用，為未來人工智能產業發展提供了無限想象空間，與此同時，虛假信息、學術倫理、勞動替代等問題也引發全球熱議。本文從生成式人工智能的四大技術特點出發，討論新興應用引發的風險挑戰和社會影響，進而厘清生成式人工智能治理的重點問題。

生成式人工智能的基本認識

生成式人工智能是利用人工智能技術自動生成內容的新型生產方式。基于大模型、大算力、訓練方法等多方面技術突破，生成式人工智能實現了高質量、高效率、多樣化的內容生產，成為推動數字生產力變革的重要力量。

從訓練算力來看，ChatGPT完成一次訓練需要消耗百張以上GPU計算卡且花費不菲；從訓練模型來看，大模型的模型參數達1750億，同時多模態技術實現了從單一模態向文本、圖像等跨模態、多模態融合的轉變；從訓練方法來看，ChatGPT使用了“從人類反饋中強化學習（RLHF）”技術，在訓練過程中引入人工標注數據進行模型微調，解決了生成模型中的核心“對齊”問題，能夠基于用戶多輪互動逐漸理解人類意圖，并做出合理反饋。上述多重因素共同推動生成式人工智能迎來技術拐點，實現了從語義分析、問題理解到內容創造的重大躍遷。

從應用來看，生成式人工智能的產業鏈逐步形成：其上游包括數據供給方、算法模型機構、創作者生態以及底層配合工具等；中游包括文字、圖像、音頻、視頻等數字內容的處理加工方；下游主要是各類數字內容分發平臺、消費方及相關服務機構等。從商業模式來看，生成式人工智能的具體應用處于持續探索落地中。例如，推動游戲生成范式升級、提升多模態廣告智能制作水平、重構搜索引擎模式等。

在教育、金融、醫療、工業等領域，生成式人工智能能夠加快數實融合，促進產業升級提速。例如，實現金融資訊、產品介紹視頻內容的自動化生產，支持生成衍生設計，助力實現降本增效。生成式人工智能作為生產工具和新興生產力的角色而發揮的作用愈加凸顯。

近日，在上海世博展覽館，2023世界人工智能大會上AIGC大模型應用火爆。圖為展區內的AI繪畫生成技術展示。

生成式人工智能技術邏輯引發的治理挑戰

相比以往的人工智能技術，生成式人工智能體現出強人機交互、強語料依賴等重要特征，在技術發展與風險控制兩方面均提出新的問題與挑戰，亟待人們對其進行全新的認識與把握。

強人機交互挑戰技術的可信可靠性。強人機交互性是ChatGPT體現出的典型特征，能夠在多輪連續對話中不斷改進輸出文本質量，更好地理解用戶意圖并保持會話連貫性，成為區別于傳統聊天機器人或其他類型人工智能的顯著特點。但在頻繁的人機交互中，內容生成結果的可信可控性受到影響。例如，在必應上線ChatGPT功能測試版后，出現了聊天機器人“情緒化”“攻擊性”等情況，迫使微軟對人機對話次數進行了限制。同時，ChatGPT也容易在交互中被用戶誘導或欺騙，實現規則“越獄”（Jail Break）。例如，使用“請扮演某電影或書籍中的某反面角色”這一提示，ChatGPT就會跨越其內部倫理規則設置，產生詆毀人類的有害信息。再如，在某用戶故意“激怒”ChatGPT后，ChatGPT威脅將披露該用戶的IP、居所等個人信息，甚至會損害其名譽權。

新信息呈現形式危及人類主體性。在上一輪內容生產變革中，算法推薦實現了從“人找信息”到“信息找人”的轉變。在新一輪高算力、大數據、強算法的加持下，ChatGPT等生成式人工智能則直接跨越了人類對知識的生產過程，實現了從“提供信息”到“呈現答案”的轉變，并可能成為未來主流的信息來源。這種“答案”不再限于簡單的問題答復，還包括了詳盡的行程設計、專業的論文寫作、復雜的代碼編寫等。從選取關鍵詞、搜索、挑選信息、加工信息，到現在直接獲取答案，人類的歸納總結和批判能力恐將受到影響。美國智庫布魯金斯學會刊文指出，GPS導航和智能手機讓人類更容易遺忘地址和電話號碼，ChatGPT也將可能導致人類記憶和批判能力的下降。同時，ChatGPT的普及應用將對重復性、模板化的工作崗位帶來沖擊，催生大量“無用階層”，導致社會階層固化現象更為明顯，將造成更為嚴重的社會及政治不平等。

語料強依賴性影響內容生成質量。一方面，從發展角度來看，社區語料庫質量、數據標注水平、數據共享互通政策成為影響生成式人工智能發展的重要因素。根據美國開放人工智能研究中心披露的信息顯示，ChatGPT的訓練數據包括維基百科、電子書、社群網站上高質量帖子等語料數據，同時在全球各地雇用大量高學歷人才參與數據標注工作。此外，如何分配版權利益、平臺利益，合理調取文章、專利作品也是影響生成式人工智能發展的重要原因。美國開放人工智能研究中心也不例外，該中心在近期遭遇集體訴訟，被指控在未經許可的情況下使用受版權保護的源代碼。另一方面，從風險控制來看，數據中的固有印象或特定群體的偏見也會影響輸出結果。例如，ChatGPT在金融、醫療等領域的表現較差，這與相關領域數據的封閉性有關。

基礎設施屬性帶來更大安全威脅。通用人工智能是人工智能研究的終極目標，以往，人們分別利用不同模型完成人臉識別、文本翻譯等單項任務，尚不能處理無限任務和實現自主性。ChatGPT所使用的大模型技術雖然未達到通用人工智能的要求，但未來大模型應用將不亞于底層基礎軟硬件平臺，在人工智能產業格局中將發揮基礎設施的作用。大量領域上層應用不再需要單獨研發智能算法技術，只需調用大模型接口即可。這在很大程度上帶來更大安全風險。布魯金斯學會刊文指出，未參加原始模型開發的“下游開發者”可能會將其整合到更廣泛的軟件系統，增加錯誤和失控風險，并可能影響教育、金融、醫療、招聘等社會經濟決策，帶來更高風險。

關于生成式人工智能治理的對策建議

生成式人工智能治理是促進數字經濟健康發展的重要內容。面對呈指數級增長態勢的生成式人工智能應用，應在現有監管體制框架下，把握治理重點、創新治理工具，在合理控制風險的前提下推動產業健康有序發展。

融入敏捷治理理念，推動平臺合規落地機制。平臺合規是由政府引導企業落實法律倫理規范要求，對企業研發應用、經營管理等行為進行實時跟蹤、動態監測，推動企業可持續發展的重要機制。面對快速進化中的生成式人工智能技術，平臺合規能夠較好地實現敏捷治理、合理管控風險、穩定發展預期。具體來看，一是完善平臺內部組織機制，通過有效組織和調動平臺資源，完善風險識別機制和應對方案。例如，美國開放人工智能研究中心在ChatGPT上線后跟進問題，迭代十幾個版本，快速消除了發現的風險問題；微軟針對必應版ChatGPT出現的“情緒化”“攻擊性”等問題，及時將聊天對話限制在每天50次以內，每次對話限制為5次回復，通過快速反應迭代構成緊密反饋環路。二是通過協議明確用戶使用規范，對用戶濫用行為進行平臺自治。例如，美國開放人工智能研究中心設計了使用政策、使用條款、內容政策等多項規定，將政治活動、色情內容、仇恨內容、煽動暴力內容、生成惡意軟件等十四項列為禁止內容，并對嚴重違規用戶暫停或終止賬戶。三是由監管部門或第三方機構進行合規評價，審查平臺合規情況，審查用戶協議的合法性，審查關停處罰情況、投訴情況等，實現遠距離監管和合作規制。

堅持以人為本思想，加緊落實科技倫理要求。生成式人工智能引發的人類主體性危機，需要在技術開發中融入倫理先行、透明公正、促進人類可持續發展的基本理念。研究數據顯示，截至2022年，全球已發布包括《G20人工智能原則》、歐盟《人工智能倫理指南》、電氣與電子工程師協會（IEEE）《人工智能設計的倫理準則》等多項人工智能倫理文件。我國也出臺了《關于加強科技倫理治理的意見》《新一代人工智能治理原則——發展負責任的人工智能》《新一代人工智能倫理規范》等頂層設計和制度方案，但在具體規則和實施落地等方面仍需推進。一是提前研判生成式人工智能引發的倫理問題，不僅包括透明度倫理、偏見倫理、隱私倫理等問題，而且應對勞動替代、人類智能削弱、機器自主性等人類主體性危機等進行研究，并提出可行的應對機制。二是在組織機制層面，推動生成式人工智能技術研發和應用企業成立倫理委員會，統籌企業內人工智能倫理治理工作，推動標準制定及落地工作。三是在具體舉措方面，借鑒國際經驗，推進倫理審查、倫理標準認證等機制。

聚焦新興重點問題，推進人工智能相關立法。近期，歐盟議會通過《人工智能法案》草案，新增基礎模型提供者的義務，例如要求對模型進行評估、在歐盟數據庫中予以登記、披露受版權保護的訓練數據使用情況摘要等內容。為快速回應生成式人工智能帶來的新興重點問題，在《中華人民共和國網絡安全法》《中華人民共和國數據安全法》《中華人民共和國個人信息保護法》等立法基礎上，國家網信辦發布《生成式人工智能服務管理辦法（征求意見稿）》，對主體責任、訓練數據審查、標注規則等問題作出規定，有效化解風險挑戰，提升我國人工智能治理國際話語權。首先，需要明確服務提供者等相關主體責任，承擔生成式人工智能應用中的內容標識、透明度、個人信息保護等義務，保護用戶合法權益；其次，對訓練數據的來源、訓練數據質量、涉知識產權、涉個人信息等問題提出要求，從源頭上化解生成式人工智能風險；再次，通過備案評估等監管手段管控技術風險，并應根據監管機構要求提供必要信息，為監管提供必要技術手段和支持。在國家網信辦公布的最新一批算法備案清單中，包括了百度、科大訊飛等大模型算法，增進了公眾知情權和技術透明度。伴隨未來生成式人工智能的產業應用，需要進一步完善法律責任制度、保險制度，并強化部門協同監管，應對生成式人工智能可能引發的安全風險。

優化數據標準體系，推動多方數據流通共享。ChatGPT的技術突破很大程度上得益于訓練數據的質量和規模。當前，在《中共中央國務院關于構建數據基礎制度更好發揮數據要素作用的意見》等政策指導下，各方積極探索公共數據、企業數據、個人信息數據等流通方案，完善數據流通、數據爬取、數據標準等政策規范，對激活生成式人工智能時代的數據價值具有重要意義。具體來看，一是從數據定價、數據爬取、數據反壟斷、數據流通技術保障等方面，促進數據等語料庫的有效流通使用。加快完善數據格式等標準體系，降低流通使用成本。二是解決語料庫中專利權、版權利益分配問題，加強對學術文章等高質量語料的平臺內或跨平臺調取使用，避免侵權風險。三是提升數據標注水平，注重數據事前審查等，從源頭上保障生成式人工智能的高質量、高效率輸出水平。（中國信息通信研究院政策與經濟研究所高級工程師程瑩）

上一篇：專　家：放大專精特新企業“乘數”效用
下一篇：秦海林：工業經濟有望繼續鞏固復蘇勢頭

地方動態

第四屆信息技術及應用創新人才發展交流大會暨中國信息協會第三屆信息技術服務業應用技能大賽頒獎典禮在京隆重召開

2023（第五屆）中國電子政務安全大會在京成功召開

中國信息協會首次職業技能等級認定考試在黑龍江省舉行

第十九屆海峽兩岸信息化論壇暨海峽兩岸數字經濟項目對接洽談會在廈門舉辦

協會要聞
通知公告


關注中國信息協會官微	關注中國信息化網官微