藍海沙龍|第272期:“我國大模型中文語料庫的發展現狀與高質量發展路徑”研討會在京召開
2024年04月07日 17:00
4月3日,由中國互聯網協會主辦,中國互聯網協會人工智能工作委員會協辦的第272期藍海沙龍——“我國大模型中文語料庫的發展現狀與高質量發展路徑”研討會在京召開。北京師范大學新聞傳播學院教授、媒體融合與數字出版研究中心主任秦艷華,北京師范大學互聯網發展研究院院長助理吳沈括,北京外國語大學信息科學技術學院副教授徐月梅,中國信息通信研究院人工智能研究中心研究員燕江依,首都版權協會副秘書長、動漫與游戲工作委員會秘書長楊志勇,中電信人工智能科技有限公司AI研發中心資深算法工程師趙宇,中國電信集團數據發展中心生態合作總監李鵬飛,中國聯通研究院研究員趙燦,古聯(北京)數字傳媒科技有限公司總經理洪濤,阿里研究院高級行業研究專家王崢,抖音集團數據及隱私法務總監高震等參加會議并發言。會議由中國互聯網協會副秘書長裴瑋和北京智源人工智能研究院數據研究組負責人張正主持。
裴瑋表示,2022年全球大模型迎來了爆發增長,總體看我國在大模型領域取得了一定的成就,但仍面臨著一些挑戰,其中最顯著的問題之一就是高質量中文語料資源的短缺。以ChatGPT為例,訓練數據中文資料比重不足千分之一。高質量中文語料庫的不足,導致國內許多從事大模型開發的研究機構和企業在進行模型訓練時,不得不依賴于外文標注數據集、開源數據集或是爬取網絡數據。鑒于此,探索我國大模型中文語料庫的高質量發展路徑,對于大模型行業的未來發展具有重要意義和價值。本次研討會主要就我國大模型中文語料庫的發展現狀、面臨的形式、任務及其高質量發展路徑等進行探討。
張正表示,在過去幾年時間內,模型的參數規模增長給性能帶來了一定提升,但訓練數據的質量和組織形式對模型性能的提升帶來了更大的幫助。數據工作已經成為大模型行業中最受關注的一個任務,在模型規模不變的前提下,數據的變化能夠讓模型效果得到非常大的提升。模型參數量越大,數量越多,能力越強。一些科學家提出,大模型的本質是對數據做無損壓縮,目前各家大模型公司的一個核心任務就是,如何對數據做有效清洗,以及如何更進一步人工合成一些高價值數據,從數據層面提升模型的性能。
王崢表示,大模型訓練所需要的語料具有“廣”“齊”“專”的特點,訓練過程并不依賴個人信息。模型語料需要政府和社會力量更好地協同。在政府側進一步加強應用于訓練的公共數據開放,特別是具有科研屬性的公共數據,同時鼓勵社會力量參訓練公共數據集的開發建設,通過多方參與機制提高訓練數據質量和安全性。對于受財政支持的科研和文化單位所有的知識產權類數據,鼓勵通過開放、共享等方式向社會公開,基于非營利性成本補償原則明確合理收費標準。低質量的語料可以用數據治理的標準來去劣,而高質量語料很難有統一的客觀標準去衡量,應該交給市場機制去嘗試和探索,不要預設前置標準。
高震表示,語料數據的權利清潔性是語料庫建設、流通和使用的重要合規前提,個人信息、知識產權等法律規則的因應完善,安全合規技術的配套發展,以及協會引導下的行業自律和標準化建設三管齊下,預期能夠更好地解決相關難題。
洪濤表示,關于古籍文獻和語料庫的基本情況,我國現存古籍大概20萬種,50萬版本。整個古籍數字化的用字量大,普及難度大,中文古籍語料庫內容多,但是高質量古籍數據稀缺。古籍領域大模型垂直應用場景包括古文應用場景和傳統文化的場景。古文應用場景更多地用于古籍整理和學術研究,傳統文化的場景應用于文化普及。要想對這兩個場景更好的服務,要綜合訓練古籍和現代文獻才能實現傳統文化內容創新性應用。
趙燦表示,我國大模型及中文語料庫建設上雖有成果但面臨總量不足、分布不均、垂直覆蓋有限、質量參差不齊等挑戰,尤其是優質、專業、多元的中文數據供給存在明顯短板。建議在國家相關政策引導下,建設數據流動和交易特區,推動跨行業數據資產入表,強化跨域數據服務的深度融合,同時不斷完善數據撮合交易機制與基礎設施建設,示范引領數據資產產業發展,為構建高質量的大模型中文語料庫提供有力支撐。
李鵬飛表示,隨著人工智能大模型在各領域各場景加速落地,大模型訓練數據語料的價值日益凸顯,正成為影響大模型應用效果的關鍵因素。當前,大模型訓練語料在數據獲取、數據質量、數據處理、數據隱私和安全等方面還有諸多問題有待解決。需要行業伙伴共同探索數據合作機制與商業模式,推動數據資源在合規前提下的開放共享,構建大模型語料質量評價體系,打造安全可信的數據處理基礎設施,共同推動人工智能行業高質量發展。
趙宇表示,大模型語料庫的建設離不開高質量的數據解析和清洗,需要大量的人力和算力投入。如何更好地評估數據價值和數據成本,是建設數據共享生態的關鍵。因此,建議發揮國家宏觀調配優勢,從國家層面建立統一的數據機關、數據平臺,完善法律法規,設置激勵政策,統一數據質量標準,從而促進數據市場繁榮。
楊志勇表示,隨著人工智能時代的來臨,建設好中文語料庫尤為重要,應突出“兩量”和“一護”。“兩量”一是可信的中文文本數量,二是文本內容的質量;“一護”是版權護航,才能行穩致遠。
燕江依表示,在大模型時代,海量、高質量、多樣化的訓練數據集,成為拉開能力差距的關鍵要素。通過添加數據標記、清洗和轉換數據、數據縮減、增加數據多樣性、持續監測和維護數據等手段,形成優質的標準化數據集和完備的數據全生命周期管理體系。人工智能高質量數據集應滿足為可靠性、準確性、完整性、多樣性、標注精確性、安全性、均衡性、及時性等八大特征。建議聯動各方生態力量,完善人工智能數據生態服務,推動人工智能高質量數據集建設發展。
徐月梅表示,大語言模型的多語言能力參差不齊,迫切需要提升大語言模型的中文語言能力。訓練語料的清洗程度、多樣性、規模大小對模型的性能有重要影響。建設高質量中文訓練語料是關鍵,如何評價語料的高質量,值得探究。
吳沈括表示,作為全球業內共識,語料數據的質量,決定了人工智能算法的水平以及大模型的水準。在當下國際數據治理時代背景下,各個國家和地區都十分重視語料生態的培育建設,包括通過制定出臺相關的政策法規作出系統的正向促動。就現實而言,中文語料的建設具有顯著的現實意義和緊迫性,其過程需要注重考慮數據質量、權益保護以及行業生態等多重價值。一方面,要提高數據等要素資源的供給水平,包括深度挖掘公共數據的價值潛力。另一方面,要持續提高語料數據的質量要求,包括必要的基礎設施支撐和技術標準指引。同時,也要培育壯大行業生態水準,通過推動千行百業的融合與交互,憑借全面、有效的激勵機制,提升中文語料建設工作的可持續發展能力。
秦艷華表示,高質量中文語料庫建設勢在必行,希望由相關部門或協會或公益組織籌集人力、物力、財力,集中搭建全國最具影響力的中文語料庫平臺,構建通用大語言模型,并開源,免費供大家使用。
通過各界專家的研討發現,在大模型時代,數據成為新一輪人工智能競爭的壁壘與制高點,我國大模型及中文語料庫建設上雖有成果,但仍面臨總量不足、分布不均、垂直覆蓋有限、質量參差不齊等挑戰。建議從國家層面建立統一的數據機關、數據平臺,完善法律法規,設置激勵政策,鼓勵社會力量參與訓練公共數據集的開發。行業協會主動引導行業自律,開展相關標準化建設,提高行業生態水準,共同推動高質量中文語料庫的建設。