亚洲第一页色_久久亚洲精品成人_99精品在线免费观看_好男人在线精品视频www

首頁  >  財經  >  經濟觀察

中文高質量數據集加速建設 大模型如何更懂“中國話”

2025-12-25 13:39:09

來源:人民日報

  中文高質量數據集加速建設

  大模型如何更懂“中國話”(“十五五”文化熱詞·推進文化和科技融合)

  “過馬路時,你要注意看車!”

  “我計劃明天去車展看車。”

  這兩句話里的“看車”是一個意思嗎?相信不少人要會心一笑,表面上看是同一個詞組,但其含義因語境不同發生了變化。

  這就是中文里常見的“一詞多義”現象。人工智能大模型是一種與人類語言密切相關的技術,要讓大模型深刻理解這一現象,離不開中文數據的持續供給。

  目前,國內多數模型訓練使用的數據,中文數據占比已經超過60%,有的模型達到80%。大模型訓練中,中文數據占比提升有何意義?中文高質量數據為何持續增加?如何進一步增加中文數據的開發與供給?記者進行了采訪。

  數據就像大模型的“知識教材”

  不同語言的數據對大模型性能有怎樣的影響?“數據就像大模型的‘知識教材’,教材的語言屬性不同,會對模型的知識體系產生不同影響。”清華大學計算社會科學與國家治理實驗室執行主任、教授孟慶國表示。

  從知識來源看,過去我國大模型常面臨“數據依賴”風險——英文數據在全球互聯網的占比較高,如前沿科技論文、行業標準、文化典籍等多以英文呈現,全球高質量標注數據也多以英文為主。

  “語言類大模型一般需要遵循一定的語言習慣。”工業和信息化部信息通信經濟專家委員會委員盤和林認為,中文數據占比提高,既方便了用戶理解其輸出結果,又可以保障和提升我國在大模型上的研發能力。

  “若中文數據占比低,模型在關鍵技術迭代中易受‘數據授權限制’‘更新延遲’等影響。”孟慶國說,中文數據占比提高,助力我國在“數據安全”“技術自主”上邁出關鍵步伐,有利于我國掌握大模型發展主動權。

  “中文數據中獨有的文化習慣、隱喻表達、政策術語等在英文數據中難以得到體現。模型長期學習英文數據,所形成的‘英文式認知邏輯’,在理解中文特有的思維方式時容易出現偏差。”科大訊飛消費者AI交互業務部總經理趙艷軍介紹,中文數據比重的提升,增強了大模型對中華文化及中國場景的理解能力。比如中醫問診時,“上火”“濕氣”等概念需要中文語境才能準確推理。

  從知識傳承看,中文數據承載著我國數千年的文化積累,中文數據占比提高,能讓大模型推動中華文化的數字化傳播。“中文數據占比高的模型能講解‘文言文虛詞用法’‘詩詞平仄規律’等。比如,在解釋‘之乎者也’時,結合《論語》《孟子》等中文典籍案例,讓傳統文化教育更生動。”孟慶國說。

  中文高質量數據供給能力不斷增強

  中文普通數據和中文高質量數據有何區別?普通數據多為未經審核的網絡文本、非專業內容,易出現事實錯誤或概念混淆。而高質量數據需經過“事實核查、專業審核”,語義準確且來源可追溯。

  要理解中文高質量數據的重要性,可從醫療診斷這一專業場景講起。今年8月,中文臨床醫學知識圖譜“磐醫知識圖譜”在浙江臺州發布。“當前,一些大模型學習的醫學知識,來源于互聯網公開數據,而這些公開數據,有的不嚴謹、有的存在矛盾、有的更新滯后,這些情況都會對大模型生成的結果產生負面影響。”浙江省全省醫療智能決策重點實驗室主任林輝表示,“磐醫知識圖譜”中的數據均由醫學專家審核,每個知識點都有明確來源,且動態更新醫學進展。

  大模型性能的提升,體現了中文高質量數據的價值。得益于一系列因素的合力助推,中文高質量數據的供給能力不斷增強——

  政策有支持。從《“數據要素×”三年行動計劃(2024—2026年)》提出“打造高質量人工智能大模型訓練數據集”,到國家數據局布局建設數據標注基地,政策利好下,大量中文高質量數據集加速建設。

  技術有突破。中文數據因“歧義多、語境依賴強”,早期標注成本是英文數據的1.8—2.5倍,隨著技術不斷進步,開發難度也在降低。例如,國內某“中文語義標注系統”已可自動區分“打毛衣”“打電話”中“打”的含義,讓標注效率提升了3倍,且成本有效降低。

  行業有共識。國內垂直場景對“中文適配”大模型的需求不斷升溫,推動中文數據從“輔助補充”變為“核心資源”,更多企業參與到中文數據的開發之中。如中國移動已建成覆蓋超30個行業、超3500TB(太字節)的通用高質量數據集。

  協同建標準,細分多場景

  Token(通常所說的“詞元”)是處理文本的最小數據單元。數據顯示,2024年初,我國日均Token的消耗量為1000億,截至今年9月底,我國日均Token消耗量已突破40萬億。這些數字背后,是中文數據資源的快速積累和價值釋放。

  如何進一步增強中文數據的開發和供給?專家學者帶來了思考和建議。

  首先是建標準。現有的中文數據中,重復的內容多、質量高的少,尤其是在醫療、工業等垂直領域,高質量數據更是稀缺。比如醫療數據,有的醫院記錄病歷只寫“發燒”,有的會寫“發燒38.5攝氏度、伴咳嗽2天”,若無標準的“尺子”判斷數據質量,進一步的開發難以推進。

  “明確了不同領域的中文標注標準后,才更有利于建設和完善評價、激勵機制。”孟慶國認為,應加快研究制定中文數據分級標準,從而釋放中文數據的供給活力。

  其次是強技術。高質量數據集的建設過程中仍不可避免會遇到大量數據孤島和合規難題,比如,不同機構的數據因為隱私安全等合規要求,難以跨域流通,導致各機構重復開展數據標注,既浪費資源,又無法形成規模效應。

  “可推廣應用新一代標注技術,在原始數據不出域且保證隱私安全的條件下,完成跨機構協同標注,從而整合多機構力量,避免重復勞動。”趙艷軍說。

  此外要補場景。我國產業體系完備,其廣度和深度決定了需要更多細分場景的中文數據。“比如,在元宇宙等新興場景中,中文數據使用量僅為英文的1/5;又如,中醫、非遺等傳統場景數字化程度低,大量寶貴信息尚未轉化為可用數據資源。”孟慶國表示,可推動政產學研用協同,專項采集各種垂直場景中文數據,激活產業應用。

  本報記者 王云杉

  推進文化和科技融合

  “十五五”規劃建議提出,“推進文化和科技融合”。探索文化和科技融合的有效機制,需要用互聯網思維和信息技術改進文化創作生產流程,推動文化建設數智化賦能、信息化轉型。

  “文化IP+科技體驗”,重塑文旅產業生態。通過線上數字平臺與線下沉浸場景的結合,多地打造數字文旅空間、開發“旅游+智能體”新應用等,實現文化和科技雙向賦能。“文化創作+人工智能”,拓展產業融合場景。當前,以大模型為代表的AI技術,與影視、文博等領域深度融合,催生出AI短劇、博物館數字文創等新產品,不僅豐富了文化表達方式,也培育出更多文化消費新場景。“特色文化+數字技術”,助力鄉村全面振興。通過數字技術,將地標農產品、鄉村非遺技藝融入微短劇等內容創作,能夠進一步提升特色文化產品的創意能力和表現力,為鄉村全面振興注入新動能。

  ——北京大學文化產業研究院學術委員會主任 陳少峰

  來源:《人民日報》(2025年12月25日 第 07 版)

免責聲明:本網對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。 本網站轉載圖片、文字之類版權申明,本網站無法鑒別所上傳圖片或文字的知識版權,如果侵犯,請及時通知我們,本網站將在第一時間及時刪除。
亚洲第一页色_久久亚洲精品成人_99精品在线免费观看_好男人在线精品视频www
亚洲女人天堂av| 免费一区二区三区| 性18欧美另类| 欧美黄色片免费观看| 国产精品影音先锋| 亚洲一区二区毛片| 欧美福利在线| 韩国欧美国产1区| 久久免费少妇高潮久久精品99| 欧美性猛交99久久久久99按摩| 亚洲视频免费观看| 欧美电影在线观看| 韩国av一区二区三区在线观看| 久久免费少妇高潮久久精品99| 国产精品揄拍一区二区| 欧美在线|欧美| 国产精品久久久久久久久久三级| 亚洲欧美日韩精品一区二区| 欧美日韩成人在线视频| 亚洲一区二区三区三| 欧美美女bb生活片| 亚洲一区二区不卡免费| 欧美日韩国产页| 午夜精品久久久久久久久久久 | 欧美日韩视频不卡| 亚洲一区精彩视频| 欧美日韩一本到| 香蕉久久精品日日躁夜夜躁| 国产精品v日韩精品| 欧美一级成年大片在线观看| 欧美午夜视频网站| 久久国产福利| 国内外成人免费激情在线视频 | 激情文学综合丁香| 欧美国产日韩在线| 午夜国产精品视频免费体验区| 国产精品jizz在线观看美国| 久久精品91久久香蕉加勒比| 国产婷婷色一区二区三区| 欧美不卡高清| 亚洲自拍偷拍网址| 国产精品国产成人国产三级| 久久国产手机看片| 好看的日韩视频| 欧美日韩成人综合| 欧美一区二区三区四区在线 | 久久综合给合久久狠狠色| 国外成人在线视频网站| 欧美激情综合| 欧美在线亚洲一区| 国内精品久久久久久久影视麻豆 | 亚洲一区免费| 国产日韩在线视频| 欧美伦理91| 久久精品国产亚洲aⅴ| 一区二区三区自拍| 欧美丝袜第一区| 久久亚洲国产精品一区二区| 在线观看欧美日韩国产| 国产精品www色诱视频| 另类亚洲自拍| 欧美亚洲免费在线| 韩国精品在线观看| 国产精品青草综合久久久久99| 欧美成人免费播放| 久久久精彩视频| 亚洲在线不卡| 国产亚洲精品一区二区| 欧美日精品一区视频| 久久综合激情| 欧美一区二区三区免费大片| 黄页网站一区| 国产酒店精品激情| 欧美日韩免费看| 欧美va亚洲va日韩∨a综合色| 久久国内精品视频| 亚洲伊人观看| 影音先锋日韩资源| 国产日韩精品一区观看| 国产精品进线69影院| 欧美国产日韩一区二区在线观看 | 久久电影一区| 亚洲女性喷水在线观看一区| 国产在线精品自拍| 国产免费观看久久| 欧美午夜免费| 欧美日本一区| 欧美激情aⅴ一区二区三区| 久久夜色精品国产| 久久精品伊人| 久久9热精品视频| 亚洲欧美国产高清va在线播| 在线视频成人| 伊人久久婷婷色综合98网| 国产一区导航| 国产亚洲日本欧美韩国| 国产伦精品一区二区三区免费迷| 欧美日韩一区二区在线观看视频 | 亚洲一级一区| 制服诱惑一区二区| 狠狠色综合日日| 国产一区二区精品久久| 国产欧美一区二区三区另类精品 | 国产区日韩欧美| 国产精品性做久久久久久| 欧美婷婷久久| 欧美午夜精品久久久久久久| 欧美日韩中文字幕日韩欧美| 欧美日韩一区二区三区高清| 欧美日韩的一区二区| 欧美久久久久久久久久| 欧美精品一级| 欧美日韩国产精品自在自线| 欧美日韩第一区| 欧美日韩在线不卡| 欧美视频在线观看 亚洲欧| 国产精品v欧美精品v日韩| 国产精品老女人精品视频| 国产精品久久看| 国产精品午夜在线观看| 国产日韩欧美电影在线观看| 国产午夜精品美女视频明星a级| 国产区日韩欧美| 国产自产v一区二区三区c| 极品尤物av久久免费看| 中日韩美女免费视频网站在线观看| 在线视频成人| 羞羞视频在线观看欧美| 久久精品免视看| 免费久久久一本精品久久区| 欧美国产先锋| 国产精品扒开腿做爽爽爽视频| 国产精品一区二区在线观看网站| 国产三级精品三级| 影音先锋国产精品| 午夜精品99久久免费| 久久精品国产一区二区三区| 久久青草久久| 欧美韩日一区| 国产精品高潮呻吟视频| 国产一区二区三区观看| 在线精品一区| 翔田千里一区二区| 久久欧美肥婆一二区| 欧美激情视频给我| 欧美亚州韩日在线看免费版国语版| 国产精品久久久亚洲一区| 海角社区69精品视频| 亚洲欧美国产三级| 久久婷婷人人澡人人喊人人爽| 欧美连裤袜在线视频| 国产九九精品视频| 亚洲视频你懂的| 久久国产精品黑丝| 欧美国产日韩视频| 国产精品美女久久久免费| 国产综合网站| 欧美一区=区| 欧美承认网站| 国产精品免费视频xxxx| 一区二区在线观看视频在线观看 | 国产精品久久777777毛茸茸| 国产婷婷精品| 西西人体一区二区| 欧美成人综合| 国产欧美视频一区二区三区| 亚洲免费一在线| 蜜臀99久久精品久久久久久软件| 欧美日韩视频在线第一区| 狠狠爱综合网| 久久久91精品国产一区二区三区| 欧美精品1区| 国模私拍一区二区三区| 欧美影院成人| 欧美日韩亚洲一区二区三区四区| 国产一区二区欧美日韩| 欧美在线视频观看| 欧美日韩三级电影在线| 红桃视频欧美| 久久另类ts人妖一区二区| 国产精品久久久久久妇女6080| 伊人婷婷欧美激情| 久久深夜福利免费观看| 国产精品白丝黑袜喷水久久久| 久久一区免费| 国产精品午夜在线| 在线观看成人网| 亚洲宅男天堂在线观看无病毒| 国内精品久久久久影院薰衣草| 国产一区二区中文| 久久精品免费播放| 亚洲摸下面视频| 久久精品国产清自在天天线| 欧美好吊妞视频| 国产一区二区三区在线免费观看| 欧美影院精品一区| 国产精品成人一区二区三区吃奶| 亚洲天堂第二页| 欧美激情中文不卡| 在线成人亚洲|