久久精品夜色国产亚洲av_91久久香蕉国产线看观看软件 _91精品国产乱码久久久久久_久久精品国产亚洲7777

大模型高質量語料緣何短缺?

2829次瀏覽

  近期,谷歌官方發布免費開放Gemini pro等系列API(應用程序編程接口)。Gemini發布后僅一天,就有網友實測發現,谷歌的大型模型Gemini承認其使用百度“文心一言”來訓練中文訓練數據(語料)。當被問及身份和創始人時,Gemini稱自己是“百度文心大模型”,并指出其創始人為李彥宏。無獨有偶,早在2023年3月,就有消息爆出谷歌的Bard模型部分訓練數據來源于ChatGPT。yCo知多少教育網-記錄每日最新科研教育資訊

  “對于從頭開始訓練的模型,語料短缺會在非常大程度上限制大模型發展。”近日,哈爾濱工業大學(深圳)計算機科學與技術學院教授邵睿在接受科技日報采訪時表示,“增加語料對于提升大模型能力的邊際效益正在減弱,高質量語料的缺乏正日益成為限制大模型發展的瓶頸。”yCo知多少教育網-記錄每日最新科研教育資訊

  高質量語料短缺成為全球共性問題yCo知多少教育網-記錄每日最新科研教育資訊

  科技部新一代人工智能發展研究中心2023年發布的《中國人工智能大模型地圖研究報告》顯示,從全球已發布的大模型數量來看,中國和美國大幅領先,占全球總數的80%以上。yCo知多少教育網-記錄每日最新科研教育資訊

  雖然大模型發展如火如荼,但大模型高質量語料短缺已成為全球共性問題。麻省理工學院等高校研究人員預測,到2026年之前,機器學習數據集可能會耗盡所有可用的高質量語料數據。yCo知多少教育網-記錄每日最新科研教育資訊

  大語言模型對數據供給要求極高。公開數據顯示,訓練GPT-4和Gemini Ultra大概需要4萬億至8萬億個單詞。OpenAI也公開表達過對數據告急的擔憂。yCo知多少教育網-記錄每日最新科研教育資訊

  研究機構EpochAI亦公開表示,最早在2024年,人類就可能會陷入訓練數據荒,屆時全世界的高質量訓練數據都將面臨枯竭。yCo知多少教育網-記錄每日最新科研教育資訊

  值得注意的是,當前大模型數據集主要為英文,如BooksCorpus、WiKipedia、Common Crawl、ROOT等,其語料短缺尚難解決,中文語料庫面臨的問題更為嚴峻。yCo知多少教育網-記錄每日最新科研教育資訊

  中國工程院院士、鵬城實驗室主任高文曾公開表示,全球通用的50億大模型數據訓練集里,中文語料占比僅為1.3%。yCo知多少教育網-記錄每日最新科研教育資訊

  上海數據交易所市場發展部副總經理章健此前公開表示,當前大模型行業存在語料供應不足的問題,特別在垂直細分領域,一些共享、免費下載的語料數量雖然大,質量卻不高。“我們在追求語料數量增長的同時,也要重視質量,是不是高質量的語料數據。”yCo知多少教育網-記錄每日最新科研教育資訊

  阿里研究院在《中美大模型的競爭之路:從訓練數據講起》公開撰文稱,中文語料、科研成果等高質量數據集開放程度低,企業用于訓練的語料來源不清晰、權屬不明確,開源后存在一定的合規隱患,使得企業更傾向于自采、自用,大模型數據流通機制尚未形成。yCo知多少教育網-記錄每日最新科研教育資訊

  如何定義高質量語料?yCo知多少教育網-記錄每日最新科研教育資訊

  何為高質量語料?記者采訪時,包括騰訊、商湯科技、哈爾濱工業大學(深圳)等企業和高校專業人士均給出一致答案,即高質量語料應具備多樣性、大規模、合法性、真實性、連貫性、無偏見和無害,且相關特征呈現進階式分布。yCo知多少教育網-記錄每日最新科研教育資訊

  邵睿表示,高質量語料具有多樣性高、句式流暢的特點。關于語料長度和領域的數據,分布多樣且平衡。yCo知多少教育網-記錄每日最新科研教育資訊

  騰訊機器學習平臺算法負責人康戰輝認為,高質量語料的多樣性涵蓋不同類型的文本,如新聞、小說、詩歌、科技文章等,“這有助于大模型學習到更豐富的語言表達。”yCo知多少教育網-記錄每日最新科研教育資訊

  而大規模則體現在:大模型需要大量語料來學習語言規律并提高泛化能力。只有擁有充足語料,模型才能更好地捕捉細微的語言特征。yCo知多少教育網-記錄每日最新科研教育資訊

  與此同時,合法性則要求語料庫中的文本應該是合法且無害,不合法或有害的文本可能導致模型產生不恰當的回答或建議,或無意中泄露隱私。yCo知多少教育網-記錄每日最新科研教育資訊

  “高質量語料應該具有真實性和連貫性,以便讓大模型更好地理解語境并生成符合邏輯的響應。”康戰輝說,語料庫應該充分反映語料的多樣性并避免偏見,這樣大模型在不同場景下回答不同用戶的問題時才能做到盡可能科學客觀。yCo知多少教育網-記錄每日最新科研教育資訊

  商湯科技發言人表示:“要解決數據問題,不只是單純的增加數據總量,還需要提高數據質量,甚至要考慮怎么設計數據的所有權和交換機制,推動人工智能數據基礎設施化。”yCo知多少教育網-記錄每日最新科研教育資訊

  破題高質量語料短缺方法近似yCo知多少教育網-記錄每日最新科研教育資訊

  記者采訪中了解到,對于高質量語料短缺的問題,業內目前主要采取語料清洗篩選、標注分類、預訓練語言模型、建立共享和協作的平臺等方式。yCo知多少教育網-記錄每日最新科研教育資訊

  “騰訊大模型的語料資源,從訓練階段可以至少分為預訓練底座數據和精調指令數據。”康戰輝介紹,其數據來源以業界公開的互聯網數據為主,如騰訊自有QQ瀏覽器網頁搜索的優質中文網頁索引,包括搜狗百科在內中文百科等數據,以及來自騰訊各業務自有的公開資訊、知識性數據收集(騰訊新聞語料、微信公眾號文章、騰訊醫典等)。yCo知多少教育網-記錄每日最新科研教育資訊

  康戰輝透露,騰訊也會采買部分授權數據進行訓練,主要為各類通俗和專業書籍、學科教材、翻譯語料等非公開互聯網可直接下載或者電子化程度不夠高的知識類數據。yCo知多少教育網-記錄每日最新科研教育資訊

  與康戰輝的答案類似,邵睿也透露,語料有一部分從數據公司購買,有一部分從網絡公開語料或者公開數據集中獲取并整理使用。yCo知多少教育網-記錄每日最新科研教育資訊

  “數據公司購買的優點是質量較高,并且大多有垂域數據。缺點是數據量較少價格較貴。”邵睿對比稱,“網絡公開語料的優點是通用性較好,數據量大,缺點是數據質量無法保證,數據格式難以統一。”yCo知多少教育網-記錄每日最新科研教育資訊

  “人類歷史上所產生的有效信息,包括大量的高價值信息可能不一定是互聯網數據,而是沉散在各行各業里的數據。”商湯科技發言人認為,“怎樣更多匯聚數據,設計更多、更好的網絡結構,用更多的計算資源去支撐更大容量的高質量語料,產生更強的智能,這可能是一個長期持續的話題。”yCo知多少教育網-記錄每日最新科研教育資訊

  而在現階段高質量語料短缺情況下,如何訓練出更“聰明”的大模型?從互聯網“大廠”過往實踐路徑中可窺探一二。例如:騰訊混元大模型立足于完全自研,采用機器指令半自動化擴展,輔助人工最終標注、改寫的方式來自研構建。yCo知多少教育網-記錄每日最新科研教育資訊

  OpenAI在無數場合介紹過GPT4訓練的經驗,但從未公開過數據清洗的經驗,可謂訓練大模型頂級機密。yCo知多少教育網-記錄每日最新科研教育資訊

  商湯科技發言人則表示,在數據清洗的過程中投入了上千塊GPU的算力,并建立起大量系統化、工程化的途徑來進行數據配方的試錯,可迅速發現大數據庫中的有效數據再到小參數模型上進行驗證。yCo知多少教育網-記錄每日最新科研教育資訊

  多措并舉補齊高質量語料短缺yCo知多少教育網-記錄每日最新科研教育資訊

  數據、算法、算力是AI發展三要素,通俗來講數據猶如食材、算法好比食譜、算力則是烹飪工具。盡管高質量語料短缺已成為全球共性問題,且破題高質量語料短缺方法近似,但業界正試圖通過多種方式補齊高質量語料短缺問題。yCo知多少教育網-記錄每日最新科研教育資訊

  記者梳理發現,2023年7月,深圳數交所聯合近50家單位成立“開放算料聯盟”。該聯盟將圍繞高質量中文訓練數據和多模態訓練數據,協調數據要素、數據治理、訓練數據、數據標注、合成數據等相關標準制定,協助數據交易所增加與大模型相關的新品類和新專區。yCo知多少教育網-記錄每日最新科研教育資訊

  同樣是2023年7月,在2023世界人工智能大會現場,中國大模型語料數據聯盟成立。同年8月,上海人工智能實驗室宣布,聯合中國大模型語料數據聯盟成員單位共同開源發布“書生·萬卷”1.0多模態預訓練語料。本次開源的數據總量超過2TB,包含超5億個文本、2200萬個圖文交錯文檔、1000個影像視頻。yCo知多少教育網-記錄每日最新科研教育資訊

  1月2日,廣東省政務服務數據管理局在官網發布《廣東省加快數字政府領域通用人工智能應用工作方案》,透露廣東政務大模型發展路線圖。yCo知多少教育網-記錄每日最新科研教育資訊

  根據《方案》總體要求,政務大模型體系于2024年底基本健全。此外,廣東還將探索認定一批機構經授權在可信場所進行模型訓練,提供基礎數據集對大模型進行初始訓練,并探索打造粵港澳大灣區“數據特區”,率先在人工智能創新場景先行先試。yCo知多少教育網-記錄每日最新科研教育資訊

本文鏈接:http://www.albanygandhi.com/news-1-55.html大模型高質量語料緣何短缺?

聲明:本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

熱門文章

延伸閱讀

相關閱讀

熱點精選

最新推薦

您可能感興趣

久久精品夜色国产亚洲av_91久久香蕉国产线看观看软件 _91精品国产乱码久久久久久_久久精品国产亚洲7777
<ul id="csaks"><pre id="csaks"></pre></ul>
<samp id="csaks"></samp>
<ul id="csaks"><pre id="csaks"></pre></ul>
<button id="csaks"><blockquote id="csaks"></blockquote></button>
<kbd id="csaks"><pre id="csaks"></pre></kbd>
  • 欧美午夜免费| 国产伦精品一区二区三区四区免费| 免费久久99精品国产自| 欧美日韩精品一区二区三区四区 | 欧美日韩国产美女| 国产偷久久久精品专区| 午夜精品久久一牛影视| 欧美理论电影网| 狠狠色综合日日| 免费高清在线视频一区·| 国产精品实拍| 欧美综合国产| 国产精品亚洲综合一区在线观看| 亚洲欧美国产精品va在线观看| 免费高清在线视频一区·| 国产一区二区三区久久| 久久精品视频va| 国产精品入口麻豆原神| 久久精品国产亚洲5555| 国产精品视频99| 久久经典综合| 国产欧美日韩在线| 久久亚洲春色中文字幕久久久| 国产欧美在线观看| 久久在线免费观看视频| 国产欧美精品日韩区二区麻豆天美 | 欧美国产欧美综合| 国产性猛交xxxx免费看久久| 久久精品视频免费观看| 国产欧美日韩伦理| 另类av一区二区| 极品中文字幕一区| 欧美另类变人与禽xxxxx| 亚洲淫片在线视频| 欧美涩涩视频| 欧美在线视频观看免费网站| 国产伦精品一区二区三区四区免费 | 黄色av成人| 欧美黄色大片网站| 亚洲在线一区二区| 国产精品久久久久久久免费软件| 久久精品99国产精品酒店日本| 国产欧美精品一区二区三区介绍| 久久综合影视| 亚洲午夜在线| 国产精品亚洲欧美| 欧美暴力喷水在线| 亚洲欧美日韩国产综合在线| 国产精品免费小视频| 看欧美日韩国产| 在线日韩视频| 国产精品腿扒开做爽爽爽挤奶网站| 久久综合狠狠综合久久综合88 | 欧美高清视频www夜色资源网| 亚洲在线1234| 国产午夜精品久久| 欧美激情视频一区二区三区免费| 午夜精品在线视频| 国产午夜精品全部视频在线播放| 欧美国产一区视频在线观看| 欧美专区日韩专区| 极品少妇一区二区| 国产精品你懂得| 欧美国产精品va在线观看| 午夜久久黄色| 一区二区视频免费完整版观看| 欧美日韩亚洲激情| 另类天堂视频在线观看| 亚洲一区二区影院| 国产一区二区精品久久91| 欧美日韩免费观看一区| 久久亚洲综合| 欧美亚洲免费电影| 影音先锋国产精品| 国产精品网曝门| 欧美日韩在线不卡| 麻豆亚洲精品| 久久精品91| 午夜精品一区二区三区在线播放| 黄色成人精品网站| 国产精品揄拍500视频| 欧美日韩久久精品| 欧美不卡一区| 久久久久久久久综合| 亚洲免费在线观看视频| 狠狠色丁香婷婷综合影院| 国产乱理伦片在线观看夜一区| 欧美日韩亚洲综合| 欧美国产一区二区在线观看| 久久午夜羞羞影院免费观看| 久久av资源网| 性欧美暴力猛交另类hd| 亚洲伊人一本大道中文字幕| 精品不卡在线| 国产在线精品成人一区二区三区| 国产精品久久久久久久7电影| 欧美看片网站| 欧美精品一卡二卡| 免费亚洲电影在线| 性色av一区二区三区红粉影视| 在线观看一区二区视频| 国产综合香蕉五月婷在线| 国产精品日韩电影| 国产精品美女主播| 欧美日韩一区二区三区在线看 | 亚洲午夜av| 在线观看日韩一区| 尤物九九久久国产精品的特点| 国产中文一区二区| 国产欧美日韩视频在线观看 | 久久久久国产精品www| 欧美诱惑福利视频| 性色av香蕉一区二区| 午夜宅男欧美| 午夜视频在线观看一区二区| 亚洲欧美日韩在线不卡| 亚洲欧美日韩精品综合在线观看| 亚洲特级毛片| 亚洲欧美日韩中文在线制服| 亚洲一区二区久久| 亚洲视频精品| 亚洲永久免费| 午夜精品久久久久99热蜜桃导演| 亚洲综合色自拍一区| 香蕉久久国产| 久久精品一区二区三区不卡牛牛| 久久久久久久久久久一区| 可以看av的网站久久看| 欧美xxxx在线观看| 欧美精品一区二区三区在线看午夜 | 国产精品久久久久影院亚瑟 | 久久久精品日韩欧美| 久久琪琪电影院| 女生裸体视频一区二区三区| 欧美国产免费| 欧美午夜剧场| 国产丝袜一区二区| 伊人久久婷婷色综合98网| 亚洲色无码播放| 性视频1819p久久| 另类春色校园亚洲| 欧美激情一二区| 欧美视频在线观看免费网址| 国产美女一区二区| 国产自产2019最新不卡| 国产精品99久久久久久久vr| 欧美一激情一区二区三区| 久久久综合网站| 欧美精品一区二区三区久久久竹菊| 欧美色播在线播放| 国产欧美日韩专区发布| 一区精品在线播放| 欧美一进一出视频| 欧美a一区二区| 欧美性猛交xxxx乱大交蜜桃| 国产视频久久网| 亚洲午夜av在线| 久久久噜噜噜久久久| 欧美久久久久久久久久| 国产精品视频九色porn| 一区二区在线看| 欧美制服丝袜| 欧美大片在线看免费观看| 国产精品国产三级国产aⅴ入口 | 国产午夜精品理论片a级探花 | 欧美午夜视频一区二区| 国产亚洲欧美aaaa| 亚洲一区二区免费在线| 久久天天躁狠狠躁夜夜av| 欧美日韩亚洲综合一区| 国内揄拍国内精品久久| 午夜精彩国产免费不卡不顿大片| 另类av一区二区| 国产精品女主播在线观看| 在线精品亚洲| 久久人人爽人人| 国产精品成人一区二区三区夜夜夜| 狠狠久久五月精品中文字幕| 欧美一区二区精美| 欧美乱妇高清无乱码| 国产视频自拍一区| 午夜精品一区二区三区四区| 欧美精品九九99久久| 国产一区二区三区黄| 欧美一级片一区| 欧美久久久久久蜜桃| 激情视频一区二区三区| 久久九九国产精品怡红院| 欧美丝袜一区二区三区| 亚洲性感美女99在线| 美玉足脚交一区二区三区图片| 国产精品系列在线| 午夜精品视频在线观看一区二区| 欧美精品粉嫩高潮一区二区 | 韩国一区二区三区美女美女秀| 久久国产精品第一页| 欧美日韩一区二区国产| 亚洲一区二区三区视频| 欧美国产精品日韩| 精品粉嫩aⅴ一区二区三区四区|