1月13日,國家發展改革委、國家數據局、財政部、人力資源社會保障部聯合印發《關于促進數據標注產業高質量發展的實施意見》(以下簡稱《實施意見》)。
其中提出,到2027年,我國數據標注產業專業化、智能化及科技創新能力顯著提升,產業規模大幅躍升,年均復合增長率超過20%。培育一批具有影響力的科技型數據標注企業,打造一批產學研用聯動的創新載體,建設一批成效明顯、特色鮮明的數據標注基地,形成相對完善的數據標注產業生態。
數據標注,也被稱為數據標定、數據注釋,是指對文本、圖像、語音、視頻等待標注數據進行歸類、整理、編輯、糾錯、標記和批注等操作,為機器學習和人工智能算法提供訓練樣本。
大模型時代,AI開發以數據為核心,數據的多寡與質量直接關系到大模型的智能水平。數據標注作為人工智能產業和數據產業發展的基礎核心環節,對構筑我國人工智能發展的數據先發優勢具有重要意義。
國家數據局在2024年全國首次數據工作會議上,就已經提出探索建設國家級數據標注基地,在數據標注產業的生態構建、能力提升和場景應用等方面先行先試,集聚龍頭企業,打造區域人工智能產業生態。5月,經過國家數據局綜合評估,四川省成都市、遼寧省沈陽市、安徽省合肥市、湖南省長沙市、海南省海口市、河北省保定市、山西省大同市共7座城市成為首批全國數據標注試點基地。
分析人士認為,作為國家級別的項目,政策上的大力支持和資源上的優先配置,將為數據標注行業的發展提供有力保障。同時,這也將引發社會對數據標注行業的更多關注和認可,提高行業的整體形象和地位,同時也會釋放出大量的相關訂單。
2024年10月,由國家數據局數字科技和基礎設施建設司指導,國家數據局人工智能專班主辦的首屆“數據標注產業大會暨供需對接會”在北京召開。此次大會旨在推動數據標注產業高質量發展,促進數據標注基地快速形成面向產業的規模化服務能力。
現場,成都、沈陽、合肥、長沙、海口、保定、大同7個城市數據標注基地進行了招引推介,促成了數據標注基地和33家企業的合作簽約。其中,位居成都新津區的成都數據標注基地牧山園區,拿下7項合作,占據成都簽約項目八成以上,成為本次數據標注產業大會達成合作最多的標注基地。
據了解,成都為推動數據標注試點城市建設,作出了“一個牽引區+三個聚集區”的生產力布局。成都數據標注基地牧山園區,位于成都新津區東北部的天府牧山數字新城,距離雙流國際機場10余公里,緊鄰成都地鐵10號線萬平米產業載體,可用于數據標注及上下游企業入駐,是成都最具發展潛力和顯示度的數據標注產業聚集區之一。
《實施意見》提出,培育一批數據標注龍頭企業,鼓勵通過資源整合、并購重組等方式做大做強,推動數據標注企業規模化、標準化、集約化發展。支持和鼓勵科技創新型數據標注企業承擔基礎研究、技術攻關、產業應用等重點任務,提高產業鏈協同創新水平。培育一批深耕行業的數據標注瞪羚企業、獨角獸企業。推動數據標注中小企業與人力資源、金融服務、合規咨詢等第三方機構精準對接,助力企業快速發展。
在AI應用需求飛速提升的背景下,各路巨頭也開始加速對數據標注產品的研發和推出。
Bsports必一體育
2024年9月,螞蟻數科發布新一代數據標注產品,向企業客戶提供AI驅動的全流程數據服務。螞蟻數科具備領先的AI算法,在標注產品中配置了模塊化服務和算法調度能力,能夠在高效匹配“人和任務”的前提下降低標注的復雜度,幫助用戶解決通用大模型、多模態大模型和行業垂類大模型的數據標注需求。據悉,該產品可以覆蓋多行業場景文本、圖像、音頻、視頻標注需求。
10月,由青海國投所屬青數集團參與建設的百度智能云(海東市)人工智能基礎數據產業基地在海東市互助縣正式啟動。據悉,該基地是青數集團攜手百度智能云及互助縣政府共同打造的數據要素產業重要成果,旨在全力推動海東市數據標注產業集群快速發展,為全省人工智能產業生態建設樹立“海東樣板”,提高市場競爭力。
A股上市公司也在加速對數據標注領域的布局。12月3日,中達安在互動平臺表示,公司子公司山東中達安智算數據科技有限公司的業務有涉及數據標注的業務,其位于國家超算濟南中心園區內的基地于日前揭牌。
海天瑞聲則在早期的一份機構調研中稱,第四代智能駕駛標注平臺,將可支持智能駕駛全應用場景、各類型傳感器及多傳感器融合的數據處理;此外,公司基于對智能駕駛感知算法趨勢研判,進行了標注工具升級,平臺將可支持行業各類前沿標注需求,包括連續幀融合標注中3D點云polyline、freespace的標注、BEV(鳥瞰圖)標注、4D點云疊加標注等熱點功能,具有競爭力的平臺將成為公司業務拓充的核心動力。
據其介紹,第四代智能駕駛標注平臺將繼續發力算法建設,通過提升2D視覺及3D點云連續幀標注中的插值、預測、自動貼合、地面檢測等算法效果,提高數據標注效率,降低標注成本。