近日,由北京智源人工智能研究院主辦,中國互聯網協會指導,中國互聯網協會人工智能工作委員會、研究院共同承辦的2024北京智源大會“人工智能+數據新基建”論壇在京舉行,為上述問題的解答提供了前瞻性思考與實操性建議。
人工智能技術的歷次突破都離不開高質量數據集的支撐,數據的“質”和“量”是推動大模型不斷進步的關鍵。
中國互聯網協會理事長尚冰在致辭中表示,高質量數據已經成為AI大模型研發的戰略性資源,數據工程建設成為實現從“X+AI”轉向“AI+X”根本性變革的關鍵力量。
“智能來源于數據,廣義地講是來源于環境,智能是對環境和數據的一種投射和凝練,是一種高度濃縮的表達。”北京智源人工智能研究院理事長、中國互聯網協會人工智能工作委員會主任委員黃鐵軍說,在人工智能的第三次浪潮中,最重要的就是從數據中學習,從數據中提煉智能。
必一運動sport網頁版登錄
行業智能化的不少堵點在于數據。“很多現有的行業數據是為日常生產系統服務的,而不是為人工智能服務的。”集團首席科學家、中國互聯網協會人工智能工作委員會副主任委員馮俊蘭認為,行業智能化首先要解決數據的感知問題,需要建立一種以低成本來感知和表征復雜系統的行業數據體系。
北京大學人工智能研究院副院長、數據空間技術與系統全國重點實驗室主任黃罡說,當前數據基礎設施的建設普遍滯后于數聯網的規模和效率增長需求,以和大模型為代表的第四范式面臨著“高質量數據危機”。數據基礎設施成為網絡空間的新型基礎設施,需要打造“專網+公網+跨境”的一體化數據基礎設施,實現基于數聯網的大模型智能體數據供應鏈。
北京智源人工智能研究院副院長兼總工程師林詠華介紹,針對人工智能訓練數據面臨的數據量、數據質量、數據使用中的版權和安全等難題,論壇現場發布的“北京人工智能數據運營平臺”聚集了通用數據集、行業垂類數據集兩大板塊的數據,支持文本、圖像、視頻等多模態數據,同時打造了全流程的數據治理工具,通過開源開放、合作共享、數算一體等三種數據使用方式服務于高質量數據的供給。
當前,世界日益演變成為人、機、物多元融合的復雜系統,各類系統和數據前所未有之龐雜,難以僅靠人力去完成整個的價值變現鏈條。
“數字經濟時代,數據成為生產要素,隨著數據內涵發生變化,數據呈現出新特點。”復旦大學教授、上海市數據科學重點實驗室主任肖仰華說,一是數據的持續流動特征對全鏈條、自動化、智能化且高度協同的數據處理技術提出了要求,二是數據的開放生態特征對統一的、標準化的、互操作的數據管理提出了要求,三是數據的動態增值特征對面向價值變現的數據科學理論和方法發起了挑戰。
肖仰華認為,數據技術的供給不足也是制約數據價值變現的重要原因之一。“作為當下人工智能的最新進展,大模型習得了對復雜世界的建模能力,具備了對開放數據的認知與操縱能力,將會成為激活數據要素價值的一個智能新引擎。”
今年5月,國家數據局在第七屆數字中國峰會主論壇上發布了承擔數據標注基地建設任務的城市名單,并表示將從技術創新、行業賦能、生態培育、標準應用、人才就業、數據安全等六個方面推進數據標注基地建設。
在黃鐵軍看來,隨著模型水平的提高,對數據處理者的要求也逐漸提高,Agent(智能體)主導的智能數據生產線將成為數據加工處理的主要形態,通過部署先進數據產線可以提高數據的加工效率。
今年,“人工智能+”首次寫入政府工作報告。業界如何擁抱“人工智能+”時代機遇,培育新質生產力?
馮俊蘭認為,規模化的應用需要體系化的人工智能,可以通過體系化人工智能核心技術引擎,實現對算力、算網、模型和數據的靈活調度。“需要一些企業去承載AI體系的復雜度,將簡單易用的功能呈現出來,這樣才能使AI得到普適、大范圍的使用,就像對5G的使用一樣。”
在場景應用方面,中國航信資本運營與創新業務部副總經理趙玉霞認為,企業在推動人工智能落地的過程中要找準場景,以提高生產效率、提升客戶滿意度、降低成本為標準,將大模型、高質量行業數據集、智能化行業應用三者相結合來提高生產力。
林詠華表示,要實現人工智能大范圍的行業落地,必須要考慮“最后一公里”的質量問題,通過技術進步提升智能化能力的準確率,進而推動實體經濟中一些核心系統的智能化升級。
在南方電網數字化部管理處高級經理陳彬看來,一方面要從場景出發推動企業自身經營管理提質增效,實現高質量發展;另一方面也要發揮央企作為“國之大者”對產業鏈上下游的帶動作用,推動產業升級,同時注重人工智能的整體生態構建和普惠性。
“企業需要注重價值導向,修建以價值增長為導向的‘數據運河’,使數據在傳輸過程中的價值不斷得到提升和反饋,進而保證數據的真正流通。”馮俊蘭說。
論壇中,多位專家提到要在數據與智能之間形成一種正反饋、正循環的機制,即通過數據積累與利用實現智能增強和持續學習,加快數據流通,邁向智能化時代,這也就是雙向良性驅動的“數據飛輪”效應。