編者按:數據標注產業,屬于少數有大意義的“小產業”。
說它小,是因為全國市場規模預計今年也到不了300億元,業內僅有幾家上市企業,且其年營收都不超過5億元。但就是以這般小體量,它卻能吸引到國家多部委發專文支持,原因很簡單:AI大模型訓練亟需高質量數據,而數據標注是高質量數據供給的一個關鍵環節。
數據標注本質上是將人類知識轉化為機器可識別的語言,為AI大模型學習提供“教材”。去年,國家數據局公布了首批7個承擔全國數據標注基地建設任務的城市名單,四川省成都市入選。如今試點基地建設已滿一年,產業在蓉發展如何?川觀智庫在專題調研過程中發現了一些值得關注的新情況、新變化。而要深入了解它們,可以從對三個新現象的追問開始。
川觀智庫研究員 熊筱偉
川觀智庫研究員一線走訪時發現,多數受訪數據標注企業的省內客戶是“零”或“極少”。
綜合受訪者觀點,“客戶多來自省外”這個現象本身不是問題,但它的確反映出四川在挖掘省內數據標注需求方面仍有巨大潛力,在推動數據標注服務人工智能產業發展方面仍有不少工作可做。為此,川觀智庫研究員從現象出發進行了調查。

Part.1
為什么感覺缺本地客戶?
省內需求相對較小,供需對接缺乏渠道
受訪9家在蓉數據標注企業當中,4家省內客戶數量為零;3家有少量省內客戶,但占年營收比例均不超過20%;僅2家有半數或以上相關客戶來自省內。
四川樂為科技有限公司負責人表示,客戶全部來自省外,他也為之納悶,“我們去參加全國(數據標注)行業會議,現場客戶都是省外的。”同樣沒有省內客戶的成都小咖邦智能科技有限公司負責人說,去年和今年他參加了不少省內活動,“相互一問,發現大家都是乙方,現場愣是一個甲方都沒有。”
為什么會缺省內客戶?受訪者觀點主要集中在以下兩點:
一是認為省內需求小。有受訪者談到,數據標注需求遵循“二八原則”——約80%需求來自頭部企業,20%需求來自創業公司。而和沿海省市相比,四川缺乏人工智能和互聯網巨頭,所以數據標注需求相對較少。
綜合受訪企業反饋情況,絕大部分客戶是來自北上廣深的頭部互聯網和人工智能企業。一家頭部數據標注企業表示,目前國內客戶約81%來自互聯網和人工智能行業,7%來自汽車,6%來自智能手機,2%來自機器人,其他則來自半導體等行業。多位受訪者表示和商湯、搜狗等頭部企業在川機構談過合作,對方均提出供應商選擇要由總部決定。
二是認為省內客戶少,供需對接不足。成都市匯眾天智科技有限責任公司總經理駱靖元認為目前缺乏信息渠道和對接渠道,“我們也不知道往哪兒去找(省內)客戶。”多數受訪企業也提到類似觀點。

Part.2
如何更好釋放省內需求?
加快對公共數據的開發利用,解決申請難、流程較長等問題
該如何看待“省內需求小”這一觀點?
川觀智庫研究員了解到四川3家人工智能鏈主企業的情況(今年首批公布共9家),其中2家表示,由于所處研發階段等原因,暫無大量數據標注需求;成都考拉悠然科技有限公司則是自建團隊。此外,從事人工智能輔助外科手術相關系統研發的成都與睿創新科技有限公司也自建了約30人的全職數據標注團隊。該公司首席科學家秦典提到,一是考慮數據安全問題,二是對團隊專業性和穩定性有較高要求。如果能有長期穩定服務的外部專業團隊,未來也可以洽談合作。
此外,前述省內客戶過半的2家企業分別是成都優易智數科技有限公司、四川智成云逸信息技術服務有限公司。前者總經理金守超表示,公司深耕四川市場時間較長(2017年在蓉成立),目前年營收約一半來自省內,主要來自成都做大模型算法的科技公司,“客戶多,但單子都不大,很多是每個月一兩萬元、連續做幾個月。”
但與此同時,受訪企業普遍談到,當前四川數據標注需求的潛力巨大。一方面,在人工智能時代,各行各業包括傳統制造業都可能產生數據標注需求。要激發這一潛力,需要加大智改數轉工作力度。另一方面,對公共數據的開發利用,尤其是交通、醫療等公共數據如向社會開放,將迅速催生出眾多應用場景,進而釋放巨大的數據標注需求。
對于后者,四川智成云逸信息技術服務有限公司的數據標注客戶幾乎全部來自四川。其負責人表示,目前主要與省內運營商合作,承接地方政府項目中的數據標注業務。
然而受訪者也普遍反映,目前公共數據開放仍較為有限。川觀智庫研究員了解到的一份成都市相關研究材料顯示:公共數據在“數據不出城”的政策限制下,面向市場化的應用場景難以獲取原始數據資源開展標注。
即便經過脫敏等處理、允許向社會開放的公共數據,目前也存在申請難、流程較長等問題。有企業表示,申請智慧城市場景相關數據流程走了約3個月,直接導致項目延期交付。受訪者建議能由相關部門牽頭疏通相關堵點難點。
至于“供需對接不足”,成都數據集團相關負責人建議,希望有關部門牽頭建立供需撮合官方渠道,組織全市層面數據標注供需對接會等活動,并表示由該集團牽頭建設的市級數據標注公共服務平臺“蓉數·智能數據標注生成管理平臺”將進一步強化“線上+線下”供需對接功能。另有受訪者建議,探索制定并定期向社會發布數據標注的需求清單。
相關閱讀
【未經授權,嚴禁轉載!聯系電話028-86968276】

數據標注,本質上是將人類知識轉化為機器可識別的語言,為AI大模型學習提供“教材”,據標注是高質量數據供給的一個關鍵環節,企業要發展,AI大模型訓練是關鍵。