川觀智庫研究員 徐也晴
隨著人工智能的快速發展,全球合成數據市場呈現爆發式增長態勢。近日,國際咨詢機構弗若斯特沙利文發布《2025年中國合成數據解決方案發展洞察》報告,預測2030年全球市場規模將突破200億元人民幣,且中國市場增速最快。
合成數據并非憑空捏造信息,而是通過算法、仿真或其他方法人工生成的數據。報告提到,與依賴真實數據采集的傳統方式相比,合成數據具有可擴展性、可控性等特點,且成本低、安全性高。
面對真實數據采集成本高、隱私風險大、極端場景稀缺等瓶頸,合成數據不僅能提供規模化的數據生產,也能通過真實性校驗與經驗流閉環,確保與真實世界保持一致,從而能夠批量覆蓋長尾與極端環境,同時兼顧高效迭代,助力垂直行業領域突破數據瓶頸,加快智能化發展。僅從成本上來看,通過數據標注服務獲得一張帶注釋的真實圖像可能要花費6美元,而通過合成方式生成一張同等價值的帶注釋圖像僅需約0.06美元,意味著成本降低約100倍。
當前,工業級AI訓練嚴重依賴標注成本高昂的真實數據,且難以覆蓋關鍵邊緣案例。因此報告認為,未來的數據范式正朝著“1%人類數據+99%高效合成”的混合模式演進。北京銀河通用機器人有限公司創始人兼首席技術官王鶴此前也提到,具身智能所依靠的數據,99%可借助高質量的合成數據完成,只有在合成數據無法處理的情況下,才需要有針對性地采集使用1%的真實數據。
王鶴表示,目前,頭部人形機器人廠商量產的機器人僅為千臺級別,難以達到萬臺規模。在現實中,讓所有機器人都投入不同場景自主工作,以供真人采集上億條數據,并不具有現實可行性。報告也提到,相比視覺或語言AI,具身智能需要處理更復雜的物理與動作信息。且不同構型的機器人(單臂、雙臂、人形)在參數和動作方式上差異明顯,使得通用數據集難以直接復用。
因此,借助合成數據擴展規模、提升質量、豐富多樣性,是具身智能發展的必經之路。其關鍵在于提升數據的真實性、新鮮度、規模、多樣性與覆蓋度,以確保模型既能在真實物理規律下穩健表現,又能在復雜多變的長尾場景中保持泛化能力。
值得注意的是,如果缺乏與真實場景的對照與校正,合成的數據和真實需求容易發生脫節。中國信息通信研究院在《人工智能高質量數據集建設指南》中提到,合成數據技術可能合成存在帶有歧視和偏見的數據、合成邏輯不合理的數據、對于長尾事件合成與真實分布相差較大的數據等。因此,合成數據需要與真實采集數據相結合,并通過人類專家、真實反饋和持續驗證,不斷校正和更新仿真環境及合成樣本。
【未經授權,嚴禁轉載!聯系電話028-86968276】
