證券時報記者 陳霞昌
2025年的秋天,全球人工智能行業重新進入躁動期。9月,美國AI數據標注初創公司Micro1宣布完成3500萬美元A輪融資,投后估值達5億美元。這家成立僅三年的公司,以AI驅動的招聘與數據交付體系,成為OpenAI、Google和Meta等巨頭新的合作方。在Meta以140億美元投資Scale AI并高薪聘請其創始人汪滔(Alexandr Wang)之后,OpenAI與Google因數據安全擔憂中止了與Scale AI的合同。失去了“官方標注廠”的巨頭們迫切需要新的數據供應者,而Micro1正是在這個斷裂中找到了加速通道。
一場看似技術性的更迭,實則揭開了AI產業最隱蔽的一層真相——在算法與算力之外,數據的秩序才是決定智能走向的力量。長期研究AI基礎設施投資的前海信諾合伙人徐紹煌對此并不意外。在他看來,這場突如其來的市場重排并非偶然,而是AI生態演化的必然結果?!拔覀冊谒懔退惴ㄉ吓艿锰?,以至于忘了問一句——AI到底吃進去的是什么。”他說。
在深圳的辦公室里,他回憶自己第一次接觸數據標注行業的感受:那是一種混合著工程與哲學的復雜體驗。標注聽起來簡單——讓機器“看懂”世界、理解人類語言。但當規模擴張到億級樣本,事情就變得截然不同。每一個語義差異、每一次文化偏誤、每一條合規條款,都可能成為智能失真的起點。
“智能的起點不是算法,而是秩序。”徐紹煌輕聲說道。在他看來,AI的真正挑戰從來不在模型精度,而在輸入數據的清潔度。算力是水泥,算法是圖紙,而數據就是磚塊——看似普通,卻決定整棟大廈的穩固程度。
數據標注行業因此被形容為AI時代的“賣鏟人”。它不直接創造智能,卻支撐了智能的基礎結構。英偉達售賣算力,OpenAI售賣算法,而數據公司售賣“干凈的數據”。這是一個勞動力密集又認知密集的產業。不同于制造業追求良率,SaaS追求續費率,AI數據的核心指標是“可被審計的秩序”——即每一條數據為何被如此標注,都有清晰、可追溯的邏輯與合規鏈條。
徐紹煌稱之為“秩序優勢”——一種可以復用、可追溯、能長期累積的能力?!耙幠瀯菔蔷€性的,秩序優勢是復利的?!彼忉尩?。在過去幾年里,他見證了AI數據行業從“人力外包”到“數據治理”的遷移。早期的標注公司像賽博富士康,依靠大量人工反復標注圖像和文本;如今,領先企業正嘗試將機器學習反哺標注體系,通過主動學習、自動質檢、對抗樣本回流等方式,讓人機協同達到動態平衡?!斑@不是在降低成本,而是在重建秩序,”他說,“真正的效率不是更快,而是更準?!?/p>
相比其他行業,AI數據投資的復雜性更高。它不是單維度的商業博弈,而是一場多維的系統挑戰。芯片看制程,軟件看增長,消費品看品牌,而AI數據公司必須同時滿足質量、自動化和合規三項約束。任何一環斷裂,都可能造成系統性風險。徐紹煌用一句話概括這門生意的難度——“三條底線同時成立”。
第一條是質量底線。數據集必須在極端語境下保持一致性,否則模型訓練會在高維空間內崩塌。
第二條是效率底線。人機協同比例要平衡,自動化比例太低意味著成本無法下降,太高又會引發漂移與偏差。
第三條是合規底線。從數據權屬到跨境流轉,每一次操作都需留痕、可審計、可溯源。
這三條線共同定義了AI數據行業的門檻,也讓這個行業成為資本難以輕易跨越的領域。
在投資邏輯上,徐紹煌更看重結構而非速度。他將AI數據公司劃分為一個“三軸系統”:質量(Quality)、自動化(Automation)、合規(Compliance)?!斑@三者是彼此拉扯的。質量要求人類判斷,自動化追求機器效率,而合規則在兩者之間設置邊界。一個好的企業能讓三者形成張力平衡。”他相信,未來能在這三條軸線上形成閉環的公司,將成為AI世界的“底層基礎設施”——就像能源之于工業,網絡之于互聯網。
2024年起,中國的AI基礎設施企業開始在這一領域加速。徐紹煌投資并深度參與的曼孚科技等公司在算法研發之外,進入數據治理、評測與合規體系建設,逐步從單一的技術供應商轉型為全流程的數據基礎設施提供方。徐紹煌認為,中國企業的優勢在于系統工程能力和產業化深度?!懊绹谟柧毮P?,中國在建設秩序?!彼f。這種差異,意味著中國公司在AI時代擁有另一種類型的創新空間——不是算法創新,而是治理創新。
他始終強調,AI數據行業不是一個可以追風口的領域,而是一門需要理解深度的事業?!罢嬲拈L期主義,不是時間的忍耐,而是結構的理解。”他說。資本在算法浪潮中往往短視,但AI的落地周期更像基礎設施建設:周期長、投入大、回報慢,卻最具穩定性。
近兩年,合成數據的崛起再次引發討論:如果AI能為AI造數據,是否意味著人工標注的時代即將結束?徐紹煌對此并不認同。他認為合成數據是重要補充,但不是終局。“機器可以造數據,但語義邊界仍然需要人類定義。只有在人類語義監督下的合成數據,才具備可信價值?!痹谒磥?,這正說明AI產業的重心正在從“創造智能”轉向“治理智能”。“未來的競爭,不在模型性能,而在秩序質量?!?/p>
在采訪的最后,他談起AI的未來?!拔覀冏罱K追求的,不是讓機器更像人,而是讓機器在一個干凈、有序的世界里思考。”他說這句話時語氣緩慢而篤定,仿佛在為整個產業寫下一句注腳。
或許,在算法狂飆、資本追逐的時代,數據標注聽起來并不浪漫。它沒有炫目的技術敘事,也缺乏短期的資本故事。但當人類逐漸把思考外包給機器,誰來決定機器理解世界的方式?這門“為智能清洗世界”的生意,也許正是AI時代最穩固、最長久的命題。