一、人工智能基礎(chǔ)層概念界定
人工智能基礎(chǔ)層定義
支撐各類人工智能應(yīng)用開發(fā)與運行的資源和平臺
算力、算法、數(shù)據(jù)是人工智能產(chǎn)業(yè)發(fā)展的三大要素。據(jù)此,人工智能基礎(chǔ)層主要包括智能計算集群、智能模型敏捷開發(fā)工具、數(shù)據(jù)基礎(chǔ)服務(wù)與治理平臺三個模塊。智能計算集群提供支撐AI模型開發(fā)、訓(xùn)練或推理的算力資源,包括系統(tǒng)級AI芯片和異構(gòu)智能計算服務(wù)器,以及下游的人工智能計算中心等;智能模型敏捷開發(fā)工具模塊主要實現(xiàn)AI應(yīng)用模型的生產(chǎn),包括開源算法框架,提供語音、圖像等AI技術(shù)能力調(diào)用的AI開放平臺和AI應(yīng)用模型效率化生產(chǎn)平臺;數(shù)據(jù)基礎(chǔ)服務(wù)與治理平臺模塊則實現(xiàn)AI應(yīng)用所需的數(shù)據(jù)資源生產(chǎn)與治理,提供AI基礎(chǔ)數(shù)據(jù)服務(wù)及面向AI的數(shù)據(jù)治理平臺。AI基礎(chǔ)層企業(yè)通過提供AI算力、開發(fā)工具或數(shù)據(jù)資源助力人工智能應(yīng)用在各行業(yè)領(lǐng)域、各應(yīng)用場景落地,支撐人工智能產(chǎn)業(yè)健康穩(wěn)定發(fā)展。
人工智能基礎(chǔ)層價值
AI基礎(chǔ)層是支撐AI應(yīng)用模型開發(fā)及落地的必要資源
開發(fā)一項人工智能模型并上線應(yīng)用大致需經(jīng)歷從業(yè)務(wù)理解、數(shù)據(jù)采標(biāo)及處理、模型訓(xùn)練與測試到運維監(jiān)控等一系列流程。過程中需要大量的AI算力、高質(zhì)量數(shù)據(jù)源、AI應(yīng)用算法研發(fā)及AI技術(shù)人員的支持,但大部分中小企業(yè)用戶并不具備在“算力、數(shù)據(jù)、算法”三維度從0到1部署的能力,而財力雄厚的大型企業(yè)亦需高性價比的AI開發(fā)部署方案。依靠AI基礎(chǔ)層資源,需求企業(yè)可降低資源浪費情況、規(guī)避試錯成本、提高部署應(yīng)用速度。作為支撐AI模型開發(fā)及落地的必要資源,AI基礎(chǔ)層可在多環(huán)節(jié)提效AI技術(shù)價值的釋放;其工具屬性也標(biāo)志著AI產(chǎn)業(yè)社會化分工的出現(xiàn),AI產(chǎn)業(yè)正逐步進(jìn)入低技術(shù)門檻、低部署成本、各產(chǎn)業(yè)深度參與雙向共建的效率化生產(chǎn)階段。
人工智能基礎(chǔ)層進(jìn)階之路
粗放式單點工具向集約型、精細(xì)化資源演進(jìn)
智能化轉(zhuǎn)型趨勢下,企業(yè)部署AI項目的需求正經(jīng)歷著變化,對數(shù)據(jù)質(zhì)量、模型生產(chǎn)周期、模型自學(xué)習(xí)水平、模型可解釋性、云邊端多樣部署方式、人力成本及資金投入、投資回報率等的要求都逐步走高。在上述需求特點及自動機(jī)器學(xué)習(xí)、AI芯片硬件架構(gòu)等技術(shù)發(fā)展的共同推動下,AI基礎(chǔ)層資源的整體效能水平也在不斷進(jìn)化,以有效降低需求企業(yè)的AI開發(fā)成本。大致涵蓋相互交融的三個階段:雛形期,算法/算力/數(shù)據(jù)各模塊多為粗放式的單點工具,新興產(chǎn)品及賽道逐步出現(xiàn);快速發(fā)展期,各賽道活躍度顯著提升,參與者積極探索產(chǎn)品形態(tài)與商業(yè)模式,基礎(chǔ)層服務(wù)體系逐步完善、資源價值凸顯;最后則向成熟階段過渡,各賽道內(nèi)企業(yè)競爭加劇,逐步跑出頭部企業(yè)。同時各賽道間企業(yè)生態(tài)合作增多,一站式工具平臺出現(xiàn)。
二、人工智能基礎(chǔ)層需求篇
基礎(chǔ)層初步成型是AI產(chǎn)業(yè)鏈成熟的標(biāo)志
基礎(chǔ)層資源促進(jìn)AI產(chǎn)業(yè)鏈各環(huán)節(jié)價值傳導(dǎo)順暢、分工明確
現(xiàn)階段,已初步成型的AI基礎(chǔ)層資源可有效緩解下游行業(yè)用戶逐漸增長的、從感知到認(rèn)知多類型的AI應(yīng)用模型開發(fā)及部署需求。細(xì)看基礎(chǔ)層內(nèi)部,一方面,數(shù)據(jù)資源、算力資源和算法開發(fā)資源三者之間的分工更為明確和有序。數(shù)據(jù)基礎(chǔ)服務(wù)及治理平臺企業(yè)為AI產(chǎn)業(yè)鏈供應(yīng)數(shù)據(jù)生產(chǎn)資料;智能計算集群產(chǎn)出高質(zhì)效的生產(chǎn)力;智能模型敏捷開發(fā)工具則負(fù)責(zé)模型開發(fā)及模型訓(xùn)練等,輸出AI技術(shù)服務(wù)能力,提高AI應(yīng)用模型在各行業(yè)的滲透速率與價值空間。另一方面,基礎(chǔ)層廠商的數(shù)量保持增長、廠商業(yè)務(wù)范圍持續(xù)擴(kuò)大,可提供專業(yè)定制化或一站式的基礎(chǔ)資源服務(wù)。由此,基礎(chǔ)層完成AI工業(yè)化生產(chǎn)準(zhǔn)備,通過直接供應(yīng)和間接供應(yīng)的形式,將基礎(chǔ)層資源傳送到下游的AI應(yīng)用需求端,產(chǎn)業(yè)鏈向順暢的資源輸送及價值傳導(dǎo)方向演進(jìn)。
AI基礎(chǔ)層解決人工智能生產(chǎn)力稀缺問題
基礎(chǔ)層資源緩解甲方在對待人工智能投資上的“矛盾”
根據(jù)艾瑞2020年執(zhí)行的CTO調(diào)研,2019年超過51%的樣本企業(yè)AI相關(guān)研發(fā)費用占總研發(fā)費用比重在10%以上,2020年65.9%的企業(yè)AI研發(fā)占比達(dá)到10%以上。一方面是甲方企業(yè)不斷增長的對智能化轉(zhuǎn)型的強(qiáng)勁需求,一方面則是在AI應(yīng)用開發(fā)與部署過程中企業(yè)普遍面臨的數(shù)據(jù)質(zhì)量(49%)、技術(shù)人才(51%)等基礎(chǔ)資源配置難點。且目前只有少數(shù)企業(yè)可以完成AI項目實施前設(shè)定的全部投資回報率(ROI)標(biāo)準(zhǔn),因此甲方企業(yè)在投資AI項目時相對審慎。AI基礎(chǔ)層資源則可有效緩解甲方利用AI技術(shù)重塑自身業(yè)務(wù)時的投資矛盾,提升模型生產(chǎn)效率,降低部署成本:數(shù)據(jù)資源集群具備數(shù)據(jù)采標(biāo)與數(shù)據(jù)治理能力,且一站式的數(shù)據(jù)平臺可對實時數(shù)據(jù)進(jìn)行統(tǒng)一管理,提高數(shù)據(jù)利用率;高效的AI算力集群與調(diào)度系統(tǒng)可滿足模型訓(xùn)練與推理需求,降低總擁有成本(TCO,TotalCost of Ownership);基于算法開發(fā)平臺演化出的語音識別、計算機(jī)視覺、機(jī)器學(xué)習(xí)等專業(yè)的AI模型生產(chǎn)平臺,可提供高效、一站式的AI模型生產(chǎn)服務(wù)。
三、人工智能基礎(chǔ)層供給篇
人工智能基礎(chǔ)層產(chǎn)業(yè)圖譜
人工智能基礎(chǔ)層市場規(guī)模
AI企業(yè)業(yè)務(wù)突破、智能化轉(zhuǎn)型趨勢等多因素驅(qū)動產(chǎn)業(yè)規(guī)模增長
AI企業(yè)突破業(yè)務(wù)增長瓶頸的需求是人工智能基礎(chǔ)層發(fā)展的驅(qū)動力之一。當(dāng)前人工智能核心產(chǎn)業(yè)規(guī)模保持線性增長態(tài)勢,且增速趨于平穩(wěn)與常態(tài)化。為尋求產(chǎn)值增長突破點,AI企業(yè)發(fā)力探索開拓市場的有效手段。依托人工智能基礎(chǔ)層資源建設(shè),AI企業(yè)可有效應(yīng)對下游客戶的長尾應(yīng)用需求,再將高頻應(yīng)用轉(zhuǎn)化為新主營業(yè)務(wù)。此外“新基建”、半導(dǎo)體自主可控等相關(guān)政策扶持、傳統(tǒng)行業(yè)智能化轉(zhuǎn)型等因素也都在助推人工智能基礎(chǔ)層資源的發(fā)展。據(jù)艾瑞測算,2021-2025年,人工智能基礎(chǔ)層市場規(guī)模CAGR為38%,整體產(chǎn)業(yè)規(guī)模發(fā)展速度較快、空間較為廣闊,總體呈現(xiàn)持續(xù)增長的走勢。2020年,中國人工智能基礎(chǔ)層市場規(guī)模為497億元,為人工智能產(chǎn)業(yè)總規(guī)模的33%,市場規(guī)模相較去年同比增長76%,AI應(yīng)用模型效率化生產(chǎn)平臺創(chuàng)收增長、AI芯片市場規(guī)模隨著云端訓(xùn)練需求出現(xiàn)較高增長等是同比增速的主要拉動力;2021-2024年同比增速趨于平緩下降,市場開始恢復(fù)穩(wěn)步增長態(tài)勢。到2025年,中國人工智能基礎(chǔ)層市場規(guī)模將達(dá)到2475億元,云端推理與端側(cè)推理芯片市場持續(xù)走高使得人工智能基礎(chǔ)層整體市場同比增速稍有抬升。
算力:超算/數(shù)據(jù)中心的存量與增量判斷
從算力需求與節(jié)能減排規(guī)定看存量替換與增量增長
現(xiàn)有的超算/數(shù)據(jù)中心以建設(shè)單位為標(biāo)準(zhǔn),可分為兩類:1)以國家或地方為建設(shè)單位的G端超算中心,服務(wù)對象主要為國家牽頭的重點科研單位、高校研究院等,此類超算中心是解決國家安全、科學(xué)進(jìn)步、經(jīng)濟(jì)發(fā)展與國防建設(shè)等重大挑戰(zhàn)性問題的重要手段,近兩年受國家與地方的高度重視與扶持,建設(shè)與升級超算中心的趨勢愈加明朗。但由于數(shù)據(jù)網(wǎng)絡(luò)安全與計算精度要求高,建設(shè)周期較長,此類超算中心的數(shù)量在中短期內(nèi)增長緩慢,長期來看則會成為替換存量與增量增長的貢獻(xiàn)主力之一。2)以智能云廠商或IDC服務(wù)商為建設(shè)供應(yīng)主體的B端超算/數(shù)據(jù)中心,為互聯(lián)網(wǎng)公司、其他類型的企業(yè)或事業(yè)單位提供主機(jī)托管、資源出租、增值或應(yīng)用服務(wù),是存量與增量市場變化主要推力。
從市場變化趨勢來看:1)存量市場:日漸增加的AI計算負(fù)載需要處理力更強(qiáng)、能耗承受度更大的數(shù)據(jù)中心,同時,一系列有關(guān)控制數(shù)據(jù)中心PUE值的節(jié)能審查規(guī)定相繼出臺,一味盲目擴(kuò)建、新建數(shù)據(jù)中心已難合時宜,促進(jìn)老舊數(shù)據(jù)中心綠色化改造的減量替代方案因此誕生。微型、中小型數(shù)據(jù)中心會逐漸被改造為集約型的大型數(shù)據(jù)中心,符合節(jié)能減排相關(guān)標(biāo)準(zhǔn)、機(jī)柜數(shù)量與異構(gòu)組合增多的集約型超算/數(shù)據(jù)中心將在存量市場中占據(jù)主流。2)增量市場:考慮到邊緣計算可分擔(dān)AI計算任務(wù)、兼具低延時優(yōu)勢,管理邊緣計算中心則需要布局相應(yīng)的大型云端數(shù)據(jù)中心,故增量市場會被異構(gòu)的邊緣計算數(shù)據(jù)中心與云端超算或大型數(shù)據(jù)中心擴(kuò)充。
算力:云化AI算力
開放共享虛擬AI算力資源,實現(xiàn)AI模型海量訓(xùn)練與推理
AI是一種高資源消耗、強(qiáng)計算的技術(shù),AI算力的強(qiáng)弱直接關(guān)聯(lián)到AI模型訓(xùn)練的精度與實時推理的結(jié)果。若企業(yè)獨立部署AI算力,不僅需要建設(shè)或租用機(jī)房這類重資產(chǎn)與網(wǎng)絡(luò)寬帶資源,還需要購置物理機(jī)、內(nèi)存、硬盤等硬件設(shè)備,而且購置設(shè)備存在采購周期不確定、硬件資源過度鋪張、專業(yè)管理團(tuán)隊缺乏等問題。所以,獨立部署AI算力資源是一項耗時耗力的工作。將AI算力云化是一種高效能、低成本的有力解決方案。具備先天性業(yè)務(wù)優(yōu)勢的云服務(wù)商搭建數(shù)據(jù)中心,先將AI服務(wù)器算力資源虛擬化,開放給AI模型開發(fā)者,做到按需分配,如給短視頻業(yè)務(wù)的開發(fā)者優(yōu)先配備CPU+GPU方案,而后對算力資源的調(diào)度工作進(jìn)行統(tǒng)一管理。由此,“物美價廉”的算力有序注入各行各業(yè)的AI模型中,減輕了井噴式數(shù)據(jù)爆發(fā)所帶來的模型訓(xùn)練負(fù)擔(dān),并能及時根據(jù)用戶使用情況彈性擴(kuò)充或縮減虛擬算力資源空間,達(dá)到方便、靈活、降本增效的效果。
算力:端-邊-云的算力協(xié)同
端-邊-云實現(xiàn)AI算力泛在,加速AI模型訓(xùn)練與推理
在人工智能與5G等技術(shù)的沖擊下,設(shè)備端產(chǎn)生大量實時數(shù)據(jù),若直接上傳到云端處理,會對云端的帶寬、算力、存儲空間等造成巨大壓力,同時也存在延時長、數(shù)據(jù)傳輸安全性等問題。因此,為緩解云端的工作負(fù)載,云計算在云與端之間新增了若干個邊緣計算節(jié)點,從而衍生出端-邊-云的資源、數(shù)據(jù)與算力協(xié)同。在算力協(xié)同的業(yè)務(wù)模式下,靠近云端的云計算中心承擔(dān)更多的模型訓(xùn)練任務(wù),貼近端側(cè)的各設(shè)備主要進(jìn)行模型推理,而二者之間的邊緣側(cè)則負(fù)責(zé)通用模型的轉(zhuǎn)移學(xué)習(xí),幫助云端分散通用模型訓(xùn)練任務(wù)、處理實時計算的同時,也解決了終端算力不足、計算功耗大的難題。未來,邊緣計算的發(fā)展會催生出更適宜邊緣計算場景的算力集群異構(gòu)設(shè)計,其異構(gòu)化程度將會高于傳統(tǒng)的數(shù)據(jù)中心,異構(gòu)設(shè)計的突破將會進(jìn)一步提高端-邊-云的整體計算效能,進(jìn)而加速AI模型的訓(xùn)練與推理。
算力:AI芯片市場規(guī)模
當(dāng)前以訓(xùn)練需求為主,推理需求將成為未來市場主要增長動力
AI芯片是人工智能產(chǎn)業(yè)的關(guān)鍵硬件,也是AI加速服務(wù)器中用于AI訓(xùn)練與推理的核心計算硬件,被廣泛應(yīng)用于人工智能、云計算、數(shù)據(jù)中心、邊緣計算、移動終端等領(lǐng)域。當(dāng)前,我國的AI芯片行業(yè)仍處于起步期,市場空間有待探索與開拓。據(jù)艾瑞統(tǒng)計與預(yù)測,2020年我國AI芯片市場規(guī)模為197億元,到2025年,我國AI芯片市場規(guī)模將達(dá)到1385億元,2021-2025年的相關(guān)CAGR=47%,市場整體增速較快。從AI芯片的計算功能來看,一開始,因AI應(yīng)用模型首先要在云端經(jīng)過訓(xùn)練、調(diào)優(yōu)與測試,計算的數(shù)據(jù)量與執(zhí)行的任務(wù)量數(shù)以萬計,故云端訓(xùn)練需求是AI芯片市場的主流需求。而在后期,訓(xùn)練好的AI應(yīng)用模型轉(zhuǎn)移到端側(cè),結(jié)合實時數(shù)據(jù)進(jìn)行推理運算、釋放AI功能,推理需求逐漸取代訓(xùn)練需求,帶動推理芯片市場崛起。2025年,云端推理與端側(cè)推理成為市場規(guī)模增長的主要拉動力,提升了逐漸下滑的AI芯片市場規(guī)模同比增速。
算法:智能模型敏捷開發(fā)工具商業(yè)價值分析
API規(guī)模經(jīng)濟(jì)+AI應(yīng)用模型效率化生產(chǎn)平臺的杠桿增效
智能模型敏捷開發(fā)工具的出現(xiàn)與驅(qū)動AI業(yè)務(wù)的外因以及企業(yè)自身的內(nèi)因緊密相關(guān)。從外因看,規(guī)?;鄨鼍暗臉I(yè)務(wù)不斷衍生出長尾需求,原有的應(yīng)用需及時更新;從內(nèi)因看,囿于開發(fā)企業(yè)有限的經(jīng)營成本與AI技術(shù)人才,其資源主要投放到現(xiàn)階段的主營業(yè)務(wù),現(xiàn)有人員難以推動業(yè)務(wù)的智能化改造。對此,可有效解決AI應(yīng)用模型設(shè)計與開發(fā)過程中通用或特有問題的智能模型敏捷開發(fā)工具逐步成為備選方案。AI開放平臺與AI應(yīng)用模型效率化生產(chǎn)平臺作為其中的代表性工具,不僅能減少由0到1的開發(fā)成本,而且可降低人工智能市場的參與門檻,提升開發(fā)效果。AI開放平臺屬于API資源的一種,其可幫助技術(shù)領(lǐng)先企業(yè)開放AI能力與先進(jìn)資源,從而延伸價值鏈,形成規(guī)模經(jīng)濟(jì)與長尾經(jīng)濟(jì),利用開發(fā)者的創(chuàng)新應(yīng)用來反哺開放平臺。AI應(yīng)用模型效率化生產(chǎn)平臺可提供較為前沿的技術(shù)、經(jīng)濟(jì)合理的模型生產(chǎn)經(jīng)驗以及為實現(xiàn)敏捷開發(fā)而打包的數(shù)據(jù)、算力與算法資源。具體而言,其采用自動機(jī)器學(xué)習(xí)技術(shù),很大程度上降低了機(jī)器學(xué)習(xí)的編程工作量、節(jié)約了AI開發(fā)時間、減輕了對專業(yè)數(shù)據(jù)科學(xué)家與算法工程師的依賴,讓缺乏機(jī)器學(xué)習(xí)經(jīng)驗的開發(fā)者用上AI,加快開發(fā)效率。
算法:智能模型敏捷開發(fā)工具增長模型
API與定制方案共拓產(chǎn)業(yè)廣度與深度,AI柔性生產(chǎn)貼近需求
在人工智能產(chǎn)業(yè)發(fā)展的過程中,智能模型敏捷開發(fā)工具可持續(xù)拓寬與深挖AI業(yè)務(wù)的廣度和深度。從廣度講,AI開放平臺形成平臺效應(yīng),調(diào)用平臺API的開發(fā)者聚集創(chuàng)新,針對不同業(yè)務(wù)場景的開發(fā)成果數(shù)量逐漸增多,提高了技術(shù)產(chǎn)品的利用率,打造出輕量化的輸出模式、降低單位開發(fā)成本,并且構(gòu)建出動態(tài)更新的服務(wù)池;與此同時,一站式AI應(yīng)用模型效率化生產(chǎn)平臺逐步填充因場景多元化而衍生出的長尾業(yè)務(wù)模型,豐富模型供應(yīng)市場的種類與數(shù)量。從深度講,二者均從業(yè)務(wù)前端發(fā)掘潛在或外顯的市場需求,針對剛需應(yīng)用與高價值環(huán)節(jié)延伸出多條增量建設(shè)與運行需求業(yè)務(wù)線,瞄準(zhǔn)市場風(fēng)口的同時,敏捷、經(jīng)濟(jì)地消化個性化或碎片化需求,根據(jù)需求柔性匹配生產(chǎn)。
算法:AI技術(shù)開放平臺市場規(guī)模
產(chǎn)業(yè)受API經(jīng)濟(jì)帶動,主要收入貢獻(xiàn)來源為計算機(jī)視覺類
隨著數(shù)據(jù)量與AI算力的提升,可落地的場景與算法的交互變得愈加頻繁,二者結(jié)合開發(fā)出的AI應(yīng)用模型就需要更大量地通過API調(diào)用AI技術(shù)開放平臺的AI技術(shù)能力。據(jù)艾瑞統(tǒng)計與預(yù)測,2020年我國AI技術(shù)開放平臺市場規(guī)模為225億元,到2025年,相應(yīng)規(guī)模可達(dá)到730億元,2021-2025年的相關(guān)CAGR=26%。受API經(jīng)濟(jì)興起的影響,2020年市場規(guī)模同比增速走高較快,2021年下滑后恢復(fù)平穩(wěn)態(tài)勢。按AI技術(shù)能力劃分,計算機(jī)視覺類與語音技術(shù)類收入占比達(dá)72.2%,是收入的主要貢獻(xiàn)來源。人臉識別、人體識別、OCR文字識別、圖像識別等構(gòu)成了計算機(jī)視覺類業(yè)務(wù)的主要技術(shù)能力,且計算機(jī)視覺類的技術(shù)價格相較于其他技術(shù)而言更高,應(yīng)用領(lǐng)域也更為廣泛?,F(xiàn)階段的市場集中度相對分散,未來,能持續(xù)投入成本、研發(fā)出強(qiáng)勁算法的廠商有望占領(lǐng)更多的市場份額,市場集中度亦會因此提升。
算法:AI應(yīng)用模型效率化生產(chǎn)平臺市場規(guī)模
集成式的模型開發(fā)工具包,產(chǎn)業(yè)恰逢伊始,前景有待開拓
AI應(yīng)用模型效率化生產(chǎn)平臺是全棧式的、可實現(xiàn)流水線開發(fā)的AI應(yīng)用模型生產(chǎn)工具。假若每次開發(fā)模型都需要算法工程師單獨完成從生產(chǎn)到上線的全流程搭建,就會導(dǎo)致很多時間的耗損與AI模型開發(fā)成本的浪費。集成了數(shù)據(jù)、算法與算力的相應(yīng)開發(fā)工具的模型開發(fā)工具包——AI應(yīng)用模型效率化生產(chǎn)平臺應(yīng)運而生。據(jù)艾瑞統(tǒng)計與預(yù)測,2020年我國AI應(yīng)用模型效率化生產(chǎn)平臺市場規(guī)模為23億元;到2025年,相應(yīng)規(guī)??蛇_(dá)到204億元,2021-2025年的相關(guān)CAGR=49%。2020年,AI應(yīng)用模型效率化生產(chǎn)平臺相關(guān)業(yè)務(wù)拓展相對較快、產(chǎn)品恰逢創(chuàng)收伊始階段,故同比增速增幅較快。與此同時,因參與技術(shù)門檻偏高,具備能力的廠商較少,市場尚未形成穩(wěn)定狀態(tài),市場集中度偏高。
數(shù)據(jù):人工智能數(shù)據(jù)基礎(chǔ)服務(wù)定義
以AI訓(xùn)練與調(diào)優(yōu)為目的提供的數(shù)據(jù)采集、標(biāo)注與質(zhì)檢等服務(wù)
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)是指為各業(yè)務(wù)場景中的AI算法訓(xùn)練與調(diào)優(yōu)而提供的數(shù)據(jù)庫設(shè)計、數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注與數(shù)據(jù)質(zhì)檢服務(wù)。整個基礎(chǔ)數(shù)據(jù)服務(wù)流程圍繞著客戶需求而展開,最終產(chǎn)出產(chǎn)品以數(shù)據(jù)集與數(shù)據(jù)資源定制服務(wù)為主,為AI模型訓(xùn)練提供可靠、可用的數(shù)據(jù)。數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注與數(shù)據(jù)質(zhì)檢是較為重要的三個環(huán)節(jié)。數(shù)據(jù)采集是數(shù)據(jù)挖掘的基礎(chǔ),提供多源的一手?jǐn)?shù)據(jù)和二手?jǐn)?shù)據(jù);數(shù)據(jù)標(biāo)注對數(shù)據(jù)進(jìn)行歸類與標(biāo)記,為待標(biāo)注數(shù)據(jù)增加標(biāo)簽,生產(chǎn)滿足機(jī)器學(xué)習(xí)訓(xùn)練要求的機(jī)器可讀數(shù)據(jù)編碼。數(shù)據(jù)質(zhì)檢為數(shù)據(jù)的客觀性和準(zhǔn)確性設(shè)置檢驗標(biāo)準(zhǔn),從而為AI算法的性能提供保障。AI基礎(chǔ)數(shù)據(jù)服務(wù)商可著重在以上三個環(huán)節(jié)建立壁壘,以鞏固行業(yè)地位。
數(shù)據(jù):AI基礎(chǔ)數(shù)據(jù)服務(wù)市場規(guī)模
行業(yè)規(guī)模穩(wěn)步向前,圖像、語音類內(nèi)容繼續(xù)向新興場景開拓
高質(zhì)量的數(shù)據(jù)是提高AI應(yīng)用模型訓(xùn)練速度與精度的必要準(zhǔn)備之一,而行之有效的AI基礎(chǔ)數(shù)據(jù)服務(wù)又為提高數(shù)據(jù)質(zhì)量奠定了堅實的基礎(chǔ)。因而,提供通用化、精細(xì)化、場景化的AI基礎(chǔ)數(shù)據(jù)服務(wù)才能滿足日漸增長的AI應(yīng)用模型訓(xùn)練需求。據(jù)艾瑞統(tǒng)計與預(yù)測,2020年我國AI基礎(chǔ)數(shù)據(jù)服務(wù)市場規(guī)模(含數(shù)據(jù)采集與標(biāo)注)為37億元,到2025年,相應(yīng)規(guī)??蛇_(dá)到107億元,2021-2025年的相關(guān)CAGR=25%,整體增速呈現(xiàn)穩(wěn)步提升的趨勢。從市場細(xì)分收入結(jié)構(gòu)來看,圖像類與語音類收入占總收入規(guī)模的88.8%,是業(yè)務(wù)的主要構(gòu)成部分;圖像類與語音類收入基本持平,圖像類業(yè)務(wù)以智能駕駛與安防為主,而語音類業(yè)務(wù)以中英大語種、中國本土方言以及外國小語種為主。目前,行業(yè)中也相應(yīng)地分成了以圖像類或語音類為主的供應(yīng)商陣營,各類供應(yīng)商將會繼續(xù)立足于主營業(yè)務(wù),深挖現(xiàn)有應(yīng)用場景的業(yè)務(wù)細(xì)分需求,從而帶動未來收入的增長。
數(shù)據(jù):面向人工智能的數(shù)據(jù)治理定義
產(chǎn)生于業(yè)務(wù),圍繞于AI,追溯于治理
在大數(shù)據(jù)時代背景下,金融、零售、公安、工業(yè)等不同行業(yè)的業(yè)務(wù)場景衍生出諸多應(yīng)用,多元的AI模型開發(fā)需求因此產(chǎn)生。AI模型開發(fā)的原材料是數(shù)據(jù),但在挖掘模型數(shù)據(jù)時,往往面臨模型與數(shù)據(jù)無法拉齊的問題,所以需要溯源到前置環(huán)節(jié),從一開始就把數(shù)據(jù)治理的工作做好,面向AI的數(shù)據(jù)治理這一概念也就由此出現(xiàn)。面向AI的數(shù)據(jù)治理是指,以具體業(yè)務(wù)產(chǎn)生的AI模型開發(fā)與訓(xùn)練為目的,使用各個數(shù)據(jù)組件與人工智能技術(shù),對數(shù)據(jù)進(jìn)行針對性與持續(xù)性的診治與管理。相比于傳統(tǒng)的數(shù)據(jù)治理,其更新了數(shù)據(jù)接入、數(shù)據(jù)匯聚、數(shù)據(jù)分析的功能,并新增了AI模型開發(fā)與應(yīng)用組件,以應(yīng)對海量實時數(shù)據(jù)迸發(fā)、模型需及時對接數(shù)據(jù)等情形。面向AI的數(shù)據(jù)治理的特點在于,其對接企業(yè)現(xiàn)有的數(shù)據(jù)、積累新的AI數(shù)據(jù)而非重新進(jìn)行AI數(shù)據(jù)的數(shù)據(jù)庫建設(shè),而且提供針對實時數(shù)據(jù)的處理辦法、優(yōu)先解決業(yè)務(wù)落地的困難,并持續(xù)挖掘具體業(yè)務(wù)的數(shù)據(jù)資產(chǎn)價值。
數(shù)據(jù):面向AI業(yè)務(wù)的數(shù)據(jù)積累與治理模型
錨準(zhǔn)方向,雙輪驅(qū)動為智能化轉(zhuǎn)型速度與質(zhì)量賦能
在大數(shù)據(jù)應(yīng)用的驅(qū)動下,具有相當(dāng)數(shù)據(jù)規(guī)模的企業(yè)的多條業(yè)務(wù)條線往往會產(chǎn)生大量的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),愈加需要企業(yè)內(nèi)部的數(shù)據(jù)及時融通,但企業(yè)不可能完全拋棄現(xiàn)有的數(shù)據(jù)庫系統(tǒng)、更換一套完全符合面向AI業(yè)務(wù)開發(fā)的數(shù)據(jù)治理系統(tǒng);另一方面,智能化轉(zhuǎn)型浪潮推動著企業(yè)的AI應(yīng)用開發(fā)需求增長,但數(shù)據(jù)開發(fā)缺少統(tǒng)一標(biāo)準(zhǔn)、數(shù)據(jù)與業(yè)務(wù)場景割裂,讓面向AI的數(shù)據(jù)治理的工作面臨兩難的局面。對此,艾瑞認(rèn)為面向AI的數(shù)據(jù)治理并非完全舍棄已有的數(shù)據(jù)治理結(jié)構(gòu),而是在原有的基礎(chǔ)上,進(jìn)行數(shù)據(jù)治理結(jié)構(gòu)的改造,讓治理工作更多為AI開發(fā)服務(wù),從而完成AI業(yè)務(wù)數(shù)據(jù)的積累。面向AI的數(shù)據(jù)治理工作完成后,才能驅(qū)動AI應(yīng)用模型開發(fā)高效、高質(zhì)運行,而模型開發(fā)反過來會為面向AI的數(shù)據(jù)治理工作提供指導(dǎo)。業(yè)務(wù)系統(tǒng)與數(shù)據(jù)系統(tǒng)像兩個錨準(zhǔn)工作方向的齒輪,共同滾動。符合業(yè)務(wù)場景需求的AI應(yīng)用模型、ML\KG\NLP等AI技術(shù)加速促進(jìn)兩個齒輪的轉(zhuǎn)動,使企業(yè)的業(yè)務(wù)系統(tǒng)運轉(zhuǎn)效率向高質(zhì)高效發(fā)展,為企業(yè)帶來更可觀的智能化轉(zhuǎn)型業(yè)務(wù)發(fā)展速度與業(yè)務(wù)服務(wù)質(zhì)量。
數(shù)據(jù):面向AI的數(shù)據(jù)治理市場規(guī)模
存在數(shù)據(jù)中臺帶來的業(yè)務(wù)沖擊,后期恢復(fù)穩(wěn)步爬坡態(tài)勢
在數(shù)字化轉(zhuǎn)型與智能化轉(zhuǎn)型的大趨勢下,數(shù)據(jù)治理工作一般伴隨著數(shù)據(jù)中臺的搭建以及AI應(yīng)用模型的開發(fā)而展開。數(shù)據(jù)治理屬于數(shù)據(jù)中臺的構(gòu)成組件,數(shù)據(jù)治理的工作與服務(wù)則屬于數(shù)據(jù)中臺建設(shè)、運營與維護(hù)中不可缺少的環(huán)節(jié)。與此同時,以AI應(yīng)用模型所需的數(shù)據(jù)標(biāo)準(zhǔn)去治理數(shù)據(jù),結(jié)合AI技術(shù)提升數(shù)據(jù)的可用度與模型的訓(xùn)練效率,才能夠更好更快地為人工智能業(yè)務(wù)前端服務(wù),改善供應(yīng)商的業(yè)務(wù)流程與消費者的消費體驗。據(jù)艾瑞統(tǒng)計與預(yù)測,2020年我國面向AI的數(shù)據(jù)治理市場規(guī)模為14億元,到2025年,相應(yīng)規(guī)??蛇_(dá)到50億元,2021-2025年的相關(guān)CAGR=28%。2018年,數(shù)據(jù)中臺概念興起,其規(guī)模在2020年處于爆發(fā)點,而數(shù)據(jù)治理作為數(shù)據(jù)中臺的組件,也于同期迎來增長爆發(fā)點,從而帶動面向AI的數(shù)據(jù)治理。2020年后,數(shù)據(jù)中臺市場規(guī)模增速開始降溫,數(shù)據(jù)治理也隨之回落,面向AI的應(yīng)用模型開發(fā)業(yè)務(wù)在該過程中的帶動作用有限,故2021年的業(yè)務(wù)同比增速出現(xiàn)拐點。后期,面向AI的應(yīng)用模型開發(fā)業(yè)務(wù)的帶動效應(yīng)逐步凸顯,規(guī)模增速呈現(xiàn)穩(wěn)步爬坡態(tài)勢。
四、人工智能基礎(chǔ)層發(fā)展洞察
一站式基礎(chǔ)層資源平臺
泛在需求下AI模型生產(chǎn)模式的變遷與資源集成
在人工智能由技術(shù)落地應(yīng)用階段向效率化生產(chǎn)階段轉(zhuǎn)變的背景下,艾瑞認(rèn)為人工智能基礎(chǔ)層的各模塊工具有望走向集約型的生產(chǎn)模式。該模式主要能賦予開發(fā)企業(yè)以下價值:1)開發(fā)方式改進(jìn):從客戶需求分析到解決方案部署形成獨立的閉環(huán),構(gòu)建端到端的工作流。在強(qiáng)大算力的支持下,完成數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注、數(shù)據(jù)治理、數(shù)據(jù)應(yīng)用、模型設(shè)計、參數(shù)調(diào)優(yōu)、模型訓(xùn)練、模型測試、模型推理的全棧式流水線生產(chǎn)。2)管理效率提升:將數(shù)據(jù)、算法與算力委托給專業(yè)的服務(wù)商,實現(xiàn)一站式托管,打通三者之間的銜接壁壘,提高交互友好性,讓開發(fā)者專注于業(yè)務(wù)。3)部署成本降低:集成數(shù)據(jù)、算法、算力的各個軟件與硬件,企業(yè)可在一個平臺內(nèi)按需選擇自己所缺失的模塊組件并自由搭配,有效避免因采購不同供應(yīng)商的產(chǎn)品或服務(wù)而帶來的隱性成本損失與顯性成本損失。
基礎(chǔ)層全棧自主可控展望
自主可控穩(wěn)步向前,內(nèi)外兼修
信創(chuàng)產(chǎn)業(yè)涉及到核心技術(shù)問題,受到國家的大力扶持。比如,2020年12月,財政部、發(fā)改委、工信部等部門就聯(lián)合發(fā)布了《關(guān)于促進(jìn)集成電路產(chǎn)業(yè)和軟件產(chǎn)業(yè)高質(zhì)量發(fā)展企業(yè)所得稅政策的公告》,文中明確指出:國家鼓勵的集成電路線寬小于130納米(含),且經(jīng)營期在10年以上的集成電路生產(chǎn)企業(yè)或項目,第一年至第二年免征企業(yè)所得稅,可見國家對國產(chǎn)芯片的重視。在信創(chuàng)產(chǎn)業(yè)穩(wěn)步推廣的的趨勢下,人工智能基礎(chǔ)層的各模塊也在逐個突破“卡脖子”的關(guān)鍵點,朝著全棧國產(chǎn)化的方向邁進(jìn)。算法模塊相對其他兩個模塊而言,因開源框架協(xié)助,算法開發(fā)相對容易,但依然面臨開源框架商用版限制的潛在風(fēng)險,同時,使用開源框架難以友好對接到AI企業(yè)的業(yè)務(wù)邏輯,基于這兩點,部分企業(yè)已開始自研開源框架并取得一定成效;數(shù)據(jù)模塊的各類操作系統(tǒng)與應(yīng)用軟件在較大程度上仍以國外企業(yè)為主導(dǎo),而國產(chǎn)的操作系統(tǒng)與數(shù)據(jù)庫等軟件配套設(shè)施正在穩(wěn)步崛起,已存在相應(yīng)的產(chǎn)品與服務(wù)可供客戶選擇;算力模塊的智能服務(wù)器的國產(chǎn)化率逐步提升,AI芯片雖然仍以英偉達(dá)的GPU為主導(dǎo),但國內(nèi)部分企業(yè)開始自研AI芯片,產(chǎn)生了一批針對通用GPU、ASIC與FPGA的先行玩家??偟膩碚f,基礎(chǔ)層全棧的自主可控建設(shè)還處在萌芽階段,未來將在“可用”的建設(shè)要求上打好根基,向“好用”的狀態(tài)演變,并且從以政府政策引導(dǎo)為主的局面向以企業(yè)產(chǎn)品自由競爭的局面轉(zhuǎn)變。