轉(zhuǎn)自:新華財(cái)經(jīng)
新華財(cái)經(jīng)上海2月2日電(記者 高少華)在經(jīng)歷了大模型參數(shù)競賽的上半場后,AI行業(yè)正由“訓(xùn)練驅(qū)動(dòng)”邁向“推理驅(qū)動(dòng)”的下半場,推理算力成為決定AI商業(yè)化成敗的核心要素。
國產(chǎn)AI芯片企業(yè)曦望(Sunrise)近日發(fā)布了新一代推理GPU芯片啟望S3,提出“百萬詞元(token)一分錢”的目標(biāo),并提出圍繞推理場景構(gòu)建算力體系、共建AI推理平臺(tái),探索面向人工智能應(yīng)用的新型算力服務(wù)模式。
“過去十年,中國互聯(lián)網(wǎng)的底座是遍布全國的光纖和基站,而未來十年,中國AI時(shí)代的底層根基將是規(guī)模化、高性價(jià)比的推理基礎(chǔ)設(shè)施。”曦望董事長徐冰表示,曦望將持續(xù)圍繞推理場景推進(jìn)芯片、系統(tǒng)和算力服務(wù)的協(xié)同創(chuàng)新,推動(dòng)算力基礎(chǔ)設(shè)施向更加高效、可持續(xù)的方向演進(jìn),為我國人工智能產(chǎn)業(yè)發(fā)展提供堅(jiān)實(shí)支撐。
推理算力成AI下半場核心競爭力
算力是支撐人工智能運(yùn)行的“動(dòng)力引擎”,訓(xùn)練和推理則是人工智能系統(tǒng)運(yùn)作的兩個(gè)核心階段。訓(xùn)練是人工智能的“學(xué)習(xí)過程”,推理是人工智能的“實(shí)戰(zhàn)應(yīng)用”;訓(xùn)練決定了人工智能的上限,而推理決定了人工智能的落地速度。隨著大模型逐步走向落地,在人工智能發(fā)展從“訓(xùn)練驅(qū)動(dòng)”邁向“推理驅(qū)動(dòng)”的關(guān)鍵階段,圍繞推理算力夯實(shí)算力底座、提升算力供給效率,對(duì)推動(dòng)人工智能服務(wù)實(shí)體經(jīng)濟(jì)具有重要意義。
2026年被業(yè)內(nèi)普遍視為人工智能推理應(yīng)用爆發(fā)元年。德勤預(yù)測顯示,2026年推理算力占人工智能計(jì)算量的比重將達(dá)66%,首次超過訓(xùn)練算力的占比,標(biāo)志著人工智能正式邁入“推理驅(qū)動(dòng)”的下半場。
中國工程院院士、浙江大學(xué)信息學(xué)部主任吳漢明表示,過去十年,我國集成電路產(chǎn)業(yè)實(shí)現(xiàn)了跨越式發(fā)展,但隨著人工智能進(jìn)入規(guī)?;瘧?yīng)用階段,推理算力正成為制約應(yīng)用落地和產(chǎn)業(yè)深化的重要因素。推理時(shí)代的算力競爭不是單點(diǎn)技術(shù)比拼,需要構(gòu)建協(xié)同創(chuàng)新、開放融合的產(chǎn)業(yè)生態(tài)。
據(jù)了解,目前行業(yè)內(nèi)多數(shù)推理場景仍沿用訓(xùn)推一體芯片,這類產(chǎn)品以通用計(jì)算為設(shè)計(jì)思路,兼顧訓(xùn)練與推理需求,但訓(xùn)推一體芯片存在成本高昂、供應(yīng)不穩(wěn)定、運(yùn)維投入大等問題,無法匹配行業(yè)爆發(fā)式需求。
在國內(nèi)算力領(lǐng)域,曦望是首家聚焦于推理GPU的芯片企業(yè),公司從2018年開始研發(fā)第一代芯片啟望S1,2020年實(shí)現(xiàn)量產(chǎn)并落地?cái)?shù)萬片規(guī)模;2023年推出第二代芯片啟望S2,通過自研通用GPU架構(gòu)和指令集對(duì)標(biāo)行業(yè)頭部產(chǎn)品;近日發(fā)布了第三代芯片啟望S3,該芯片面向大模型推理場景進(jìn)行定制優(yōu)化,重點(diǎn)提升推理效率和單位算力經(jīng)濟(jì)性,以更好支撐人工智能應(yīng)用在實(shí)際業(yè)務(wù)場景中的部署需求。
據(jù)徐冰介紹,當(dāng)前之所以強(qiáng)調(diào)推理為先,首先是需求發(fā)生了改變,人工智能大模型已經(jīng)從被訓(xùn)練出來的階段,走向能被應(yīng)用起來的實(shí)戰(zhàn)階段;其次是場景發(fā)生了改變,人工智能體、生成式視頻等復(fù)雜場景正在加速落地,多模態(tài)的推理需求也在爆發(fā);另外成本結(jié)構(gòu)也在改變,推理成本占據(jù)人工智能應(yīng)用的比例已經(jīng)高達(dá)70%,它直接決定了一家人工智能公司能否盈利。
“只有把推理成本從元級(jí)降到分級(jí),人工智能才有機(jī)會(huì)像水電一樣成為普惠的基礎(chǔ)設(shè)施,這也是行業(yè)的未來趨勢(shì)。”徐冰表示,2025年全球大模型token消耗量增長了近100倍,算力需求的爆發(fā)式增長與居高不下的成本之間的矛盾,迫切需要專用推理芯片的突破。
專用架構(gòu)重構(gòu)算力成本底線
作為新一代專用推理GPU,與傳統(tǒng)訓(xùn)推一體芯片不同,曦望此次推出的啟望S3從底層架構(gòu)開始為推理場景重新設(shè)計(jì),實(shí)現(xiàn)性能、能效與成本的系統(tǒng)性優(yōu)化,可以滿足多模態(tài)、智能體等復(fù)雜推理需求。
徐冰表示,啟望S3通過芯片架構(gòu)、存儲(chǔ)體系和系統(tǒng)協(xié)同的全方位優(yōu)化,實(shí)現(xiàn)了十倍以上的推理性價(jià)比提升,公司目標(biāo)是將推理成本再降一個(gè)數(shù)量級(jí),推動(dòng)“百萬token一分錢”成為行業(yè)新基準(zhǔn)。據(jù)測算,目前曦望已將每百萬token成本降至約0.57元,優(yōu)于市場平均水平。
對(duì)于算力服務(wù)商、人工智能應(yīng)用開發(fā)者而言,Token的成本、能耗表現(xiàn)以及服務(wù)穩(wěn)定性,這三大指標(biāo)直接決定了企業(yè)最終的業(yè)務(wù)毛利率,并直接影響著終端客戶群體的用戶體驗(yàn)。
“如果我們能夠讓推理成本下降90%,那么就可以助力全行業(yè)盈利增收?!毙毂硎荆赝胱龅木褪钦驹谶@層根基上,持續(xù)地降低推理成本,讓開發(fā)者和企業(yè)不用再為算力和電費(fèi)發(fā)愁,可以專注于去構(gòu)建未來的AI爆款應(yīng)用。
隨著大模型競爭進(jìn)入下半場,推理token的需求仍會(huì)以幾十倍的速度增長,專用推理GPU的市場空間將持續(xù)擴(kuò)大。而算力的價(jià)值釋放,離不開軟硬件的協(xié)同優(yōu)化。
據(jù)曦望聯(lián)席首席執(zhí)行官王湛介紹,目前整個(gè)算力服務(wù)面臨三大挑戰(zhàn):一是資源利用率低,傳統(tǒng)架構(gòu)下GPU閑置率常超過40%;二是適配效率不足;三是運(yùn)維復(fù)雜,硬件問題中75%與GPU相關(guān)。基于此,曦望聯(lián)合合作伙伴共同推出推理系統(tǒng)級(jí)解決方案,通過自研GPU與軟硬件全棧優(yōu)化,從而破解行業(yè)痛點(diǎn),提升算力調(diào)度效率。
在商湯科技董事長兼首席執(zhí)行官徐立看來,人工智能商業(yè)化閉環(huán)的形成,離不開芯片與模型的深度聯(lián)動(dòng)。目前人工智能模型的推理成本快速下降,過往兩年在已知的開源大模型方面,每token的推理成本下降了近280倍。專用推理芯片的技術(shù)突破,將加速芯片與模型的協(xié)同創(chuàng)新,推動(dòng)人工智能商業(yè)化落地提速。
協(xié)同推動(dòng)算力資源向?qū)嶋H生產(chǎn)力轉(zhuǎn)化
國產(chǎn)推理GPU持續(xù)迭代,有助于推動(dòng)算力資源更高效地服務(wù)實(shí)體經(jīng)濟(jì),為人工智能在各行各業(yè)的深入應(yīng)用奠定基礎(chǔ)。
曦望在發(fā)布推理芯片的同時(shí),還提出共建AI推理平臺(tái)為核心的算力服務(wù)新模式,通過與商湯科技、范式智能等合作伙伴協(xié)同,面向大模型推理需求提供更加穩(wěn)定、可預(yù)期的算力服務(wù),推動(dòng)算力資源轉(zhuǎn)化為實(shí)際生產(chǎn)力。
在生態(tài)協(xié)同方面,曦望與浙江大學(xué)共建“智能計(jì)算聯(lián)合研發(fā)中心”,聚焦半導(dǎo)體虛擬制造以及人工智能在科學(xué)計(jì)算等領(lǐng)域的應(yīng)用。同時(shí),曦望與杭鋼數(shù)字科技有限公司、浙江算力科技有限公司牽手,將把推理基礎(chǔ)設(shè)施鋪向浙江、輻射全國。此外,曦望還與三一重工、游族網(wǎng)絡(luò)等十幾家企業(yè)簽約,將推理算力嵌入制造、能源、機(jī)器人等具體場景。
浙江算力科技有限公司董事長錢敏勇認(rèn)為,“目前市場上推理的百萬token價(jià)格約1到10元,若成本下降一半,應(yīng)用將大規(guī)模爆發(fā);當(dāng)價(jià)格降至0.1元以下,甚至幾分錢時(shí),將引發(fā)推理市場全面爆發(fā)?!彼硎?,業(yè)界短期內(nèi)可通過架構(gòu)、算法優(yōu)化來降低成本,長期來看,新型硬件創(chuàng)新將帶來更深遠(yuǎn)的影響。
如今,在國產(chǎn)算力領(lǐng)域,國產(chǎn)芯片的定位正轉(zhuǎn)向“性能與成本兼顧”。在國際上,每當(dāng)百萬token的成本降低一倍,市場上出現(xiàn)的應(yīng)用程序數(shù)量就會(huì)增加6到8倍。
煒燁智算董事長兼首席執(zhí)行官周韡韡表示,國產(chǎn)推理芯片的性價(jià)比優(yōu)勢(shì),將推動(dòng)中國AI應(yīng)用實(shí)現(xiàn)類似移動(dòng)互聯(lián)網(wǎng)時(shí)代的爆發(fā)式增長,“推理算力成本的降低,將重塑人工智能產(chǎn)業(yè)生態(tài)?!?/p>
業(yè)內(nèi)人士認(rèn)為,以推理算力為核心、以 AI推理平臺(tái)為載體的新型算力模式,正在成為人工智能時(shí)代的重要基礎(chǔ)設(shè)施形態(tài)。未來十年,規(guī)模化、高性價(jià)比的推理基礎(chǔ)設(shè)施,將成為中國人工智能時(shí)代的底層根基,為人工智能產(chǎn)業(yè)發(fā)展注入源源不斷的動(dòng)力。
編輯:林鄭宏