作者|冬梅
在全球人工智能領(lǐng)域競(jìng)爭(zhēng)快速升溫的當(dāng)下,谷歌與 OpenAI 再次在同一天拋出重磅更新,令整個(gè)行業(yè)的注意力高度集中。
昨天夜里,谷歌發(fā)布了全新“重新構(gòu)想”的 Gemini Deep Research 版本,并首次開(kāi)放了嵌入式研究智能體 API。
而幾乎同時(shí),OpenAI 正式發(fā)布了備受期待的 GPT-5.2(代號(hào) Garlic)。兩家公司圍繞智能體(Agent)未來(lái)、基礎(chǔ)大模型能力邊界以及應(yīng)用生態(tài)主導(dǎo)權(quán)的競(jìng)爭(zhēng),正進(jìn)入一個(gè)前所未有的焦灼階段。
這一次,谷歌和 OpenAI 的攻防幾乎精確地踩在同一時(shí)間窗口,讓外界得以清晰觀察這兩家全球 AI 巨頭之間的戰(zhàn)略對(duì)抗節(jié)奏。
1
?谷歌推出全新 Deep Research Agent
谷歌推出的全新 Gemini Deep Research 工具是一款智能 Agent,能夠整合海量信息并處理提示信息中大量的上下文數(shù)據(jù)。谷歌表示,客戶使用 Deep Research Agent 執(zhí)行的任務(wù)范圍廣泛,從盡職調(diào)查到藥物毒性安全研究均有涉及。
谷歌還表示,很快會(huì)將這款全新的 Deep Research Agent 集成到其各項(xiàng)服務(wù)中,包括谷歌搜索、谷歌財(cái)經(jīng)、Gemini 應(yīng)用以及廣受歡迎的 NotebookLM。這標(biāo)志著谷歌正朝著一個(gè)未來(lái)世界邁出又一步:未來(lái),人類將不再使用谷歌搜索任何內(nèi)容,而是由人工智能代理代勞。
具體而言,Deep Research Agent 有哪些能力?
在此次更新中,Google 不僅對(duì) Deep Research Agent 進(jìn)行了架構(gòu)級(jí)的再設(shè)計(jì),還以 Gemini 3 Pro 為核心基礎(chǔ)模型,構(gòu)建了一個(gè)更加穩(wěn)定、準(zhǔn)確、可追溯的深度研究系統(tǒng)。新版 Deep Research Agent 的能力提升可總結(jié)為三個(gè)關(guān)鍵方向:模型升級(jí)、推理穩(wěn)定性突破以及交互能力全面增強(qiáng)。
先說(shuō)模型升級(jí)。新版 Deep Research Agent 完全基于 Gemini 3 Pro 構(gòu)建,而 Gemini 3 Pro 被谷歌視為其迄今最“真實(shí)”、最可靠、最適合長(zhǎng)鏈推理的旗艦?zāi)P桶姹?。谷歌?qiáng)調(diào),這不僅是性能提升,更是研究型智能體“可依賴性”的質(zhì)變。
為了構(gòu)建這樣的智能體,谷歌采用了多步強(qiáng)化學(xué)習(xí)(Reinforcement Learning over Multi-step Trajectories)的訓(xùn)練策略。其目標(biāo)非常明確:在長(zhǎng)達(dá)數(shù)十步、數(shù)百步的復(fù)雜研究任務(wù)中,AI 必須保持推理路徑穩(wěn)定,減少出現(xiàn)幻覺(jué)的概率,并確保連續(xù)決策過(guò)程中的一致性。
傳統(tǒng) LLM 在長(zhǎng)鏈推理中的主要痛點(diǎn)之一,就是每一步推理都會(huì)引入累計(jì)誤差——只要一個(gè)幻覺(jué)性的節(jié)點(diǎn),就可能導(dǎo)致整個(gè)輸出結(jié)果失效。谷歌強(qiáng)調(diào),新版 Deep Research 在這一點(diǎn)上取得重大突破:
多輪強(qiáng)化學(xué)習(xí)優(yōu)化決策序列
在冗長(zhǎng)任務(wù)鏈中顯著減少邏輯偏移
更穩(wěn)定的檢索—分析—推理—引用閉環(huán)
這使得 Deep Research 可以承擔(dān)以往 LLM 無(wú)法勝任的任務(wù),例如完整執(zhí)行跨天級(jí)研究、政策評(píng)估、多源數(shù)據(jù)整合和全流程盡職調(diào)查。
新版 Deep Research Agent 的另一個(gè)核心優(yōu)勢(shì)是其超大規(guī)模上下文處理能力。在 Gemini 3 Pro 的支持下,它可以一次性處理遠(yuǎn)超以往的資料量,包括學(xué)術(shù)論文、官方報(bào)告、長(zhǎng)篇網(wǎng)頁(yè)內(nèi)容等,更重要的是,谷歌為 Deep Research 加入了一項(xiàng)“研究級(jí)標(biāo)準(zhǔn)能力”:它會(huì)為每一條觀點(diǎn)、每一個(gè)結(jié)論自動(dòng)附上可追溯引用來(lái)源。?引用不僅是網(wǎng)址鏈接,而是結(jié)構(gòu)化地指向原文中的關(guān)鍵片段或段落,以確保輸出可信、觀點(diǎn)可查,用戶可進(jìn)行二次調(diào)查與審核 。這使 Deep Research 不是“生成內(nèi)容”,而是“提供帶證據(jù)鏈的研究結(jié)果”。
此次版本更新不僅是功能升級(jí),而是谷歌圍繞“研究型智能體生態(tài)”的一次系統(tǒng)性發(fā)布。除了 Deep Research Agent 更新,谷歌還推出兩項(xiàng)關(guān)鍵新能力:開(kāi)源全新網(wǎng)絡(luò)研究智能體基準(zhǔn):DeepSearchQA 和全新交互 API。
在當(dāng)前行業(yè)中,網(wǎng)絡(luò)研究型智能體缺乏統(tǒng)一衡量標(biāo)準(zhǔn)。為了證明谷歌取得的進(jìn)展,谷歌又創(chuàng)建了一個(gè)新的基準(zhǔn)測(cè)試。這個(gè)新基準(zhǔn)測(cè)試名為 DeepSearchQA,旨在測(cè)試智能體在復(fù)雜的多步驟信息檢索任務(wù)中的表現(xiàn)。谷歌已將該基準(zhǔn)測(cè)試開(kāi)源。
DeepSearchQA 開(kāi)源地址:https://www.kaggle.com/benchmarks/google/dsqa/leaderboard
DeepSearchQA 包含 17 個(gè)領(lǐng)域共 900 道精心設(shè)計(jì)的“因果鏈”任務(wù),每一步都依賴于先前的分析。與傳統(tǒng)的基于事實(shí)的測(cè)試不同,DeepSearchQA 衡量的是全面性,要求智能體生成詳盡的答案集。這既評(píng)估了研究的精確度,也評(píng)估了檢索召回率。
對(duì)比 pass@8 和 pass@1 的結(jié)果,可以證明讓智能體探索多條并行路徑進(jìn)行答案驗(yàn)證的價(jià)值。這些結(jié)果是在 DeepSearchQA 的 200 個(gè)提示子集上計(jì)算得出的。
全新的 Deep Research Agent 在“人類最后的考試”(HLE)和 DeepSearchQA 測(cè)試中取得了最先進(jìn)的成果,并在 BrowseComp 測(cè)試中表現(xiàn)最佳。它經(jīng)過(guò)優(yōu)化,能夠以更低的成本生成高質(zhì)量的研究報(bào)告。
基準(zhǔn)測(cè)試結(jié)果令人驚嘆。它基于 Gemini 3 Pro 核心構(gòu)建,但采用智能體工作流程來(lái)實(shí)現(xiàn)最先進(jìn)的性能。統(tǒng)計(jì)數(shù)據(jù)(來(lái)自圖表):
人類的最后考試(HLE): 46.4%(顯著優(yōu)于 GPT-5 Pro 的 38.9%)
DeepSearchQA: 66.1%(略勝 GPT-5 Pro 的 65.2%)
BrowseComp: 59.2%(與 GPT-5 Pro 不分伯仲)
Gemini Deep Research 在完整的“人類最后的考試”(HLE)數(shù)據(jù)集上取得了 46.4% 的領(lǐng)先成績(jī),在 DeepSearchQA 上取得了 66.1% 的成績(jī),在 BrowseComp 上取得了高達(dá) 59.2% 的成績(jī)。
Interactions API 是谷歌此次發(fā)布的最具戰(zhàn)略意義的能力之一。它讓開(kāi)發(fā)者首次能夠以結(jié)構(gòu)化方式控制智能體的行為狀態(tài)、推理步驟、長(zhǎng)鏈任務(wù)執(zhí)行、中間狀態(tài)存儲(chǔ)等,這意味著以前開(kāi)發(fā)者只能“向模型發(fā)問(wèn)”,而現(xiàn)在開(kāi)發(fā)者可以“調(diào)教智能體如何執(zhí)行任務(wù)”。
2
?網(wǎng)友怎么看?
在谷歌發(fā)布新版 Deep Research Agent 后,技術(shù)社區(qū)的反應(yīng)同樣值得關(guān)注。
在 Hacker News 與 Reddit 相關(guān)討論帖中,不少開(kāi)發(fā)者表達(dá)了對(duì)谷歌此次“真正把 Agent 做成工程化產(chǎn)品”的肯定。
在 Reddit 上,有用戶對(duì)技術(shù)的進(jìn)步發(fā)出感嘆:
“太不可思議了!我覺(jué)得我們還沒(méi)有充分意識(shí)到這一點(diǎn)。過(guò)去三年我們?nèi)〉玫倪M(jìn)步簡(jiǎn)直令人難以置信!”
有網(wǎng)友指出,谷歌首次在產(chǎn)品層面強(qiáng)調(diào)“可驗(yàn)證引用”“端到端多步推理穩(wěn)定性”,是 AI Agent 領(lǐng)域一次明顯的進(jìn)步。
一位自稱長(zhǎng)期從事合規(guī)審閱工作的用戶評(píng)論說(shuō):“如果 Deep Research 真的能做到逐步鏈路可審計(jì),那將是第一次有大廠真正把 Agent 從玩具推向生產(chǎn)環(huán)境?!?/p>
但也有觀點(diǎn)保持謹(jǐn)慎,一位 Reddit 用戶批評(píng)道:“谷歌用自家基準(zhǔn)證明自己最強(qiáng),這種事情已經(jīng)發(fā)生過(guò)太多次了。我們需要的是在真實(shí)網(wǎng)頁(yè)、真實(shí)任務(wù)中的第三方測(cè)試?!?/p>
谷歌這款新 Agent 的發(fā)布時(shí)間與 OpenAI GPT-5.2 是同一天,自然難逃網(wǎng)友們將兩者相比較的命運(yùn)。
在 Reddit 上,有用戶提問(wèn)這款 Deep Research Agent 與同一時(shí)間 OpenAI 發(fā)布的 GPT-5.2 相比如何,另一位用戶回答稱用途不同,但 GPT-5.2 更好。
為了將兩者進(jìn)行更清晰的對(duì)比,還有網(wǎng)友找出了 OpenAI 研究員 Sebastien Bubeck
在領(lǐng)英上的發(fā)文,在這篇發(fā)文中,Sebastien Bubeck 稱 GPT-5.2 在人類的最后考試(HLE)中的得分是 45%,而谷歌這款新的 Agent 的得分是 46.4%,略高于 GPT-5.2。
同時(shí),圍繞谷歌與 OpenAI 的競(jìng)爭(zhēng),也有人發(fā)出調(diào)侃式評(píng)論:“谷歌剛發(fā) Deep Research,OpenAI 就把 Garlic(GPT-5.2)端上來(lái)了,這倆公司現(xiàn)在簡(jiǎn)直是在互相搶發(fā)新聞?!?/p>
還有人總結(jié)這場(chǎng)激烈競(jìng)賽的節(jié)奏:“這已經(jīng)不是模型大戰(zhàn),而是發(fā)布會(huì)大戰(zhàn)。”
3
?模型能力的“貼身肉搏”越演愈烈
基礎(chǔ)模型能力始終是兩家公司最具標(biāo)志性的競(jìng)爭(zhēng)焦點(diǎn)。
2025 年初,谷歌推出的 Gemini 3 Pro 以其更“真實(shí)”、更可依賴、幻覺(jué)率更低的特性,試圖在長(zhǎng)鏈推理和專業(yè)任務(wù)場(chǎng)景中重建優(yōu)勢(shì)。Gemini 3 Pro 強(qiáng)調(diào)檢索增強(qiáng)、多模態(tài)處理能力以及大規(guī)模上下文處理能力,在科研、法律、金融等高可信場(chǎng)景中表現(xiàn)亮眼。
而 OpenAI 在最新發(fā)布的 GPT-5.2(Garlic)中,強(qiáng)化了邏輯一致性、工具調(diào)用穩(wěn)定性以及智能體行為的自主性,進(jìn)一步提升了跨任務(wù)泛化能力。內(nèi)部基準(zhǔn)測(cè)試顯示,GPT-5.2 在推理、代碼生成、多輪工具調(diào)度方面對(duì) Gemini 保持領(lǐng)先,尤其是在 OpenAI 自研的“連續(xù)推理一致性 Benchmark”中表現(xiàn)突出。
兩者之間的能力差距被行業(yè)評(píng)論認(rèn)為“已進(jìn)入毫厘級(jí)別”——差距常常只體現(xiàn)在特定任務(wù)場(chǎng)景,而不再是全局性的優(yōu)勢(shì)。
如果說(shuō)基礎(chǔ)模型決定了智能體能否思考,那么智能體平臺(tái)能力則決定了智能體能否執(zhí)行任務(wù)。
谷歌此次對(duì) Gemini Deep Research Agent 進(jìn)行全面重構(gòu),可視為其正式加入智能體戰(zhàn)爭(zhēng)的關(guān)鍵節(jié)點(diǎn)。
新版 Deep Research Agent 具有三大亮點(diǎn):
基于 Gemini 3 Pro 全面重寫(xiě)推理鏈路
采用多步強(qiáng)化學(xué)習(xí)訓(xùn)練,保持長(zhǎng)鏈任務(wù)中決策一致性,顯著降低幻覺(jué)概率
提供全鏈路引用,可追溯每個(gè)觀點(diǎn)的證據(jù)來(lái)源
這使其從“報(bào)告生成工具”升級(jí)為“可執(zhí)行完整研究任務(wù)的專業(yè)智能體”。更關(guān)鍵的是,谷歌推出了結(jié)構(gòu)化控制智能體行為的 Interactions API,開(kāi)發(fā)者可以對(duì)智能體的每一階段、每一子任務(wù)進(jìn)行高度可控的調(diào)度與狀態(tài)管理。這意味著 Deep Research Agent 不再是谷歌產(chǎn)品線內(nèi)部的能力,而是一個(gè)通用的智能體執(zhí)行引擎。
OpenAI 的智能體體系則更側(cè)重通用性和自由度。
Agent API、OpenAI Swarm、BrowserAgent、CodeAgent 已形成一個(gè)完整的智能體開(kāi)發(fā)框架,加上 GPT-5.2 的推理一致性提升,讓其在自動(dòng)化任務(wù)執(zhí)行、工具調(diào)用復(fù)雜度和環(huán)境適應(yīng)性上保持優(yōu)勢(shì)。
兩者競(jìng)爭(zhēng)的是:未來(lái)軟件開(kāi)發(fā)將以智能體為核心,而誰(shuí)掌握了智能體框架標(biāo)準(zhǔn),誰(shuí)就掌握了新一代計(jì)算范式的主導(dǎo)權(quán)。