谷歌I/O 2025：AI技術(shù)大飛躍，智能眼鏡將成主流，電影制作迎新變革？

發(fā)布時(shí)間：2025-05-21 09:04 來源：鈦媒體APP 作者：鈦媒體APP

在科技巨頭谷歌的年度開發(fā)者盛會(huì)上，一系列關(guān)于人工智能（AI）的突破性進(jìn)展震撼發(fā)布，預(yù)示著AI技術(shù)正以前所未有的速度重塑我們的生活和工作方式。

谷歌首席執(zhí)行官桑達(dá)爾·皮查伊以一句輕松的開場白拉開了大會(huì)序幕，他強(qiáng)調(diào)，谷歌正步入一個(gè)名為“Gemini時(shí)代”的新紀(jì)元，在這個(gè)時(shí)代，最前沿的AI模型不再受傳統(tǒng)發(fā)布周期的束縛，正以驚人的速度推向全球用戶。

皮查伊自豪地宣布，谷歌打破了“性能與價(jià)格不可兼得”的行業(yè)魔咒。新一代Gemini 2.5 Pro模型在性能飆升的同時(shí)，實(shí)現(xiàn)了成本的大幅優(yōu)化。數(shù)據(jù)顯示，Gemini模型每秒生成的輸出令牌數(shù)已躋身全球前三，而單位計(jì)算成本較前代下降了40%。這一突破得益于谷歌第七代TPU芯片的賦能，這款專為大規(guī)模推理設(shè)計(jì)的芯片性能較前代提升了10倍，成為支撐谷歌AI基礎(chǔ)設(shè)施的“超級引擎”。

技術(shù)突破正迅速轉(zhuǎn)化為觸手可及的產(chǎn)品體驗(yàn)。谷歌每月通過產(chǎn)品和API處理的AI Token數(shù)量從9.7萬億激增至480萬億，增幅超過50倍。開發(fā)者生態(tài)同樣迎來了爆發(fā)式增長，超過700萬開發(fā)者通過Gemini API、Google AI Studio和Vertex AI平臺(tái)構(gòu)建應(yīng)用，其中Vertex AI平臺(tái)上的Gemini使用量更是飆升了40倍。

在用戶端，Gemini應(yīng)用的月活用戶已突破4億，Gemini 2.5 Pro版本的使用量較前代增長了45%。搜索領(lǐng)域的革新尤為顯著，AI概覽功能每月覆蓋15億用戶，成為全球規(guī)模最大的生成式AI應(yīng)用場景。皮查伊透露，谷歌搜索的“下一站”將是AI驅(qū)動(dòng)的交互模式升級，用戶將體驗(yàn)到更自然、更個(gè)性化的信息獲取方式。

谷歌還展示了三個(gè)將實(shí)驗(yàn)轉(zhuǎn)化為產(chǎn)品的研究項(xiàng)目。其中，Project Starlight的3D視頻技術(shù)正式落地為全新平臺(tái)Google Beam，該平臺(tái)通過6攝像頭陣列捕捉用戶動(dòng)作，結(jié)合AI生成3D光場顯示，實(shí)現(xiàn)毫米級頭部追蹤和60幀實(shí)時(shí)渲染?，F(xiàn)場演示了與惠普合作設(shè)備的沉浸式通話效果，并宣布首批測試設(shè)備將于年內(nèi)推出。

另一個(gè)項(xiàng)目是Project Astra，作為實(shí)時(shí)語音翻譯技術(shù)的集大成者，Google Meet現(xiàn)已支持英語與西班牙語的即時(shí)互譯，并計(jì)劃在未來幾周擴(kuò)展至更多語種。演示中，系統(tǒng)精準(zhǔn)還原了演講者的語氣、節(jié)奏甚至表情。

Project Marina定位為“網(wǎng)絡(luò)交互智能體”，已具備多任務(wù)處理和教學(xué)-重復(fù)學(xué)習(xí)能力。皮查伊展示了其如何同時(shí)管理10項(xiàng)任務(wù)，并通過一次演示學(xué)習(xí)完成復(fù)雜操作。該技術(shù)將通過Gemini API開放給開發(fā)者，預(yù)計(jì)夏季面向更廣泛用戶推出。

皮查伊將智能體（Agent）視為AI技術(shù)的“下一形態(tài)”。他現(xiàn)場演示了Gemini應(yīng)用中的“代理模式”：用戶只需設(shè)定需求，系統(tǒng)即可自動(dòng)調(diào)用Project Marina完成房源篩選、預(yù)約看房等操作，用戶全程無需介入。這一功能將率先向訂閱用戶開放。

Gemini 2.5 Pro經(jīng)過優(yōu)化，在自然語言理解、代碼生成、復(fù)雜推理及多模態(tài)處理（圖像/視頻）等領(lǐng)域全面突破性能邊界。而輕量化模型Gemini 2.5 Flash則以更快的推理速度和更低的資源消耗，提供與Pro相近的能力，計(jì)劃6月率先開放開發(fā)者接入。

本次升級的最大亮點(diǎn)在于原生多模態(tài)能力落地，包括全新的文本轉(zhuǎn)語音（TTS）技術(shù)支持24種語言無縫切換，以及用戶僅需上傳草圖并輸入提示詞，系統(tǒng)即可在數(shù)十秒內(nèi)自動(dòng)解析圖像、生成可交互的3D模型并部署上線。

谷歌還展示了“Gemini Life”場景，用戶維修自行車時(shí)，AI可同步調(diào)取說明書、分析故障視頻、搜索教學(xué)資料、聯(lián)系配件供應(yīng)商，甚至通過語音交互協(xié)調(diào)維修流程。這種跨模態(tài)、主動(dòng)式服務(wù)模式，預(yù)示著AI將從被動(dòng)工具進(jìn)化為能自主規(guī)劃、串聯(lián)任務(wù)的“數(shù)字伙伴”。

更多>同類內(nèi)容