作者 / DeepMind 高級(jí)開發(fā)者關(guān)系經(jīng)理 Joana Carrasqueira
今年的 Cloud Next 大會(huì)上,我們推出了一系列突破性更新與強(qiáng)大功能,旨在賦能廣大開發(fā)者,與大家攜手共創(chuàng)人工智能的未來。本次發(fā)布亮點(diǎn)包括:最新的 Gemini 2.5 思考模型,實(shí)時(shí)互動(dòng)體驗(yàn)的 Live API 的最新進(jìn)展,以及正式面向開發(fā)者開放的高質(zhì)量視頻生成工具 Veo 2。近期,我們面向在 Google AI Studio 中使用 Gemini API 的開發(fā)者推出了許多不容錯(cuò)過的重要更新,一起來看看吧。
Gemini 2.5:構(gòu)建新一代應(yīng)用
我們近期推出了 Gemini 2.5 Pro,這是我們迄今為止性能最佳的 AI 模型,能展示出思考模型在生成響應(yīng)之前進(jìn)行推理的能力。作為我們迄今為止最先進(jìn)的編碼模型,Gemini 2.5 Pro 能打造引人注目的 Web 應(yīng)用,在開發(fā)智能體編程應(yīng)用方面也表現(xiàn)出色。
Gemini 2.5 Pro 已經(jīng)開始賦能在 Google AI Studio 中使用 Gemini API 構(gòu)建應(yīng)用的開發(fā)者,以及使用 Vertex AI 的企業(yè)客戶。
同時(shí),我們宣布 Gemini 2.5 Flash 即將推出。作為我們熱門主力模型的演進(jìn)版本,Gemini 2.5 Flash 在保持低延遲和高性價(jià)比的同時(shí),融入了強(qiáng)大的思考能力。
這標(biāo)志著我們朝著實(shí)現(xiàn)所有 Gemini 模型具備自適應(yīng)思考能力這一愿景,邁出了重要一步。Gemini 2.5 模型為應(yīng)用開發(fā)開辟了諸多全新的應(yīng)用場(chǎng)景,包括支持更強(qiáng)大的智能體,管理多智能體系統(tǒng),加速編碼輔助,以及利用高達(dá) 100 萬 token 的上下文輸入窗口,實(shí)現(xiàn)對(duì)整個(gè)代碼庫的生成式推理。
Veo 2 可用于生產(chǎn)環(huán)境
我們很高興地宣布,Gemini API 中的 Veo 2 現(xiàn)已正式面向生產(chǎn)環(huán)境開放使用。Veo 2 具備遵循簡(jiǎn)單及復(fù)雜指令的能力,并能以豐富的視覺風(fēng)格模擬真實(shí)世界的物理效果。Veo 2 使開發(fā)者能夠直接使用文本和圖像提示,在應(yīng)用中生成高質(zhì)量視頻內(nèi)容:
文本到視頻 (t2v):通過文本描述生成視頻。
圖像到視頻 (i2v):從圖像生成視頻,并支持可選的文本提示,以實(shí)現(xiàn)更精準(zhǔn)的指導(dǎo)。
以 Wolf Games 為例,該公司正在構(gòu)建一個(gè)生成式游戲平臺(tái),旨在創(chuàng)造高度個(gè)性化的互動(dòng)敘事游戲體驗(yàn)。借助 Veo 2,他們得以構(gòu)建出極具動(dòng)態(tài)表現(xiàn)力的電影級(jí)游戲場(chǎng)景,顯著提升了視頻的真實(shí)感、動(dòng)作準(zhǔn)確度和鏡頭控制。Wolf Games 表示,Veo 2 將其獲取理想視覺效果所需的迭代次數(shù)減少了 60% 以上,并大幅縮短了制作周期,從而加速了創(chuàng)意藍(lán)圖的實(shí)現(xiàn)。
即日起,您便可在 Google AI Studio 的 Gemini API 中使用 Veo 2:
質(zhì)量:720p 分辨率,24 幀/秒。
時(shí)長(zhǎng):最長(zhǎng) 8 秒的視頻片段。
定價(jià):生成的視頻每秒 0.35 美元。
想立刻嘗試用視頻生成功能打造互動(dòng)型應(yīng)用嗎?敬請(qǐng)查閱我們的文檔、提示指南以及 Veo 2 入門教程。同時(shí),歡迎了解 Vertex AI 在語音和音樂等其他模態(tài)的企業(yè)級(jí)生成媒體解決方案。
Gemini 模型 Live API:預(yù)覽版帶來全新功能
動(dòng)態(tài)、實(shí)時(shí)的互動(dòng)體驗(yàn)對(duì)于構(gòu)建下一代 AI 應(yīng)用至關(guān)重要。Gemini 模型的 Live API 現(xiàn)已推出預(yù)覽版,旨在幫助開發(fā)者構(gòu)建更強(qiáng)大、可擴(kuò)展的應(yīng)用,顯著提升速率限制。開發(fā)者現(xiàn)在即可通過 Google AI Studio 和 Vertex AI 中的 Gemini API 搶先體驗(yàn)前沿功能。
使用 Live API 構(gòu)建應(yīng)用與智能體,開發(fā)者能輕松實(shí)現(xiàn)低延遲處理流式音頻、視頻和文本的能力,為創(chuàng)建如同真人般的對(duì)話、實(shí)時(shí)會(huì)議以及監(jiān)控實(shí)時(shí)場(chǎng)景提供理想的解決方案。從 12 月推出實(shí)驗(yàn)版以來,我們廣泛收集了開發(fā)者的反饋,并在此次公開試用版中引入了多項(xiàng)備受期待的功能:
支持 30 種全新語言并新增兩種語音選項(xiàng)。
支持可配置的語音活動(dòng)檢測(cè) (VAD),可更靈活地自定義 VAD 解決方案。
通過滑動(dòng)上下文窗口實(shí)現(xiàn)近乎無限的會(huì)話時(shí)長(zhǎng)。
以及更多增強(qiáng)功能。
這些功能以及強(qiáng)大的工具集成 (包括搜索、代碼執(zhí)行和函數(shù)調(diào)用) 使 Live API 成為在高度互動(dòng)型應(yīng)用中使用 Gemini 2.0 Flash 等模型的理想選擇。
共創(chuàng)開發(fā)新紀(jì)元
我們對(duì)這些更新能如何挖掘開發(fā)者社區(qū)的巨大潛力感到無比振奮。從 Gemini 2.5 更為強(qiáng)大的思考能力,到通過 Live API 實(shí)現(xiàn)的實(shí)時(shí)互動(dòng),以及 Veo 2 突破性的視頻生成能力,我們熱切期待各位開發(fā)者能夠創(chuàng)造出令人矚目的創(chuàng)新成果!
-
Gemini
+關(guān)注
關(guān)注
0文章
74瀏覽量
8146 -
AI
+關(guān)注
關(guān)注
91文章
39755瀏覽量
301365 -
人工智能
+關(guān)注
關(guān)注
1817文章
50094瀏覽量
265299
原文標(biāo)題:Gemini API 最新進(jìn)展:Gemini 2.5 Flash & Pro、Live API、Veo 2
文章出處:【微信號(hào):Google_Developers,微信公眾號(hào):谷歌開發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
Gemini CLI 中轉(zhuǎn)站配置使用教程
2025年聯(lián)接領(lǐng)域十大創(chuàng)新進(jìn)展回顧
國(guó)芯科技DPNPU新IP產(chǎn)品最新進(jìn)展,單核支持0.5~4.8TOPS靈活算力配置
芯科科技分享在物聯(lián)網(wǎng)領(lǐng)域的最新進(jìn)展
DisplayPort汽車擴(kuò)展標(biāo)準(zhǔn)新進(jìn)展,顯示系統(tǒng)靈活性和效率大幅提升
數(shù)據(jù)中心電源客戶已實(shí)現(xiàn)量產(chǎn)!三安光電碳化硅最新進(jìn)展
上海光機(jī)所在激光驅(qū)動(dòng)離子加速方面取得新進(jìn)展
東風(fēng)汽車轉(zhuǎn)型突破取得新進(jìn)展
FMCW激光雷達(dá),工業(yè)應(yīng)用新進(jìn)展
Gemini API集成Google圖像生成模型Imagen 3
英特爾持續(xù)推進(jìn)核心制程和先進(jìn)封裝技術(shù)創(chuàng)新,分享最新進(jìn)展
谷歌Gemini API最新進(jìn)展
評(píng)論