谷歌打擂OpenAI：Gemini Live和GPT-4o誰能更勝一籌？

巴比特_元宇宙之心MetaverseHub243天前

在本周二舉行的谷歌I/O大會上，谷歌推出了一款全新的人工智能產品——Gemini Live。人們原本以為安卓系統的Gemini助手會帶來某些新東西，但這就是谷歌，一切皆有可能。

值得一提的是，Gemini Live是在OpenAI首次消費者產品活動的第二天發布的，很難不讓人猜想該產品是否是為了對抗ChatGPT Voice而發布的。

而且兩者都採用了原生多模態人工智能模型，並擁有出彩的語音和視頻功能。

目前，在全球人工智能競賽中，領跑者無疑是OpenAI和谷歌，OpenAI似乎與蘋果和iPhone建立了緊密的聯繫，而谷歌則掌控着安卓系統。

並且，相對於Rabbit r1或Humane Pin這樣的人工智能設備而言，智能手機才是短期的贏家。ChatGPT Voice和Gemini Live都被集成到了現有的智能手機產品中，而且這兩款產品目前都還未上市。至於下一代助手是否能夠與之相比，這是后話了。

01.Gemini Live與GPT-4o誰更勝一籌？

下圖是谷歌發布Gemini Live時的發言：

“今年夏天，我們將擴展Gemini的多模態功能，包括使用語音進行深入的雙向對話。這種新體驗被稱為Live。”

在實時視頻分析和語音功能方面，谷歌是有所欠缺的。去年穀歌發布Gemini Ultra時，它發布了一段響應“實時視頻”的視頻，但生成的結果並不理想。

不過，這一次谷歌把這項技術放在了I/O上試用，包括語音和視頻對話。

OpenAI和谷歌都為視頻及語音對話提供了一個界面，都可以通過手機攝像頭進行實時的視頻分析。並且語音和視頻的響應都很快，能夠進行真正自然的對話，甚至可以中途打斷人工智能。

不過，兩者也有一些明顯的不同之處。OpenAI的ChatGPT Voice聽起來更自然，能檢測並響應情緒和聲調，甚至能根據你的要求實時調整說話方式。在Gemini Live上並沒有看到這種功能。

二者另一個最大的不同是多模態。Gemini仍然依賴其他模型進行輸出，包括使用Imagen 3輸出圖像和Veo輸出視頻。但GPT-4o是雙向的原生多模態，“o”代表了全方位，可以創建自己的圖像和聲音。

02.AI的下一步發展：全方位語音助手

總的來看，目前人工智能的發展趨勢似乎正在從文字輸入轉向語音輸入。

當人們看到OpenAI的公告時，可能就會意識到，這是人機界面的一次範式轉變，其意義不亞於鼠標或觸摸屏的推出。

谷歌也將繼續推出原生、自然的語音界面，Meta公司在其VR頭顯和Ray-Ban智能眼鏡中配備了語音機器人MetaAI。

雖然智能手機可能是目前的贏家，但這些語音AI模型真正的適配設備顯然是智能眼鏡。因為眼鏡上的攝像頭與眼睛同高，眼鏡臂也可以將聲波送入用戶的耳朵，我們可以稱之為完美的人工智能設備。

目前的問題在於，OpenAI是否會進軍硬件領域，推出自己的智能眼鏡，或者這會成為新的Siri，併為未來的蘋果眼鏡產品提供動力。此外，谷歌是否真的有勇氣復活谷歌眼鏡，也是一個問題。

原文來源於：
https://www.tomsguide.com/ai/google-gemini/google-gemini-live-vs-chatgpt-4o-voice-which-ai-assistant-could-win
中文內容由元宇宙之心（MetaverseHub）團隊編譯，如需轉載請聯繫我們。

免責聲明：本文版權歸屬原作所有，僅代表作者本人觀點，不代表YouToCoin的觀點或立場，文章內容僅供參考，不構成投資建議。投資者據此操作，風險自擔；如有關於內容、版權等問題，請與我們聯繫。