所有語言
分享
文章來源:不客觀實驗室
作者|陸
上個月,彭博社消息稱蘋果正在與 Google 進行談判,希望將 Gemini 集成的 iPhone 當中,為 iPhone 的軟件提供 AI 相關的新功能。把新系統的核心功能“外包”給第三方,這種做法非常不蘋果。
其實蘋果自己也在 AI 上做了不少投入,比如在消息傳出的同期,蘋果發布了自研 MM1大模型論文,這是一個最高擁有30B 規模的多模態 LLM,但蘋果遲遲沒有公布公測時間,也沒有對外宣布任何上線計劃。據知情人士接觸到蘋果內部團隊后了解,團隊認為自家的大模型與主流的 GPT4、Gemini 相比“不具備競爭力”,才開始尋找第三方合作商。
或許在6月即將舉行的 WWDC 2024上,蘋果會公開自研模型的進展與第三方廠商的合作計劃,畢竟屆時需要對所有用戶和開發者展示 iOS 18的核心賣點。而 iOS 18被蘋果內部譽為史上升級最大的一個操作系統版本的原因,就是蘋果宣稱 iOS 18上的 Siri 將會真正的成為用戶的“私人助理”。
如果該合作確認落地,那由於合規問題,蘋果需要在國內找一家公司進行合作,而不是直接使用 Gemini。
據了解,蘋果此前曾三家公司洽談合作 AI 大模型,其分別有百度的文心一言、阿里的通義千問、月之暗面的 Kimi,但目前概率最大的還是百度,畢竟在三星最新一代的 S24 系列產品上,大陸以外發售地區的 AI 合作方也是 Gemini,而大陸則是以百度、美圖為首的一眾中國大模型公司。
Gemini 在手機上能做什麼?
為了了解目前 Google 在手機上能夠實現哪些AI功能,我們找到了一台 Google Pixel 8 Pro,這是 Google 目前唯一能夠運行 Gemini Nano 端側大模型的機器,可是在體驗之後,我們發現目前 Gemini 目前的大多數功能都十分依賴網絡,端側模型 Gemini Nano 能夠做的事兒十分有限。
刨除因為中文系統語言設定暫不開放的功能,目前 Google Pixel 8 Pro 上面的 Gemini 可以為用戶提供八大核心功能:
一.魔法修圖
在 Google 相冊中點選“編輯”按鈕,你就可以在左下角發現一個彩色的“魔法修圖”圖標,選擇後用戶就可以對照片中想要編輯的內容進行框選,框選后你不僅可以進行消除,還可以進行縮放處理。但需要注意的是,每張圖片在處理之前一定要上傳到雲端的 Google 相冊進行“備份”,並且在圖片處理的過程中需要保持聯網。
圖源:品玩 LU
選擇擦除后,大模型會對擦除的主體後面的畫布進行“想象”並生成補充內容,並給出4張反饋供用戶選擇。在該步驟下,AI 需要識別圖片中的物體,並學習該物體的大概輪廓,對應的在數據庫中進行比對並給出補充。
圖源:品玩 LU攝
可以看到,將圖中女人刪除后,Gemini 對香港的紅色出租車的細節補充還是比較到位的。
你也可以將畫面中的主體進行縮放,這個功能非常適合在景點合影時,修正人物不夠突出的構圖效果。
圖源:品玩 LU
二、“魔法換天
在沒有主體的風光照中,你也可以依靠 Gemini 對照片進行不同“時空”的轉換,比如這張維多利亞港的風光照,我們點擊魔法修圖按鈕后,可以看到 AI 判斷我們可以針對天空、日落、風格化、和水進行四個大方向的調整。
圖源:品玩 LU 攝
這個功能非常類似小米手機上很出名的“魔法換天”,不得不說日落時分這張做的還蠻有感覺的。
圖源:品玩 LU
水面的修改就差了點意思,修改后的這張照片拍攝視角彷彿我站在水裡……
圖源:品玩 LU
風格化的本意,是 Google 根據照片生成一張場景相同但不同風格照片,但 Gemini 直接把維多利亞港變成了田野……
三、音頻橡皮擦
這應該算是本次 Google Pixel 手機“ AI 化”之後,我個人覺得唯二能體現 AI 效果的功能。在該功能下,Gemini 能夠將一段視頻中的的聲音進行分層,並且選擇性保留。
圖源:品玩 LU
如果你是一個Vlog拍攝者,在拍攝例如展會等視頻素材時,就可以將展覽周圍的人聲和噪音隔絕,只保留拍攝者自己的聲音,然後配上一段合適的音樂,會給你的剪輯工作省下不少的時間。
四、最佳照片
這個功能簡單來說,就是在拍攝合影時可以將多張照片中大家各自最完美的“腦袋”,湊成一張完美的照片,再也不用擔心拍照時有人低頭、有人閉眼的情況。
圖源:品玩 LU
五、AI 壁紙
Google 在手機端其實也提供了“生成圖片”功能,但把它隱藏在了壁紙程序中,在這裏,你可以選擇不同主題開始創作一個專屬於你的壁紙。
圖源:品玩 LU
你可以通過不同的組合詞來進行調配(暫不支持自行輸入),生成不同的圖片風格,這其實是一個挺有趣的功能,但問題是,除了作為壁紙之外,這些生成的 AI圖片並不能直接保存到相冊分享給別人。
六、視頻增強
之所以把這個功能放到最後,是因為從實用角度出發,它是 Google Pixel 8 Pro 升級 AI 之後,提升最翻天覆地的一功能。
視頻增強功能可以讓用戶拍出夜景更加明亮、畫面抖動更小、取消遠端光學虛化、增加HDR+效果的,最高4K 30幀的視頻畫面,Gemini在視頻拍攝完成會進行短暫的機內計算,最終合成一個 AI 認為最完美的畫面效果。
圖源:品玩 LU
七、即圈即搜
在相冊中長按底部狀態欄橫條,用戶就可以調出 Google 的即圈即搜功能,當用戶圈選圖片中的某些內容后,系統就會通過 Google 搜索引擎匹配對象,給到一個答案。
圖源:品玩 LU
但我認為與其說這是 AI 功能,不如說是圖片搜索的一個全新入口。
八、語音備忘錄轉文字
顧名思義,Gemini 可以將文本內容同步生成文字稿,目前該功能支持印地語、德語、意大利語、日語、法語、繁體中文、英語、西班牙語共8個語種。
圖源:品玩 LU
然後呢?
然後就沒了……這幾乎是你在中文系統環境下能夠體驗到的全部 AI 功能,其中實際應用 Gemini Nano 的端側 AI 功能就只有語音轉文字這一個,剩下就連 AI 壁紙生成都需要依靠聯網完成。
可以說 Google Pixel 8 Pro 所有的核心 AI 功能點,都集中在了 Google 相冊這個 App 上,且主要依靠“端雲協同”,無網絡環境下的 Pixel 8 Pro 可謂是一點都不智能。
在下載了Gemini 獨立 App 之後,用戶可以讓它替代 Google 語音助手,在自然語言處理能力上更加出色,不過並不能夠和其他手機下載 Gemini App 后拉開明顯的使用體驗。
和百度、美圖合作的國行版 S24,在 AI 功能上做得怎麼樣?
除去花哨且沒用的“文案優化”、“文生圖”這些 AI 功能之外,國產手機廠商其實已經逐漸在手機的 AI 體驗上做出了不錯的落地功能。
在同樣沒法將 Gemini 落地的國行三星 S24 系列來說,三星 AI 主要的功能點體現在“通話實時翻譯”、“即圈即搜”、“魔法修圖”這三個核心功能。
除去通話實時翻譯之外,“即圈即搜”和“圖片重構”我們在上文的 Google Pixel 8 Pro 上均已體驗到,只不過 Pixel 用的大模型是 Gemini,而國行三星則是由百度、京東和美圖提供的定製功能。
即圈即搜這個功能兩者最大的不同,並不是技術能力,而是搜索源。
Gemini 的資料庫是所有可以在 Google 上搜索到的網頁,比如這張著名視角的堅尼地城,Google 給出的了如攜程、zFrontier裝備前線、X、微博、instagram等網站上相近視角的信息。
圖源:品玩 LU
而百度的資料庫只有百度百科,我們用同一張照片在三星上進行搜索,由於百度百科的堅尼地城並沒有同樣視角的圖片,所以三星只給出了一個答案——城市街道……
圖源:品玩 LU
最值得吐槽的,就是在搜索之後京東一定要“配套”給用戶推薦一個商品鏈接,這個功能幾乎就沒有準的時候。因為這個搜索的大前提,是搜索的物品要在京東售賣,否則京東就會強行為用戶匹配一個相近的商品,導致大多數時間都是“驢唇不對馬嘴”。
不過,當搜索的內容在百度百科有相近角度的圖片素材時,百度的搜索功能相對於 Google 就會更加準確一些,比如中央電視塔百度就可以很精準的識別出來,而 Google 智能識別出大致的位置在玉淵潭公園附近。
圖源:品玩 LU
當然,雖然地標性建築的搜索百度做的不錯,但在京東鏈接上三星依舊沒讓我失望,這次它給的推薦是格力前置凈水器……幹得漂亮京東。
圖源:品玩 LU
在“魔法修圖”功能上,美圖的能力和 Gemini 還是略有差距,我們用同樣的一張照片分別在 Google Pixel 8 Pro 和三星 S24 Ultra 上進行圖片重構,得出的效果確實是Gemini 更加自然。
圖源:品玩 LU
並且讓我非常不理解的就是,在人物消除之後三星 S24 Ultra 一定要在圖片左下角显示一個“內容由 AI 生成”,讓人瞬間沒有任何分享慾望。可以確定的是,目前其他的手機廠商的 AIGC 消除都不會強制打上這行水印,所以絕不是因為法律合規問題導致的,完全是三星的“自作聰明”。
總結
雖說在照片編輯能力和搜索能力上國內的技術提供方已經已經給出勉強追趕上 Gemini 的解決方案,但蘋果做產品的思維和其他廠商是完全不同的,搭載 iOS 18的新 iPhone 要做到的,絕不只是 Google Pixel Gemini AI 功能的“拙劣複製”。
從 Siri 剛剛發布開始,喬布斯對 Siri 語音助手的定義就不是單純的搜索工具,而是個人智能助理。
從蘋果自研基於 Ajax 的聊天機器人服務就能看出,目前蘋果最看重的,其實是 Google Gemini 基於自然語義的對話能力,而不是我們上文提到在Google Pixel 8 Pro 上實現的那些“工具類”功能。
理想狀態下,如果 Siri 接入 Gemini,那用戶真的就可以把 Siri 當成一個聊天機器人,系統會學習用戶的生活軌跡、使用手機的習慣、家和公司的位置等多重信息,智能作出判斷。
舉個例子:當 Siri 通過時間、地理位置、語氣、聲紋等信息判斷用戶可能在酒吧喝醉了,就會在和你對話的過程中幫你調取如 Uber、滴滴這類線上打車軟件,叫一輛從當前位置到家的車,並且通過 AI 助理打電話告訴司機可能乘客處於醉酒狀態。
這些例如從當前位置打車回家、AI 助理與司機通話等功能拆分開來,目前的 AI 大模型助手都已經可以實現,但如何將一整套流程完整的、順暢的“串聯”起來,是新版 Siri 需要着手解決的問題。
相較於更加工具項的百度文心大模型,其實字節系的豆包 AI 智能助手在自然語義的溝通能力上“更勝一籌”,因為只有讓 Siri 聽起來更加像一個真人,用戶才有跟它溝通的慾望。
想想看,你嚮往的 AI 助理,是電影《Her》裏面的體貼溫柔、聲音略帶沙啞的斯嘉麗約翰遜呢?還是一行行冰冷的文字呢?