所有語言
分享
原文來源:品玩
圖片來源:由無界 AI生成
雖然我們每天都已經習慣了用手機來完成簽到、回復、發信息等各種工作,但很多人還是時不時的會感慨,科技都已經這麼發達了,這些事手機就不能自己動手把工作幹了嗎?
還真別說,這些事可能用不了多久就不需要我們親自動手了。
騰訊這两天聯手德州大學達拉斯分校的研究團隊在 Arxiv上發布了一篇名為《AppAgent: Multimodal Agents as Smartphone Users》的論文,介紹了一個名為AppAgent的多模態模型應用項目。論文表示,AppAgent可以學習用戶的手機操作習慣,在手機上自己執行各種操作。
它可以模仿用戶的口吻在社交媒體APP上發帖,還可以按照人的口氣撰寫和發送郵件,還可以修圖、導航、給視頻進行評論,甚至是通過APP買東西。
AppAgent的操作分為兩個階段,分別稱為探索階段和部署階段。在探索階段,App Agent觀察不同應用程序用戶界面的交互情況,這就好像一個牙牙學語的孩子,只要通過充分觀察,App Agent就能熟練使用某個應用程序。而這些知識會被精心整理成文檔,放進App Agent的知識庫中。
學習階段完成后,AppAgent就可以開始自己行動了。這個階段它可以處理任何支持的應用程序操作任務。這種有條不紊的方法使App Agent能夠高效地完成不同應用程序中的各種複雜任務。
目前騰訊已經對 Temu、Gmail、X、Youtube 等十款APP進行多次測試,至少確保了50多種不同的任務。而在開放測試之後,App Agent還將會學習到更多APP的操作方法,方便不同人群使用。
騰訊還放出了一個案例,直接讓App Agent 在 Gmail 中給人發一封郵件。在向App Agent 發出要求之後,App Agent 直接輕車熟路的打開 Gmail,找到相應的聯繫人,洋洋洒洒的寫了一封郵件給人發過去。全程根本不需要人類自己動手。
這聽上去是不是很酷,有了App Agent,一些重複繁瑣的功能就可以自己完成。最典型的場景,就是拼多多的“砍一刀”。以後再面對家人朋友幫忙砍一刀的要求時,大家完全可以把這些無聊又繁瑣的複製、點擊操作交給 App Agent來完成。
而對於很多上班族來說,App Agent完全可以自己完成手機上下班打卡的工作需求,再也不用擔心因為忘記打卡而錯失全勤獎的問題。App Agent還解決了安卓用戶無法藉助Siri這樣的語音助手自己回復消息的問題,只要日後開放語音接口,就可以輕鬆實現解放雙手,動動嘴就可以讓手機自己回復消息的夢想。
App Agent一經公布,讓不少人對這款解放雙手的AI產品產生了興趣。
App Agent看上去很棒
不過也有些用戶在感慨App Agent很酷的同時,也在擔心它的使用場景。
這也可能是個雙刃劍,它在提高工作效率的同時,也可以用於操縱社交媒體。
還有人在擔憂自己的數據安全。
有些擔憂也挺有道理的,畢竟誰也不能保證在App Agent的幫助下手機會不會自己給自己安排一堆任務。
到時候一覺醒來人們發現,手機自己給購物車清空了,恐怕很多人就要覺得這是一場噩夢了。