所有語言
分享
原文來源:極客公園
作者 | 宛辰、Moonshot
編輯 | 靖宇
圖片來源:由無界 AI生成
過去八個月,百川智能團隊依託對搜索、高質量數據處理等 AI 技術積累,在模型尺寸、質量上迅速迭代。百川智能創始人、CEO 王小川認為,百川應該在「理想上慢半步,落地上快三步」。
2023 年 12 月 16 日,在極客公園創新大會 2024 的現場,王小川進一步分享了大模型的新思考。
對於大模型的演進方向,王小川認為,目前大模型是「學」,但是「不思」,接下來模型演進的方向是把「學」和「思」要合在一起。而大模型時代做應用,必須考慮大模型技術的特點,這是過去做產品和現在最大的不同。
「過去做應用,老講產品和市場之間的匹配——PMF(Product Market Fit,產品市場匹配),但產品和市場之外把一個詞丟掉了,技術。」
他認為,當前的大模型技術距離 AGI 還比較遠,這種不完美的前提下更要明確:「這樣一個技術適合什麼樣的產品」,而不是產品經理洞察市場,回來就開始做。
在王小川看來,大模型帶來的新的開發範式下,產品經理的出發點,應該從思考產品市場匹配(PMF),到思考技術與產品的匹配怎麼做,即 TPF(Technology Product Fit,技術產品匹配)。
一個大模型應用,怎麼才算成功,王小川認為首先是能提供比傳統應用好十倍的體驗,用戶能「用得爽」。而要做出這樣的應用,產品經理不僅首先自己要是大模型的狂熱粉絲,而且還既要有傳統產品經驗,又有想象力,能夠想出大模型長什麼樣。
以下為王小川極客公園創新大會 2024 對話實錄
張鵬:你來過我們大會很多次了,剛才你也很認真地在聽兩位技術專家的探討,他們談到了前一段時間 OpenAI 事件背後有一些技術的關鍵因素,甚至提到了大模型需要慢思考的能力,不知道你有什麼看法?
王小川:是的,今年籌備大模型到 4 月份成立公司,我提了幾個關鍵詞,一個叫搜索增強,因為要把傳統知識接進去,第二個我希望是大模型做強化學習,當時提這個點,是因為已經看到了大模型本身代表了一種快思考的方式,像人一樣,一拍腦袋我就給你答案,張口就能說,它這種學習和應用推理的方法是有自己的不足的,以大模型為原點肯定不夠,當時我們認為強化學習可以產生很大幫助,這在百川內部工作裏面,也是一直非常關注的領域。
張鵬:就是慢思考?
王小川:對,就是慢思考,相對於慢思考,今天的大模型就是代錶快思考。說兩點自己的見解吧:快思考它都不叫「思」,慢思考的話我認為它才有這樣更多「思」,以 OpenAI 大模型為代表,它叫「學」,它的知識來源是學過來的。
我並不強調推理的「思」,其實人在學習的時候,你可能就要想半天,這叫思,所以之前話孔子有一句話「學而不思則罔、思而不學則殆。」
具體投射下來,大模型就是學,它其實是不思的,它不像人一樣,會來回琢磨,會把想象空間打開來看,什麼系統是在思?OpenAI 剛成立公司以及 DeepMind 做的事情,比如做 AlphaZero 和打遊戲,這個事情是在思。
但是那個是強化學習的設置上,叫多智能體的對抗,AlphaZero 它不是一個學習系統,它把之前 6000 萬局(棋譜訓練)的棋都扔掉了,反而是自己在對抗博弈,在博弈中找到一種新的理解,最後通了,它是這樣一個「思」。
AlphaZero 思完之後它停在原地,就是「殆」,它只做特定的任務,無法把它拓展到其他的領域裏面,因此我們說大模型代表了「學」,AlphaZero 代表了「思」,這兩個系統集在一塊就會很厲害。
百川智能創始人、CEO 王小川和極客公園創始人兼總裁張鵬分析大模型的「學」與「思」|極客公園
張鵬:所以接下來很重要的是要真正做到學而思是吧?學和思要合在一起。
王小川:對。具體一點的話,我們想的「思」這個場景,是你問大模型圍棋怎麼下,它其實是不會下的。但是你問一個圍棋輸了贏了能判定嗎?大模型根據它已有的知識,是能夠判定的。甚至你說寫一個代碼來判定這個圍棋的輸贏,大模型是可以把這個代碼寫出來的。
你再讓它寫一個代碼,每走一步棋之後這個棋的狀態是怎麼轉移的,也就是下棋的整個過程,它也能寫出來。
所以我們想象一下,如果大模型足夠強,雖然不會直接下圍棋,但是它可以寫出下圍棋這樣一個狀態遷移(Transaction Function)的代碼,以及最後判定圍棋輸贏的代碼。也就是說有機會讓大模型自己寫出一個 AlphaGo 的代碼再運行它,運行完之後就可以下棋了,這件事情是有機會發生的。
張鵬:歐美的技術還在不斷探索邊界,也讓人覺得有壓力,你覺得這個距離怎麼丈量,能縮短嗎?自己能創造出不同的價值嗎?
王小川:去美國之前,我在百川這麼講的,叫「理想上慢半步,落地上快一步。」後來是去了美國回來之後,把理想折了半,變成「理想慢一步,落地上成快三步」。
張鵬:怎麼理解理想上慢一步、落地上快三步?
王小川:和他們接觸之後,我認為雙方思考的底層是不一樣的,OpenAI 原生是一個非營利的組織,就是想探索 AGI 的邊界,而且他們真是這麼做的。
上一次跟他們聊,他們想嘗試把一千萬顆 GPU 連在一起,造出足夠大的系統。一千萬顆 GPU 什麼概念?英偉達一年生產一百萬顆,GPT-4 大概是兩萬五千顆,我們今天對標的 GPT-3.5 才四千顆 GPU。他們在想問題的時候,出發點就跟我們不在一個世界裏面,所以跟他們拼理想,在這一點上我們比不過。
這種情況下,人和公司都要找到自己的定位,在這個土壤里,我們要有一個自信是,我們有機會在應用落地上走的更快。
也許隨着我們用戶數據集變得更大,技術積累更雄厚之後,我們應用能做的足夠好,甚至還能拿到美國去用。這種情況下,不代表說一定到了 GPT-4、GPT-5、GPT-6 的階段,你才有機會去做應用。
不同土壤長出不同的東西,做應用是中國傳統的一個強項,也是一個創新,我反而認為是公平了。這也是中國公司遇到的更好的機會,尤其是如今美國在 OpenAI 一家獨大的情況下,做應用的公司,得迎着 OpenAI 的技術做應用,它技術做成什麼樣,你就做什麼樣的應用。
但是國內的模型公司,自己就能做應用,這種端到端的連貫性,是有機會在應用落地時,就在一個領域里,比美國的公司更快地跑出來。
王小川認為中國大模型在應用上可能跑的更快|極客公園
張鵬:我們有時候肯定很願意去追求一個有理想和使命感的事,在 AGI 這個大進程里,我們可以加入這個團隊,他們可能是前鋒,在突破邊界,但是我們可能是個自由人或者后腰,但他在團隊里也有意義,比如說我能把技術落地下來,變成有價值的東西。
王小川:這兩個層面都會有推導,鵬總剛才講的是,你作為一個世界公民,作為一个中國的公司,在世界上的一個分工合作,而不是分一個敵我,只剩一種競爭的關係,他們的發明我們尊重,我們追趕,但是我們也有自己獨有的貢獻。而不只是:我認為我需要自己,這世界並不需要我。
張鵬:蠻好的,想的很通透,在這一波創業找到了一個跟自己和解的點,就是我們怎麼在世界性的一個有意義的遊戲里,成為一個玩家,未必每個人都要做前鋒。
那也就說到另一個問題,今天大家都在說 Super App,都沒有看到什麼是未來的 Super App,剛才李彥宏也說,今天還不能確定。但我覺得如果我們要做 Super App,需要什麼樣的出發點?比如說以前我們講 PMF(產品市場匹配),今天這個 PMF 怎麼做?
王小川:對,這一點我在想可能拉近、拉遠兩個層面都有。拉遠的原因是,當我們設想重構原有的應用,比如把微信再重構一次,這個思考的角度可能一下子就把自己限制住了,所以第一,你得把這個視角拉遠。
因此回到做 Super App,一個遠期方向是它代表人的根本的訴求,這種根本訴求,我把它總結成三個關鍵詞,人需要有三個東西:一個是自己有創造力、第二個是需要健康、第三個需要快樂。
健康快樂大家特別容易理解,但是創造力呢,是源於人在世界里你總希望你的存在對世界有所不同,你能對世界有所改變,因此怎麼能幫你去改變這個世界是一個可以獨立分出來的門類。
當我們有這種願景的時候,那健康怎麼做、娛樂怎麼做,以及怎麼幫你得到信息,讓你變的更有創造力,遠期來看,這三個方向就有了。但是反過來,我們也會拋掉一些東西,比如說要做營銷文案撰寫,幫你做客服對話,其實大模型挺擅長做這些,但是我覺得這些沒有回到人的根本需求,這就又陷到原來的一種所謂重構的邏輯里了。
因此有這樣三個大的方向感之後,我會有不同的想法,這就是一個拉開了的思考,否則也掉到了大廠競爭的坑裡去了。
第二,我們往近拉,我想提一個重要的詞,就是剛才提到「PMF」這個詞,我想用新的一個詞講,因為 PMF 老講產品和市場之間的關係,把一個詞丟掉了,就是「技術」。技術,在 AI 這個時代里,它依然有很多不完美和不確定性,不像以前做淘寶或微信的時候。
我覺得現在技術是瓶頸,但其實技術問題是一定可以解決的,只是取決於工程師的水平、成本等等問題,你想要什麼,在工程層面都能實現。但大模型技術,包括剛提到的幻覺、時效性,只會自然語言,這個技術本身就有局限性和不完美。
所以我們離 AGI 還有距離,正因為技術的不完美,我們更要明確,一個技術適合於什麼產品,而不是先去搶市場,在市場看了一圈回來就開始做,這種膽量我覺得是挺可貴,但是第一性原理「TP」技術和產品之間怎麼協調,怎麼做,我認為是現在要思考的事情。
舉一個好的案例就是 Character.ai,Character.ai 創始人其實不是產品背景,他對技術,尤其產品背後的算法是非常地了解,他還洞見到這個技術本身是不完美的,可能會犯錯的,因此他首先想到拿它去做娛樂行業。其次,這個技術能夠首先承載的是自然的對話,它是一個人設,所以把它做成一個角色。
張鵬:這樣它的缺點就成了特點?
王小川:我先提兩個概念,一是,我們以前老是覺得自己在造工具,工具其實代表很多確定性,但是我們這一次造的不是工具,這一次我們造的是夥伴,更像人一樣的新物種。我們人類要接受它自己的缺點,它的優點。人是有幻覺的,人有幻覺我能用他,那為什麼機器有幻覺就不能用呢?
最後還是一個人應當匹配一件事,所以在技術的匹配上,我們認為得換一個視角,不用工具視角來看,而是面對一個人的視角來看,這是我的一個思路。
張鵬:你剛剛說的是 Technology - Product - Fit(技術產品契合度),TPF,而不是 PMF 這個概念。
王小川:對,對技術本身要有足夠的理解,讓技術匹配相關的事情,這個對產品經理是有要求的,或者公司一號位的產品經理要產生這樣的認知,大模型擅長什麼,不擅長什麼。這個過程是造人,而不是造工具。
以前有一個講國王與畫師的故事,國王瞎了一隻眼睛,缺了一條腿,但是他很自戀,要畫自畫像,他就把全國的畫師拉過來畫,畫一個殺一個,因為畫得太像了,缺個眼睛,缺一條腿,那就是詆毀形象。但是畫師把眼睛畫得目光炯炯,又英姿颯爽的形象,那就是欺君,一樣殺掉,這問題就沒解了。後來有一個畫師畫了國王打獵的圖,站在一個大石頭上,蜷着一條腿被掩蓋了,國王在拉弓,缺的眼正好是閉上的,這麼畫就兼顧了。
技術擅長什麼,不擅長什麼,怎麼去做匹配,這對產品經理就有更大的要求,我把它叫做 TPF。
張鵬:TPF 這個詞我覺得很好。TPF 看起來才是起點,如果站在未來,我們要做 Super App,如何能做好 TPF 呢?什麼情況下叫做好了 TPF?
王小川:以前產品經理更多是寫一個文檔,描述對功能定義和要求,可以畫結構設計圖給老闆看,這個產品長這樣,滿足用戶什麼需求,精確做到每一步的功能。
今天大模型不是這樣的做法,每次給大模型輸入的時候,它的輸出是不確定的,不是用一個詞一句話能講完的。這時候很難用一套演繹規則講清楚這件事。邏輯是在做演繹,一定要把它拆解開,變成一堆評測集,產品經理的要求不只是定義這個產品,而是要把定義的產品轉化成後面的評測集。也就是說,要對模型在某種輸入下的輸出,做什麼樣的測試集合。
這時,技術對口的也不是工程人員,而是算法人員。算法之前的工作習慣是你給我評測集,我去優化我的算法來滿足評測集。不管是通過調 prompt 的方法、還是做 SFT,還是 Post-Train 的方法。這種情況就變成了產品經理定義評測集,技術拿到評測集之後,再去尋找數據集或者訓練集去訓練這個系統,滿足這個評測集。
王小川講解如何給大模型定 OKR|極客公園
張鵬:這就是給大模型定 OKR。
王小川:它有一套非常嚴謹的數學評價方法。只要干過算法的工程師都會適應這樣的方法,最後用評測集和數據說話,在我們內部,這變成了一種標準的工作方法。
包括搜索公司也是這種方法,搜索是算法驅動型的產品,用評測集驅動的方式,只是我們之前由於在互聯網發展到高級階段的時候,技術不是問題,甚至已經不是算法驅動,是工程驅動的時候,這個 PMF 不是不對,只是缺了一層 TPF,最後會發現產品出來不是不能滿足市場需求,而是一直在迭代,做不出階段性的產品。
張鵬:你剛剛某種程度解釋了我很關心的一個問題——什麼是 AI-native 的開發。本質上,是看我們在開發什麼,你要在設定的目標下設定評測集,讓數據集能有效訓練出滿足評測集的要求,這個是你真正的開發引擎。
王小川:這是叫 AI-Native。如果 AGI-Native 的話,就是把 AI 的模型能力範式更加深入。
張鵬:這確實會對產品經理提出全新的要求。以前說 PMF 做得很不錯,我們是有感知的,比如用戶的使用量增長,用戶體驗很好。但現在怎麼評價做好了 TPF?
王小川:TPF 首先對產品經理有要求。
第一,一定能把需求轉化成測試集,測試集能讓技術工程師在滿足需求時發現「手感」在進步。以及把 Demo 往外推出的時候,用戶提的需求分佈正好和產品經理提的評測集分佈一致,評測集裏面的結果能滿足用戶需求。
第二,推產品的時候會提到 PMF,看市面上的 Marketing Fit(市場契合度)分佈是否一致,用戶是否滿意。
張鵬:如果用戶能把你開發的產品用得很好,是應該用得好,還是用得爽?用得爽是用戶量爆發了,變成一個 Super App;用得好是一步步來。我們是要追求一下做爆?還是一層一層先解決少數人問題,再解決多數人問題?
王小川:這個不矛盾。首先「好」是跟原來對比的,你可以自己跟自己比好了多少。如果和已經成熟的大廠對比,好 30%、20% 就是巨大的收益。但對於創業公司,如果是 AI-Native 原生應用的話,一開始就要用得爽,至少對一類有特點的具體的需求,用戶得覺得有十倍好的感知。
張鵬:爽就是十倍好。
王小川:不是好一點,是得讓你有驚喜感。今天大模型選有亮點的來做,必須做到十倍的體驗提升,周邊的需求得做到五倍、三倍的提升,這樣才能把波峰拔得足夠高后再逐步拓寬。我認為這個產品如果一開始不讓你爽,只是比原來好一些,是不夠用的。
張鵬:今天在場內很多人也很關心如何參与到大模型推動的這個新時代。如果要做新範式下的產品經理。他們應該怎麼出發?
王小川:看公司屬性,一種公司是要做端到端,本身既要做應用,也要做模型。一種是更注重應用的公司,它不怎麼碰模型或者用小模型解決。兩類公司路徑上不同,但有件事情一定要先做到,就是「用」,把自己當成大模型時代里一個狂熱的粉絲,去體驗和感受這個模型給你帶來的不同之處,讓你去好奇它,感受它,欣賞它。今天要把這個模型用起來,就像朋友一樣,你能感受什麼地方行,什麼地方不行。
張鵬:得先成為一個大模型的超級用戶。
王小川:我相信極客公園的粉絲們天生有這樣的動力,有這樣的好奇心。用起來之後,你的靈感就會冒出來,就會知道什麼是它擅長做的事,由此再變成你後面產品的構思。
張鵬:大模型技術還在漲潮的過程中,得先跟着它一起往上漲,離它近一點才能考慮怎麼應用它。
公司不斷在發展,你肯定也在不斷招人。你去選產品經理的時候,會關注他什麼樣的氣質,什麼樣的經驗,能不能開源一下你選人的標準?
王小川:百川計劃明年發超級應用,我們不談經驗,只能談一些想象。
我們蠻希望找到之前有經驗的人,做產品的人你沒有之前的經驗和想法,就說我想創業,這種情況下創業難度蠻高的。我們會要求你能夠把產品完整且有畫面感地拋出來。能夠設想出大模型長什麼樣,你也有充分的推動力、好奇心、想象力。
王小川詳解 AI 時代產品經理的「既要又要」|極客公園
同時我們也希望你之前有做傳統產品的經驗。也就是希望既有之前的成功經驗,但是又能夠把自己的經驗打散掉去滋養大模型,還能構想出大模型新的樣子,現在這個階段,是「既要又要」。
今天中國和美國的環境不一樣,包括百川和國內公司都是爭分奪秒的狀態,沒法給你三年、五年的時間做探索。
張鵬:某個在相關領域有經驗,但沒有技術能力,他能不能自己獨立做大模型應用的探索?舉個例子,你在健康領域里在做努力,我在健康領域裏面有多年積累的,也具備你說的氣質。我是加入你的公司?還是自己也可以在接入別人的模型后做探索?
王小川:兩個道路大家都會做,會有人自己探索,但探索過程中很有可能走着走着發現走不動了,有一種無力感,最後還是需要模型的支持。
因此在當下中國,還是加入一家模型公司機會更大,因為現在還沒到能夠獨開去做應用的程度。網上有文章說自己調模型做應用,這個時代還沒有到來。未來兩年之內,還是加入一家公司,能夠提供平台級支持,幫助你把原有經驗打散掉融進來,這樣成功概率會大很多,有可能做成超級應用。做小應用無礙,但做大的事情,還是盡量和模型公司充分互動。
張鵬:聽起來還是希望我加入百川。
王小川:主要看你希望做大還是做小。
張鵬:做大的就得去百川。
王小川:是。
張鵬:4 月份的時候,每個人恨不得晚上不睡覺,現在大模型跑了 8 個月,一開始的興奮也差不多消退了。創業維艱,在沉澱一段時間以後,你這次創業的心態怎麼樣?
王小川:這 8 個月的時間團隊跑得很快,成長也很迅速。現在到了更多沉澱大模型方法論的時期,雖然我們覺得自己之前的技術、能力、產品、關注、經驗都足夠,但做起來的時候依然覺得不夠「輕巧」。
在共同探索大模型的方法過程中,如何找出模型和應用之間最有效聯動的狀態,我們的認知也在不斷提高。我認為好的狀態是:看到一個月前的自己是個傻子,那你就又進步了。
剛開始工作早幾年的時候,是以每周的速度迭代,會發現自己的想法還不夠多,這次(大模型創業)我們又回到以月為單位,沒到那麼敏捷一個狀態。在一個月之後看到自己之前的不足,在快速迭代中。為了參与到大模型時代,我們的管理層和產品經理都是戰戰兢兢,如履薄冰地不斷調整自己原有的工作方法。
張鵬:這是讓你很享受的狀態。
王小川:對,每天都在刺激進步,自己還有多維地成長,哪怕想法能領先半步,但有時候發現,自己走着走着有更好的想法出來。
張鵬:挺理解這個狀態。再過五年,這家公司是什麼樣子會讓你覺得比較滿足?公司的目標是什麼?
王小川:在幫助人創造、健康、快樂這三個方向,我們都有超級應用的探索。我希望是一到五年,五年真的不敢想,因為五年之後,技術發展的高度可能都不是我們現在能理解的,每天我們技術人員都感嘆有新的論文和發展出現,有強烈的「推背感」。
我希望在兩年時間里,我們證明了大模型是能夠做超級應用的,在健康、娛樂、幫助人創造上,它能夠像互聯網時代一樣,給人帶來巨大的幫助或者希望,人們都能夠體驗到或者用到,我有這樣的信念。
到五年時間,我們可能有全新的玩法,可能五年以後地上機器人在跑,大家戴着 VR 眼鏡,每個人的数字分身都出來了。五年的時間太長,能夠想到兩年的畫面,我就很滿足了。