所有語言
分享
文章來源:Founder Park
4 月 4 日,Y Combinator W2024 Batch Demo Day 正式開始。這次共亮相 260 個項目,YC 從 2.7 萬份申請中篩選出來,通過率低於 1%,是歷史上 YC 錄取比例最低的一輪批次之一。
其中超過 60% 是 AI 相關。YC 身處科技最前沿的硅谷,與這一輪 AI 技術革命的核心生態有着深厚聯繫,以創業孵化器模式聚集了大量早期項目和優秀創業者,項目覆蓋的廣度和前沿性首屈一指。
Y Combinator 是硅谷最著名的創業加速器之一,每年會有冬季(W)和夏季(S)兩個錄取批次,YC 具有強大的校友網絡和品牌優勢。
自 2005 年由 Paul Graham 創立以來,YC 已經成為全球最具影響力和最成功的創業孵化器之一,孵化的公司包括 Airbnb、Dropbox 和 Reddit 等。YC 社區現在有超過 4,500 家初創公司和 11,000 名創始人。
這期入選項目中我們看到了 AI 很多落地場景和有想象力的應用;與去年相比,能明顯感到 AI 落地在加速,越來越多創業者在嘗試解鎖 AI 全新的「打開方式」。雖然這些項目本身未來不一定會成為偉大的公司,但它們為探索 AI 創業機會帶來了很多啟發。我們總結了本期 YC 入選項目的最新趨勢和讓人眼前一亮的項目,與大家分享。
除了頭部的幾個經典應用場景,可以看到的一個趨勢是產品的行業分佈更加廣泛。這一批 YC 項目的公司類別大約有 35 種,而之前是 28 種(新的垂類場景包括人力資源、招聘和航空航天)。「人工智能並非萬能良藥」(「AI isn't a silver bullet」),當 GenAI 的浪潮逐漸冷靜下來,人們依舊需要領域專業知識來吸引用戶並解決問題。
但同樣明顯的是,隨着人工智能技術的普及,我們也在創造新的問題。看到這批公司中有專註於 AI 安全的公司是很有趣的——有一家公司正在研究欺詐和深度偽造檢測,而另一家公司正在構建易於對齊的基礎模型。我們可能會繼續看到更多公司處理新 AI 能力所需要的新場景。
AI 應用方式更加多樣化。在上一批中,主要的一類產品是面向程序員的「編程助手」。雖然這些在當前批次中依然存在,但同時也有更多公司在構建「原生 AI」產品和平台——這些軟件以簡單地與 AI 助手側邊欄對話的方式使用 AI。
六個月前,Charlie 提到了幾個觀點:AI+Olps 領域的規模也展示了為真正實現大型語言模型和其他模型的生產化所需的工作量。在外部使用 LLMs 時,關於可靠性、隱私、可觀察性、可用性和安全性仍有許多未解決的問題。
即使在今天,AI 運維也是最受歡迎的類別之一。雖然有些公司提供的是我們之前見過的服務,但許多公司也在幫助將人工智能產品開發前沿的技術 SaaS 化。比如直到去年,RAG,即檢索增強生成在人工智能研究圈子之外還是一個鮮為人知的名詞,但現在,多家公司正在構建「RAG 即服務」。
LLMs 部署的最佳實踐包括策劃訓練數據、定期運行評估和測試向量塊大小——但在生產中執行這些操作的行業標準工具並不多。開發人員正在研究有效的方法來減輕幻覺現象。部分原因是技術本身——當最先進的技術每 3-6 個月就發生顯著變化時,很難找到一個穩固的立足點。亞馬遜 S3 和 EC2 目前已經有 18 年的歷史,而 GPT-3 出現還不到四年。
像 OpenAI 和 Anthropic 這樣的公司專註通用基礎模型的建設,人們很容易認為新公司主要在構建「套殼 GPT」。然而,可以從 YC W24 這批公司看到,讓公司從頭開始訓練模型依然需要。下面是一些為新用例自己訓練的模型:
從 W24 項目的領域分佈看,應用層產品里依然以 B2B SaaS 為主,其中 B2B SaaS 項目佔比超過 60%,C 端消費者產品占 11%。雖然 C 端消費者佔比只有 11%,但 YC 的合伙人 Jared Friedman 說到「這屆 YC 的主要趨勢之一是消費型人工智能公司的浪潮」, AI 給 C 端產品帶來了更大的想象空間。
領域分佈:
本屆不僅在 AI 項目數量和佔比有進一步提升,而且應用層項目和落地的垂直領域也有大幅增加。很明顯,AI 的應用落地正在加速。從這些項目中,我們看到幾個 AI 應用發展的新趨勢:
AI Agent
垂直領域
多模態
AI 安全與評估
這屆 YC 讓我們看到創業者對 AI 技術的理解和應用日趨成熟,應用場景大量湧現,可以預見,未來一兩年將有更多的場景爆發,人們期盼的 AI 應用百花齊放的時代可能會到來。
以下的項目讓我們研究時眼前一亮,其中不少有意思的創意,也代表最新的 AI 應用發展趨勢。
YC 官網有本次所有入圍項目的詳細資料:https://www.ycombinator.com/launches?batch=W2024&tag=Artificial+Intelligence&sort=date
從 AI Assistant 到 AI Worker
這期看到的 AI Worker 項目最主要的特點是:主動行動。從診所前台主動給患者打電話,到醫生助理主動進行患者治療期間的行為監控;從招聘助理主動搜索簡歷和完成第一次 phone screening 面試,到 Sales 主動給潛在客戶致電。
Agent 的行為範圍從被動地完成某個任務,逐步擴展到主動完成一個完整的角色場景閉環,這種從 Task 到 Job 的擴展是 Agent 從 AI Assistant 到 AI Worker 發展的關鍵一步。
邁出這一步之後,Agent 將不受限於亦步亦趨地遵循人類的硬編碼指令和工作流(SOP),走進一個更廣闊的新世界。當然,獲得自由的 Agent 還在等待更有效的 memory 機制、interactive learning 和來自 LLM 更強的推理能力支持。但無論這些技術發展快與慢,我們都將看到越來越多的 AI Worker 進入日常的工作和生活。
数字員工 Agent
領域知識庫的構建,從簡單的 RAG 技術走向知識的學習和使用
LLM 的神奇之處在於通過 pre-train 過程成功地編碼了海量常識知識,並且能通過自然語言交互自如地應用這些知識。然而無論這些通用知識多麼完善,都無法覆蓋應用領域特定的知識。因此,Agent 如何構建自己的領域知識庫、如何有效地使用這些知識、以及如何通過交互學習和積累知識,始終是 Agent 的根本問題,也是最前沿的研究課題。
這期 YC 有一些非常有意思的項目在探索 Agent 的知識發現、構建和學習的實踐。領域知識庫的構建和交互,從簡單的 RAG 技術走向知識的學習和使用。知識的核心表達也從 embedding 變成自然語言,而向量數據庫最終將只是一個檢索加速的技術。
知識構建與學習
Chatbot—從陪伴聊天到心理健康
經過 Sam Altman 多次警告和 OpenAI 應用平台淹沒套殼應用的兩次重大發布,去年初各種套殼大模型的聊天項目逐漸淡去,創業項目的重點逐漸從通用的陪伴走向針對心理健康/情感的關注。
這期關注到的幾個項目包括:心理健康治療、伴侶關係改進、以及患者行為模式的健康監測。這些項目重點關注場景的專業性,Agent 主動發起交互,從被動的陪伴聊天到主動地有針對性聊天,從利用人性弱點獲取流量變成真正幫助人類的心靈健康。
心理健康 Agent
Dev Agent 開始走向真實的軟件工程項目,但依然面臨很大挑戰
這輪 LLM 從代碼語料中獲得推理能力的突破,而代碼也是 AI 最核心的能力,正如過程記憶(Procedural Memory)是人類所有技能的歸宿一樣,學習任何技能和任務最終只有沉澱成過程記憶才可能獲得高確定性、低成本和高度并行的能力。同樣對於 Agent,任何任務學習最終只有變成代碼才能高效可靠地運行。
雖然不斷有明星項目聲稱自己開發了 AI Programmer 或 Dev Agent,引起市場和大眾的追捧,但至今為止還沒有哪個項目達到預期。能承擔的任務是在變多,但都還沒有解決大規模現有代碼集的增量開發,哪怕是不影響軟件行為的 refactoring 或 bug fixing 的一般任務都遠沒有做到,足見這個目標的現實難度。
也許,需要 LLM 的推理能力再上一個台階才有可能突破。這期 YC 的項目應該反應了當下 AI 應用於軟件開發領域較為前沿的一些創意,比如:把 Figma 上 UI 設計直接變成代碼並支持更新,chat to repo 的代碼集層面的語義理解,以及支持以文檔(而非代碼)為中心的 AI 開發模式。
軟件開發 Agent
AI 在政府監管及審批場景的應用
這期項目中看到多個應對政府監管或審批流程的項目,例如:申請國家科學基金、通過 FDA 認證、發現和參与政府採購招標項目等等。這其實是一個非常適合 AI Agent 的場景——在應對嚴格的規範和過程時,需要非常仔細地研究每一步驟的規範文檔,提供和填報高度相關的信息。
針對這些精細的自然語言任務,AI 顯然比人類更有優勢,而且目前 AI 已經具備了很強的文本理解能力,能夠從眾多素材中有效地抽取規範要求的內容,加以總結和整理,統一提報。AI 在這個特別領域的應用價值非常顯著,缺點是使用頻次較低,市場天花板可能不高。
政府流程與監管
Healthcare 領域開始出現大批落地場景
由於美國醫療行業的商業價值太大(占 GDP17%),這一輪 LLM 在自然語言交流和理解方面的突破解決了醫療保健行業智能化最大的障礙,像診所預約、患者回訪、手術前溝通以及患者的追蹤等,語音界面的 Agent 已呈現出非常好的可用性。這一切不僅顯著降低了醫療成本,提升了質量,而且擴大了醫療的服務範圍,對患者的健康改善提供了更廣泛的支持。
Agent 和电子健康檔案系統的集成,也為下一步 AI 參与更多的診斷和治療任務打下了基礎,整個 AI 醫生融入現有醫療體系的基本條件已經具備。不過,中美醫療行業的體系、商業模式差異明顯,很多創業思路未必適合國內。
醫療
Sora 的發布給 AIGC 領域帶來了一場地震,而這場地震也讓大家重新思考視頻應用的本質。或許視頻模型應該提供精細的渲染技術和強大的物理引擎,而場景情節和畫面中到底該有什麼人和物、角色的性格和表演以及故事主題線索的演進,所有這些才是視頻更核心的東西。
畢竟在觀眾眼中,自然的紋理和物理世界的定律都是高度確定的,沒有不行,一旦有了就不再是關注的重點。真正的故事、角色和體驗才是人們真正想要的。這期 YC 創業者更多回歸到視頻生成應用這個更核心的方向上。
談到故事情節和劇本,真正最能發揮創作想象力的就是遊戲——不僅有文學的創作空間,還有聲音和影像的體驗,最重要是能通過互動,一邊創作劇本,一邊扮演角色,也就是所謂的互動敘事(Interactive Narrative)。另一方面,由於遊戲場景受控,對視頻技術的要求比真實物理世界和電影拍攝的要求都低很多,也是多模態 AI 技術的最佳試驗場之一。
視頻生成與遊戲
無論現代軟件工程規範如何告誡 Test Driven Development 是高質量發展的基礎,現實中很少有從開發測試用例開始做項目。背後的原因,一方面在於人們開始的時候很難完全想好自己最終要做的產品是什麼樣的(越是野心勃勃的產品,越是有這個問題),另一方面很多人都預期開始寫的大部分代碼將被丟棄。
而現在的 AI 也處於這個階段,基本上整個產業還處於「裸奔」狀態,尤其是 Agent 的評測,基本上是空白,已有的大部分 benchmark 都是用來證明 Agent 如何成功的,很難揭示出 Agent 多樣性的失敗模式。這期 YC 中有一個很值得關注的項目,其主要亮點就在於構建一個 Agent,專門用於評測其它的 Agent。這個想法雖然很平常,但真做起來會是非常有想象力的一個方向,尤其是如何避免這個評測的 Agent 自身成為一個邪惡的破壞者,也是業界一個很有挑戰的問題。同一個方向上,另外一個項目是識別 AI 生成的圖像和視頻。這個想法雖不新穎,但確實是市場的剛需。
評估及安全
我們注意到,這屆 YC 有很多頂流學校畢業的年輕人,其中大多數在畢業后 3-5 年開始創業。雖然年輕,他們的項目卻显示出了對技術和場景不俗的洞察力。很多公司成立時間很短,項目 demo 的完成度卻很高,基本上都能有端到端的場景貫通,並能彰顯出項目價值。
也許,這是新一輪技術革命到來的一個顯著特徵——面對新技術,很大程度上大家都在同一起跑線上,這時年輕人自然有很大的優勢。此次入選的項目創始團隊大都很緊湊,都是 2-4 個人已經走了很遠,且聯創者之間有長時間的共事經歷和友誼。
另外,我們也發現了這期項目篩選背後的「精英主義」:創業者年輕、教育背景(Harvard、MIT、Stanford、CMU、Berkeley 等)和工作經歷(Google、Meta、微軟等)好,項目的定位和創意的想象力也出色。對於 W24 的創始團隊而言,除了白人佔比最多(36%),亞洲人佔比其次(25%)。同時,21% 的 W24 公司有女性創始人,11% 的創始人是女性。
也許現階段,在這些業界頂流的大學和大廠,人們有更多機會接觸 AI 技術,對應用場景的洞察視野也更加開闊,周圍的精英也更能激發創業者的想象力。YC 的這個選擇傾向,在 AI 的時代,不知是原因還是結果。