全部语种
分享
文章来源:智能涌现
文|李然 李苗
编辑|李然
“Open AI 欧洲版”Mistral AI又融到一笔巨款,让本就富裕的家庭锦上添花。
华尔街日报报道,法国AI独角兽Mistral AI即将获得新一轮6亿美元的融资,目前估值达60 亿美元,比半年前翻三倍。据知情人士透露,现有股东General Catalyst和Lightspeed Venture Partners预计将成为新一轮融资的最大投资者之一。
天下武功唯快不破。无论是产品交付还是融资节奏,Mistral的效率都高得惊人。
2023年4月底成立,花1个月写了7页PPT ,6月份,Mistral首轮融资1.13亿美元。
半年内,Mistral发布了开源的Mistral 7B和MoE模型Mixtral 8x7B Instruct。年底,这家仅20人规模的公司就筹了约4.15亿美元,估值达20亿美元。
今年2月底,Mistral Large发布,强势对标GPT-4。同日,微软也正式宣布与Mistral AI达成合作。
Mistral AI的高速发展历程堪比“爽文”,“爽文”的标题可能是:
Mistral AI,成立1年整,融资超过11亿刀,估值达到60亿刀,只做了一件事:
用最高效的方法做最高效的大模型。
在公司网站对于自家产品的介绍中,他们最重点介绍的就是自己是世界上最高效的大模型提供商。
他们是大模型性能进入GPT-4时代之后,第一家发布MoE构架开源大模型的公司,现在Mistral 8*22B,依然是开源大模型中标杆级别的存在。
而MoE构架最重要的特点就是能在训练和推理的过程中大大降低算力和能源的消耗,还能提供非常高的推理性能。所以Mistral推出的8*7B开源模型才能做到6倍于Llama2 70B的推理效率。
而在闭源模型中,他们家的模型的价格也同样是第一梯队模型提供商中最优惠的。
Mistral-Large的价格和GPT-4 Turbo相比,打了4折。
和Anthropic的Claude 3超大杯相比,更是差不多打了2折。
虽然API价格的定价相对复杂,除了实际成本之外,还有很多考虑因素。但是Mistral AI在能力相对接近的条件下,为客户提供4折甚至是2折的价格选项,足以说明他们的闭源模型在推理能效方面是第一梯队模型提供商中是非常有优势的。
这种技术路线上体现出的效率优势,也许正是投资人看中他们的产品和能力的一个非常重要的特点。
2023年5月,3位创始人拿着7页PPT开始了他们创业之旅。整整一年之后,让我们看看他们做出了些什么成果:
2023秋天发布Mistral-7B,一个磁力链接,没有花哨的宣传,开源社区为之疯狂。
2个多月后,一个磁力链接丢出Mistral 8*7B。
网友感叹,“谷歌强在发布,Mistral强在交付”
又过了差不多3个月,Mistral发布了自己的闭源模型全家桶,Mistral-Large,Mistral-Medium,Mistral-small。模型API服务随之上线。超大杯能力对标GPT-4。
4月10日,还是一个磁力链接,Mistral 8*22B性能接近GPT-4,开源社区从此站起来了。
至此,Mistral AI用一年不到的时间,从3个人4张PPT,一路高速弯道超车,一己之力完成了开源闭源接近SOTA的模型交付。
一家20人的公司用不到1年时间,把OpenAI(能力比肩GPT-4)+谷歌(大中小杯闭源模型)+Meta(引领开源社区风潮)3家公司从Transformer诞生至今所有和大模型有关的里程碑都走了一遍。
这家法国公司的交付效率,让所有硅谷大厂都为之汗颜,也就难怪投资人上赶着给他们送钱了。
Mistral AI如此高的交付效率,如果放在大厂,还能靠堆人头堆出来。
而夸张的是,Mistral AI这一年时间大部分时间,团队人数都保持在20个人左右,大部分交付的成果都是在20人团队规模时完成的。
算上种子轮,Mistral AI一年时间总共经历3次融资:3个人估值4亿刀,20人团队估值20亿刀,60人团队估值60亿刀。
每次融资估值数和团队人数之比都高度一致:平均1人值1亿刀!
可以说,Mistral AI在组织架构效率层面取得的成绩,也是行业最一流的。
可以和OpenAI做个简单的对比就能看出Mistral的组织到底有多高效。
根据彭博社一个月前对于OpenAI COO的采访,现如今OpenAI的雇员数差不多有1200人,最近一次对外融资时的估值差不多是950亿美金。
△来源:维基百科
Mistral AI人员/估值比甚至超过了行业中最火的公司,足以看出他们在人员效率上的优势。
做最高效的大模型,用最高效的方式做大模型,成立最高效的组织做大模型。
Mistral的三位核心创始人曾是校友,在工作后纷纷成为令人羡慕的的硅谷技术精英。
△Arthur Mensch ( 中 ) Timothée Lacroix ( 右 )Guillaume Lample ( 左 )图源:Medium
创始人Arthur Mensch 曾在谷歌担任高级研究员,而 Timothée Lacroix 和 Guillaume Lample在Meta的LLaMa团队,当前分别在Mistral AI任首席技术官和首席科学官。
Mensch 曾对媒体表达过离开谷歌的原因是因为其“不够创新(innovative)”——嫌弃大公司效率低下。而 Lacroix 和 Lample 因为Meta公司内部的原因,也离开了。
在人工智能创业领域,Open AI和谷歌等大模型巨头已经形成马太效应。比起简单直接的商业场景落地,做模型似乎已经成了一件吃力不讨好的事。
但是,不要小看创业者的羁绊。
Mensch曾在采访中表示,他与Lample 和Lacroix从学生时代起就认识,友谊已经超过了十年。
在30出头的年纪,他们决定趁着风口给这个世界一点小小的震撼。三人联手在法国创办了Mistral AI并成长迅速,成为Open AI有力竞争者之一(起码分走了微软的青睐)。
最初的愿景是搓出一个“更有用的AI”。
Mensch是个无神论者,他没有“造神”的意愿,只相信“有用”的力量。他曾公开表示自己“区别于别的AI创业CEO”(指马斯克和萨姆·奥尔特曼),并对硅谷中弥漫的“关于通用人工智能的宗教迷恋感到不适”
△人们告诉我人工智能要毁灭世界了 vs 我的神经网络
“整个通用人工智能的言论都是关于创造上帝,” 米斯特拉尔在接受采访中说。 “我不相信上帝。我是一个坚定的无神论者。所以我不相信通用人工智能。”
△Reddit网友对此新闻评论:老兄,我只是想简单地活着,不用担心账单而已。
追求实用、灵活和高效的目标刻在Mensch的从业基因里。Mensch 在 Google 的 DeepMind 团队主要负责retrieval工作。他发表过 21 篇有关语言模型的 ArXiv 论文,是 RETRO、Flamingo 和 Chinchilla 项目的主要贡献者
△图源:Arthur Mensch领英页面
这三个项目都与大模型的效率提升有关。擅长机器学习可视化的知名博客作者Jay Alammar曾详细分析了Mensch参与搭建的的RETRO(Retrieval-Enhanced TRansfOrmer)模型。该模型与GPT-3性能相当,但参数量仅为 GPT-3 的4%。
在算力和数据吃紧的当下,增大模型不是提高性能的唯一选择。RETRO模型能如此高效的原因在于它将语言信息和世界知识信息区分开了,并加入了检索来增强性能。
△用检索方法辅助语言模型减少了语言模型在其参数中编码所需的信息量,在文本生成中表现良好。图源:Jay Alammar 的技术博客
Flamingo是一个视觉模型,仅使用少量带注释的示例来构建可以快速适应新任务。
而Chinchilla模型则大大简化了下游利用,因为它可以减少推理和微调所用到的算力。
Mensch创办Mistral AI的理念其实和他的工作内容是一脉相承的:多快好省地建设AI模型。
在商业化方面,灵活、便携、性价比也被Mistral AI所强调。
比起市面上其他公司,Mistral的不同之处在于其便携式解决方案。它可以通过API配合云服务作为SaaS使用。最重要的是,它也可以作为一个平台进行本地部署。
Mensch曾在5月2日接受采访时骄傲地表示:“如果您拥有私有云,并且想要高度定制工作负载,或者您是在本地运行,那么我们基本上是唯一的解决方案之一。这一切都与我们愿意广泛分享技术有关。反过来,这也正是我们开源的原因。”
短短一年时间,在模型能力上做到有开源也有闭源;在商业化应用上,有本地部署,也有外部云服务。
灵活的唯物主义六边形战士Mistral AI在欧洲“开卷”,六十亿的新估值是这条鲶鱼应得的。