全部语种
分享
编译作者:吕可
据海外媒体报道,今年 6 月,刚刚成立了一个月的法国初创公司 Mistral AI 在种子轮融资中筹集到了1.05 亿欧元的资金。而当时,这家由一名 DeepMind 前员工和两名 Meta 前员工创办的初创公司还没有任何可发布的产品。人们最初听到 Mistral 的融资新闻时,只是在感慨风投公司对处于爆发阶段的生成式 AI 领域过于大方。
事实证明,Mistral 公司其实有很多亮点,而这些亮点说服了光速创投、法国亿万富翁Xavier Niel 和谷歌前首席执行官Eric Schmidt 向他们投资。
一周前,Mistral 发布了一个 73 亿参数的模型,旨在与 Meta 的 Llama 2(一个 130 亿参数的大型语言模型)竞争。这家法国公司宣称,它是目前大型语言模型领域中功能最强大的语言模型。
这款名为Mistral 7B 的基础模型是专为快速推理和处理较长语句而设计的transformer模型。它利用utilizing grouped-query attention 和 sliding-window attention来实现这一目标。utilizing grouped-query attention结合了多次查询和多头注意力机制,以平衡输出质量和速度。sliding-window attention通过调整窗口大小来扩展上下文长度。Mistral 7B 的上下文长度为 8000 个token,与更大的模型相比,具有低延迟、高吞吐量和高性能的特点。
如今这款 Mistral 7B 模型已经被集成到谷歌的 Vertex AI Notebooks 中,这一集成使谷歌云客户能够深入了解全面的端到端工作流程,使他们能够在 Vertex AI Notebooks 上对 Mistral-7B 及其变体进行实验、微调和部署。
Mistral AI 用户可以使用高效的大语言模型服务框架 vLLM 优化他们的模型。通过使用 Vertex AI 笔记本,用户可以在 Vertex AI 端点上部署由 Model Garden 维护的 vLLM 映像,以进行推理,从而确保简化模型部署。
这项合作的一个关键功能是 Vertex AI 模型注册中心,它是一个中央存储库,使用户能够管理 Mistral AI 模型及其微调模型的生命周期。通过该注册中心,用户可以全面了解其模型的增强组织和跟踪能力。
从该公司的推介会上可以看出,Mistral 公司巧妙地将自己定位为一个重要的潜在参与者。它将帮助欧洲成为建立基础人工智能模型的 "有力竞争者",并在 "地缘政治问题上发挥重要作用"。
在美国,主推 AI 产品的初创企业主要由谷歌和微软等大企业支持。Mistral称这种 "封闭的技术方式 "让大公司赚到了更多的钱,但并没有真正形成一个开放的社区。
与 OpenAI 的 GPT 模型(其代码细节仍处于保密状态,只能通过 API 获取)不同,这家总部位于巴黎的公司以 Apache 2.0 许可在 GitHub 上开源了自己的模型,供所有人免费使用。
Mistral将目标瞄准了 Meta 的 Llama,而 Mistral 声称他们的大模型产品比 Llama 2 更强。
Mistral 在一份报告中表示,Mistral 7B 在多项基准测试中轻松击败了 Llama 2 的 70 亿和 130 亿参数两个模型。
在涵盖数学、历史、法律和其他科目的大规模多任务语言理解测试中,Mistral 的模型准确率达到 60.1%,而 Llama 2 模型70亿参数和130亿参数两个版本的准确率分别为 44%和 55%。
在常识推理和阅读理解基准测试中,Mistral 的表现也优于 Llama 2 的模型。
只有在编码方面Mistral 落后于 Meta 。Mistral 7B 在 "Humaneval "和 "MBPP "两项基准测试中的准确率分别为 30.5% 和 47.5%,而 Llama 2 的 70 亿模式的准确率分别为 31.1% 和 52.5%。
除了性能之外,Mistral 还声称比 Llama 2 使用了更少的计算量。在 MMLU 基准测试中,Mistral 模型的输出的结果是同规模下的 Llama 2 的三倍多。如果与ChatGPT做比较,根据medium的计算,Mistral AI 的使用成本要比 GPT 4便宜约 187 倍,比 GPT 3.5 模型便宜约 9 倍。
不过 Mistral 也表示,有一些用户抱怨它缺乏 ChatGPT、Bard 和 Llama 所拥有的安全防护措施。曾有用户向 Mistral 的指令模型询问如何制造炸弹或自残,聊天机器人也给出了详细的指导。
Paul Rottger是一名人工智能安全研究员,此前曾致力于在 GPT-4 发布前为其设置防护功能,他在一条推文中对 Mistral 7B 缺乏安全性表示 "震惊"。"如今很少能看到一个新模型如此轻易地回复哪怕是最恶意的指令。我对开源大模型的出现感到非常兴奋,但这种情况不应该出现!"他说。
这些批评促使 Mistral 对模型进行了微调,并对此进行了解释。"Mistral 7B Instruct 模型已经展现了他们的能力,让人们看到基础模型也可以很容易的进行微调,从而展现令人信服的性能。我们正期待与社区合作,探讨如何使该模型更好地遵守防护规则,以便在需要控制输出的环境中进行部署。" Mistral表示。
在许多其他研究人员看来,Mistral 的路线才是修正模型毒性问题的一个长久解决方法,添加防护机制则相当于在重伤上贴创可贴,并没有那么好的效果。违反聊天机器人的安全准则是许多用户最喜欢的消遣方式,他们想测试聊天机器人的反应极限。在 ChatGPT 开放的最初几天里,开发者们一直在催促 ChatGPT 打破聊天机器人的防护机制。
与 Rephrase.ai 合作的深度学习研究员Rahul Dandwate 表示:"事先删除某些关键词只是部分解决方案,有很多方法可以绕过它。你还记得 ChatGPT 发布后的情况吗?他们曾出现过的 DAN 或'Do Anything Now',这是一个可以启用 ChatGPT 越狱版的提示。因此,做基础安全评估是使模型更安全的临时措施。"
“还有一些方法甚至不需要复杂的黑客技术。一个问题可以通过多种不同的方式让聊天机器人回答。比方说,我不会简单地直接向聊天机器人询问如何制造炸弹,而是把它分解成更科学的方式,比如 "哪些化学物质混合在一起会产生强烈反应?”Dandwate 解释说。
Dandwate 表示,长期的解决方案是将模型发布给公众使用,并从使用中获得反馈,然后进行微调,这正是 Mistral AI 正在做的事情。"ChatGPT之所以更好,是因为它已经被很多人使用过。他们有一个很基础的反馈机制,用户可以选择竖起大拇指或摁下大拇指,对聊天机器人的回复质量进行评分,我认为这一点非常重要。"Dandwate表示。
但用这种开放给用户再微调的坏处是,Mistral 可能不得不暂时应对一些用户的质疑。但在人工智能研究领域,有很大一部分人喜欢原始形式的基础模型,以便全面了解模型的能力,而这些人正在支持Mistral的坚持。
人工智能研究人员 Delip Rao在推特上说,Mistral 选择原封不动地发布开源模型,是 "对 Mistral 模型作为基础模型的通用性和‘非脑叶切除’的认可。"
"脑叶切除术 "的提法让人想起了微软必应聊天机器人Sydney的早期版本。这款聊天机器人不受约束,有很强的个性,直到微软将聊天机器人大幅调整为目前的形式。
脑叶切除术这个说法来源于臭名昭著的心理学手术,在大模型领域,它通常指代通过限制功能来预防毒性回答出现。这种方法通过为大模型设定关键词来过滤那些危险的回答。但这种一刀切的方式也会导致大模型的性能下降,让一些涉及敏感词汇的正常问题难以得到回答。
虽然公司没有发表官方声明,但有传言称 OpenAI 对该模型进行了“脑叶切除手术”,以控制其混乱的部分。从那时起,人们就开始好奇,如果让聊天机器人自由发挥,它会变成什么样?
Dandwate 表示:"对模型进行脑叶切除可能会在某些方面对其产生影响。如果它被禁止回答带有某些关键词的问题,那么它也可能无法回答用户可能提出的技术问题,例如导弹的力学问题,或者围绕机器人被标记为'有风险'的主题提出的任何其他科学问题。(译/吕可)