微软支持的 Mistral 推出欧洲 AI 云,以对抗 AWS 和 Azure
法国人工智能初创公司 Mistral AI 周三宣布大举拓展 AI 基础设施,这一举措将公司定位为欧洲对抗美国云计算巨头的答案,同时推出了新的推理模型,这些模型与 OpenAI 最先进的系统媲美。
这家总部位于巴黎的公司推出了 Mistral Compute,这是一个与 Nvidia 合作打造的全面 AI 基础设施平台,旨在为欧洲企业和政府提供一个替代美国亚马逊网络服务(Amazon Web Services)、微软 Azure 和 Google Cloud 等云服务提供者的选项。这一举措标志着 Mistral 从单纯开发 AI 模型向掌控整个技术堆栈的重大战略转变。
“进军 AI 基础设施领域对 Mistral AI 是一次变革性的跨越,因为这让我们能够解决 AI 价值链中一个关键环节的问题,”Mistral AI 的首席执行官及联合创始人 Arthur Mensch 说道。“这一转变使我们有责任确保我们的解决方案不仅促进创新和 AI 的普及,同时也维护欧洲的技术自主权,并助力其在可持续发展方面的领军地位。”
如何构建能够用任意语言推理的模型
在宣布基础设施的同时,Mistral 推出了一系列名为 Magistral 的推理模型 —— 这些 AI 系统能进行与 OpenAI 的 o1 模型及中国的 DeepSeek R1 类似的逐步逻辑思考。不过,Mistral 的首席科学家 Guillaume Lample 表示,该公司的方法在关键方面与竞争对手不同。
Lample 在一次独家采访中表示:“我们几乎完全从零开始构建这一切,主要原因是我们希望亲自掌握这种专业技能,比如在我们所做的事情上保持灵活性。我们实际上成功地在强化在线学习流程方面实现了非常高的效率。”
与那些往往隐藏推理过程的竞争对手不同,Mistral 的模型会将完整的思考链展示给用户 —— 并且最重要的是,这些展示采用用户的母语,而不是默认使用英文。“在这里,我们将完整的思考链呈现给用户,而且是用他们自己的语言,这样他们就可以实际阅读,判断是否合理,”Lample 解释道。
公司公开了两个版本:Magistral Small,这是一款拥有 240 亿参数的开源模型;以及 Magistral Medium,这是一款更强大的专有系统,通过 Mistral 的 API 提供服务。
为何 Mistral 的 AI 模型在训练过程中获得意外的超能力
这些模型在训练过程中展现出令人惊讶的能力。尤其值得注意的是,尽管训练过程主要侧重于文本形式的数学和编程问题,Magistral Medium 仍然保留了多模态推理能力 —— 即能够分析图像的能力。
Lample 说:“我们发现一件事,并非完全偶然,而是我们绝对没有预料到的:如果在强化学习训练结束后接回最初的视觉编码器,就会突然发现模型能够对图像进行推理。”
这些模型还获得了复杂的函数调用能力,能够自动执行多步互联网搜索和代码执行,以解答复杂问题。“你会看到一个模型在思考,然后突然意识到,好吧,这些信息可能需要更新。让我来进行一次网络搜索,”Lample 解释道。“模型会在互联网上搜索,然后传递搜索结果,基于这些结果综合给出答案,并可能认为答案不在当前结果中,于是再次搜索。”
这一行为是在没有特定训练的情况下自然出现的。“这完全是模型自己自然生成的,是否采取下一步行动我们也无从得知,但我们发现它确实自然发生了。这对我们来说是一个非常惊喜的发现,”Lample 指出。
使 Mistral 训练速度超过竞争对手的工程突破
Mistral 的技术团队克服了重大的工程难题,实现了 Lample 所描述的突破性训练基础设施。公司开发了一种“在线强化学习”系统,该系统允许 AI 模型在生成回复的同时不断改进,而不再依赖预先训练好的数据。
这一关键创新在于能够实时同步数百个图形处理单元(GPU)间的模型更新。Lample 解释说:“我们的做法是找到一种方法,能让模型直接在各个 GPU 之间相互传递更新。”这使得系统能够在几秒钟内在不同的 GPU 集群间更新模型权重,而传统方式通常需要几个小时。
Lample 指出:“目前没有开源基础设施能够做到这一点。通常,尽管有许多开源尝试,但速度极其缓慢。我们在这里尤其注重效率。”
这一训练过程证明比传统预训练快得多且成本更低。“相比常规预训练要便宜得多。其他平台的预训练可能需要数周甚至数月,而我们完全没有这种情况。具体时间取决于投入的人力,但基本来说,远不到一周的时间,”Lample 说道。
Nvidia 承诺提供 18,000 个芯片助力欧洲 AI 自主
Mistral Compute 平台将运行在 18,000 个 Nvidia 最新的 Grace Blackwell 芯片上,这些芯片最初将部署在法国 Essonne 的一个数据中心,未来计划在欧洲范围内扩展。Nvidia 首席执行官 Jensen Huang 将这一合作形容为欧洲技术自主的关键所在。
Huang 在巴黎的一次联合发布会上表示:“每个国家都应该为自己的国家构建 AI,让它们在本国运行。借助 Mistral AI,我们正在开发模型和 AI 工厂,作为主权平台,帮助欧洲各行业企业扩展智能。”
Huang 预测,未来两年内欧洲的 AI 计算能力将提升十倍,计划在整个欧洲建设超过 20 个“AI 工厂”。其中一些设施的容量将超过一吉瓦,可能跻身全球最大数据中心之列。
这一合作不仅限于基础设施,还涵盖 Nvidia 与其他欧洲 AI 公司的合作,以及与搜索公司 Perplexity 合作开发适用于欧洲各种语言(这些语言往往缺乏充足的训练数据)的推理模型。
Mistral 如何解决 AI 的环境和主权问题
Mistral Compute 针对 AI 发展面临的两大问题——环境影响和数据主权,提出了解决方案。该平台确保欧洲顾客的信息能够保留在欧盟范围内,并受欧洲司法管辖。
公司已与法国国家生态转型署以及领先的气候咨询公司 Carbone 4 建立了合作关系,共同评估并尽量减少 AI 模型在整个生命周期中的碳足迹。Mistral 计划使用脱碳能源为其数据中心供电。
公司在公告中指出:“通过选择欧洲作为我们的数据中心所在地,我们便能利用大部分脱碳能源的优势。”
速度优势赋予 Mistral 推理模型实际应用优势
早期测试表明,Mistral 的推理模型在提供竞争性性能的同时,还解决了现有系统普遍存在的速度问题。OpenAI 等公司当前的推理模型可能需要几分钟才能响应复杂问题,这限制了其实用性。
Lample 说道:“人们通常不喜欢目前的推理模型,因为虽然它们很聪明,但有时反应时间太长。而在这里,你只需等待几秒钟,有时甚至不到五秒钟,就能看到输出。这彻底改变了用户体验。”
这一速度优势对商业应用至关重要,因为等待数分钟才能收到 AI 回复会造成工作流程瓶颈。
Mistral 基础设施布局对全球 AI 竞争意味着什么
Mistral 进军基础设施领域,使其与主导全球云基础设施市场的科技巨头直接竞争。目前,Amazon Web Services、微软 Azure 和 Google Cloud 控制着全球大部分的云基础设施,而像 CoreWeave 这样的新兴玩家则在 AI 工作负载领域逐步崭露头角。
Mistral 的方法与竞争对手不同,它提供了一个完整的垂直整合解决方案——从硬件基础设施到 AI 模型,再到软件服务。这包括为开发人员提供的 Mistral AI Studio、为企业提升生产力的 Le Chat 以及用于编程辅助的 Mistral Code。
业内分析师认为,Mistral 的战略是区域性 AI 发展的更广泛趋势的一部分。“如果欧洲想在全球保持竞争力,就迫切需要扩大其 AI 基础设施规模,”Huang 提到,并呼应了欧洲政策制定者表达的担忧。
在欧洲各国政府日益担心依赖美国科技公司提供关键 AI 基础设施的情况下,这一宣布显得尤为及时。欧盟已承诺投入 200 亿欧元在欧洲大陆建立 AI “巨型工厂”,而 Mistral 与 Nvidia 的合作有望加速这一规划。
Mistral 同时宣布基础设施与模型能力,表明公司志在成为一个全面的 AI 平台,而不仅仅是一个模型提供商。凭借微软及其他投资者的支持,公司已筹集超过 10 亿美元,并持续寻求额外资金以支持业务扩展。
但 Lample 认为推理模型的未来前景更加广阔。“我内部看到的进步,每周大约能提升 5% 的准确率,可能持续六个星期左右。所以它在不断迅速改进,有许许多多的小创意都能进一步提升性能。”
这一来自欧洲对抗美国 AI 主导地位的挑战是否成功,最终可能取决于客户是否足够重视数据主权和可持续性,从而愿意从现有供应商那里转移过来。但至少目前,他们有了更多选择。
本文链接:http://www.xihao.site/showinfo-1-77776.html微软支持的 Mistral 推出欧洲 AI 云,以对抗 AWS 和 Azure