全面超越Deepseek，阿里大年初一放大招

全面超越Deepseek，阿里大年初一放大招

1年前发布

440

请先记住这个词：Moe模型。因为这个词未来会改变AI圈、改变金融圈、改变英伟达、甚至改变中美AI走向。

故事起因是这样的：

10天前，大家都准备回家过年了，结果来自浙江的一家小公司DeepSeek(深度求索)火了，它发布的V3模型，震惊了美国AI圈和金融圈，还上了新闻联播，一夜之间和华为、阿里比肩齐名了，搞的扎克伯格一度呼吁美国加紧封锁中国AI技术。

全面超越Deepseek，阿里大年初一放大招人工智能AI 阿里云微新闻第1张

这么大事，你让别的AI公司怎么办?火车票都买好了，结果又来加班，好在阿里云是反应最快的那个，他们的算法专家立刻找到问题关键点：

在Moe架构领域，Qwen是规模最大的那一个，又有20万亿Tokens(相当于1.5亿本小说)。为什么DeepSeek能火爆全网、气死扎克伯格，而Qwen不能?于是阿里的工程师加班加点，甚至把车票都退了，终于在大年初一，发布了新的模型Qwen2.5-Max。注意是：Max版，就和手机一样，就是顶配版的意思。

Qwen2.5-Max一发布，高级算法专家林俊旸就发了个圈：

全面超越Deepseek，阿里大年初一放大招人工智能AI 阿里云微新闻第2张

简单的说，就是性能更牛了，但更节约算力了。

全面超越Deepseek，阿里大年初一放大招人工智能AI 阿里云微新闻第3张

如上图所示，Qwen2.5-Max的各项指标都略高于DeepSeek和LLaMA模型。

在告诉大家一个冷知识：阿里的千问、DeepSeek(深度求索)、Meta的LLaMA的底座都是MoE模型‌。

全面超越Deepseek，阿里大年初一放大招人工智能AI 阿里云微新闻第4张

说了半天，估计好多人不知道什么是Moe模型吧?

这个架构最牛逼之处，就是主动减少计算需求，主动计算需求减少，自然节约算力，算力节约了就能节约芯片数量。这就是为什么DeepSeek能用Meta公司1/10的价格，训练出跟LLaMA模型差不多的大模型的原因。

以前所有的公司都认为AI大模型需要大力出奇迹，需要对算力进行大量的投资，要购买大量芯片，可现在一切即将改变，这是今年AI一个重要转折点，阿里起了个头，预计会有更多公司都会朝这个方向努力：节约算力，提升性能。但这样，英伟达的黄仁勋就要哭啦。

写在最后：

今年的阿里云要起飞了，先是登陆了央视春晚，大年初一又发了新的模型。阿里新发布的Qwen2.5-Max这个版本的起了个头，目测这一模型会引领新的AI方式。

如果说DeepSeek的低成本戳破美国AI的资本泡沫游戏，那么阿里云的Qwen则让AI回归科研本身，打破美国的模型壁垒，让全世界都可以参与AI研发中来了。

THE END

项目分享
# 华为 # 阿里云

喜欢就支持一下吧

相关推荐