拐点出现，中国开源大模型下载量超越美国

最近，Interconnects.ai 的一份报告，像在科技圈丢下一枚炸弹：截至 2025 年 8 月，中国开源大模型在 HuggingFace 上的下载量正快速赶上美国，几乎已经超越了。

美国这2年在开源模型上的领先地位，似乎正在被反超。在鲸哥看来，这不只是一个数据酷炫，下载量说明大家真的在用，证明我们在模型质量、生态建设等方面都实现了反超。

很多人不理解意义，简单说在移动互联网时代，很多人都用的是安卓手机，开源的安卓统治了移动操作系统的过半壁江山。AGI时代，Meta也高举开源大模型的大旗，很多国外企业采用Llama作为AI 引擎，输出AI的消费级服务。

Llama差点成为新时代的安卓，现在 DeepSeek、Qwen等模型，改变了这一现状。

国产大模型的高光时刻

具体说，是Interconnects.ai 在《ATOM Project》这份报告里，统计了 Meta、Google、Mistral AI、Microsoft、Alibaba Qwen 和 DeepSeek 等几家主要大模型开放者，从它们在 HuggingFace 上的下载量和派生（fine‑tune／派生模型）的情况做了归类。报告里几个关键点：

到 2025 年 8 月，美国领先的开源模型（主要是 Llama / Meta 系列）与中国领先的开源模型下载总量都在约 3 亿次（~300M 次下载）左右。两边差距已经非常小。

中国模型下载量的增长速度明显快于美国模型。每个月新下载量／新增派生模型的比例，中国那边涨得更陡。

在派生／fine‑tune 模型数量上，美国的留存领头优势在减弱。以前美国模型（主要是 Llama 系列）派生模型占比非常高，但到现在，中国模型（比如 Qwen 系列）一个月的新派生模型中可能占到 40% 以上。美国 Llama 系列的派生比例从巅峰时的近 50% 下滑到大约 15%。

再看国产模型的一些动静：

DeepSeek 的 V3 与 R1 模型，自从发布后震动不小。DeepSeek‑V3 发布在 2024 年底／2025 年初，其在数学、编码任务上的表现被业界认为“性价比高 + 推理快 +成本比惊人”。

紧接着，阿里在 2025 年春节发布了 Qwen 2.5‑Max。几个月后，阿里又发布了 Qwen 3 系列，带 hybrid reasoning（混合推理）能力。

Qwen3包含235B和30B两种MoE架构及6个Dense模型，覆盖6B-232B的多种尺寸的8款系列模型。阿里的Qwen系列更新速度和更新范围在全球都无出其右。

不只是DeepSeek和Qwen在充当主力军，混元开放从 0.5B 到7B 的小尺寸模型，支持终端与低功耗场景落地。

Kimi K2 是一个 1T 参数总量、32B 激活参数的 MoE 模型，对 Agent 与 coding 任务友好，支持 128K 上下文，开源且免费商用。

GLM-4.5 融合了推理、代码与智能体能力，是国产开源模型中的新标杆，在多个 benchmark 上为开源模型中表现最优，参数效率与成本效益显著提升。

所以「下载量几乎赶上 + 新模型速度 +派生／fine‑tune 模型数目增多」这些都指向了一个拐点：中国开源大模型生态不再是追随者，而是正式进入高速对抗＋超越可能的阶段。

国外开源为何落后？

美国这边落后的原因，不是因为人物不努力，而是结构 +生态 +方向 +部署门槛几个地方被拉开了差距。Llama 4 是一个重要节点，可以重点说下。

Meta 在 2025 年发布了 Llama 4 家族（包括 Maverick、Scout 等版本），这个赶工版本出现了很多问题：

1.过载现象严重，应试的产物

有传言Llama 4 在后训练阶段中，将多个benchmark测试集混入训练数据。这让模型的测试成绩出众，但在泛化任务中表现差强人意。实测很多任务的表现还不如GPT-4o。

2.派生 /开源自由度下降

虽然 Llama4 是开源权重模型（open‑weight 模型家族），但在派生（fine‑tune／第三方修改）社区里的活力相比之前有所下降。Interconnects 报告里提到，美国模型（Llama 系列）派生模型的比例从 2024 年底约 50% 高峰降到现在约 15%。意味着很多用户／开发者在下载之后，不是“继续改造／训练／fine‑tune”的机会变少了。

3.成本与部署门槛太高

DeepSeek 和 Qwen 在“低成本推理”“轻量版本 /蒸馏版／distill／量化支持”上动作快，用 GPU／硬件要求稍低的版本可用性更高。Llama4 在最强的版本可能需要更高算力／内存／成本，这在很多中小企业／开发者里是门槛。

而GPT和Grok开源速度又很慢，难以扛起国外的开源大旗。

OpenAI 在 2025 年 8 月 6 日推出自 GPT-2 以来的首批开源权重语言模型 gpt-oss-120b 与 gpt-oss-20b，性能堪比 o4-mini 和 o3-mini，可在高端笔记本和手机上运行。

不过，OpenAI 的主流模型如 GPT-4o、GPT-5 等仍然是闭源的。

8 月 24 日，xAI 开源了 Grok-2。Grok-2 在编码、复杂问题和数学方面表现出色，还能生图识图，性能比肩当时的 GPT-4o。不过，Grok-2 的开源协议较为严苛，xAI 允许非商业与合规商业使用，但禁止用其训练其他基础模型，仅当关联公司年收入低于一百万美元时，才可用于商业用途，超过此门槛的商业用途需获得 xAI 的单独许可。

xAI 表示 Grok-3 将在 Grok-2 开源大概 6 个月内开源。

现在美国开源的大旗，已经看不到一个实力选手了。

开源未来之路探索

最核心的原因，是Meta的Llama4 发布的口碑，确实影响了其行业认可度。

尤其Llama4 虽然支持多模态，但在OCR／图像 + 文本混合应用等细节优化，以及成本／延迟／部署资源要求上，用户反馈并不是每个场景都能“拿来就用”。

最新消息传言，新版本的Llama4X可能转向闭源。

中国的 DeepSeek + Qwen 则多频次推出新版本／升级，以及强劲的中国本土需求 +语言 +多模态场景，让中国模型在下载量＋派生＋部署效率上增长非常快。

国产开源大模型每隔一段时间就有新版本／新变体／容量／多模态／OCR／混合模态之类的更新。这些频率＋迭代让用户／社区“跟得上看到实际进步”的那种信心很强。

比如，最新的 Qwen‑3 系列／Qwen‑Next（有的媒体称之为下一代 Qwen，或者 Qwen3）被报道拥有混合推理能力（hybrid reasoning），更强的推理 + 对多模态 /实际应用场景的支持。

总结：这不是某一个模型的“反超”，而是生态拐点。

甚至a16z的合伙人Martin Casado说，预计80%的湾区初创公司，都在基于中国开源模型进行开发。

未来几个月／一年里，我们可以重点看三件事：

Qwen‑Next / Qwen3 等下一代模型的正式 benchmark +开源程度如何；

DeepSeek 后续版本将带来多大程度的升级，R2或者V4带来惊喜可期；

HugginFace／ModelScope 等开源模型托管／派生生态是不是继续给中国模型更大的空间增长。

总结来说，中国开源模型的优势不仅是“便宜”或“中文好”，而是“速度 +迭代 +社区生态 +部署门槛低”，这些组合在一起，构成了现在这个拐点。

参考资料：

https://www.interconnects.ai/p/on-chinas-open-source-ai-trajectory