“AI原生100”是虎嗅科技组推出针对AI原生创新栏目,这是本系列的第「31」篇文章。
两个滑铁卢大学生,靠数据标注平台,在半年里赚了290万美金,并在成立一年多的时间,撬动了1770万美元(约合人民币1.2亿元)的融资。

Serena Ge和她的联合创始人
这就是Datacurve,一个试图挑战Scale AI的年轻公司。
高质量数据领域的争夺已经成为了AI里最激烈的战场。催生了Scale AI、Turing、Surge以及Mercor这样的公司,Scale AI作为这个领域绝对独角兽,估值已经达到200多亿美元,我们的“AI原生100”栏目之前写过的Turing这家公司,估值达到22亿美元。
Datacurve区别于这些数据标注公司一个很重要的点,也是我们之所以在栏目中介绍这家公司的原因是,他们选择了一个“游戏化标注”的方式,
它搭建了一个名为Shipd的平台,将算法题、调试任务、测试用例等中高难度编程挑战打包为“通关任务”(Quests),明码标价邀请工程师参与完成,任务通过后即可获得现金报酬。这些经过工程师验证的数据最终会被售卖给AI公司或模型实验室,用于训练和微调大模型。
这种“赏金猎人”的方式给Datacurve积攒了人气。2025年10月,Datacurve宣布完成1500万美元A轮融资,累计融资总额达到1770万美元。这轮融资由Chemistry的Mark Goldberg领投,DeepMind、Anthropic、OpenAI等AI一线公司员工也出现在投资名单中。
虎嗅和业内投资人聊过数据标注公司的模式,对这些公司来说,除了数据质量,组织管理也至关重要,这些负责标注的人就类似一种“零工”的形式,如何有效管理这些数据标注师,通过精细化管理,让这些“零工”参与到数据标注中。
如何用非金钱诱惑撬动顶尖工程师?
Datacurve在官网提到,旗下Shipd平台目前已经吸引超过一万四千名工程师注册参与任务。
这个数据引出了一个关键问题:在报酬远低于正式开发工作的情况下,为什么仍有如此多具备中高级技能的工程师愿意投入时间与精力参与这样一项看似数据标注的任务?
在公开采访中,CEO Serena Ge给出了答案,她强调金钱并不是最强的驱动力,真正吸引工程师留下的是平台提供的挑战感、游戏感与参与体验。她将Shipd定义为“a consumer product, not a data labeling operation”,Shipd是一个供玩家消费和体验的产品,金钱只是附加奖励。
为了实现这一理念,Datacurve从以下几个方面优化了用户体验,提升了平台的吸引力:
其一,任务本身具备足够的技术挑战性。平台通过设定多层验证机制,包括自动测试、同行评审与专家审核,确保数据集达到研究级标准。这种设计既提高了数据质量,也提升了工程师的技术门槛,从而增强了他们面对任务时的解题动机。

Shipd登录页
其二,平台引入了“赏金猎人”形式与游戏化结构。Shipd中的任务被包装为“Quests”,涵盖算法挑战、调试任务、UI/UX 生成等内容。平台设有排行榜、连胜奖励与任务等级,参与者在其中既是解题者,也是竞技者。这些机制让任务更像一场技术副本,而非一份重复工单,也为工程师提供了可量化的声望积累。
其三,Shipd试图搭建一种工程师为中心的社区文化,平台多次强调engineer-first culture,力图为高技能参与者提供一个有归属感、认可度与专业认同的生态环境,而非单纯的任务派发系统。
这种“游戏化+精英制”的设计,让Shipd与传统平台形成了鲜明对比,它并不试图让所有人都能参与,而是挑选能完成特定类型任务的那一类人。从工程师侧来看,这种机制既好玩、有成就感,也有现实收益;从平台侧来看,它在数据质量这件事上建立了筛选机制,形成了独特的护城河。
Shipd成了一个介于挑战、游戏、交易与知识生产之间的混合型产品,它靠的不是更多的人,而是更强的人和更优质的数据。
产品理念与冷启动过程
Datacurve的起点是从需求倒推回来的。
Serena Ge曾在Cohere实习,参与大语言模型的训练项目。Cohere是一家从事大型语言模型和AI产品开发与商业化的人工智能技术公司,致力于提高内部模型的推理能力和代码生成能力;相比之下,Datacurve则专注于外部数据收集,致力于构建更高质量、更具挑战性的编码数据集。两家公司的性质差异决定其天然是上下游合作伙伴,而这种技术合作也延续到资本层面,Cohere后来成为Datacurve的早期投资人之一。
在Cohere的实习经历令Serena Ge很快意识到一个现实困境:模型能力越来越强,但高质量编码数据的供给却始终是瓶颈。传统标注方式无法满足模型所需的复杂度与专业性,而缺失的数据又像一块空白拼图,直接影响模型的实际能力。
如果把这些缺失的数据变成具备挑战性质的题目,把数据标注变成以游戏化平台激励工程师贡献数据呢?
在这样的想法推动下,Serena和Charley Lee尝试搭建了一个简化原型并在几个技术社区尝试发布任务、收集回应。他们发现这些测试任务很快吸引了一批对另类编程挑战感兴趣的工程师,而这些人给出的反馈远远超出他们预期:不仅认真完成任务,还提出了改进建议,并希望能获得排行榜积分。
这一尝试为Datacurve打通了进入硅谷最大孵化器——Y Combinator的大门。2024年冬季,Datacurve正式入选 YC冬季项目中,并在这期间完成了平台早期版本的开发、跑通了任务的评审机制,也验证了平台在工程师群体中的吸引力。

YC孵化企业页面
Serena始终认为“Shipd是面向工程师的消费者产品,而不是数据标记操作。”他们将大量精力投入在用户体验优化上,每一处都朝着“让人愿意来、愿意留”的方向打磨。平台上线不久就已支付出超过100万美元的赏金,吸引了来自亚马逊、AMD 等企业的高级工程师参与,并获得正向反馈。
在打通数据收集与社区运营这两个核心环节后,Datacurve开始推进商业化路径。在产品启动初期,Datacurve聚焦于与高端AI实验室和工具型初创公司建立合作,包括OpenAI、Anthropic等基础模型实验室,以及面向开发者的智能编码工具团队。依托早期投资人网络与口碑传播,Datacurve逐步实现高质量数据的对接与销售。
Datacurve成立于2024年,不到一年便完成种子轮与A轮,总融资达1770万美元,成功实现了从融资到打通工程师、获取高质量数据,再到对接顶级客户,随后融资增长的闭环,呈现出一条清晰的初创公司成长路径。
代码归谁:版权风险与合规机制
在Datacurve的平台上,工程师提交的每一份代码最终都会被打包进高质量数据集售卖给AI公司。这不由让人思考:代码的归属权到底是谁的?这些数据真的安全吗?这并非单一平台的问题,而是整个数据标注行业的普遍挑战。
作为数据标注领域的代表性公司,Surge AI采用human-in-the-loop机制,由领域专家配合定制化模型共同完成标注,确保输出不仅精准,还具备较好的上下文理解力。面对敏感或模糊任务,平台通常安排多轮人工复核,尽量减少偏差与误判。在合规层面,Surge AI提供可审计的数据流程,支持客户对数据使用路径进行追踪与管理。尽管如此,Surge AI也曾被爆出内部文档泄露,可见其仍存在监管与安全漏洞。
Datacurve的解题思路则是在机制上做了几层防护:

