DataCurveとは?──AI開発の「データボトルネック」を打破する新星、Scale AIに挑む
2025-10-13 by KIYORA MEDIA編集部
DataCurveが1500万ドルを調達──AI開発の「データボトルネック」を打破する新星、Scale AIに挑む
概要:Y Combinator支援、AIデータ生成の新時代へ
AIモデル開発で課題となる「高品質データの不足」に真正面から挑むスタートアップDataCurveが、Chemistry主導のシリーズAラウンドで1500万ドル(約23億円)を調達した。
2024年創業の同社は、Y Combinatorの支援を受け、ゲーミフィケーションを取り入れたコーディングデータ生成プラットフォーム「Shipd」を展開。これまでに総額1770万ドルを調達し、DeepMind・OpenAI・Anthropic・Vercelなどのエンジニアを含む1万4000人以上の貢献者ネットワークを築いている。
Shipdとは:AI時代の「ゲーミフィケーション型データ生成」
DataCurveの中核を担う「Shipd」は、単なるデータラベリングではなく、エンジニア向けのコンシューマープロダクトとして設計されている。
このプラットフォームは、AIモデル訓練用の専門的なコーディングデータを生成する「クエスト形式」のシステムを採用。エンジニアは成果報酬型のバウンティシステムで競い合い、これまでに100万ドル以上の報酬が分配されている。
- 仕組み:データタスク=「クエスト」化
- 報酬体系:時給制ではなく成果報酬型
- 効果:貢献者が「時間」ではなく「成果物の質」で競う構造
DataCurveは、LeetCode形式のアルゴリズム問題や、実際のIDEを通じて収集される開発者テレメトリーなど、AIコーディングモデルの訓練に必要な多様なデータを生成している。
技術的特徴:高品質データの“構造化された収集”
AI開発における最大の課題は、「モデルが理解可能な一貫性ある高品質データ」の確保にある。
DataCurveは、ゲーミフィケーションとエンジニアの競争心理を融合させることで、従来のスクレイピングや合成データでは得られないリアルな開発プロセスデータを構築している。
- SFT教師あり微調整やRLHF人間のフィードバック強化学習を超えた高次データ生成
- コード補完、デバッグ、リファクタリングに特化した専門的データ
- Amazon・AMD出身のエンジニアや競技プログラマーが多数参加
この構造により、DataCurveはAIコーディング支援モデルに不可欠な「実務に基づいた高品質データ」を提供している。
導入事例:生成AIツールから基盤モデル研究まで
DataCurveのデータは、AIコーディングアシスタントや基盤モデル研究など、幅広い分野で活用されている。
クライアント企業は、コード自動生成、プルリクエスト作成、バグ修正などのモデル性能向上のためにカスタムデータを利用。
活用プロセス
- 顧客の目標をヒアリング
- モデルの弱点をベンチマークで特定
- カスタムデータの設計(データタイプ/エッジケース)
- 大量データ生成をランプスケジュールで実施
「DataCurveはAIモデル開発の課題を理解し、技術と運営の両面で支援してくれる」といった顧客の声も多い。
Scale AIとの比較:量 vs 質の戦略
| 項目 | DataCurve | Scale AI |
|---|---|---|
| 設立年 | 2024年 | 2016年 |
| 評価額 | 約1.8億ドル(推定) | 138億ドル(2024年) |
| 参加人材 | 1.4万人(高スキル) | 100万人(クラウドワーカー) |
| 主領域 | コーディング特化 | 自動運転・金融・製造など汎用 |
| モデル | バウンティ制(成果報酬) | タスク制(時給・単価制) |
Scale AIはMetaによる49%株式取得(約148億ドル)で注目を集めた一方、DataCurveは「質と専門性」を軸に勝負。
前者が「量の拡張」で市場を支配するのに対し、後者はコーディング特化+ゲーミフィケーションで差別化を図っている。
市場動向と業界インパクト
AIデータラベリング市場は、2025年に約49億ドルから2034年には1190億ドルに拡大すると予測されている。
この中で、DataCurveは「高品質特化」路線の代表企業として急成長。
競合には、SuperAnnotate、Labelbox、V7、Datumo、Mercor、Surgeなどがあり、分野別特化型の新興勢力が台頭している。
Chemistryのマーク・ゴールドバーグ(元Indexパートナー)は、「DataCurveはAIの新たなデータ供給基盤になる」とコメント。
初期投資家には元Coinbase CTOのバラジ・スリニヴァサンも名を連ねている。
創業者と今後の展望:19歳創業者が描くAIデータの未来
創業者のセレナ・ゲ(Serena Ge)とチャーリー・リー(Charlie Li)は、ともに19歳でY Combinator Winter 2024を卒業。
CohereやGoogleでの経験を経て、DataCurveを設立した。
彼らは今後、コーディング領域を超え、金融・ヘルスケア・マーケティングなど他分野への展開も見据える。
「データを“作業”ではなく“体験”に変える」という理念のもと、
DataCurveは、AIモデルの“知能の土台”を作る存在として進化を続けている。
よくある質問(FAQ)
Q1:DataCurveは何をしている会社?
AIモデル開発に必要な高品質コーディングデータの生成・提供を行う企業。Shipdというゲーミフィケーション型プラットフォームを通じて、優秀なエンジニアによる実践的なデータを提供する。
Q2:Shipdとは?
DataCurveが開発した成果報酬型コーディングデータ生成プラットフォーム。エンジニアが「クエスト形式」でタスクを競い、報酬を得る仕組み。
Q3:Scale AIとの違いは?
Scale AIは100万人規模のクラウドワーカーを用いた汎用データラベリング企業。
対してDataCurveは1万4000人のトップエンジニアによる専門特化データ生成に焦点を当てる。
Q4:どんな企業が利用している?
AIコーディングアシスタントや基盤モデル研究所など。コード補完・バグ修正・自動生成ツールの精度向上を目的に利用。
Q5:なぜ注目されている?
- Scale AI創業者のMeta移籍により独立系ベンダーが注目
- エージェントAI時代の「適切なデータ」ニーズ
- 19歳創業者による革新的アプローチ
Q6:今後の展開は?
短期的にはコーディング領域の強化、中長期的には他産業(金融・医療など)への拡張を計画。
まとめ:AI時代の“データ品質革命”を牽引する新星
AI業界では「より多くのデータ」から「より良いデータ」への転換が進んでいる。
DataCurveは、ゲーミフィケーションと高品質コーディングデータ生成を融合させ、Scale AIに次ぐ次世代のデータプラットフォームとして急浮上中だ。
公式サイト:https://datacurve.ai