KIYORA(キヨラ)
DataCurveとは?──AI開発の「データボトルネック」を打破する新星、Scale AIに挑む

DataCurveとは?──AI開発の「データボトルネック」を打破する新星、Scale AIに挑む

2025-10-13 by KIYORA MEDIA編集部

DataCurveが1500万ドルを調達──AI開発の「データボトルネック」を打破する新星、Scale AIに挑む

概要:Y Combinator支援、AIデータ生成の新時代へ

AIモデル開発で課題となる「高品質データの不足」に真正面から挑むスタートアップDataCurveが、Chemistry主導のシリーズAラウンドで1500万ドル(約23億円)を調達した。
2024年創業の同社は、Y Combinatorの支援を受け、ゲーミフィケーションを取り入れたコーディングデータ生成プラットフォーム「Shipd」を展開。これまでに
総額1770万ドルを調達
し、DeepMind・OpenAI・Anthropic・Vercelなどのエンジニアを含む1万4000人以上の貢献者ネットワークを築いている。


Shipdとは:AI時代の「ゲーミフィケーション型データ生成」

DataCurveの中核を担う「Shipd」は、単なるデータラベリングではなく、エンジニア向けのコンシューマープロダクトとして設計されている。
このプラットフォームは、AIモデル訓練用の専門的なコーディングデータを生成する「クエスト形式」のシステムを採用。エンジニアは成果報酬型のバウンティシステムで競い合い、これまでに100万ドル以上の報酬が分配されている。

  • 仕組み:データタスク=「クエスト」化
  • 報酬体系:時給制ではなく成果報酬型
  • 効果:貢献者が「時間」ではなく「成果物の質」で競う構造

DataCurveは、LeetCode形式のアルゴリズム問題や、実際のIDEを通じて収集される開発者テレメトリーなど、AIコーディングモデルの訓練に必要な多様なデータを生成している。


技術的特徴:高品質データの“構造化された収集”

AI開発における最大の課題は、「モデルが理解可能な一貫性ある高品質データ」の確保にある。
DataCurveは、ゲーミフィケーションとエンジニアの競争心理を融合させることで、従来のスクレイピングや合成データでは得られないリアルな開発プロセスデータを構築している。

  • SFT教師あり微調整やRLHF人間のフィードバック強化学習を超えた高次データ生成
  • コード補完、デバッグ、リファクタリングに特化した専門的データ
  • Amazon・AMD出身のエンジニアや競技プログラマーが多数参加

この構造により、DataCurveはAIコーディング支援モデルに不可欠な「実務に基づいた高品質データ」を提供している。


導入事例:生成AIツールから基盤モデル研究まで

DataCurveのデータは、AIコーディングアシスタントや基盤モデル研究など、幅広い分野で活用されている。
クライアント企業は、コード自動生成、プルリクエスト作成、バグ修正などのモデル性能向上のためにカスタムデータを利用。

活用プロセス

  1. 顧客の目標をヒアリング
  2. モデルの弱点をベンチマークで特定
  3. カスタムデータの設計(データタイプ/エッジケース)
  4. 大量データ生成をランプスケジュールで実施

「DataCurveはAIモデル開発の課題を理解し、技術と運営の両面で支援してくれる」といった顧客の声も多い。


Scale AIとの比較:量 vs 質の戦略

項目DataCurveScale AI
設立年2024年2016年
評価額約1.8億ドル(推定)138億ドル(2024年)
参加人材1.4万人(高スキル)100万人(クラウドワーカー)
主領域コーディング特化自動運転・金融・製造など汎用
モデルバウンティ制(成果報酬)タスク制(時給・単価制)

Scale AIはMetaによる49%株式取得(約148億ドル)で注目を集めた一方、DataCurveは「質と専門性」を軸に勝負。
前者が「量の拡張」で市場を支配するのに対し、後者はコーディング特化+ゲーミフィケーションで差別化を図っている。


市場動向と業界インパクト

AIデータラベリング市場は、2025年に約49億ドルから2034年には1190億ドルに拡大すると予測されている。
この中で、DataCurveは「高品質特化」路線の代表企業として急成長。
競合には、SuperAnnotate、Labelbox、V7、Datumo、Mercor、Surgeなどがあり、分野別特化型の新興勢力が台頭している。

Chemistryのマーク・ゴールドバーグ(元Indexパートナー)は、「DataCurveはAIの新たなデータ供給基盤になる」とコメント。
初期投資家には元Coinbase CTOのバラジ・スリニヴァサンも名を連ねている。


創業者と今後の展望:19歳創業者が描くAIデータの未来

創業者のセレナ・ゲ(Serena Ge)とチャーリー・リー(Charlie Li)は、ともに19歳でY Combinator Winter 2024を卒業。
CohereやGoogleでの経験を経て、DataCurveを設立した。
彼らは今後、コーディング領域を超え、金融・ヘルスケア・マーケティングなど他分野への展開も見据える。

「データを“作業”ではなく“体験”に変える」という理念のもと、
DataCurveは、AIモデルの“知能の土台”を作る存在として進化を続けている。


よくある質問(FAQ)

Q1:DataCurveは何をしている会社?
AIモデル開発に必要な高品質コーディングデータの生成・提供を行う企業。Shipdというゲーミフィケーション型プラットフォームを通じて、優秀なエンジニアによる実践的なデータを提供する。

Q2:Shipdとは?
DataCurveが開発した成果報酬型コーディングデータ生成プラットフォーム。エンジニアが「クエスト形式」でタスクを競い、報酬を得る仕組み。

Q3:Scale AIとの違いは?
Scale AIは100万人規模のクラウドワーカーを用いた汎用データラベリング企業。
対してDataCurveは1万4000人のトップエンジニアによる専門特化データ生成に焦点を当てる。

Q4:どんな企業が利用している?
AIコーディングアシスタントや基盤モデル研究所など。コード補完・バグ修正・自動生成ツールの精度向上を目的に利用。

Q5:なぜ注目されている?

  • Scale AI創業者のMeta移籍により独立系ベンダーが注目
  • エージェントAI時代の「適切なデータ」ニーズ
  • 19歳創業者による革新的アプローチ

Q6:今後の展開は?
短期的にはコーディング領域の強化、中長期的には他産業(金融・医療など)への拡張を計画。


まとめ:AI時代の“データ品質革命”を牽引する新星

AI業界では「より多くのデータ」から「より良いデータ」への転換が進んでいる。
DataCurveは、ゲーミフィケーションと高品質コーディングデータ生成を融合させ、Scale AIに次ぐ次世代のデータプラットフォームとして急浮上中だ。

公式サイト:https://datacurve.ai