DataCurveとは？──AI開発の「データボトルネック」を打破する新星、Scale AIに挑む

2025-10-13 by KIYORA MEDIA編集部

DataCurveが1500万ドルを調達──AI開発の「データボトルネック」を打破する新星、Scale AIに挑む

概要：Y Combinator支援、AIデータ生成の新時代へ

AIモデル開発で課題となる「高品質データの不足」に真正面から挑むスタートアップDataCurveが、Chemistry主導のシリーズAラウンドで1500万ドル（約23億円）を調達した。
2024年創業の同社は、Y Combinatorの支援を受け、ゲーミフィケーションを取り入れたコーディングデータ生成プラットフォーム「Shipd」を展開。これまでに総額1770万ドルを調達し、DeepMind・OpenAI・Anthropic・Vercelなどのエンジニアを含む1万4000人以上の貢献者ネットワークを築いている。

Shipdとは：AI時代の「ゲーミフィケーション型データ生成」

DataCurveの中核を担う「Shipd」は、単なるデータラベリングではなく、エンジニア向けのコンシューマープロダクトとして設計されている。
このプラットフォームは、AIモデル訓練用の専門的なコーディングデータを生成する「クエスト形式」のシステムを採用。エンジニアは成果報酬型のバウンティシステムで競い合い、これまでに100万ドル以上の報酬が分配されている。

仕組み：データタスク＝「クエスト」化
報酬体系：時給制ではなく成果報酬型
効果：貢献者が「時間」ではなく「成果物の質」で競う構造

DataCurveは、LeetCode形式のアルゴリズム問題や、実際のIDEを通じて収集される開発者テレメトリーなど、AIコーディングモデルの訓練に必要な多様なデータを生成している。

技術的特徴：高品質データの“構造化された収集”

AI開発における最大の課題は、「モデルが理解可能な一貫性ある高品質データ」の確保にある。
DataCurveは、ゲーミフィケーションとエンジニアの競争心理を融合させることで、従来のスクレイピングや合成データでは得られないリアルな開発プロセスデータを構築している。

SFT教師あり微調整やRLHF人間のフィードバック強化学習を超えた高次データ生成
コード補完、デバッグ、リファクタリングに特化した専門的データ
Amazon・AMD出身のエンジニアや競技プログラマーが多数参加

この構造により、DataCurveはAIコーディング支援モデルに不可欠な「実務に基づいた高品質データ」を提供している。

導入事例：生成AIツールから基盤モデル研究まで

DataCurveのデータは、AIコーディングアシスタントや基盤モデル研究など、幅広い分野で活用されている。
クライアント企業は、コード自動生成、プルリクエスト作成、バグ修正などのモデル性能向上のためにカスタムデータを利用。

活用プロセス

顧客の目標をヒアリング
モデルの弱点をベンチマークで特定
カスタムデータの設計（データタイプ／エッジケース）
大量データ生成をランプスケジュールで実施

「DataCurveはAIモデル開発の課題を理解し、技術と運営の両面で支援してくれる」といった顧客の声も多い。

Scale AIとの比較：量 vs 質の戦略

項目	DataCurve	Scale AI
設立年	2024年	2016年
評価額	約1.8億ドル（推定）	138億ドル（2024年）
参加人材	1.4万人（高スキル）	100万人（クラウドワーカー）
主領域	コーディング特化	自動運転・金融・製造など汎用
モデル	バウンティ制（成果報酬）	タスク制（時給・単価制）

Scale AIはMetaによる49%株式取得（約148億ドル）で注目を集めた一方、DataCurveは「質と専門性」を軸に勝負。
前者が「量の拡張」で市場を支配するのに対し、後者はコーディング特化＋ゲーミフィケーションで差別化を図っている。

市場動向と業界インパクト

AIデータラベリング市場は、2025年に約49億ドルから2034年には1190億ドルに拡大すると予測されている。
この中で、DataCurveは「高品質特化」路線の代表企業として急成長。
競合には、SuperAnnotate、Labelbox、V7、Datumo、Mercor、Surgeなどがあり、分野別特化型の新興勢力が台頭している。

Chemistryのマーク・ゴールドバーグ（元Indexパートナー）は、「DataCurveはAIの新たなデータ供給基盤になる」とコメント。
初期投資家には元Coinbase CTOのバラジ・スリニヴァサンも名を連ねている。

創業者と今後の展望：19歳創業者が描くAIデータの未来

創業者のセレナ・ゲ（Serena Ge）とチャーリー・リー（Charlie Li）は、ともに19歳でY Combinator Winter 2024を卒業。
CohereやGoogleでの経験を経て、DataCurveを設立した。
彼らは今後、コーディング領域を超え、金融・ヘルスケア・マーケティングなど他分野への展開も見据える。

「データを“作業”ではなく“体験”に変える」という理念のもと、
DataCurveは、AIモデルの“知能の土台”を作る存在として進化を続けている。

よくある質問（FAQ）

Q1：DataCurveは何をしている会社？
AIモデル開発に必要な高品質コーディングデータの生成・提供を行う企業。Shipdというゲーミフィケーション型プラットフォームを通じて、優秀なエンジニアによる実践的なデータを提供する。

Q2：Shipdとは？
DataCurveが開発した成果報酬型コーディングデータ生成プラットフォーム。エンジニアが「クエスト形式」でタスクを競い、報酬を得る仕組み。

Q3：Scale AIとの違いは？
Scale AIは100万人規模のクラウドワーカーを用いた汎用データラベリング企業。
対してDataCurveは1万4000人のトップエンジニアによる専門特化データ生成に焦点を当てる。

Q4：どんな企業が利用している？
AIコーディングアシスタントや基盤モデル研究所など。コード補完・バグ修正・自動生成ツールの精度向上を目的に利用。

Q5：なぜ注目されている？

Scale AI創業者のMeta移籍により独立系ベンダーが注目
エージェントAI時代の「適切なデータ」ニーズ
19歳創業者による革新的アプローチ

Q6：今後の展開は？
短期的にはコーディング領域の強化、中長期的には他産業（金融・医療など）への拡張を計画。

まとめ：AI時代の“データ品質革命”を牽引する新星

AI業界では「より多くのデータ」から「より良いデータ」への転換が進んでいる。
DataCurveは、ゲーミフィケーションと高品質コーディングデータ生成を融合させ、Scale AIに次ぐ次世代のデータプラットフォームとして急浮上中だ。

公式サイト：https://datacurve.ai