データサイエンティスト検定(DS検定)の概要と対策

2022年6月にデータサイエンティスト検定(DS検定)を受けて合格いたしました。下記は受験直後に得られる結果レポート、正解率は87.7%でした。合格証明書は約5週間後の8月3日に頂きました。私は金融工学の大学院を出ていて、DS検定の試験範囲は得意な科目ばかりでしたが、それでも試験当日は苦労しました。簡単な試験ではないと思います。本稿ではデータサイエンティスト検定の受験を検討されている方向けに、試験の概要・対策・勉強方法、それに関連資格についてご紹介いたします。


結果レポート(2022年6月24日の受験直後に受領):


データサイエンティスト検定(DS検定) 結果レポート

スコアシート(2022年8月3日に受領):

目安は8割とされている実際の合否ラインと、総合得点(私の場合は395点)の計算方法は非公開です。2022年6月試験のデータですが、スコアシートには受験者平均得点の記載があり難易度の参考になります。


DS検定 スコアシート

合格証明書(2022年8月3日に受領):

合格の認定日は7月1日となっています。pdfの合格証明書の他にも、LecoSのシステムを利用したオープンバッジも発行されます。



データサイエンティスト協会とは

2013年に設立された民間の一般社団法人で、日本IBM、Yahoo、野村総研、統計学会、情報処理推進機構他100社超の法人会員が後援しています。下記に設立目的を引用します。目的の前段に対応する活動がデータサイエンティストのスキルの定義(スキルチェックリストの作成・更新)と、本稿でご紹介するデータサイエンティスト検定です。また後段の目的に沿い、検定の受験や合否に関わらず、個人会員に対して様々なセミナーやシンポジウムを提供しています。講師や登壇者は後援の法人会員であることが多いです。個人会員の登録は無料、セミナーやシンポジウム自体も無料ですので、受験を検討される方はまずは協会への会員登録から始めるといいかもしれません(検定の申込にも会員登録が必要)。

当協会は、新しい職種であるデータサイエンティストに必要となるスキル・知識を定義し、育成のカリキュラム作成、評価制度の構築など、高度IT人材の育成と業界の健全な発展への貢献、啓蒙活動を行っていきます。

また、所属を超えてデータ分析に関わる人材が開かれた環境で交流や議論をし、自由に情報共有や意見発信ができる場を提供していきます。

社団法人データサイエンス協会 https://www.datascientist.or.jp/about/background/

データサイエンティスト検定(DS検定)の概要

試験の概要は次の表の通りです。

名称データサイエンティスト検定(DS検定)
試験日年2回、6月頃と11月頃
受験方式CBT方式(受験日時と会場を選べる)
受験費用一般10,000円学生5,000円
受験資格なし
試験形式4択問題が90問
試験時間90分
合格ライン正答率78%~80%が目安と公表
2022年6月試験ではちょうど80%が合格ラインでした(公式には非公表)
合格率
2021年11月実績
受検者数:約1,400名
合格者数:927名
合格率 :約66%
2022年6月実績受験者数:約2,900名
合格者数:1,453名
合格率 :約50%
2022年11月実績受験者数:約2,600名
合格者数:1,088名
合格率 :約42%
合格発表試験の約5週間後(正答率はその場で印刷)
試験範囲(配分)データサイエンス(50%)、データエンジニアリング(25%)、ビジネス(25%)
電卓持ち込み不可、但し画面上に電卓あり
メモ用紙ボールペンとメモ用紙が1枚配られる

受験方式はCBT方式です。年2回の試験期間中の好きな日時、好きな会場を選べます。6月試験では6月10日から6月30日の中から選べました(平日でも土日でも)。90分間で90問出題され、全て4択です。4択は最も適切な肢を選ぶ形式の問題と、最も当てはまらない肢を選ぶ形式の問題、両方が出題されます。1問1分を切るペースで解き、最後に全て見直すことをお勧めいたします。

2023年度試験のスケジュール・日程

2023年度試験のスケジュールは次の通りです(2023年2月3日に発表)。


第4回2023年6月3日(土) ~ 2023年6月25日(日)
第5回2023年11月11日(土) ~ 2023年12月3日(日)
第6回2024年3月上旬 ~ 下旬

次回の第5回の日程が発表され次第こちらに掲載します。


詳細発表2023年X月X日
申込期間2023年X月XX日(月)10:00 ~ 2023年X月XX日(金)23:59(個人申込)
2023年X月XX日(月)10:00 ~ 2023年X月XX日(木)18:00(法人申込)
試験期間2023年11月11日(土) ~ 2023年12月3日(日)

2022年秋の試験(第3回試験)は下記のようなスケジュールでした。試験期間開始の約2ヶ月前に詳細が発表され、1ヶ月前が申込みの目安でした。


詳細発表2022年9月22日(木)
申込期間2022年10月1日(土)10:00~2022年11月6日(日)23:59(個人申込み)
2022年10月3日(月)10:00~2022年10月28日(金)18:00(法人申込み)
試験期間2022年11月15日(火) ~ 2022年12月5日(月)
結果発表2023年2月上旬

合格ライン・合格率・勉強時間

合格ラインの目安は正答率78-80%、合格率は42-50%(2022年6月-11月試験)と公表されています。2022年6月試験では正答率79%(総得点355点)の人が不合格、正答率80%(総得点360点)の人が合格でした(2022年6月~8月の間にtwitter上で調査)。他方、2023年6月試験ではでは正答率78%の人が合格しており(2023年6月~8月の間にtwitter上の調査)、難易度によって合格ラインを調整していることがわかります。なお、総得点とは調整後の数値です(2022年6月試験は調整なし)。

42% – 50%の合格率は高めですが、この試験の存在を知っている人は、情報系や工学系の学生、現役のデータサイエンティスト、又は私のようなその他エンジニアが大多数で、元々の受験生のレベルが高いと推察されます(スクリーニング済み)。この属性の方は1ヶ月の準備期間で合格圏に達すると思います。左記以外でデータに普段関わる方(例えば文系出身の企画職)にとってもDS検定は大変有用でお勧めなのですが、数学・統計問題とデータエンジニアリング問題の準備のため、やや長めの準備期間(3ヶ月~半年)が必要かもしれません。

初回の2021年11月試験と、3回目の2022年11月試験を比較すると、受験者数が1,400名から2,600名に大きく増える一方で、合格率が66%から42%に低下しました。DXの流行やデータサイエンティストの人気化に伴い、今後も受験者層の拡大に起因する合格率低下傾向は続く可能性があり、受験予定の方は早めの受験をお勧めします。実際、協会関係者によれば、初回の2021年11月試験と2回目の2022年6月試験の比較では、合格ラインとされる80%の正答率は不変も、一部容易な部類に属する問題の難易度を引き上げたとのことでした(2022年時点は78%-80%というレンジの合格ラインではなく、80%のみが合格ラインとして公表されていました)。

計算問題もある中で一切の持ち込み不可とされていますが、試験画面の中の電卓アプリが使え、手元にメモ用紙1枚とボールペンも貸してくれます。試験範囲はいずれも広範な3分野から構成され、データサイエンスのウェイトが高いです。試験範囲毎の傾向と対策は後述しますが、実務で必要な分野を網羅的に広く学べるので、データサイエンティストを養成する試験としては非常によくできたカリキュラムだと思います。例えばアカデミックなデータサイエンス(≒応用統計)では、データベースやSQLは関心の外側ですが、データサイエンティストの実務では不可欠です。


データサイエンティスト検定(DS検定)試験範囲

DS検定の参考書、問題集

私はインプレスさんが出している通称「黒本」と言われる問題集を中心にやりましたが、試験直後に振り替えると、黒本よりも、通称「白本」とされる技術評論社さんの「公式レファレンスブック」を中心に勉強した方がよかったように思います。とくに「公式レファレンスブック」でオレンジ色にハイライトされているキーワードを確実に抑えることと、巻末の模擬試験にしっかり取り組むことが重要です。本試験では、公式レファレンスブック巻末の模擬試験と非常によく似た問題が出ました。また、公式レファレンスブックの各スキルには、「頻出」タグ、あるいは「ver.4新設」タグがついている項目とタグがついていない項目があり、時間が限られる場合の優先順位の目安になります。

白本には2021年9月発売の初版と2022年5月発売の第2版があります(電子版第2版は2022年4月発売)。誤って見た目がそっくりな古い初版を買わないように注意してください(下記をクリックすれば「白本」の第2版です)。

下記が通称「黒本」


公式レファレンスブックの元になっているスキルチェクリストは過去2年に1回の頻度で改訂されて現在はver4、スキル定義委員会の方によれば、次回2023年も改訂を予定しているとのことです。よって上記の公式レファレンスブック・黒本も2023年9-10月頃の改訂が予想されます。2023年6月迄の試験を受ける方は、上記を購入頂いて問題ありませんが、2023年11月以降の試験を受験予定の方は、公式レファレンスブックの改訂版が発売される(と思われる)2023年9-10月頃まで待った方がいいです。

DS検定の試験範囲別の傾向と対策、勉強方法

試験範囲 – 1.データサイエンスの傾向と対策

データサイエンスの試験範囲次の通りです。試験範囲は広いですが、大きく分けると機械学習とそれ以外のデータサイエンスにわけられます。それ以外の分野の統計数理基礎、線形代数基礎、微分・積分基礎、集合論基礎、回帰・分類、評価、推定・検定などの純然たる数学・統計の分野(スキルカテゴリ基礎数学)は、数学が苦手だと学習に時間を要すると思いますが、素直な基礎的な問題しか出ないので得点しやすいように思います。反対に、一見簡単に思える統計情報への正しい理解、データ確認、表現・実装技法などは正解に迷う問題が多かったです。機械学習はそれ自体試験範囲が広いわけですが、難問は少ないです。白本を丁寧に読むことで十分得点可能です。最後に+αのモデルカリキュラムですが、3つの試験範囲ではデータサイエンスに属する問題が多いと思いますのでこちらに分類しました。モデルカリキュラムについてはいよいよ広く薄いので対策が難しいのですが、白本の「データリテラシー(基礎の)重要キーワード解説」の内容は抑えた方がいいと思います。

データサイエンスの試験範囲:

統計数理基礎、線形代数基礎、微分・積分基礎、集合論基礎、統計情報への正しい理解、データ確認、俯瞰・メタ思考、データ理解、洞察、回帰・分類、評価、推定・検定、グルーピング、性質・関係性の把握、因果推論、サンプリング、データクレンジング、データ加工、特徴量エンジニアリング、方向性定義、軸だし、データ加工、表現・実装技法、意味抽出、時系列分析、機械学習、深層学習、自然言語処理、画像認識、映像認識、音声認識、パターン発見、モデルカリキュラム

試験範囲 – 2.データエンジニアリングの傾向と対策

私が受けたときは、プログラミングとデータ加工(SQL)で1問ずつ白本のレベルを超え、エンジニア経験がないと解けないと思われる難問が出ましたが、大部分の問題は白本を読み込むことで点がとれます。とくにデータベース周り(データ抽出、データ収集、データ構造の基礎知識、テーブル定義(正規化)、ソート処理、結合処理、集計処理、変換・演算処理、データ出力、SQL)と、セキュリティー周り(ITセキュリティの基礎知識、攻撃と防御手法、暗号化技術、認証)は点が取りやすいように感じました(実務的にも重要)。他の分野も入門レベルながらDocker、SDK、API、Python、JupyterNotebook、Rなどの実務に関連する問題が出るので、データエンジニアリングの学習は楽しいと思います。

データエンジニアリングの試験範囲:

システム企画、システム設計、アーキテクチャ設計、クライアント技術、通信技術、データ抽出、データ収集、データ構造の基礎知識、テーブル定義、DWH、分散技術、クラウド、フィルタリング処理、ソート処理、結合処理、前処理、マッピング処理、サンプリング処理、集計処理、変換・演算処理、データ出力、データ展開、データ連携、基礎プログラミング、拡張プログラミング、アルゴリズム、分析プログラム、SQL、ITセキュリティの基礎知識、攻撃と防御手法、暗号化技術、認証、ソース管理、AutoML、MLOps、AIOps

試験範囲 – 3.ビジネスの傾向と対策

ビジネスは3分野の中では最も簡単です。実際、2022年6月試験での受験者の平均正答率は85%と、3分野では最も高かったです(前掲のスコアシート参照)。知識を問う問題と考えさせる問題の2種類が出で、前者は白本を読み込むことで十分に解くことができ、後者は白本を読まずとも一般常識だけで解ける問題が多かった印象です。試験範囲は下記の通りです。各カテゴリーが知識問題と思考力問題のいずれに属するかは、白本を読んで頂ければすぐわかると思います。

ビジネスの試験範囲:

ビジネスマインド、データ・AI倫理、コンプライアンス、契約、MECE、構造化能力、言語化能力、ストーリーライン、ドキュメンテーション、説明能力、AI活用検討、KPI、スコーピング、データ入手、分析アプローチ設計、データ理解、意味合いの抽出・洞察、評価・改善の仕組み、プロジェクト発足、リソースマネジメント、リスクマネジメント

リテラシーレベルより上位のDS検定の予定・関連資格

本稿でご紹介したDS検定はリテラシーレベルとされていますが、ホームページ上では下記イメージ図の通り、アソシエートデータサイエンティスト、フルデータサイエンティスト、シニアデータサイエンティストとより上位のスキルレベルが定められています。この件につき、協会関係者にヒアリングしたところ(2022年9月)、現在これら上位のデータサイエンティストに対応する上位の検定は検討中ではあるが、具体的な時期の目途は立っていないとのことでした。また、2022年11月14日に開催されたデータサイエンティスト協会シンポジウムにおいても、スキル定義委員の方からは、上位レベル検定に関する発言(検討に関する発言も含む)がなかったので、当面は上位のスキルレベルに対応するDS検定は設置されないと思われます。発表新しい情報を得ましたら本稿でUpdateいたします。


DS検定の上位検定 - アソシエートデータサイエンティスト、フルデータサイエンティスト、シニアデータサイエンティスト

データサイエンティストの関連資格

DS検定のリテラシーレベル合格後は、実課題に取り組むことが協会関係者から強く推奨されていますが、資格においては、協会が2022年5月データサイエンティスト556名に実施したアンケートによれば、統計検定(2級以上)が最も取得者が多い資格です。統計検定2級については、私の別の記事「統計検定2級の取得メリットと勉強法 – 80点合格の筆者が解説」で詳しく解説しています。宜しければご覧になってみてください。


データサイエンティストに人気の資格
https://www.datascientist.or.jp/dssjournal/2022/06/22/dodv29/

今日も最後まで読んで頂きありがとうございました。



2023年1月、本稿がフリーランスエンジニア向けに18万件以上の案件を掲載するFreelance Hubさんのメディアで紹介されました(記事はこちら)。