データサイエンティスト検定(DS検定)の概要と対策

2022年6月にデータサイエンティスト検定(DS検定)を受けて合格いたしました。下記は受験直後に得られる結果レポート、正解率は87.7%でした。合格証明書は約5週間後の8月3日に頂きました。私は金融工学の大学院を出ていて、DS検定の試験範囲は得意な科目ばかりでしたが、それでも試験当日は苦労しました。簡単な試験ではないと思います。本稿ではデータサイエンティスト検定の受験を検討されている方向けに、試験の概要や対策についてご紹介いたします。


結果レポート(2022年6月24日の受験直後に受領):


データサイエンティスト検定(DS検定) 結果レポート

スコアシート(2022年8月3日に受領):

目安は8割とされている実際の合否ラインと、総合得点(私の場合は395点)の計算方法は非公開です。2022年6月試験のデータですが、スコアシートには受験者平均得点の記載があり難易度の参考になります。


DS検定 スコアシート

合格証明書(2022年8月3日に受領):

合格の認定日は7月1日となっています。pdfの合格証明書の他にも、LecoSのシステムを利用したオープンバッジも発行されます。



データサイエンティスト協会とは

2013年に設立された民間の一般社団法人で、日本IBM、Yahoo、野村総研、統計学会、情報処理推進機構他100社超の法人会員が後援しています。下記に設立目的を引用します。目的の前段に対応するのが、本稿でご紹介するデータサイエンティスト検定です。また後段の目的にある通り、検定の受験や合否に関わらず、個人会員に対して様々なセミナーやシンポジウムを提供しています。講師や登壇者は後援の法人会員であることが多いです。個人会員の登録は無料、セミナーやシンポジウム自体も無料ですので、受験を検討される方はまずは協会への会員登録から始めるといいかもしれません(検定の申込にも会員登録が必要)。

当協会は、新しい職種であるデータサイエンティストに必要となるスキル・知識を定義し、育成のカリキュラム作成、評価制度の構築など、高度IT人材の育成と業界の健全な発展への貢献、啓蒙活動を行っていきます。

また、所属を超えてデータ分析に関わる人材が開かれた環境で交流や議論をし、自由に情報共有や意見発信ができる場を提供していきます。

社団法人データサイエンス協会 https://www.datascientist.or.jp/about/background/

データサイエンティスト検定(DS検定)の概要

試験の概要は次の表の通りです。

名称データサイエンティスト検定(DS検定)
試験日年2回、6月頃と11月頃
受験方式CBT方式(受験日時と会場を選べる)
受験費用一般10,000円学生5,000円
受験資格なし
試験形式4択問題が90問
試験時間90分
合格ライン正答率80%が目安と公表
2022年6月試験ではちょうど80%が合格ラインでした(公式には非公表)
合格率
2021年11月実績
受検者数:約1,400名
合格者数:927名
合格率 :約66%
2022年6月実績受験者数:約2,900名
合格者数:1,453名
合格率 :約50%
合格発表試験の約5週間後(正答率はその場で印刷)
試験範囲(配分)データサイエンス(50%)、データエンジニアリング(25%)、ビジネス(25%)
電卓持ち込み不可、但し画面上に電卓あり
メモ用紙ボールペンとメモ用紙が1枚配られる

受験方式はCBT方式です。年2回の試験期間中の好きな日時、好きな会場を選べます。6月試験では6月10日から6月30日の中から選べました(平日でも土日でも)。90分間で90問出題され、全て4択です。4択は最も適切な肢を選ぶ形式の問題と、最も当てはまらない肢を選ぶ形式の問題、両方が出題されます。1問1分を切るペースで解き、最後に全て見直すことをお勧めいたします。

2022年秋のDS検定の日程

2022年8月3日に2022年秋の試験期間が、9月22日に申込期間が発表されました。

申込期間2022年10月1日(土)10:00~2022年11月6日(日)23:59(個人申込み)
2022年10月3日(月)10:00~2022年10月28日(金)18:00(法人申込み)
試験期間2022年11月15日(火)~2022年12月5日(月)
結果発表2023年2月上旬

合格ライン・合格率・勉強時間

合格ラインの目安は80%、合格率は50%(2022年6月試験)と公表されています。2022年6月試験では正答率79%(総得点355点)の人が不合格、正答率80%(総得点360点)の人が合格していたのでちょうと80%が合格ラインでした(2022年6月~8月の間にtwitter上で調査)。協会は正答率80%を目安としながらも、テスト毎の点数の分布によっては合格ラインを調整しているものと推測します。総得点とは調整後の数値であると推測されます(2022年6月試験は調整なし)。

50%の合格率は高めですが、この試験の存在を知っている人は、情報系や工学系の学生、現役のデータサイエンティスト、又は私のようなその他エンジニアが大多数で、元々の受験生のレベルが高いと推察されます(スクリーニング済み)。この属性の方は1ヶ月の準備期間で合格圏に達すると思います。左記以外でデータに普段関わる方(例えば文系出身の企画職)にとってもDS検定は大変有用でお勧めなのですが、数学・統計問題とデータエンジニアリング問題の準備のため、やや長めの準備期間(3ヶ月~半年)が必要かもしれません。

その他2021年11月試験と2022年6月試験を比較すると、受験者数が1,400名から2,900名に大きく増える一方で、合格率が66%から50%に低下しました。DXの流行やデータサイエンティストの人気化に伴い、今後もこの傾向は続きそうです。

計算問題もある中で一切の持ち込み不可とされていますが、試験画面の中の電卓アプリが使え、手元にメモ用紙1枚とボールペンも貸してくれます。試験範囲はいずれも広範な3分野から構成され、データサイエンスのウェイトが高いです。試験範囲毎の傾向と対策は後述しますが、実務で必要な分野を網羅的に広く学べるので、データサイエンティストを養成する試験としては非常によくできたカリキュラムだと思います。例えばアカデミックなデータサイエンス(≒応用統計)では、データベースやSQLは関心の外側ですが、データサイエンティストの実務では不可欠です。


データサイエンティスト検定(DS検定)試験範囲

DS検定の参考書、問題集

私はインプレスさんが出している通称「黒本」と言われる問題集を中心にやりましたが、試験直後に振り替えると、黒本よりも、通称「白本」とされる技術評論社さんの「公式レファレンスブック」を中心に勉強した方がよかったように思います。とくに「公式レファレンスブック」でオレンジ色にハイライトされているキーワードを確実に抑えることと、巻末の模擬試験にしっかり取り組むことが重要です。本試験では、公式レファレンスブック巻末の模擬試験と非常によく似た問題が出ました。白本には2021年9月発売の初版と、2022年5月発売の第2版があります(電子版第2版は2022年4月発売)。誤って見た目がそっくりな古い初版を買わないように注意してください(下記をクリックすれば「白本」の第2版です)。

下記が通称「黒本」


DS検定の試験範囲別の傾向と対策

試験範囲 – 1.データサイエンスの傾向と対策

データサイエンスの試験範囲次の通りです。試験範囲は広いですが、大きく分けると機械学習とそれ以外のデータサイエンスにわけられます。それ以外の分野の統計数理基礎、線形代数基礎、微分・積分基礎、集合論基礎、回帰・分類、評価、推定・検定などの純然たる数学・統計の分野は、数学が苦手だと学習に時間を要すると思いますが、素直な基礎的な問題しか出ないので得点しやすいように思います。反対に、一見簡単に思える統計情報への正しい理解、データ確認、表現・実装技法などは正解に迷う問題が多かったです。機械学習はそれ自体試験範囲が広いわけですが、難問は少ないです。白本を丁寧に読むことで十分得点可能です。最後に+αのモデルカリキュラムですが、3つの試験範囲ではデータサイエンスに属する問題が多いと思いますのでこちらに分類しました。モデルカリキュラムについてはいよいよ広く薄いので対策が難しいのですが、白本の「データリテラシー(基礎の)重要キーワード解説」の内容は抑えた方がいいと思います。

データサイエンスの試験範囲:

統計数理基礎、線形代数基礎、微分・積分基礎、集合論基礎、統計情報への正しい理解、データ確認、俯瞰・メタ思考、データ理解、洞察、回帰・分類、評価、推定・検定、グルーピング、性質・関係性の把握、因果推論、サンプリング、データクレンジング、データ加工、特徴量エンジニアリング、方向性定義、軸だし、データ加工、表現・実装技法、意味抽出、時系列分析、機械学習、深層学習、自然言語処理、画像認識、映像認識、音声認識、パターン発見、モデルカリキュラム

試験範囲 – 2.データエンジニアリングの傾向と対策

私が受けたときは、プログラミングとデータ加工(SQL)で1問ずつ白本のレベルを超え、エンジニア経験がないと解けないと思われる難問が出ましたが、大部分の問題は白本を読み込むことで点がとれます。とくにデータベース周り(データ抽出、データ収集、データ構造の基礎知識、テーブル定義(正規化)、ソート処理、結合処理、集計処理、変換・演算処理、データ出力、SQL)と、セキュリティー周り(ITセキュリティの基礎知識、攻撃と防御手法、暗号化技術、認証)は点が取りやすいように感じました(実務的にも重要)。他の分野も入門レベルながらDocker、SDK、API、Python、JupyterNotebook、Rなどの実務に関連する問題が出るので、データエンジニアリングの学習は楽しいと思います。

データエンジニアリングの試験範囲:

システム企画、システム設計、アーキテクチャ設計、クライアント技術、通信技術、データ抽出、データ収集、データ構造の基礎知識、テーブル定義、DWH、分散技術、クラウド、フィルタリング処理、ソート処理、結合処理、前処理、マッピング処理、サンプリング処理、集計処理、変換・演算処理、データ出力、データ展開、データ連携、基礎プログラミング、拡張プログラミング、アルゴリズム、分析プログラム、SQL、ITセキュリティの基礎知識、攻撃と防御手法、暗号化技術、認証、ソース管理、AutoML、MLOps、AIOps

試験範囲 – 3.ビジネスの傾向と対策

ビジネスは3分野の中では最も簡単です。実際、2022年6月試験での受験者の平均正答率は85%と、3分野では最も高かったです(前掲のスコアシート参照)。知識を問う問題と考えさせる問題の2種類が出で、前者は白本を読み込むことで十分に解くことができ、後者は白本を読まずとも一般常識だけで解ける問題が多かった印象です。試験範囲は下記の通りです。各カテゴリーが知識問題と思考力問題のいずれに属するかは、白本を読んで頂ければすぐわかると思います。

ビジネスの試験範囲:

ビジネスマインド、データ・AI倫理、コンプライアンス、契約、MECE、構造化能力、言語化能力、ストーリーライン、ドキュメンテーション、説明能力、AI活用検討、KPI、スコーピング、データ入手、分析アプローチ設計、データ理解、意味合いの抽出・洞察、評価・改善の仕組み、プロジェクト発足、リソースマネジメント、リスクマネジメント

リテラシーレベルより上位のDS検定の予定

本稿でご紹介したDS検定はリテラシーレベルとされていますが、ホームページ上では下記イメージ図の通り、アソシエートデータサイエンティスト、フルデータサイエンティスト、シニアデータサイエンティストとより上位のスキルレベルが定められています。この件につき、協会関係者にヒアリングしたところ(2022年9月)、現在これら上位のデータサイエンティストに対応する上位の検定は検討中ではあるが、具体的な時期の目途は立っていないとのことでした。新しい情報を得ましたら本稿でUpdateいたします。


DS検定の上位検定 - アソシエートデータサイエンティスト、フルデータサイエンティスト、シニアデータサイエンティスト

今日も最後まで読んで頂きありがとうございました。