新しいサービス【AwesomeQR】

【統計検定】データサイエンス基礎(DS基礎)を平日毎朝20分、約1か月半だけの勉強で資格取得した話

5 min 1,601 views
統計検定DS基礎取得のサムネイル

はじめに

突然ですが、分散標準偏差ベイズの定理などの用語を聞いたことがありますでしょうか?

これらは統計学で知らなくてはならない基本的な用語になるわけですが、ビジネスにおいても欠かせない用語であるとも考えております。

最近、思考の穴という本を読みましたが、その中で、ベイズの定理の話が出てきておりまして、あそこにいるコアラは動物か?という質問と、あそこにいる動物はコアラか?という逆の質問が明らかに同じではないのに、違ったシチュエーションでは間違えた思考をしてしまう人が多いという事例がありました。

詳細を知りたい方はぜひ思考の穴と検索して読んでみてください。

人間がわりと間違った思考をしてしまう生き物であるという真実がよくわかります。

ですが、この時点ですでに数学的なアレルギーを感じる方は、無理する必要はないので、すぐにこのページから離脱することをお勧めします。

ところで、統計検定というものをご存知でしょうか?

統計検定は一般財団法人 統計質保証推進協会のウェブサイトによると以下のように説明されております。

「統計検定」は、統計に関する知識や活用力を評価する全国統一試験です。
データに基づいて客観的に判断し、科学的に問題を解決する能力は、仕事や研究をするための21世紀型スキルとして国際社会で広く認められています。日本統計学会は、国際通用性のある統計活用能力の体系的な評価システムとして統計検定を開発し、様々な水準と内容で統計活用力を認定しています。

一般財団法人 統計質保証推進協会

上記のデータに基づいた客観的な判断が正しくできる能力を身に付けるべくチャレンジしてみました。

統計検定は2023年10月時点で10種類の検定がありまして、1級から4級のような通常の級での種別のほかに、最近ではデータサイエンスという名前がついた資格も存在しております。

その中で、なぜ今回統計検定の統計検定 データサイエンス基礎(DS基礎)を受験したのかということですが、動機は不純で、単に名前がカッコいいということと、なんとなく新しそうというところ、あとデジタルバッジをもらえるかもしれないということでした。

という不純な動機はあるものの、実際にウェブ解析やアンケート分析をやる中で、恣意的な分析にならないような方法というものを基礎からしっかり身に付けておく必要があるとも考えていたことと、この資格ではExcelというビジネスで本当によく使う表計算ソフトを使用しての資格試験のため、個人だけでなく、顧客への説明に際しても活用できる内容だと感じたため受験することにしました。

試験内容

試験内容は、データハンドリング技能データ解析技能解析結果の適切な解釈の3つの観点に対応した大学入試までの内容ということです。

さて、私自身は理系の大学を卒業したはずなので、このくらいは楽勝と思いたいです。が、実際にはそう簡単ではなかったです。

出題形式は特徴的で、コンピュータ上で表計算ソフトExcelを使って処理した結果を基に、多肢選択や数値・文字入力で問題に答える形式となっております。

要するに、数値や文字での入力なので、15.8みたいな勘で正解できるような内容ではないです。

受験料は、2023年10月時点で一般価格7,000円、学割価格5,000円です。

個人的には高過ぎず、安過ぎずといった印象です。

サンプル問題

せっかくなので実際にウェブページに公開されているサンプル問題を解いてみましょう。

あらかじめお伝えしますが、答えを知らないで解くので間違っているかもしれません。

統計検定データサイエンス基礎サンプル問題

コンピュータの画面は上図のような形で、問題とそれの元になるExcelシートが用意されております。

実際にウェブページに公開されておりますので、やりたい方はExcelも用意されておりますので、以下のサイトからご確認ください。

1問目

Q

木造住宅と鉄筋住宅、それぞれの住宅の価格の平均を求めた。木造住宅の一戸当たりの平均価格はいくらか?※小数第2位までの値を半角で入力すること

A

18.89

まず、下図のように挿入>テーブル>テーブルをクリックしてテーブルにしていきます。

統計検定サンプル1問目テーブル化

つづいてこのテーブルを下図のようにテーブルデザイン>ツール>ピボットテーブルで集計をクリックしてピボットテーブルにします。

統計検定サンプル1問目ピボットテーブル化

続けて下図のように価格と構造をドラッグアンドドロップします。

下図のようにピボットテーブル内で右クリックをして、値の集計方法>平均をクリックします。

平均値の取得

すると下図のようになるので、木造は18.89となります。

平均値

2問目

Q

価格を床面積の価格に変換し、木造住宅について、築年数によって一坪(3.3㎡)当たりの価格がどのように変化するのかを調べることにした。そのため、先ず、築年数と床面積一坪当たりの価格の関係を表すグラフを作成する。次に、そのグラフに、単回帰直線を当てはめることにした。どのようなグラフを作成すべきか、一般的な統計グラフの名称を感じで答えよ。

A

散布図

まず、下図のように1問目に作ったテーブルに列を追加して、タイトルを床面積1坪(3.3m2)あたりの価格として、2行目に=[@[価格(百万円)]]/[@床面積(m2)]*3.3と入力すると床面積一坪当たりの価格がわかります。

その状態で、坪単価は100万円単位なので、1万円単位にするため床面積1坪(3.3m2)あたりの価格に100を掛けたうえで、下図のように情報を整理してグラフを作ります。

回帰直線

なんとなく築年数が浅いほど坪単価が高い傾向がありそうだということが分かります。

3問目

Q

あてはめた単回帰直線の式から、築年数が1年古くなるごとに、床面積一坪当たりの価格は、何万円ずつ変化する傾向があるか?※小数第2位までの値を半角で入力すること。

A

-2.90

実際の試験ではマイナスの変化の場合はマイナスをつけるなどの指示があります。

2問目で作ったグラフに、下図の操作をしてグラフに数式を表示します。

回帰直線のグラフの表示

これは1次関数の式になっていて、今回のように何万円ずつ変化があるかという質問なので、このグラフの傾きを回答すればいいと考えられます。

4問目

Q

この単回帰直線上の指定値と実際の価格の差(残差)が最も大きな木造住宅の番号はいくつか?※物件番号を半角で入力すること。

A

2

さて、ここで私がこの勉強をしていてExcelのこんな機能あるんだという紹介をします。

皆さんのExcelでは下図のようなデータ分析というコマンドが表示されていますでしょうか?

データ分析コマンド

もし表示されていないのであれば、下記のURLを参考に追加することをお勧めします。

実際の試験ではこちらのコマンドが使用できるように準備されております。

残差を計算するのに非常に簡単にできますので、こちらのツールを使います。

下図のようにデータ>分析>データ分析をクリックして、回帰分析を選択し、OKをクリックします。

データ分析の回帰分析

そして、下図のようにXの範囲とYの範囲を入力して、ラベルにチェックと残差にチェックを入れてOKをクリックします。

回帰分析の設定

すると、下図のように概要が表示されますので、残差が大きいのを確認するため、残差の2乗を取り、さらにそれの降順でソートすると下図のようになり、データの2番目が一番さが大きいことが分かります。

回帰統計概要

2乗をとる理由は、普通に降順ソートすると、マイナスが大きい残差に対応できないためです。

5問目

Q

この単回帰直線が築年数の効果を十分に表しているとみなしたとき、下記の①~④から、先の問4の住宅の残差が大きくなった要因として最も適切なものを選べ。※選択肢の番号を半角で入力すること。

①住宅の床面積
②住宅の構造(鉄筋、木造)
③住宅の築年数
④駅からの距離など、①~③の変数以外の要因

A

1

正直これは全く自信がありませんが、②の構造は同じ状態での分析なので要因とはなりえません。

③の築年数はすでに築年数についての分析をしているので大きくなった要因とはなりえません。

なので、残すは①か④ですが、④の駅からの距離も残差が大きいサンプルIDが2の方がIDが1よりも倍以上時間がかかることから消去法で①としておきましょう。

実際に住宅の床面積が他に比べ圧倒的に広いので、この要因が強いと考えられます。

勉強方法と時間

勉強方法

実はこちらの資格試験はウェブサイト上に過去問が掲載されていないので、どう勉強しようか悩みましたが、結局、書籍を購入して勉強しました。

データアナリティクス基礎の書籍

勉強時間

タイトルでネタバレしておりますが、だいたい平日の朝仕事の始業前20分で、上記の書籍をちょっとずつ読んで、実際の例題をExcelベースでやっていました。

期間としては、だいたい1か月半で、だいたい3週間くらいで本編を読んで、残りの2,3週間くらいで付属の模擬試験をやりました。

ただもちろん一応、理系の大学を卒業しておりますし、AIの勉強をする中で統計の知識もある程度持っておりますので、あくまでも同様の知識レベルの人にとっては参考になれば幸いです。

難易度

自慢になってしまいますが、個人としてはいくつかの資格を取得してきた中でも割と難しい部類に入るのかと思いました。

というのも、勘で回答して正解できる部分が圧倒的に少なく、きちんと理解していないと回答できないことに合わせて、仮に計算方法は合っていても、計算過程でのケアレスミスも許されないため入試試験に近い形かもしれません。

ただ、合格ラインが60%で特定の分野だけ全滅しても合格できる可能性があるので、網羅的に知識を得られているかの判定には少し疑問は残ります。

さいごに

資格試験には合格したものの、データサイエンスの基礎ということもあり、まだまだ知識レベルとしては十分でないことは自分でもよくわかることから、さらに次のステップにむけて学習しようと思います。

関連記事