目次
はじめに
突然ですが、分散、標準偏差、ベイズの定理などの用語を聞いたことがありますでしょうか?
これらは統計学で知らなくてはならない基本的な用語になるわけですが、ビジネスにおいても欠かせない用語であるとも考えております。
最近、思考の穴という本を読みましたが、その中で、ベイズの定理の話が出てきておりまして、あそこにいるコアラは動物か?という質問と、あそこにいる動物はコアラか?という逆の質問が明らかに同じではないのに、違ったシチュエーションでは間違えた思考をしてしまう人が多いという事例がありました。
詳細を知りたい方はぜひ思考の穴と検索して読んでみてください。
人間がわりと間違った思考をしてしまう生き物であるという真実がよくわかります。
ですが、この時点ですでに数学的なアレルギーを感じる方は、無理する必要はないので、すぐにこのページから離脱することをお勧めします。
ところで、統計検定というものをご存知でしょうか?
統計検定は一般財団法人 統計質保証推進協会のウェブサイトによると以下のように説明されております。
「統計検定」は、統計に関する知識や活用力を評価する全国統一試験です。
一般財団法人 統計質保証推進協会
データに基づいて客観的に判断し、科学的に問題を解決する能力は、仕事や研究をするための21世紀型スキルとして国際社会で広く認められています。日本統計学会は、国際通用性のある統計活用能力の体系的な評価システムとして統計検定を開発し、様々な水準と内容で統計活用力を認定しています。
上記のデータに基づいた客観的な判断が正しくできる能力を身に付けるべくチャレンジしてみました。
統計検定は2023年10月時点で10種類の検定がありまして、1級から4級のような通常の級での種別のほかに、最近ではデータサイエンスという名前がついた資格も存在しております。
その中で、なぜ今回統計検定の統計検定 データサイエンス基礎(DS基礎)を受験したのかということですが、動機は不純で、単に名前がカッコいいということと、なんとなく新しそうというところ、あとデジタルバッジをもらえるかもしれないということでした。
という不純な動機はあるものの、実際にウェブ解析やアンケート分析をやる中で、恣意的な分析にならないような方法というものを基礎からしっかり身に付けておく必要があるとも考えていたことと、この資格ではExcelというビジネスで本当によく使う表計算ソフトを使用しての資格試験のため、個人だけでなく、顧客への説明に際しても活用できる内容だと感じたため受験することにしました。
試験内容
試験内容は、データハンドリング技能、データ解析技能、解析結果の適切な解釈の3つの観点に対応した大学入試までの内容ということです。
さて、私自身は理系の大学を卒業したはずなので、このくらいは楽勝と思いたいです。が、実際にはそう簡単ではなかったです。
出題形式は特徴的で、コンピュータ上で表計算ソフトExcelを使って処理した結果を基に、多肢選択や数値・文字入力で問題に答える形式となっております。
要するに、数値や文字での入力なので、15.8みたいな勘で正解できるような内容ではないです。
受験料は、2023年10月時点で一般価格7,000円、学割価格5,000円です。
個人的には高過ぎず、安過ぎずといった印象です。
サンプル問題
せっかくなので実際にウェブページに公開されているサンプル問題を解いてみましょう。
コンピュータの画面は上図のような形で、問題とそれの元になるExcelシートが用意されております。
実際にウェブページに公開されておりますので、やりたい方はExcelも用意されておりますので、以下のサイトからご確認ください。
1問目
Q
木造住宅と鉄筋住宅、それぞれの住宅の価格の平均を求めた。木造住宅の一戸当たりの平均価格はいくらか?※小数第2位までの値を半角で入力すること
A
18.89
まず、下図のように挿入>テーブル>テーブルをクリックしてテーブルにしていきます。
つづいてこのテーブルを下図のようにテーブルデザイン>ツール>ピボットテーブルで集計をクリックしてピボットテーブルにします。
続けて下図のように価格と構造をドラッグアンドドロップします。
下図のようにピボットテーブル内で右クリックをして、値の集計方法>平均をクリックします。
すると下図のようになるので、木造は18.89となります。
2問目
Q
価格を床面積の価格に変換し、木造住宅について、築年数によって一坪(3.3㎡)当たりの価格がどのように変化するのかを調べることにした。そのため、先ず、築年数と床面積一坪当たりの価格の関係を表すグラフを作成する。次に、そのグラフに、単回帰直線を当てはめることにした。どのようなグラフを作成すべきか、一般的な統計グラフの名称を感じで答えよ。
A
散布図
まず、下図のように1問目に作ったテーブルに列を追加して、タイトルを床面積1坪(3.3m2)あたりの価格として、2行目に=[@[価格(百万円)]]/[@床面積(m2)]*3.3と入力すると床面積一坪当たりの価格がわかります。
その状態で、坪単価は100万円単位なので、1万円単位にするため床面積1坪(3.3m2)あたりの価格に100を掛けたうえで、下図のように情報を整理してグラフを作ります。
なんとなく築年数が浅いほど坪単価が高い傾向がありそうだということが分かります。
3問目
Q
あてはめた単回帰直線の式から、築年数が1年古くなるごとに、床面積一坪当たりの価格は、何万円ずつ変化する傾向があるか?※小数第2位までの値を半角で入力すること。
A
-2.90
2問目で作ったグラフに、下図の操作をしてグラフに数式を表示します。
これは1次関数の式になっていて、今回のように何万円ずつ変化があるかという質問なので、このグラフの傾きを回答すればいいと考えられます。
4問目
Q
この単回帰直線上の指定値と実際の価格の差(残差)が最も大きな木造住宅の番号はいくつか?※物件番号を半角で入力すること。
A
2
さて、ここで私がこの勉強をしていてExcelのこんな機能あるんだという紹介をします。
皆さんのExcelでは下図のようなデータ分析というコマンドが表示されていますでしょうか?
もし表示されていないのであれば、下記のURLを参考に追加することをお勧めします。
残差を計算するのに非常に簡単にできますので、こちらのツールを使います。
下図のようにデータ>分析>データ分析をクリックして、回帰分析を選択し、OKをクリックします。
そして、下図のようにXの範囲とYの範囲を入力して、ラベルにチェックと残差にチェックを入れてOKをクリックします。
すると、下図のように概要が表示されますので、残差が大きいのを確認するため、残差の2乗を取り、さらにそれの降順でソートすると下図のようになり、データの2番目が一番さが大きいことが分かります。
5問目
Q
この単回帰直線が築年数の効果を十分に表しているとみなしたとき、下記の①~④から、先の問4の住宅の残差が大きくなった要因として最も適切なものを選べ。※選択肢の番号を半角で入力すること。
①住宅の床面積
②住宅の構造(鉄筋、木造)
③住宅の築年数
④駅からの距離など、①~③の変数以外の要因
A
1
正直これは全く自信がありませんが、②の構造は同じ状態での分析なので要因とはなりえません。
③の築年数はすでに築年数についての分析をしているので大きくなった要因とはなりえません。
なので、残すは①か④ですが、④の駅からの距離も残差が大きいサンプルIDが2の方がIDが1よりも倍以上時間がかかることから消去法で①としておきましょう。
実際に住宅の床面積が他に比べ圧倒的に広いので、この要因が強いと考えられます。
勉強方法と時間
勉強方法
実はこちらの資格試験はウェブサイト上に過去問が掲載されていないので、どう勉強しようか悩みましたが、結局、書籍を購入して勉強しました。
勉強時間
タイトルでネタバレしておりますが、だいたい平日の朝仕事の始業前20分で、上記の書籍をちょっとずつ読んで、実際の例題をExcelベースでやっていました。
期間としては、だいたい1か月半で、だいたい3週間くらいで本編を読んで、残りの2,3週間くらいで付属の模擬試験をやりました。
ただもちろん一応、理系の大学を卒業しておりますし、AIの勉強をする中で統計の知識もある程度持っておりますので、あくまでも同様の知識レベルの人にとっては参考になれば幸いです。
難易度
自慢になってしまいますが、個人としてはいくつかの資格を取得してきた中でも割と難しい部類に入るのかと思いました。
というのも、勘で回答して正解できる部分が圧倒的に少なく、きちんと理解していないと回答できないことに合わせて、仮に計算方法は合っていても、計算過程でのケアレスミスも許されないため入試試験に近い形かもしれません。
ただ、合格ラインが60%で特定の分野だけ全滅しても合格できる可能性があるので、網羅的に知識を得られているかの判定には少し疑問は残ります。
さいごに
資格試験には合格したものの、データサイエンスの基礎ということもあり、まだまだ知識レベルとしては十分でないことは自分でもよくわかることから、さらに次のステップにむけて学習しようと思います。