【実践】技術系企業のメンタルヘルスをAIで分析してみた　Part1

はじめに

AI分野に興味を持って、AI実装検定A級、G検定と取得はしたものの、AIのできるツールのレビューくらいで、まだ実用的に分析していなかったので、E資格取得を見据えた自らのアウトプットとともに、内容をシェアできればと思います。

AI実装検定とは

参考

ページが見つかりませんでした｜AI実装検定

AI実装検定

G検定、E資格とは

参考

資格試験について

一般社団法人日本ディープラーニング協会【公式】

AIの初学者用にいくつかのデータセットが親切にも無料で公開されていたりするので、それを同じようにやっていくのも勉強にはなるのですが、せっかくなので、「Kaggle」というAIのコンペティションをやっているサイトから、面白そうなデータセットがあったので、今回は、「技術系企業のメンタルヘルス」に関するデータセットを用いて分析していきます。

Kaggle

参考

Kaggle: The World’s AI Proving Ground

www.kaggle.com

Kaggleは企業や研究者がデータを投稿し、世界中の統計家やデータ分析家がその最適モデルを競い合う、予測モデリング及び分析手法関連プラットフォーム及びその運営会社である。
https://ja.wikipedia.org/wiki/Kaggle

データのインポート、データの確認からはじめて、ゴリゴリにプログラムを書いて、分析までしていくので、数回にわたって解説していきたいと思います。

なるべくわかりやすく説明したいですが、今回はコードの解説というよりは、考え方を重視したいと思いますので、分かりづらい場合や、コードの内容を詳しく知りたい場合は、都度ググってください。

ステップ

どのデータを分析するにもたいてい同じステップだと思いますが、今回分析していくステップを先に説明します。

STEP
データの読み込み

必要なライブラリを用意して、データを読み込んでいきます。

おそらく、必要に応じて随時で追加すると思われます。
STEP
データの確認

データがどういう状態かを確認します。

今回はここまで紹介（Part1）
STEP
データの前処理

データを分析するために必要な加工を施していきます。

ここが、かなり重要（次回　Part2）
STEP
データの関係性の確認

グラフなどの機能を使って、データ間の関係性を確認していきます。

Part3予定
STEP
スケーリング

データ間の割合の調整をしていきます。
具体的には、各データを公平に判断するように設定します。

Part4予定
STEP
アルゴリズムも選択＆学習

実際にAI学習（機械学習）を行うアルゴリズムを選択して、学習していきます。

Part5予定
STEP
評価

実際に学習したデータの精度などで評価します。

Part6予定

実装

さて、それでは、さっそく実装していきます。
今回も、Google Colaboratoryを使っていきたいと思います。

Google Colaboratory

参考

機械学習やるならGoogle Colabが素晴らしかった話（Python実行環境）｜mc_kurita

note（ノート）

その前に、データをダウンロードしておきます。

Kaggleからデータをダウンロードしていきます。
今回は「Mental Health in Tech Survey」というテーマのダウンロードしていきます。
※詳細はログイン操作等ありますので、割愛いたします

それでは、必要なライブラリをインポートしていきます。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from google.colab import files

ここでは、各ライブラリ等の説明は割愛させていただきます。

次に、データをセットします。

uploaded = files.upload()

上記を実行するとファイルを選択できるので、ダウンロードしたCSVを選択すると、下図のようになり、データをGoogle Colaboratory上にアップロードできます。

次に、データを確認していきます。

train_df = pd.read_csv("survey.csv")
print(train_df.shape)
print(train_df.describe())

上記を入力すると、下図のような統計データが出力されます。

（1259, 27）となっていて、行が1259行、列が27列あり、こちらが意味するところは、1259レコードのデータがあって、分析対象の項目が27個あるということになります。

その下のデータは以下の表の意味となっています。

count	レコード数
mean	平均
std	標準偏差
min	最小値
25%	25%パーセンタイル値
50%	50%パーセンタイル値
75%	75%パーセンタイル値
max	最大値

パーセンタイルという言葉は聞きなれないと思いますが、統計データで使われる用語となります。
詳しくは、以下を参照ください。

参考

4-2. 箱ひげ図の見方 – 統計WEB

統計WEB

続いて、実際のデータを見ていきましょう。

display(train_df.head())

こちらを実行すると、下図のようにデータの最初の5行が表示されます。

実際に、どんな内容の項目があるのかチェックします。

print(train_df.info())

こちらを入力すると、下図のように、どういう項目についてのデータかがわかります。

英語なので、どういう内容か日本語に直していきます。

No	変数名	型	項目
0	Timestamp	Numeric	調査書送付日時
1	Age	Numeric	年齢
2	Gender	String	性別
3	Country	String	所属国
4	state	String	州
5	self_employed	String	自営業
6	family_history	String	家族歴（家系に精神病にかかった人がいるか）
7	treatment	String	治療歴（精神病の治療をしたことがあるか）
8	work_interfere	String	仕事への干渉（仕事の妨げになるような精神状態の時があるか）
9	no_employees	String	従業員数
10	remote_work	String	リモートワーク（50％は会社外で仕事するか）
11	tech_company	String	技術系企業（技術系企業かどうか）
12	benefits	String	福利厚生（メンタルヘルスの福利厚生があるかどうか）
13	care_options	String	精神衛生オプション（メンタルヘルスに関する福利厚生オプションを知っているか）
14	wellness_program	String	雇用主に相談（雇用主とメンタルヘルスに関して相談したことがあるか）
15	seek_help	String	雇用主の援助（雇用主からメンタルヘルスに関する情報提供等があったか）
16	anonymity	String	匿名性の担保（メンタルヘルスについて匿名性が保たれているか）
17	leave	String	療養の取得環境（メンタルヘルスに対する療養はとりやすい環境か）
18	mental_health_consequence	String	雇用主とのメンタルヘルス相談で不利（雇用主にメンタルヘルスで相談することで不利な結果になると考えるか）
19	phys_health_consequence	String	雇用主との健康相談で不利（雇用主に健康について相談することで不利な結果になると考えるか）
20	coworkers	String	同僚に相談
21	supervisor	String	上司に相談（メンタルヘルスについて上司に相談したいか）
22	mental_health_interview	String	入社面接時のメンタルヘルス（メンタルヘルスについて入社面接時に質問したいか）
23	phys_health_interview	String	入社面接時の健康（健康面について入社面接時に質問したいか）
24	mental_vs_physical	String	メンタルヘルスの重視（雇用主がメンタルヘルスと健康面について同じくらい重視している感じているか）
25	obs_consequence	String	同僚のメンタルヘルス（同僚のメンタルヘルスについて深刻な情報を聞いたことがあるか）
26	comments	String	備考

上記の表のようにタイトルを日本語に変換していきます。

colums_t = ["調査書送付日時","年齢","性別","所属国","州","自営業","家族歴","治療歴","仕事への干渉","従業員数","リモートワーク","技術系企業","福利厚生","精神衛生オプション","雇用主に相談","雇用主の援助","匿名性の担保","療養の取得環境","雇用主とのメンタルヘルス相談で不利","雇用主との健康相談で不利","同僚に相談","上司に相談","入社面接時のメンタルヘルス","入社面接時の健康","メンタルヘルスの重視","同僚のメンタルヘルス","備考"]
train_df.columns = colums_t
display(train_df.head())

最後に、欠損値を確認して、次回へ続けます。

print(train_df.isnull().sum())

上記を入力すると、下記のように、欠損値（データがない）が項目ごとにどれくらいあるかを確認できます。

このデータがないという状態は、実際のデータにもよくあると思いますので、こういうケースでどういう処理をするのが望ましいのかというのを次回以降に確認していきたいと思います。

【実践】技術系企業のメンタルヘルスをAIで分析してみた　Part1

【新機能】Excelで画像からデータを読み込む新機能を試してみたら意外な結果に・・・将来が楽しみ

【自動化】PDFの表をExcelへ（Python）

【無料ダウンロード】Excelガントチャート（3カ月表示バージョン）