データ駆動社会のAI(人工知能)と統計手法:製造業のIoTスペシャリストを目指そうSeason2(9)(2/3 ページ)
データ駆動社会においては、いかにデータを有効活用するかが重要です。その中で、AI(人工知能)が第4次産業革命のキーワードであることは事実です。しかし、筆者がコンサルタントして企業を支援していると、企業の誤解に近い考えにより、推進方法自体に誤りがあることが多数あります。今回のコラムでは、その推進方法の誤りを経験的に解決するため、統計手法について理解していただく内容になります。
統計手法でのデータ有効活用の理解
統計手法には、各種の項目などがありますが、下記は全て表計算ソフトであるExcelで対応可能です。
- 相関分析:2つのデータ間に関係がどのくらいあるかを分析する手法です。
- 回帰分析:Yが連続である際に、Y=f(x)というモデルからYを予測する手法です。
- 検定(t検定、z検定、F検定):統計的仮説検定のことであり、仮説が正しいのか否かを検証する手法です。
- 分散分析:3群以上のデータでその平均の差を、分散をもとに確認する手法
この中で、「t検定」を使って、AI活用につながるデータ分析の基本的な考えかを理解しましょう。まずは、難しいことはさておき、「t検定」では、「2つの群のデータにおいて、その平均に差があるかどうか」を確認できるくらいの理解で下記の説明を読んでみてください。下記は薬を投与する前と投与した後の数値を表に示し、「t検定」を行った結果です。結果が「大きい場合は差がない」「小さい場合は差がある」ということを示しています。
【1】:前後に全く差がない場合
名前 | 投薬前 | 投薬後 |
---|---|---|
A | 10 | 10 |
B | 8 | 8 |
C | 6 | 6 |
D | 4 | 4 |
E | 2 | 2 |
F | 9 | 9 |
平均 | 6.5 | 6.5 |
結果:算出できず
⇒全く、同じデータのため、検定を実施するまでもない
【2】:個々の前後に差があるが平均は変わらない場合
名前 | 投薬前 | 投薬後 |
---|---|---|
A | 10 | 9 |
B | 8 | 9 |
C | 6 | 7 |
D | 4 | 3 |
E | 2 | 1 |
F | 9 | 10 |
平均 | 6.5 | 6.5 |
結果:1
⇒最大値=差がない
【3】:投薬後に結果が上がった場合
名前 | 投薬前 | 投薬後 |
---|---|---|
A | 10 | 11 |
B | 8 | 11 |
C | 6 | 11 |
D | 4 | 11 |
E | 2 | 11 |
F | 9 | 11 |
平均 | 6.5 | 11 |
結果:0.01594
⇒効果がある
【4】:投薬後、Aのみが突出して大きな値となった場合
名前 | 投薬前 | 投薬後 |
---|---|---|
A | 10 | 1000 |
B | 8 | 11 |
C | 6 | 11 |
D | 4 | 11 |
E | 2 | 11 |
F | 9 | 11 |
平均 | 6.5 | 175.8333 |
結果:0.34953
⇒【3】に比べ平均が大きくなったが【3】に比べ効果は少ないとの結果
上記は、平均が大きくなっていることから、単純に考えると効果があるという結果が出そうですが、実際には【3】に比べ効果がないという結果になりました。1つだけ大きな値があった場合、その値は信用できないという判断で、全体としての効果は少ないという結果になります(少し詳細を説明すると、この「t検定」ではデータは正規分布に従うという前提のため、異常値とみなされます)。これは、分析には、精度の高いデータが必要ということを表しています。
【5】:【3】のデータを2回繰り返した場合
名前 | 投薬前 | 投薬後 |
---|---|---|
A | 10 | 11 |
B | 8 | 11 |
C | 6 | 11 |
D | 4 | 11 |
E | 2 | 11 |
F | 9 | 11 |
A | 10 | 11 |
B | 8 | 11 |
C | 6 | 11 |
D | 4 | 11 |
E | 2 | 11 |
F | 9 | 11 |
平均 | 6.5 | 11 |
結果:0.0002507
⇒【3】に比べ、さらに効果があったとの結果
上記は、【3】のデータを2回繰り返しただけですが、サンプル数が多くなり、データの信用度が増すことで効果が明確になったということです。
【1】〜【5】で言えることは、本コラムの最初の方で述べた、データ分析には、精度の高いデータが多数必要になるということです。
上記は、Excelの「T.TEST関数」を利用すれば、容易に実施できます。実際にこのようにデータを自分で作りながら、分析をすることで、感覚的にデータ分析の本質が身に付きます。一度、Excelで試してみてください。
今回の問題
それでは、IoT関連の知識・スキルアップに役立つ問題を出題します! 今回は、上記の統計手法に関連する問題です。
問題:
IoT(Internet of Things)の本質はデータの有効利用である。製造業では特に、従来から統計手法により、データを基にした相関分析や検定などを実施することで品質の確保や改善を実施してきている。
次の統計手法の内容として、当てはまるものを1つ選びなさい。
- t検定は、標本が正規分布していない際に利用する手法である。
- z検定は、母集団の分散が分かっていない際に用いる手法である。
- F検定は、2つの群の標準偏差に違いがあるかを判定する手法である。
- 分散分析は、3群以上のデータにおける分散の違いを確認する手法である。
※本連載の設問が実際のIoT検定にそのまま出題されるわけではありません。
Copyright © ITmedia, Inc. All Rights Reserved.