統計手法には、各種の項目などがありますが、下記は全て表計算ソフトであるExcelで対応可能です。
この中で、「t検定」を使って、AI活用につながるデータ分析の基本的な考えかを理解しましょう。まずは、難しいことはさておき、「t検定」では、「2つの群のデータにおいて、その平均に差があるかどうか」を確認できるくらいの理解で下記の説明を読んでみてください。下記は薬を投与する前と投与した後の数値を表に示し、「t検定」を行った結果です。結果が「大きい場合は差がない」「小さい場合は差がある」ということを示しています。
【1】:前後に全く差がない場合
名前 | 投薬前 | 投薬後 |
---|---|---|
A | 10 | 10 |
B | 8 | 8 |
C | 6 | 6 |
D | 4 | 4 |
E | 2 | 2 |
F | 9 | 9 |
平均 | 6.5 | 6.5 |
結果:算出できず
⇒全く、同じデータのため、検定を実施するまでもない
【2】:個々の前後に差があるが平均は変わらない場合
名前 | 投薬前 | 投薬後 |
---|---|---|
A | 10 | 9 |
B | 8 | 9 |
C | 6 | 7 |
D | 4 | 3 |
E | 2 | 1 |
F | 9 | 10 |
平均 | 6.5 | 6.5 |
結果:1
⇒最大値=差がない
【3】:投薬後に結果が上がった場合
名前 | 投薬前 | 投薬後 |
---|---|---|
A | 10 | 11 |
B | 8 | 11 |
C | 6 | 11 |
D | 4 | 11 |
E | 2 | 11 |
F | 9 | 11 |
平均 | 6.5 | 11 |
結果:0.01594
⇒効果がある
【4】:投薬後、Aのみが突出して大きな値となった場合
名前 | 投薬前 | 投薬後 |
---|---|---|
A | 10 | 1000 |
B | 8 | 11 |
C | 6 | 11 |
D | 4 | 11 |
E | 2 | 11 |
F | 9 | 11 |
平均 | 6.5 | 175.8333 |
結果:0.34953
⇒【3】に比べ平均が大きくなったが【3】に比べ効果は少ないとの結果
上記は、平均が大きくなっていることから、単純に考えると効果があるという結果が出そうですが、実際には【3】に比べ効果がないという結果になりました。1つだけ大きな値があった場合、その値は信用できないという判断で、全体としての効果は少ないという結果になります(少し詳細を説明すると、この「t検定」ではデータは正規分布に従うという前提のため、異常値とみなされます)。これは、分析には、精度の高いデータが必要ということを表しています。
【5】:【3】のデータを2回繰り返した場合
名前 | 投薬前 | 投薬後 |
---|---|---|
A | 10 | 11 |
B | 8 | 11 |
C | 6 | 11 |
D | 4 | 11 |
E | 2 | 11 |
F | 9 | 11 |
A | 10 | 11 |
B | 8 | 11 |
C | 6 | 11 |
D | 4 | 11 |
E | 2 | 11 |
F | 9 | 11 |
平均 | 6.5 | 11 |
結果:0.0002507
⇒【3】に比べ、さらに効果があったとの結果
上記は、【3】のデータを2回繰り返しただけですが、サンプル数が多くなり、データの信用度が増すことで効果が明確になったということです。
【1】〜【5】で言えることは、本コラムの最初の方で述べた、データ分析には、精度の高いデータが多数必要になるということです。
上記は、Excelの「T.TEST関数」を利用すれば、容易に実施できます。実際にこのようにデータを自分で作りながら、分析をすることで、感覚的にデータ分析の本質が身に付きます。一度、Excelで試してみてください。
それでは、IoT関連の知識・スキルアップに役立つ問題を出題します! 今回は、上記の統計手法に関連する問題です。
問題:
IoT(Internet of Things)の本質はデータの有効利用である。製造業では特に、従来から統計手法により、データを基にした相関分析や検定などを実施することで品質の確保や改善を実施してきている。
次の統計手法の内容として、当てはまるものを1つ選びなさい。
※本連載の設問が実際のIoT検定にそのまま出題されるわけではありません。
Copyright © ITmedia, Inc. All Rights Reserved.
豊富なホワイトペーパーの中から、製品・サービス導入の検討に役立つ技術情報や導入事例などを簡単に入手できます。