5839D84E-B339-4EF9-BF08-603163499258

photo&lyric by sora (@Skylit_Blue)
旅立ち。
ᴳᵒᵒᵈᵇʸᵉ ᴼˡᵈ ᴹᵉ.


◯ 統計実は気楽みん。主成分分析とか分散やるぬ

※ 下にも貼った文をまずここにも貼るぬ

追記
公認心理師試験は計算問題でないという内容をtweetしましましたぬ
Aという概念とBという概念が関係しているという正答を選択すればいいだけです。極論ですが理解しなくてもいいのです。ひなたとぽよ美は仲よしどころか一線二線超えた関係になってる…とか。ちなみに分散君や偏差ちゃんはあっちでナンパしこっちで抱きついてとヤバいほど統計世界の中ではお盛んな連中です。

1.主成分分析

主成分分析principal component analysisPCAというのは多変量解析、因子分析の中のひとつの手法で情報の圧縮です。

例えばワタクシが1000冊の本をもっているとします。イケナイ本もあれば精神分析書もし小説や法律書やマンガもある。なんだかごちゃごちゃで本棚の中がめちゃくちゃだ。この人はどういう人なのかよくわからぬ。元からわからぬ。

そういう時に次元削減(次元圧縮)という方法を使って僕の読む本の次元を見るわけです。

1000冊それぞれに味わいがあるからひなたの持ってる1000次元にしておこうというのはカオス。これを高次元と言います。高次元、うーん、わからん。それじゃ3次元ぐらいの低次元にしてみるぬん!

こうやって高次元から低次元に削減をする次元削減のメリットはデータを可視化することができるわけです。ただし10次元ぐらいになると見にくいぬ。1000冊ばらばらに一覧表を書いてもわからぬ。100の次元にしてもわかりみがない。次元数の接点は勝手に機械がやってくれるわけではないので人間が手動でハイパーパラメータ(次元数)を設置するわけです。

この膨大な本の中の一番大きなあきらんが読む傾向がある本はなんだろー。その主成分を吸い出して圧縮するのが主成分分析。多変量解析の中では一番可視化しやすい方法です。

もし心理学書が全体の99パーセントを占めるのだったらそれを第1主成分と呼びます。

ここまでパーセンテージが高ければま、こいつ心理バカだから第1主成分だけじゃん?もう調べなくてもいっか。という結果。パーセンテージの高さ低さを寄与率と呼びます。

心理学書は46パーセント、うーん、これじゃよくわからぬとなったらほかの成分を調べてみるとイケナイ本が29パーセントある。これが第2主成分ぬ。もうちょい調べたらBL本が高めの割合であるかもしれみんとすると第3主成分ぽよ。とわかります。

あと主成分分析は分散(ばらけ具合)を最大にするのが目的です。

例えば僕が女子大に行って「ね、僕のことどう思う?」とA美ちゃん、B菜ちゃん、C子ちゃん……と100人に聞いても全員から「カッコいい、ステキ、」と言われたら分散0です。聞いても意味なかった。ばらけてない。

で、僕の所蔵している本をど・ん・なジャンルの本が一番多いかな?と分散がなるべく大きくなるように(1に近づくように)分類するのが主成分分析の目的なわけですが(情報の吸い出し)むりみに分散を大きく必要はないのですみん

どれが第1主成分か、第2主成分かは下の図でこんなイメージです。第1主成分と第2主成分は例えば「メシナニ好き?」と聞いた時のラーメンと高級フレンチのように関係のない概念なので直交します。あとの要素がいろいろ出てきたら第3主成分、第4主成分と続きます。

これが全面散らばり過ぎていて1000冊全部たがうジャンルの本だと丸だらけになって情報損失が大きくなります。つまりどうやってこの青い線を引くようにするかが主成分分析です。ちょっとイケナイ本だなあと見えても実は真面目な心理学書ということもありますので。

ちな図は散布図です。この青い線を求めるのが主成分分析ですぬん。   
 
2.分散

ちな、分散については散らばり具合をみる値です。

テストの平均点を求めるのは簡単ですが分散を求めるには意味があります。具体例をあげます、

90点70点60点の3人のテストの平均点は182点です。

平均は73点です。90+70+60/3=73 (算術平均)

そして分散は(90−73)2乗+(70−73)2乗+(60-73)2乗/3です。

つまり289+9+169/3=156です。

この156が分散の価です。「なんだ、平均点でいいじゃん?まんどくせ」と思う人もいるでしょうけれども算術平均より今は分散なうなのです。

分散にすると平均点からの離れ具合の正負にかかわらず差異が出てしかも2乗までしちゃうぬ。つまり差異がすごくよくわかる数値。

3.標準偏差(SD)

標準偏差というのは√分散なので今回√156で平方根を求めると12.5です。分散数値はでかすぎて平均点をdisっているので平方根にしているわけですぬ。

12.5の標準偏差の中にとりまみんないるぬ?という値を示しています。

3.偏差値

学校の格付けでよく使われる偏差値というのは平均点の差に10をかけて標準偏差で割ると算出されます。

ちな、一例として主成分分析がわかりやすみな概念としてとりま記事にしました。こんな感じで判別分析、数量化、分散分析、回帰分析、重回帰分析、どれも公認心理師試験は文章問題だけですが出題される可能性があります。分散、偏差、標準偏差、正規分布、尺度は覚えましょう。YouTubeはわかりやすみでおぬぬぬぬぬな動画がたくさんあるぬ。
統計はじつは覚えてしまえばラクでなんとないので苦手意識を持っていた基礎心理や実験法も克服できます。広く満遍なく学習するのもひとつの方法です。
6D1FB5E9-EF50-4D19-88F9-658714D13FE4


(日本語版)
◯ 統計実は気楽に学べます。主成分分析とか分散とか説明します。

1.主成分分析

主成分分析principal component analysisPCAというのは多変量解析、因子分析の中のひとつの手法で情報の圧縮です。

例えばワタクシが1000冊の本をもっているとします。イケナイ本もあれば精神分析書も小説や法律書やマンガもある。なんだかごちゃごちゃで本棚の中がめちゃくちゃだ。この人はどういう人なのかよくわからない。いや元からわからない。

そういう時に次元削減(次元圧縮)という方法を使って僕の読む本の次元を見るわけです。

1000冊それぞれに味わいがあるからひなたの持ってる1000次元にしておこうというのはカオスでデータ分析になっていません。数値が多すぎるこの状態を高次元と言います。高次元すぎてうーん、わからん。それじゃ3次元ぐらいの低次元にしてみようか。

こうやって高次元から低次元に削減をする次元削減のメリットはデータを可視化することができるわけです。ただし10次元ぐらいになると見にくいです。1000冊ばらばらに一覧表を書いてもわかりません。100次元にしてもわかりにくい。次元数の接点は勝手に機械がやってくれるわけではないので人間が手動でハイパーパラメータ(次元数)を設置するわけです。

この膨大な本の中の一番大きな、ひなたが読む傾向がある本はなんだろー。その主成分を吸い出して圧縮するのが主成分分析。多変量解析の中では一番可視化しやすい方法です。

もし心理学書が全体の99パーセントを占めるのだったらそれを第1主成分と呼びます。

ここまでパーセンテージが高ければま、こいつ心理バカだから第1主成分だけじゃん?もう調べなくてもいっか。という結果。このパーセンテージの高さ低さを寄与率と呼びます。

心理学書は46パーセント、うーん、これじゃよくわからぬとなったらほかの成分を調べてみるとイケナイ本が29パーセントある。これが第2主成分となります。もうちょい調べたらBL本が高めの割合であるかもしれみんとすると第3主成分です。

あと主成分分析は分散(ばらけ具合)を最大にするのが目的です。

例えば僕が女子大に行って「ね、僕のことどう思う?」とA美ちゃん、B菜ちゃん、C子ちゃん……と100人に聞いても全員から「カッコいい、ステキ、」と言われたら分散0です。聞いても意味なかった。ばらつきがないです。

で、僕の所蔵している本をど・ん・なジャンルの本が一番多いかな?と分散がなるべく大きくなるように(1に近づくように)分類するのが主成分分析の目的なわけですが(情報の吸い出し)無理に分散を大きく必要はないのです。

どれが第1主成分か、第2主成分かは下の図でこんなイメージです。第1主成分と第2主成分は例えば「メシナニ好き?」と聞いた時のラーメンと高級フレンチのように関係のない概念なので直交します。あとの要素がいろいろ出てきたら第3主成分、第4主成分と続きます。

これが全面散らばり過ぎていて1000冊全部たがうジャンルの本だと丸だらけになって情報損失が大きくなります。つまりどうやってこの青い線を引くようにするかが主成分分析です。ちょっとイケナイ本だなあと見えても実は真面目な心理学書ということもありますので。

ちなみに図は散布図です。この青い線を求めるのが主成分分析です。
 
2.分散

ちなみに分散は散らばり具合をみる値です。

テストの平均点を求めるのは簡単ですが分散を求めるには意味があります。具体例をあげます、

90点70点60点の3人のテストの平均点は182点です。

平均は73点です。90+70+60/3=73 (算術平均)

そして分散は(90−73)2乗+(70−73)2乗+(60-73)2乗/3です。

つまり289+9+169/3=156です。

この156が分散の価です。「なんだ、平均点でいいじゃん?まんどくせ」と思う人もいるでしょうけれども算術平均より今は分散なうなのです。

分散にすると平均点からの離れ具合の正負にかかわらず差異が出てしかも2乗までしちゃうぬ。つまり差異がすごくよくわかる数値。

3.標準偏差(SD)

標準偏差というのは√分散なので今回√156で平方根を求めると12.5です。分散数値はでかすぎて平均点をdisっているので平方根にしているわけです。

12.5の標準偏差の中にとりまみんないるぬ?という値を示しています。

3.偏差値

学校の格付けでよく使われる偏差値というのは平均点の差に10をかけて標準偏差で割ると算出されます。

ちなみに例として主成分分析がわかりやすそうな概念としてとりあえず記事にしました。こんな感じで判別分析、数量化、分散分析、回帰分析、重回帰分析、どれも公認心理師試験は文章問題だけですが出題される可能性があります。分散、偏差、標準偏差、正規分布、尺度は覚えましょう。YouTubeはわかりやすくておすすめな動画がたくさんあります。
統計はじつは覚えてしまえばラクでなんとないので苦手意識を持っていた基礎心理や実験法も克服できます。広く満遍なく学習するのもひとつの方法です。

追記
公認心理師試験は計算問題でないという内容をtweetしました。
Aという概念とBという概念が関係しているという正答を選択すればいいだけです。極論ですが理解しなくてもいいのです。ひなたとぽよ美は仲よしどころか一線二線超えた関係になってる…とか。ちなみに分散君や偏差ちゃんはあっちでナンパしこっちで抱きついてとヤバいほど統計世界の中ではお盛んな連中です。