Background系のお話でちょこっと出てきてしまうので簡単に説明のみさせておきます。かなり重要です。
Regressionとは相関関係に関するstatsです。これちゃんと理解しておかないと大事故につながりかねませんのでご理解を。基礎をすっ飛ばすと引っかかる良い例でしょう。
多くの場合においてすっぽかされているRegressionの大前提が、regressionでclearになる事は、対象となる事象に対して相関関係があることがわかるだけでcause-effect relationshipの証明は表面上のstatsやdataからでは行えません。これがかなり重要です。
え?と言われそうですが例えばですよ例えば。分かりやすい例を出すと
料理が上手な人VS上手な人で集計を取ると、人参1本を千切りにする時間と料理の腕前(味の良さ)は明らかな比例関係が成り立つと思います。普段料理しないど素人が素早く美しく千切りできるなんて事はあり得ません。もちろん料理自体は全然できないがバイトでひたすら人参切っていた、なんて人も中にはいらっしゃると思いますのでこういうrare caseはoutlierになります。
包丁さばきがやたら上手いが料理自体は異常に下手、なんて事は通常起こりません。この場合千切りspeedと料理の腕前には相関関係が見られる事になりますね。
ただしですよただし。では上記のdataを見てですね。人参千切りのspeedが速ければ速い程料理が上手である傾向があることが明らかになったので、cookingど素人が料理の腕前を上げるためにひたすら人参を千切りしまくったところで一向にcooking masterになる事はできないわけですね。
これは言われてみれば当たり前で千切りが素早く行なえたところで料理自体のqualityを向上させる事に対して直接的な影響があるわけではないからです。
試行錯誤を元に料理を作る一連の過程を反復させた結果料理の腕前が上がり、結果千切りspeedが上がるだけであって千切りspeedと料理の腕前にcause-effect relationshipは成り立ちませんよね。
要注意なのが表面的なdata上、人参の千切りの速度を高めれば料理skillが上がるように見えてしまうので、dataを表面的に読んで変な勘違いをしてしまうと料理の腕前を上げたいのにひたすら千切りを繰り返す、という自体になりかねません。
これがadmission process関係でinfo sourceは一体何処…?という情報が一人歩きしかねませんのでよーくご注意を。