UPDATE: 2022-12-19 20:47:25
これは統計の小ネタをまとめているノート。
ユールシンプソンの逆説は、集計による情報損失の例として知られる。2つの変数に真の因果関係があったとしても、集計することで効果がわからなくなるというもの。
性別ごとに処置をしたかどうか、その結果、生存したのか死亡したのかをまとめているデータがあったとする。
男性の場合、処置をすると61%が生存し、処置をしない場合57%が生存するため、処置をした方が生存確率が高くなる。
男性 | 処置なし | 処置あり |
---|---|---|
生存 | 4(57%) | 8(61%) |
死亡 | 3(43%) | 5(49%) |
合計 | 7 | 13 |
女性の場合、処置をすると44%が生存し、処置をしない場合40%が生存するため、処置をした方が生存確率が高くなる。
女性 | 処置なし | 処置あり |
---|---|---|
生存 | 2(40%) | 12(44%) |
死亡 | 3(60%) | 15(56%) |
合計 | 5 | 27 |
ここで性別を無視して集計すると、処置をする50%が生存し、処置をしない場合50%が生存するため、処置をしても、しなくても生存確率は同じになって因果関係がなくなったように見えてしまう。
合算 | 処置なし | 処置あり |
---|---|---|
生存 | 6(50%) | 20(50%) |
死亡 | 6(50%) | 20(50%) |
合計 | 12 | 40 |