一元配置分散分析(対応のない3群以上の差の検定)の適用の条件
一元配置分散分析(対応のない3群以上の差の検定)を適用するためにはいくつかの条件を満たす必要があります.
ここではまず一元配置分散分析(対応のない3群以上の差の検定)を適用するための4つの条件をお示しいたします.
・正規分布に従うデータ(正規性の判断についてはコチラを参照してください)
・データが比率尺度データまたは間隔尺度データ
(例外として多段階の順序度データでも使用することあります)
・平均を比較することが意味を持つデータ
・3つ以上の標本を対象としたデータ
(2つの標本を対象としたデータの場合には対応のないt検定を使用します)
対応がないって何?
対応がないというのは比べるデータが同一対象例のデータではないことを意味します
ここで重要なのは一元配置分散分析というのは3つ以上の標本に対して用いられる検定であるといった点です.
例えば若年者と前期高齢者と後期高齢者で体重を比較するとか,大学生と高校生と中学生で握力を比較するといったような場合には,異なる対象例のデータを比較することとなります.
このように異なる対象例の3つ以上のデータを比較する場合には一元配置分散分析を用いることとなります.
SPSSを使用した一元配置分散分析-データの並べ方に注意-
SPSSで一元配置分散分析を行う場合にはデータの並べ方にも注意が必要です.
実は対応のある検定と対応の無い検定ではデータの並べ方も異なります.
3群以上の差の検定で用いられるパラメトリック検定には,一元配置分散分析(対応のない検定)と反復測定による一元配置分散分析(対応のある検定)といった手法がありますが,一元配置分散分析と反復測定による一元配置分散分析ではデータの並べ方も異なるものとなりますので,注意が必要です.
一元配置分散分析の場合には,測定データ(体重)を縦列に並べ,その横にグループを表すデータ(年代:若年者=0,前期高齢者=1,後期高齢者=2)を入力します.
SPSSにデータを移行する前にエクセルでデータベースを作成することが多いと思いますが,エクセルでデータ整理をする段階でこのようなデータのまとめ方をしておくと,エクセルからSPSSへのデータ移行が容易となります.
ちなみに反復測定による一元配置分散分析の場合にはこんな感じです.
対応のある検定の場合には,このように横列に同一対象者のデータを並べます.
SPSSを使用した一元配置分散分析の方法
年代(若年者=0,前期高齢者=1,後期高齢者=2)毎に握力を比較する例をお示ししながら話を進めていきます.
記述統計量,等分散の検定,Welchにチェックを入れる.
群間のデータのバラツキ具合が異なる場合には,単純な比較ができませんので,まずは等分散の検定を行って群間の分散が同じかどうかを確かめます.
分散が同等ではない(不等分散)場合には,Welchの補正を用いて一元配置分散分析を行います.
そのためこのオプションでは等分散の検定,Welchにチェックを入れる必要があります.
一元配置分散分析では事後検定(多重比較法)を選択する必要がありますので,その後の検定の設定を行います.
多重比較法と呼ばれる検定手法は分散分析による結果が有意であった場合に,1つ1つの水準(ここでは若年者・前期高齢者・後期高齢者)の間のどこに有意な差があるのかを明らかにするために行います.
分散分析が有意であった場合には,水準(ここでは若年者・前期高齢者・後期高齢者)間のどこかに差があることはわかりますが,どこに差があるかまではわかりませんので,どことどこに差があるかを多重比較法を用いて明らかにするわけです.
一元配置分散分析では等分散の場合はTukey法を不等分散の場合にはGames-Howell法を選択することとなります.
したがってTukeyとGames-Howellにチェックを入れます.
SPSSを使用した一元配置分散分析の結果の見方・確認方法
一元配置分散分析の結果を確認する際には見るポイントが5つあります.
①等分散性の検定の結果
まずは若年者・前期高齢者・後期高齢者の握力のデータに等分散性があるかどうかを確認します.
対応のない一元配置分散分析と反復測定による一元配置分散分析の大きな相違はこの部分です.
実は対応のない一元配置分散分析では一元配置分散分析を行う前に,等分散性の検定を行う必要があります.
3群以上のデータを比較する場合には,データ間の分散(データのバラツキ具合)が同等である必要があります.
対応のあるデータの場合には,同一対象例のデータを比較するわけですので等分散性が保証されるわけですが,対応のないデータの場合には,比較する群間で分散が異なる可能性があります.
そのため事前に等分散性の検定(分散が同等かどうかを確かめる検定)を用いて,その上で一元配置分散分析(等分散の場合)とWelchの一元配置分散分析(不等分散の場合)を使い分ける必要があります.
等分散の検定ってどうやるの?
実はSPSSでは自動的に等分散性の検定を行ってくれます.Levene検定と呼ばれる等分散性の検定を自動で行ってくれるわけです.
基本的にはLeveneの検定における有意確率に応じて出力の参照する部分が異なります
有意確率(p)<0.05:等分散でない(不等分散)⇒平均値同等性の耐久検定を参照
有意確率(p)≧0.05:等分散である(等分散)⇒分散分析の結果を参照
今回のデータでは,Levene検定の結果,有意確率が0.299と出力されております.
したがって等分散と判断できますので,分散分析の結果を参照することとなります.
ここでは等分散性の検定(Levene検定)の結果がp=0.299>0.05なので若年者・前期高齢者・後期高齢者の握力のデータの分散は同等と判断しても良いでしょう.
したがって一元配置分散分析の結果を参照することができます(仮にLevene検定の結果の有意確率が5%未満の場合にはWelchの一元配置分散分析の有意確率を参照することになります).
これが一元配置分散分析の結果です.
一元配置分散分析の結果を読み取る際には以下のように判断します.
有意確率(p)<0.05:3群のどこかに差がある
有意確率(p)≧0.05:3群のどこにも差がない(厳密にいえばあるともないとも言えない)
この場合には,有意確率(p値)=0.00<0.05となっておりますので,若年者・前期高齢者・後期高齢者の握力のデータのどこかに差があると判断できます.
この分散分析の結果には自由度やF値も算出されている点にも注目です.
自由度やF値は論文でも統計量として公表が求められることが多いです.
また後の効果量の算出のところで解説させていただきますが,グループ間平方和・平方和の合計も効果量算出において必須となります.
今回はLeveneの検定で等分散が確認されておりますので,平均値同等性の耐久検定の結果を参照する必要はありません.
仮にLeveneの検定で不等分散と判断される場合には,③の平均値同等性の耐久検定(Welchの一元配置分散分析)の結果を参照することとなります.
一元配置分散分析では若年者・前期高齢者・後期高齢者の握力のデータのどこかに差があることと判断できるわけですが,具体的にどことどこに差があるかをみる場合にはこのTukey検定の結果を参照する必要があります(仮に不等分散の場合にはGames-Howell法の有意確率を参照することとなります).
この表の見方は以下の通りです.
1列目:年代(0):若年者と年代(1):前期高齢者の差
2列目:年代(0):若年者と年代(2):後期高齢者の差
3列目:年代(1):前期高齢者と年代(0):若年者の差
4列目:年代(1):前期高齢者と年代(2):後期高齢者の差
5列目:年代(2):後期高齢者と年代(0):若年者の差
6列目:年代(2):後期高齢者と年代(1):前期高齢者の差
よく見てみると前後が反対になっているだけで赤色の部分だけを見れば,若年者と前期高齢者,若年者と後期高齢者,前期高齢者と後期高齢者といった3群間の差が明らかとなります.
ここでも以下のように判断します.
有意確率(p)<0.05:2群に差がある
有意確率(p)≧0.05:2群に差がない(厳密にいえばあるともないとも言えない)
1列目における年代(0)の若年者と年代(1)の前期高齢者の差の95%信頼区間は,5.64~16.18であることがわかります.
95%信頼区間って何?
簡単に言うと若年者と前期高齢者の間の握力差が95%の確率でどの範囲にあるかを表すものです
この場合で言うと若年者と前期高齢者の間の握力差は,95%の確率で5.64~16.18kgの間にあるという解釈になります.
つまり男女間の体重の差は5kg程度の場合もあるし,15.0kgを超える場合もあると解釈できます.
ここで重要なのは今回は差の95%信頼区間が0をまたいでいない(この場合,下限値が負の値になっていない)という点です.
有意確率が5%未満となっている場合には,95%信頼区間が0をまたぎません.
さらにこの95%信頼区間の大きさを確認することで,差がどのくらい意味のあるものかを判断することができます.
例えば有意確率が5%未満であっても,差の95%信頼区間が0.1~0.2であったのであれば,そんな差はあまり意味のない差としてとらえることができるでしょう.
今回のデータでは有意確率が5%未満で,かつ差の95%信頼区間が5~15kgですから若年者と前期高齢者間での握力差は比較的大きい(最低でも5kg以上)と判断できるでしょう.
今回はLeveneの検定で等分散が確認されておりますので,Games-Howell法の結果は無視してよいのですが,仮にLevene検定が有意で不等分散と判断される場合には,多重比較法ではGames-Howell法の結果を参照することとなります.
結果の参照方法については先ほどご説明させていただいたTukey法と同様です.
SPSSを用いて一元配置分散分析を行った際のグラフ作成
一元配置分散分析を用いる場合にはデータに正規性が確認できることが前提となりますので,一元配置分散分析を用いた場合に使用すべきグラフは平均値と95%信頼区間を用いたエラーバーグラフです.
ここで重要なのは対応のないデータの場合には,図表内のデータで「グループごとの集計」を選択する点です.
ちなみに対応のあるデータを用いてエラーバーグラフを作成する場合には,図表内のデータで「変数ごとの集計」を選択する必要があります.
最後に「定義」をクリックします.
デフォルト設定は平均値の95%信頼区間となっておりますが,標準誤差や標準偏差を用いてグラフを作成することも可能です.
これが完成したエラーバーグラフです.
中央の小さい●印が平均値,上下のバーが95%信頼区間を表しております.
一元配置分散分析における効果量(η2)の算出
最近は一元配置分散分析を行った場合には,有意確率・95%信頼区間と合わせて効果量(η2)を算出するのが一般的になってきております.
はじめにSPSSでは効果量を算出することはできませんので,平方和といった統計量を使用して効果量を算出することになります.
ところで効果量って何?
効果量というのはデータの単位に依存しない標準化された効果の程度を表す指標です.
先ほど若年者と前期高齢者における握力差の大きさを95%信頼区間を用いて考察いたしました.
例えばある研究では筋力差を握力計を用いて検討を行っていたのに対して,ある研究では筋力差を背筋力を用いて検討を行っていたとします.
この場合にはアウトカムの単位が異なりますので2つの研究の間でどちらが筋力差が大きいのかを単純比較することができません.
このように単位の異なる研究から得られた効果の比較や人数の異なる研究から得られた効果を比較する際に役立つのが効果量という指標です.
一元配置分散分析ではη2が用いられます.
ちなみにηの読み方ですがエータと読みます.
ηは0~1(もしくは0~-1)の範囲をとるので理解しやすいです.
効果量ってどうやって算出するの?
効果量の算出には以下のエクセルファイルがとても便利です.
ここではこのエクセルファイルを用いて効果量(η2)を算出いたしました.
効果量(η2)の算出に当たってはグループ間の平方和と平方和の合計を使います.
ここではグループ間の平方和=1764.596と平方和の合計=2126.000をエクセルシートへそのまま打ち込みます.
この場合には効果量(η2)=0.83で効果量大と判定されました.
つまり差の程度が効果量から見ても大きいという解釈ができます.
効果量の大きさってどうやって判断するの?
あくまで目安ですが下の表が非常に参考になります.効果量(r)の場合は,相関係数をイメージすると理解しやすいでしょうね.
http://jspt.japanpt.or.jp/ebpt_glossary/effect-size.htmlより引用
コメント