第10回 - 2004/12/13
対になったデータの関係性を評価する指数で、-1〜+1の間の数値となる。たとえば、
ただし、無意味な組み合わせを取っても、相関係数は求めることはできる。その場合、まったく無意味な数値なのか、あるいは世紀の大発見か、それはわからない。
数学的な意味では数値は求められるかもしれないけども、意味があるかどうかという議論は、数字を扱う以前の問題である。
公式は次のとおり
あまり深い意味はないが、以下のような統計データがある。
順 位 |
順前 年 位度 |
会社名 | 本 社 | 売上高 (百万円) |
伸び率 (%) |
経常利益 (百万円) |
店舗数 |
1 | 1 | 青山商事 | 広 島 | 157,293 | ▲3.0 | 17,304 | 683 |
2 | 2 | アオキインターナショナル | 神奈川 | 72,147 | ▲5.3 | 3,653 | 282 |
3 | 3 | コナカ | 神奈川 | 51,606 | 0.2 | 3,426 | 264 |
4 | 4 | はるやま商事 | 岡 山 | 49,505 | 0 | 3,477 | 238 |
5 | 5 | タカキュー | 東 京 | 28,195 | ▲12.7 | ▲1,764 | 221 |
6 | 7 | ワークマン | 群 馬 | 21,553 | 16.7 | 1,969 | 390 |
7 | 8 | フタタ | 福 岡 | 17,241 | ▲2.0 | 61 | 102 |
8 | 13 | ユナイテッドアローズ | 東 京 | 17,016 | 18.7 | 2,246 | 24 |
9 | 10 | ゴトー | 静 岡 | 16,874 | 4.9 | 252 | 79 |
10 | 6 | 三峰 | 東 京 | 15,926 | ▲19.5 | ― | 92 |
専門店売上高ランキングより
http://www.nikkei.co.jp/report/senmon1.html
求めるのは、
の相関係数とする。
実際にやってみます
correl関数を使う 実際にやってみます
実際にやってみます
こんな公式も見られる
あるいはこんな公式も
実はまったく同じ数値を意味している。
片方の軸が数値ではない場合に相関係数みたいなものを求めたいとする。たとえば、風向きと平均気温の関係のようなもの。あるいは、部屋の壁紙の色と作業効率の関係など。この場合に使われるのが、分散分析。
要因がたくさんあるような測定値から意味のあるものを取り出す処理を因子分析や主成分分析、あるいは多変量解析という。
グラフを描いたとき、そのプロットを平均的に貫く直線があるとする。その直線の式を求める。こうした直線を回帰直線と言う事もあるが、近似直線ということもある。
データとして、x = {x1, x2, ... , xn}、y = {y1,y2, ... , yn}があるとする。
y = ax +b という直線で表現できるとすると、
で、定数a、bを求めることができる。実際にやってみます。
元データからグラフを作成する場合は、「散布図」を利用すること。
グラフ上に近似直線を描くことができる。実際にやってみます。
SLOPE関数、INTERCEPT関数を使う。
分析ツールの回帰分析(ただし、回帰直線以外のさまざまな情報が得られる)実際にやってみます。
今日のデータのサンプルを利用して相関係数を求める。売上高と店舗数の相関係数を求めてみよう。また、この関係をグラフ(散布図)に描いてみよう。
まいどおなじみ日立市の気象と天気予報というページがある。気象観測データというリンクの先に今月の月別データというところがある。適当な月の情報を表示すると、そこには、毎日の平均気温や湿度などが一覧表になっている。
日射量と平均気温の相関係数を求めてみる。散布図も描く。
湿度と最大瞬間風速の相関係数を求めてみる。散布図も描く。
10-1
相関係数は、correl(E4:E12,H4:H12)で求められる。
グラフは、まず、E3:E12を選択し、続いて、Ctrlキーを押しながらH3:H12を選択する。つまり、不連続領域の選択を行う。その後に、グラフウィザードで、「散布図」を選択すれば、あとはそのまま描けるはず。
凡例は後で消しておけばいい。売り上げと店舗数が比例し、相関係数が高いのは当たり前かもしれない。ワークマンは店舗数の割には売り上げが少ないのに対して、ユナイテッドアローズは逆に店舗数の割には売り上げが大きい、といったことがグラフから読み取れるとなおいいです。
10-2
M5:M6のセル結合を解除しないといけないかもしれませんが、後はさほど難しくないでしょう。B列とM列という不連続な範囲の選択をして、グラフを描きます。もちろん、それが面倒なら、「日平均」「日射量」の列を隣り合わせになるように、表を編集して作業をしてもいいでしょう。
10-3
やり方はもういいかと思いますが・・・。ちなみに、相関係数は負の数になるので、風が強いと湿気は少ないといえなくもないわけですが、ただ、係数自体あまり大きくないので、傾向としては薄いといえるわけです。