第9回 - 2007/12/17
対になったデータの関係性を評価する指数で、-1〜+1の間の数値となる。たとえば、
ただし、無意味な組み合わせを取っても、相関係数は求めることはできる。その場合、まったく無意味な数値なのか、あるいは世紀の大発見か、それはわからない。
数学的な意味では数値は求められるかもしれないけども、意味があるかどうかという議論は、数字を扱う以前の問題である。
公式は次のとおり
あまり深い意味はないが、以下のような統計データがある。
順 位 | 前年 順位 | 社 名 | 連 / 単 | 業態 | 本社 (本部) | 決 算 期 | 売上高 (百万円) | 前年度比 増減率 (%) | 経常利益 (百万円) | 前年度比 増減率 (%) | 当期利益 (百万円) |
---|---|---|---|---|---|---|---|---|---|---|---|
1 | 2 | セブン&アイ・ホールディングス | HD | 東京 | 2 | 5,337,806 | 37 | 282,016 | 13.7 | 133,419 | |
2 | 1 | イオン | ス | 千葉 | 2 | 4,824,775 | 8.9 | 188,303 | 7 | 57,656 | |
◇ | イトーヨーカ堂 | 単 | ス | 東京 | 2 | 1,511,530 | 1.2 | 20,982 | ▲32.1 | 13,356 | |
3 | 4 | ヤマダ電機 | 専 | 群馬 | 3 | 1,443,661 | 12.4 | 71,747 | 14.6 | 43,420 | |
4 | 3 | ダイエー | ス | 兵庫 | 2 | 1,283,888 | ▲23.4 | 37,288 | 53.7 | 41,298 | |
5 | 5 | ユニー | ス | 愛知 | 2 | 1,228,946 | 2.2 | 44,915 | 8.1 | 9,302 | |
6 | 7 | 高島屋 | 百 | 大阪 | 2 | 1,049,405 | 1.8 | 39,543 | 7.6 | 25,319 | |
7 | 6 | 西友 | ス | 東京 | 12 | 996,130 | ▲3.7 | ▲2,614 | - | ▲55,792 | |
8 | 9 | 大丸 | 百 | 大阪 | 2 | 837,032 | 1.8 | 33,353 | 10.6 | 17,304 | |
9 | 8 | 三越 | 百 | 東京 | 2 | 804,120 | ▲4.5 | 17,019 | ▲14.7 | 12,936 | |
10 | 10 | 伊勢丹 | 百 | 東京 | 3 | 781,798 | 2.9 | 33,416 | 8.1 | 18,291 | |
11 | 11 | エディオン | HD | 大阪 | 3 | 740,293 | 3.6 | 18,631 | ▲8.6 | 7,367 | |
12 | 12 | ヨドバシカメラ | 単 | 専 | 東京 | 3 | 646,270 | 7.5 | 38,126 | 12.4 | 14,587 |
13 | 13 | 丸井 | 百 | 東京 | 3 | 552,140 | ▲1.7 | 44,372 | ▲3.9 | 4,248 | |
◇ | セブン−イレブン・ジャパン | 単 | コ | 東京 | 2 | 516,967 | 4.9 | 176,763 | ▲1.1 | 98,402 | |
14 | 14 | コジマ | 専 | 栃木 | 3 | 501,335 | 0.7 | 4,354 | ▲31.1 | 1,917 | |
◇ | そごう | 単 | 百 | 大阪 | 2 | 500,714 | 5.5 | 15,365 | 1 | 7,416 | |
15 | 16 | ビックカメラ | 専 | 東京 | 8 | 480,453 | 10.9 | 12,729 | ▲13.5 | 6,008 | |
◇ | 西武百貨店 | 単 | 百 | 東京 | 2 | 465,830 | ▲3.5 | 16,811 | ▲0.1 | 2,546 | |
16 | 20 | ファーストリテイリング | HD | 山口 | 8 | 448,819 | 16.9 | 73,138 | 24.8 | 40,437 | |
17 | 15 | イズミ | ス | 広島 | 2 | 446,820 | 2.3 | 24,134 | 6.4 | 13,157 | |
18 | 17 | ケーズホールディングス | 専 | 茨城 | 3 | 431,118 | 7.8 | 13,910 | 24.7 | 7,142 | |
19 | 18 | ライフコーポレーション | 単 | ス | 大阪 | 2 | 418,615 | 5.1 | 8,262 | 36.6 | 1,640 |
20 | 19 | 平和堂 | ス | 滋賀 | 2 | 412,772 | 4.6 | 13,480 | 5.6 | 5,908 |
求めるのは、
の相関係数とする。
実際にやってみます
correl関数を使う 実際にやってみます
実際にやってみます
こんな公式も見られる
あるいはこんな公式も
実はまったく同じ数値を意味している。
片方の軸が数値ではない場合に相関係数みたいなものを求めたいとする。たとえば、風向きと平均気温の関係のようなもの。あるいは、部屋の壁紙の色と作業効率の関係など。この場合に使われるのが、分散分析。
要因がたくさんあるような測定値から意味のあるものを取り出す処理を因子分析や主成分分析、あるいは多変量解析という。
グラフを描いたとき、そのプロットを平均的に貫く直線があるとする。その直線の式を求める。こうした直線を回帰直線と言う事もあるが、近似直線ということもある。
データとして、x = {x1, x2, ... , xn}、y = {y1,y2, ... , yn}があるとする。
y = ax +b という直線で表現できるとすると、
で、定数a、bを求めることができる。実際にやってみます。
元データからグラフを作成する場合は、「散布図」を利用すること。
グラフ上に近似直線を描くことができる。実際にやってみます。
SLOPE関数、INTERCEPT関数を使う。
分析ツールの回帰分析(ただし、回帰直線以外のさまざまな情報が得られる)実際にやってみます。
今日のデータのサンプルを利用して相関係数を求める。売上高と店舗数の相関係数を求めてみよう。また、この関係をグラフ(散布図)に描いてみよう。
まいどおなじみ日立市の気象と天気予報というページがある。気象観測データというリンクの先に今月の月別データというところがある。適当な月の情報を表示すると、そこには、毎日の平均気温や湿度などが一覧表になっている。
日射量と平均気温の相関係数を求めてみる。散布図も描く。
湿度と最大瞬間風速の相関係数を求めてみる。散布図も描く。