エクセルでの散布図の作り方

データ処理

最近、データ処理の仕方をちゃんと勉強しようと、「データサイエンス入門」を読み進めている。

データサイエンス入門 (データサイエンス大系) | 彰通, 竹村, 哲人, 姫野, 聖治, 高田 |本 | 通販 | Amazon
Amazonで彰通, 竹村, 哲人, 姫野, 聖治, 高田のデータサイエンス入門 (データサイエンス大系)。アマゾンならポイント還元本が多数。彰通, 竹村, 哲人, 姫野, 聖治, 高田作品ほか、お急ぎ便対象商品は当日お届けも可能。またデータサイエンス入門 (データサイエンス大系)もアマゾン配送商品なら通常配送無料。

滋賀大学にはデータサイエンス学部があり、そこの教授陣が書いた本である。教科書にもあるということで、かなり固い本だが、全ページカラーで進め方は丁寧で体系的に学ぶにはよい本だと思う。

2章で散布図の描き方の演習が出てくる。月ごとの最高気温とアイスクリームに使ったお金の相関を表現するサンプルで、データは以下のような感じ。

下に平均を2行入れてあるのは、後でグラフを作るときにちょっと使うため。

さて、この散布図を描くのだが、エクセルのグラフで散布図を選ぶと、なかなか思った通りの散布図にならない。まず、デフォルトの散布図を作ってみると以下の感じ。

上の図で、C3からD15を選択して、挿入-グラフ-散布図でグラフを貼り付ける。

いろいろ突っ込みどころがあるが、(1)グラフタイトルがデータタイトルになっている (2)軸にラベルをつけたい (3)点にラベルをつけたい (4)平均線を入れたい くらいを目標にする。

(1)グラフタイトルの変え方

基本的すぎて涙が出るが、こんなこと一つ簡単にできないほど、エクセル操作に慣れてないことがわかった。上図で、赤で囲われたデータ範囲をB2にすればよいだけなのだが、これがどうしてもできない。

で、いろいろ調べてできた方法は。

  • グラフタイトルをクリック
  • 数式バーで、「=B2」と入力しENTER(B2はB2セルをマウスクリックでOK)

これでグラフタイトルが変更できる。知らなかった。

(2)軸ラベルの付け方

グラフにオブジェクトを追加する方法もよく知らなかった。まず縦軸のラベル。

  • グラフを選択する
  • グラフツール-デザインから「グラフ要素を追加」-「軸ラベル」-「第一縦軸」を選択し軸ラベルを追加する

注意)以下、軸ラベルの縦軸と横軸が間違って入れ違って入力してしまっています。正しくは縦軸が支出金額で横軸が気温です。全部図を作り直そうかと思いましたが、作業にめげましたので、このままにしておきます。完成図だけは正しい軸ラベルになっていますので、許してください。(誰に謝っているのだろう私は(笑))

  • 軸ラベルが選択された状態で、数式バーに「=C3」を入力しENTER(C3はC3セルをマウスクリックでOK)

同様に、第一横軸を挿入し、横軸のラベルも追加する。

(3)点ラベルの付け方

各点の右側に月のラベルをつける。

  • グラフを選択する
  • グラフツール-デザインで、「グラフ要素の追加」-「データラベル」-「右」を選択し、ラベルを追加する

  • グラフツール-書式で、左上のオブジェクト選択ドロップダウンボックスから、追加したデータラベルを選択

  • その下にある「選択対象の書式設定」をクリックし、書式設定パネルを表示する
  • 「セルの値」にチェックを入れ、表示されたデータラベル範囲ダイアログで、B4からB15をマウスでドラッグし選択し、OKを押す

  • 「Y値」のチェックをはずす(セルの値にチェックをつけるより前にY値のチェックをはずすと、せっかく追加したデータラベルが消えてしまうので、順序は必ずセルの値のチェックが先)

(4)平均線の入れ方

だいぶ様になった。基本的に散布図としてはこれで完成でもよいが、各軸の平均の値に線を描画すると、象限がわかりやすくなって、相関の判断がしやすくなる。エクセルには平均線を入れる機能はないので、それぞれの軸用にデータ系列を追加することで代用する。

まずは、軸の最大値・最小値の自動調整機能をはずす。はずしておかないと、平均線を引くときに自動調整機能が悪影響してうまくいかない。

  • 横軸を選択する
  • 軸のオプションの最小値・最大値にすでに入っている値をキーボードから再入力することで、自動調整をはずす。(リセットボタンが表示される)(他に自動調整をはずす方法を見つけられてません)

  • 同様に縦軸の最大値・最小値自動調整機能をはずす

次に実際に平均線のための系列を追加する。

  • グラフの右クリックから、「データの選択」を選択する

  • 「データソースの選択」ダイアログで、凡例項目の追加ボタンを押す

  • 系列の編集ダイアログで、系列名に「縦平均線」を入力
  • 系列Xの値に、C16からC17にマウスドラッグしてセル範囲を入力
  • 系列Yの値は、縦軸の範囲である「={0,1600}」とキーボードから入力する(系列Yの値にキーボードから値を入力するためには、F2を押してセル範囲入力機能からキーボード直接入力に切り替える必要がある)

  • OKを2回押して、データソース選択ダイアログでの縦平均線追加を終える

  • 縦平均線のデータラベルを選択して、DELキーを押して削除する

  • マーカーを選択し、書式設定パネルでマーカーをなしにする

  • 書式選択パネルを線に切り替え、線(単色)を選択し、スタイルを変更する(色:黒、幅:1pt、点線)

これで、縦の平均線の挿入は完了。同様に横の平均線も作成する。後は体裁を整えて完成。

これでそれなりに使える散布図になったと思う。

平均線で作成される象限について、第一象限・第三象限に点が多いと正の相関が強く、第二象限・第四象限にデータが多いと負の相関が強くなる。このデータについては、そこまで考える必要はないほど明確だが、正の相関が強いことがグラフから簡単に読み取れる。ちなみに相関係数は0.88でかなり強い正の相関になっている。

コメント

タイトルとURLをコピーしました