回帰分析は、1つまたは複数の独立変数と従属変数の間の関係を識別し、分析するためのアプローチである。この手法は、ヘルスケア、社会科学、工学、経済学、ビジネスなど、さまざまな分野で広く使用されています。回帰分析を使用して、データの基本的な関係を調査し、情報に基づいた意思決定を支援する予測モデルを開発することができます。

この記事では、回帰分析のしくみ、わかりやすい例、相関分析との違いなど、回帰分析の包括的な概要を説明します。

回帰分析とは何か?

回帰分析は、従属変数と1つまたは複数の独立変数の間の関係を識別し、定量化するための統計的手法です。一言で言えば、1つ以上の独立変数の変化が従属変数の変化にどのように関係しているかを理解するのに役立ちます。

回帰分析を十分に理解するためには、まず以下の用語を理解する必要がある:

  • 従属変数: これは、あなたが分析または予測することに興味がある変数である。あなたが理解し説明しようとしている結果変数です。
  • 独立変数: これらは、従属変数に効果があると思われる変数です。これらは、従属変数の変化を予測または説明するために使用されるので、しばしば予測変数と呼ばれます。

回帰分析は、従属変数の将来の値の予測、従属変数に対する独立変数の効果の理解、データ収集における外れ値や異常な発生の発見など、さまざまな状況で使用できます。

回帰分析は、単回帰、ロジスティック回帰、多項式回帰、重回帰などいくつかのタイプに分類できる。適切な回帰モデルは,データの性質と調査対象によって決定される.

回帰分析の仕組み

回帰分析の目的は、独立変数と従属変数の間の関連を反映するベスト・フィットの直線または曲線を識別することである。このベスト・フィット直線または曲線は,データ集合中の期待値と実際の値の間の不一致を減少させる統計的手法を用いて生成される.

ここでは、2つの最も一般的な回帰分析の公式を示します:

単一線形回帰

単回帰では,2つの変数:独立変数(x)と従属変数(y)の間の関係を示すために,最適適合直線を使用する.

ベストフィットの直線は方程式で表すことができる: y = a + bx。

ここで、aは切片、bは直線の傾きである。傾きを計算するには、次の公式を使う: b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2)、ここでnはオブザベーションの数、Σxyはxとyの積の和、ΣxとΣyはそれぞれxとyの和、Σ(x2)はxの2乗の和である。

切片を計算するには、a = (Σy - bΣx) / nという公式を使う。

重回帰 

重回帰:

重回帰モデルの式の公式は次のとおりである:

y = b0 + b1x1 + b2x2 + ... + bnxn

ここでyは従属変数、x1, x2, ..., xn は独立変数、b0, b1, b2bnは独立変数の係数である。

通常の最小二乗法を用いて係数を推定する式は以下の通りである:

β = (X'X)(-1)X'y

ここで,β は係数の列ベクトル,X は独立変数の設計行列,X' は X の転置,y は従属変数のオブザベーションのベクトルである.

回帰分析の例

個人の成績平均点(GPA)と1週間の学習時間数との関連を調べたいとします。あなたは、学生から学習時間数や評定平均値などの情報を集めます。

そして、回帰分析を使って、両変数の間に線形関係があるかどうかを調べ、もしあれば、週当たりの学習時間数に基づいて学生のGPAを予測するモデルを構築することができます。

データを散布図にプロットすると、学習時間とGPAの間には好ましい線形関係があるように見える。次に、単純な線形回帰モデルを用いて、最も適合する直線の傾きと切片を推定する。最終的な解は次のようになります:

GPA=2.0+0.3(週当たりの学習時間)

この方程式によると、1週間の学習時間が1時間増えるごとに、学生のGPAは0.3ポイント上昇する。このアルゴリズムは、週に何時間勉強するかに基づいて学生のGPAを予測したり、勉強の習慣に基づいて成績不振に陥るリスクのある学生を特定したりするのに利用できる。 

例題のデータを使用すると、次のようになります。 ba は以下の通りである:

n = 10(オブザベーションの数)

Σx=30(学習時間の合計)

Σy = 25 (GPAの合計)

Σxy=149(学習時間とGPAの積の合計)

Σ(x)2 = 102 (学習時間の2乗の合計)

これらの値を用いて、以下を計算する。 b として:

b = (nΣ(xy) - ΣxΣy) / (nΣ(x)2) - (Σx)2)

= (10 * 149 – 30 * 25) / (10 * 102 – 302)

= 0.3

そして計算する a として:

a = (Σy - bΣx) / n

= (25 – 0.3 * 30) / 10

= 2.0

したがって、最良適合直線の方程式は次のようになる: 

GPA=2.0+0.3(週当たりの学習時間)

相関と回帰の違いは何ですか?

相関と回帰は、どちらも2つの変数の関連を調べるための統計的手法である。両者は異なる目的を持ち,異なるタイプの情報を提供する.

相関は、2つの変数の間の関係の強さと経過を表す尺度である。これは-1から+1まであり、-1は完全な負の相関、0は相関なし、+1は完全な正の相関を表す。相関は、2つの変数がつながっている度合いを示すが、原因や予測可能性を示すものではない。

一方、回帰は、2つの変数の間の関係をモデル化する手法であり、通常、一方の変数を他方の変数に基づいて予測または説明するためのものである。回帰分析は、関係の大きさと方向の推定、統計的有意性検定、信頼範囲、将来の結果予測を提供できる。

あなたの作品を数分で完成

Mind the Graph は、あなたのユニークなニーズを満たすために簡単に変更することができ、科学的なイラストやインフォグラフィックのデザインの豊富なライブラリを提供するオンラインプラットフォームです。ドラッグ&ドロップのインターフェイスと幅広いツールや機能を使用して、プロフェッショナルな図表、ポスター、グラフィカルな抄録を数分で作成できます。 

ロゴサブスクライブ

ニュースレターを購読する

効果的なビジュアルに関する高品質なコンテンツを独占配信
科学におけるコミュニケーション

- 専用ガイド
- デザインのヒント
- 科学ニュース・トレンド
- チュートリアルとテンプレート