7-2. 確率密度関数
確率密度関数(Probability Density Function;PDF)は、連続確率変数の確率分布を記述する関数である。PDFは、確率変数がある範囲に値を取る確率を計算するために使用される。
確率密度関数の定義
確率密度関数 \(f(x)\)は、連続確率変数\(X\)が特定の値付近でどれだけの「密度」で分布しているかを示す関数である。その性質は、以下である。
1.非負性 $$f(x) \geq 0 \quad \forall x \in \mathbb{R}$$
2.正規化条件 $$\int_{-\infty}^\infty f(x) dx = 1$$これは、確率全体が 1 になることを意味する。
3.確率の計算: 確率密度関数から、確率変数\(X\)が区間 \([a, b]\)に値を取る確率 \(P(a \leq X \leq b)\)は、次の積分で表される。$$P(a \leq X \leq b) = \int_a^b f(x) dx$$
確率密度関数の例
1.一様分布:確率変数は、区間\([a, b]\)内で均等に分布する。
・確率密度関数$$f(x) = \begin{cases} \frac{1}{b-a}, & a \leq x \leq b, \\ 0, & \text{それ以外}. \end{cases} \;\;\; \cdots(1)$$ここで、\(a\)と\(b\)は分布の範囲。
2.正規分布:データは平均を中心に対称的に分布し、離れるほど確率密度が減少する。自然現象や社会現象など多くの事象で観察される。
※正規分布に関しては、7-1. 正規分布を参照してください。
・確率密度関数$$f(x) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}} \;\;\;\cdots (2)$$ここで、\(\mu\)は平均、\(\sigma^2\)は分散。
3.指数分布:一定の間隔で起こる事象(例:ポアソン過程)に関連する。例えば、顧客到着時間の間隔やシステム故障の待ち時間をモデル化するのに使われる。
・確率密度関数$$f(x) = \begin{cases} \lambda e^{-\lambda x}, & x \geq 0, \\ 0, & x < 0. \end{cases} \;\;\; \cdots (3)$$ここで、\(\lambda \gt 0\)は分布のスケールパラメータ。
4.カイ二乗分布:カイ二乗分布は、統計的検定や分散分析で利用される。
・確率密度関数$$f(x) = \frac{1}{2^{k/2} \Gamma(k/2)} x^{k/2 - 1} e^{-x/2}, \quad x \geq 0 \;\;\; \cdots(4)$$ここで、\(k\)は自由度、\(\Gamma\)はガンマ関数。
平均値
平均値は、確率密度関数 \(f(x)\)によって重み付けされた値の「中心」を表す。具体的には、\(x\)に対応する確率密度 \(f(x)\)を重みと見なして、全体の「重心」を計算する考え方である。
・平均値の定義
連続確率変数 \(X\)の平均値(期待値)\(\mu\)は、次のように定義される。$$\mu = E[X] = \int_{-\infty}^\infty x f(x) dx \;\;\; \cdots(5)$$ここで、\(x\)は確率変数、\(f(x)\)は確率密度関数。
平均値の例
・一様分布の場合
式(1)の確率密度関数を使い、平均値は、$$\mu = \int_a^b x \cdot \frac{1}{b-a} dx = \frac{1}{b-a} \int_a^b x dx$$ $$\int_a^b x dx = \left[\frac{x^2}{2}\right]_a^b = \frac{b^2}{2} - \frac{a^2}{2}$$よって、$$\mu = \frac{1}{b-a} \cdot \frac{b^2 - a^2}{2} = \frac{a+b}{2}$$となる。
・正規分布の場合
式(2)の確率密度関数より、当然のことながら対称性と中心が平均\( μ\)にあることから$$E[X] = \mu$$である。
平均値を使うことで、次のような応用が考えられる。
1.データの中心位置の把握: データ全体の平均的な傾向を把握できる。
2.分布の対称性の確認: 確率密度関数が平均を中心に対称であるかを確認する指標となる。
3.偏差の測定(分散の計算): 平均値が分散や標準偏差の計算の基礎になる。
分散
分散とは、データのばらつき具合を表す統計量の一つで、各データが平均値からどれだけ離れているかを平均的に表す値である。あるデータ集合\( \{x_1, x_2,\ldots, x_N\}\) があるとき、その分散 \(\sigma\)は以下で計算される。
1.平均値を求める:データの平均値 を計算する。$$\mu = \frac{1}{N}(x_1+x_2 + \cdots + x_N)$$
2.各データと平均値の差の二乗を求める:各データ\(x_i\) と平均値\(\mu\) の差 \((x_i - \mu)\) を二乗する。
3.二乗した値の平均を求める:2. で求めた値の平均を計算する。$$\sigma^2 = \frac{1}{N}[(x_1 - x\mu)^2 + (x_2 - \mu)^2 +\cdots+ (x_N - \mu)^2] $$
※二乗するのは、データが平均値より大きいか小さいかに関わらず、常に正の値にすること、平均値から離れたデータほど二乗することでその影響が大きく表れることによる。
連続確率変数 \(X\)の分散 \(\sigma^2\)は、次のように定義できる。$$\sigma^2 = \text{Var}(X) = E\left[(X - \mu)^2\right]$$ここで、\(\mu = E[X]\)は期待値(平均値)。分散は、確率変数が平均値\(\mu\)の周りにどれだけ散らばっているかを示す。また、分散の別の表現として、$$\sigma^2 = \text{Var}(X) =E \left[(X - \mu)^2\right]=E\left[X^2−2\mu X+\mu^2\right] \\= E[X^2]-2\mu E[X] +\mu^2=E[X^2] -2\mu \times \mu + \mu^2= E[X^2]-\mu^2\\ = E[X^2] - (E[X])^2$$を使うことができる。
・期待値\(E[X]\) :期待値(平均値)は次のように計算する。$$E[X] = \mu = \int_{-\infty}^\infty x f(x) dx$$ここで\(f(x)\)は確率密度関数。
・2乗期待値 \(E[X^2]\):2乗期待値は次のように計算する。$$E[X^2] = \int_{-\infty}^\infty x^2 f(x) dx$$
分散の例
・一様分布の場合
式(1)の一様分布の確率密度関数より、以下のように分散が計算できる。
\(E[X]\) の計算:$$E[X] = \int_a^b x \cdot \frac{1}{b-a} dx = \frac{1}{b-a} \int_a^b x dx \\ \int_a^b x dx = \left[\frac{x^2}{2}\right]_a^b = \frac{b^2}{2} - \frac{a^2}{2} \\ E[X] = \frac{1}{b-a} \cdot \frac{b^2 - a^2}{2} = \frac{a+b}{2}$$
\(E[X^2]\)の計算:$$E[X^2] = \int_a^b x^2 \cdot \frac{1}{b-a} dx = \frac{1}{b-a} \int_a^b x^2 dx \\ \int_a^b x^2 dx = \left[\frac{x^3}{3}\right]_a^b = \frac{b^3}{3} - \frac{a^3}{3} \\ E[X^2] = \frac{1}{b-a} \cdot \frac{b^3 - a^3}{3}$$
・分散の計算:$$\sigma^2 = E[X^2] - (E[X])^2 \\ \sigma^2 = \frac{1}{b-a} \cdot \frac{b^3 - a^3}{3} - \left(\frac{a+b}{2}\right)^2$$
・正規分布の場合:正規分布では分散は既知であり、計算を再確認する必要はない。\(E[X]\)と\(E[X^2]\)は、正規分布の性質上、期待値 \(E[X] = \mu\)で、2乗期待値 \(E[X^2] = \mu^2 + \sigma^2\)が知られている。分散の計算は、当然のことながら、$$\sigma^2 = E[X^2] - (E[X])^2 = (\mu^2 + \sigma^2) - \mu^2 = \sigma^2$$である。
分散の応用としては、以下が挙げられる。
1.品質管理: 製品のばらつきを測定し、品質の安定性を評価する。
2.データのばらつきの測定: 分散はデータの散らばり具合を数値で表す。分散が大きいほど、データは平均から遠くに分布していることになる。
3.信号処理: 分散はノイズの強度を表す指標として活用される。