まぬねこの足跡。。。

備忘録+たのしさ+ひっそりと

統計学:階乗・順序・組合せ 数学

階乗『 n!

 n!=n(n-1)\cdots3×2×1・・・nの階乗
 0!=1と定義

順列【Permutation】『 {}_n \mathrm{P}_k

n枚からk枚を取出し、1列並べるときの並べ方。
\displaystyle {}_n \mathrm{P}_k=\frac{n!}{(n-k)!}

<式>
 \begin{eqnarray*}
{}_n \mathrm{P}_k&=&n(n-1)×\cdots×(n-k+1) \\
&=&\frac{n!}{(n-k)!} 通り
\end{eqnarray*}

組合せ【Combination】『 {}_n \mathrm{C}_k

n枚からk枚を取出し、順番を気にせず組合せのみの並べ方。
 \displaystyle{}_n \mathrm{P}_k=\frac{n!}{k!(n-k)!}
<式>
 \begin{eqnarray*}
{}_n \mathrm{P}_k&=&{}_n \mathrm{C}_k×k! \\
⇒{}_n \mathrm{C}_k&=&\frac{{}_n \mathrm{P}_k}{k!} \\
&=&\frac{n!}{k!(n-k)!} 通り
\end{eqnarray*}

 {}_n \mathrm{C}_0=1、{}_n \mathrm{C}_1=n、{}_n \mathrm{C}_{n-k}={}_n \mathrm{C}_k

二項分布について

二項定理

 \begin{eqnarray*}
(a+b)^n&=&\sum_{k=0}^n{}_n \mathrm{C}_ka^{n-k}b^k \\
&=&a^n+{}_n \mathrm{C}_1a^{n-1}b+{}_n \mathrm{C}_2a^{n-2}b^2+\cdots+b^n \\
\end{eqnarray*}

二項分布を二項定理で考える

 \begin{eqnarray*}
P(X=x)&=&{}_n \mathrm{C}_xp^x(1-p)^{n-x} (x=0,1,2,\cdots,n) \\
\end{eqnarray*}

<上式の確率の和>

 \displaystyle \sum_{k=0}^n {}_n \mathrm{C}_xp^x(1-p)^{n-x}=\{p+(1-p)\}^n=1

統計学:総和『Σ』数学

総和【summation】『 \sum(シグマ)

 \displaystyle \sum_{i=1}^n=x_1+\cdots+x_n

性質

 x_1=\cdots=x_n=aのとき・・・全部同じ値

 \displaystyle \sum_{i=1}^na=na
 \displaystyle \sum_{i=1}^n(\color{red}{c}x_i)=\color{red}{c}\sum_{i=1}^n(x_i) ・・・ \color{red}{c}を外にだせる

 x_1=y_i+z_iのとき・・・2つの数の和

 \displaystyle \sum_{i=1}^n(\color{red}{y_i}+\color{green}{z_i})=\sum_{i=1}^n\color{red}{y_i}+\sum_{i=1}^n\color{green}{z_i} ・・・別々に和をとり、加算。
 \displaystyle \sum_{i=1}^n(\color{red}{ay_i}+\color{green}{bz_i})=\color{red}{a}\sum_{i=1}^n\color{red}{y_i}+\color{green}{b}\sum_{i=1}^n\color{green}{z_i} ・・・別々に和をとり、加算。

分散の平方和

 \displaystyle \sum_{i=1}^n(x_i+\overline{x})^2=\sum_{i=1}^n x_i^2-n\overline{x}^2

<式>
 \begin{eqnarray*}
\displaystyle \sum_{i=1}^n(x_i+\overline{x})^2&=&\sum_{i=1}^n(x_i^2\color{red}{-2\overline{x}}x_i+\overline{x}^2) \\
&=&\sum_{i=1}^n x_i^2+\sum_{i=1}^n (\color{red}{-2\overline{x}})x_i+\sum_{i=1}^n\overline{x}^2 \\
&=&\sum_{i=1}^n x_i^2\color{red}{-2\overline{x}}\color{cyan}{\sum_{i=1}^n x_i}+\sum_{i=1}^n\overline{x}^2 \\
&=&\sum_{i=1}^n x_i^2\color{red}{-2\overline{x}}(\color{cyan}{n\overline{x}})+\color{magenta}{\sum_{i=1}^n\overline{x}^2} \\
&=&\sum_{i=1}^n x_i^2-2n\overline{x}^2+\color{magenta}{n\overline{x}^2} \\
&=&\sum_{i=1}^n x_i^2-n\overline{x}^2 \\
\end{eqnarray*}


1次式「 y=a+bx」⇒「最小二乗法」にする

下式を最小にする a、bを求める。
 \begin{eqnarray*}
S(a,b)&=&\sum(y_i-a-bx_i)^2&=&(y_1-a-bx_1)^2+\cdots+(y_n-a-bx_n)^2 \\
\end{eqnarray*}

1.  aに関する平方完成
 \begin{eqnarray*}
S(a,b)&=&\sum\{(y_i-bx_i)-a\}^2 \\
&=&\sum a^2 -2\sum a(y_1-a-bx_1)+\sum(y_i-bx_i)^2 \\ 
&=&na^2-2\sum a(y_1-a-bx_1)+\sum(y_i-bx_i)^2 \\ 
&=&n\{a^2-2a(\overline{y}-b\overline{x}\}+\sum(y_i-bx_i)^2 \\
&=&n\{a-(\overline{y}-b\overline{x})\}^2+\color{red}{\sum(y_i-bx_i)^2-n(\overline{y}-b\overline{x})^2} \\ 
\end{eqnarray*}
 aの値「a= \overline{y}-b\overline{x}」

2.   R(b)=\color{red}{\sum(y_i-bx_i)^2-n(\overline{y}-b\overline{x})^2}を変形
 x_i:「w_i=y_i-bx_i 」 ⇒ 「\overline{w}=\overline{y}-b\overline{x}」から
 \begin{eqnarray*}
R(b)&=&\sum w_i^2 - n\overline{w}^2 \\
&=&\sum(w_i-\overline{w})^2 \\
&=&\sum \{(y_i - bx_i) - (\overline{y} - b\overline{x)}\}^2 \\
&=&\sum\{(y_i -\overline{y})-b(x_i-\overline{x})\}^2 \\
R(b)&=&\color{cyan}{\sum(y_i -\overline{y})^2}-2b\color{magenta}{\sum(x_i-\overline{x})(y_i-\overline{y})}+b^2\color{blue}{\sum(x_i-\overline{x}) ^2}  \\
&=&\color{red}{n}(\color{cyan}{s_y^2} - 2b\color{magenta}{s_{xy}} + b^2\color{blue}{s_x^2})
\end{eqnarray*}

ちょこっとメモ

 x,yの分散。共分散

 x,yの分散:\color{blue}{s_x^2=\frac{\sum (x_i - \overline{x})^2}{\color{red}{n}}},  \color{cyan}{s_y^2=\frac{\sum (y_i - \overline{y})^2}{\color{red}{n}}}
 x,yの共分散:\color{magenta}{s_{xy}=\frac{\sum (x_i - \overline{x})(y_i - \overline{y})}{\color{red}{n}}}

3.  R(b)で、bに関する平方完成
 \begin{eqnarray*}
\frac{R(b)}{\color{red}{n}}&=&\color{blue}{s_x^2}(b^2-2\frac{\color{magenta}{s_{xy}}}{\color{blue}{s_x^2}})+\color{cyan}{s_y^2} \\
&=&\color{blue}{s_x^2}(b-\frac{\color{magenta}{s_{xy}}}{\color{blue}{s_x^2}})^2+\color{cyan}{s_y^2}-(\frac{\color{magenta}{s_{xy}}}{s_x})^2 \\
\end{eqnarray*}

4. 結論
 S(a,b)の最小は、b=\dfrac{s_{xy}}{s_x^2}, 「a= \overline{y}-b\overline{x}」

統計学:散らばりの代表値

代表値【measure of central tendency】

散らばりの代表値:観測値のちらばりの尺度。

位置の代表値:量的変数で、分布の中心的位置を表す(数値)尺度。

  • 平均値
  • 中央値
  • 最頻値

散らばりの代表値

値が大きいほど:散らばっている。
値が小さいほど:平均値の周りに観測値が集中している。

偏差を利用

偏差【deviation】

 x_i:i番目の観測値

 偏差=x_i - \overline{x}   \left(=各観測値-平均値\right)
偏差 x_iと\overline{x}の関係
 x_i>\overline{x}
 x_i<\overline{x}

  • 総計: \sum_{i = 1}^n(x_i-\overline{x})=\sum_{i = 1}^nx_i-n\overline{x}=0
  • 平均:総計=0の為、0

偏差積

 xの偏差  × yの偏差の値:

 \displaystyle (x_i-\overline{x})(y_i-\overline{y})

偏差平方和

偏差を平方(2乗)した値の総計:

\displaystyle \sum_{i = 1}^n(x_i-\overline{x})^2=\sum_{i=1}^n x_i^2-n\overline{x}^2

偏差積和

 xの偏差  × yの偏差」の総計:

 \displaystyle \sum_{i = 1}^n(x_i-\overline{x})(y_i-\overline{y})

分散【variance】『 s^2

 xの分散:s_x^2
偏差を平方(2乗)した値の平均値:

\displaystyle \dfrac{1}{n}\sum_{i = 1}^n(x_i-\overline{x})^2

標準偏差【standard deviation】『 s

 xの標準偏差:s_x
分散の正の平方根 \sqrt{分散} ):

\displaystyle \dfrac{1}{n}\sum_{i = 1}^n(x_i-\overline{x})^2

平均偏差【Mean absolute deviation】

偏差の絶対値の平均値:

\displaystyle \dfrac{1}{n}\sum_{i = 1}^n|x_i-\overline{x}|

範囲を利用

範囲【range】

 観測値の最大値-最小値の差

四分位範囲【interquartile range / IQR

 IQR=(第3四分位数「75%ile」 Q_3)-(第1四分位数「25%ile」Q_1 )

統計学:位置の代表値

代表値【measure of central tendency】

位置の代表値:量的変数で、分布の中心的位置を表す(数値)尺度。

  • 平均値
  • 中央値
  • 最頻値

散らばりの代表値:観測値のちらばりの尺度。

位置の代表値

平均値【mean】『\overline{x}

  • 種類:
    • 算術平均(相加平均)
    • 幾何平均(相乗平均)
    • 調和平均
    • トリム平均(刈り込み平均)など

<Good>

  • 比較的意味をとらえやすい。
  • 計算が容易。
  • 山一つ左右対称の分布=平均値は中心的位置。

<Bad>

  • 外れ値の影響を受けやすい。
  • 山一つ左右対称の分布でない\neq平均値は中心的位置。

ちょこっとメモ

平均【average】と【mean】

統計では、別意味となっている。
【average】:分布の中心的位置を表す数値(尺度)。中央値、最頻値、平均
【mean】:平均値

算術平均【arithmetric mean】(相加平均)
  • 各観測値が同じ重要度のとき
     n:観測値の数(サンプルサイズ)※ x_i:各観測値の値

 \displaystyle \overline{x}=\dfrac{1}{n}\sum_{i = 1}^n {x_i}
<式>
 \begin{eqnarray*}
\overline{x} &=& \dfrac{x_1 + x_2 + \cdots + x_n}{n}  \left(=\dfrac{観測値合計}{観測値の個数}\right)\\
&=&\dfrac{1}{n}\sum_{i = 1}^n {x_i} \\
\end{eqnarray*}

幾何平均【geometric mean】(相乗平均)
  • 時間に応じて変化する変化率(比率)の平均値
     n:観測値(変化率)の数(サンプルサイズ)※ x_i:各観測値の値

 \displaystyle\overline{x}_G=\left(\prod_{i=1}^n{x_i}\right)^\frac{1}{n}
<式>
 \begin{eqnarray*}
\overline{x}_G&=&\sqrt[n]{x_1x_2\cdots x_n}  \left(=\sqrt[n]{観測値の総積}\right)\\
&=& \left(\prod_{i=1}^n{x_i}\right)^\frac{1}{n}
\end{eqnarray*}

調和平均【Harmonic mean】
  • 速度・レート(率)の平均値
     n:観測値(率)の数(サンプルサイズ)※ x_i:各観測値の値

 \displaystyle\overline{x}_H=\dfrac{n}{\sum_{i = 1}^n\frac{1}{x_i}}
<式>
 \begin{eqnarray*}
\overline{x}_H&=&\dfrac{n}{\frac{1}{x_1}+\frac{1}{x_2}+\cdots+\frac{1}{x_n}}  \left(=\frac{n}{\frac{1}{率}の総和}\right)\\
&=& \dfrac{n}{\sum_{i = 1}^n\frac{1}{x_i}}
\end{eqnarray*}

トリム平均【Trimmed mean】、刈り込み平均
  • 観測値を昇順(降順)にし、上位と下位から一定の個数(割合)を除外した観測値の平均値
  • 極端な値や外れ値の影響を軽減
     n:観測値(率)の数(サンプルサイズ)※ x_i:各観測値の値

 \overline{x}_k=\dfrac{1}{n-2k}\displaystyle \sum_{i = 1+k}^{n-k}{x_i}

中央値【median(メディアン)】、中位数、メジアン M

 M=Q_2(第2四分位数)

<Good>

  • 外れ値の影響を受けない。

最頻値【mode(モード)

観測値が起こる頻度が最も高い値。度数分布表を作成し、度数の最も多い値。複数もあり得る。

位置の代表値の大小関係

<分布の傾向>
左図:左に裾+一山、中央図:左右対称+一山、右図:右に裾+一山

度数分布表からの平均値

  •  m_i:各階級値 ※ f_i:各度数 ※ N:各度数の合計

 \displaystyle \overline{x}=\sum_{i = 1}^k\left(\dfrac{f_k}{N}\right)x_k

<式>
 \begin{eqnarray*}
\overline{x} &=& \dfrac{m_1f_1 + m_2f_2 + \cdots + m_kf_k}{N}  \left(=\dfrac{(各階級値×各度数)総和}{各度数の合計}\right)\\
&=&\dfrac{1}{N}\sum_{i = 1}^k {m_ix_i} \\
&=&\sum_{i = 1}^k\left(\dfrac{f_k}{N}\right)x_k  \left(=総和\{相対度数×階級値\}\right)\\
\end{eqnarray*}

度数分布表の例
階級
以上未満階級値度数相対度数(%)
(度数÷総階級値)
累積相対度数(%)
250~30027511÷32×100=3.13.1
300~35032500÷32×100=0.03.1
350~40037522÷32×100=6.39.4
400~45042533÷32×100=9.418.8
450~50047522÷32×100=6.325.1
500~55052555÷32×100=15.640.7
550~6005751111÷32×100=34.475.1
600~65062577÷32×100=21.997.0
650~70067511÷23×100=3.1100.0約100.0
合計32約100.0

統計学:分位数、箱ひげ図+ヒストグラム

用途

グラフ・表よりも詳しい分布の形状を理解するための指標。

分位数、分位点

データを昇順に並べ、データ全体を観測値の個数を元に幾つかに等分した際の境界の値。

  • 四分位数【quartile】、四分位点、四分位:データ全体を4等分。
    • 第1四分位数( Q_1)【1st quartile】
       25\%ile。先頭から25%の位置にある数
    • 第2四分位数( Q_2)【2st quartile】
       50\%ile。先頭から50%の位置にある数、中央値  M
    • 第3四分位数( Q_3)【3st quartile】
       75\%ile。先頭から75%の位置にある数

ちょこっとメモ

 \%ile (パーセンタイル)【percentile】

 データを昇順に並べ、先頭から全体のx\%に位置する値 =x \%ile
単位: \%ile

計算方法の1例

データを昇順に並べておく。

  1. データ全体で中央にある値(中央値)を求める。
  2. 第2四分位数より前のグループで中央にある値(第1四分位数)を求める
  3. 第2四分位数より後のグループで中央にある値(第3四分位数)を求める

※中央にある値に該当する値が2つある(各グループの個数が偶数)とき、その二つの平均を求める。

「四分位数と中央値」分布・・・外れ値なし

 M:中央値、 Q_1:第1四分位数、 Q_3:第3四分位数

  • 分布が M-Q_1  = M-Q_3のとき、左右対称


  • 分布が M-Q_1  \leqq Q_3-Mのとき、右に裾が長い

  • 分布が M-Q_1  \geqq Q_3-Mのとき、左に裾が長い

ヒストグラム(+度数分布多角形) と 累積(相対)度数分布

例にする度数分布表

上の度数分布のグラフ
「左図:ヒストグラム」と「右図:累積(相対)度数分布のグラフ」

  • 観測値: x
  • 分位数(分位点): Q
  • 累積度数分布の割合(縦軸): pとして、

5数要約

  • 最小
  • 第1四分位数
  • 第2四分位数(中央値)
  • 第3四分位数
  • 最大

散らばりの尺度

値が大きいほど観測値(データ)が散らばっている。

  • 外れ値の影響:有
    • 範囲、レンジ『 R
      最大値ー最小値
  • 外れ値の影響:ほぼ無し
    • 四分位範囲【interquartile range / IQR】
       Q_3-Q_1
    • 四分位偏差【quartile deviation】
       \frac{Q_3-Q_1}{2} (=\frac{IQR}{2})

箱ひげ図


ちょこっとメモ

平行(並列)箱ひげ図

複数の箱ひげ図を描いた図のこと。

ヒストグラムと箱ひげ図の分布 対応


左図:左右対称、 中央図:右に裾、 右図:左に裾

注意:箱ひげ図でわからないこと

ヒストグラム:分布の山が二つあることがわかる。
箱ひげ図:分布の山が二つあることは、わからない。

統計学:量的変数 要約(表・グラフ)

量的変数 要約

離散変数

  • 間隔尺度【interval scale】{値に区別+大小+差}:
    観測値をカテゴリ(携帯台数、人)分け・・・度数、棒グラフ

連続変数

  • 比率尺度【continuous scale】{値に区別+大小+差+比率}:
    同じ観測値はほとんど存在しない。⇒観測値を複数のグループ分け・・・度数、グラフ

度数分布表【Degree Distribution Table】

  • 階級:観測値を複数のグループ分け
  • 度数、頻度:階級に含まれる観測値の個数
  • 度数分布:階級ごとに度数を整理した分布 ※度数分布表:度数分布の表。
  • 階級値、階級の代表:主に階級の \frac{上限値+下限値}{2} 又は、各階級内の平均値。
  • 相対度数:各階級の度数全体に対する割合。観測値の個数が異なる複数の集団を比較。
     相対度数=\dfrac{階級の度数}{階級の合計}
  • 累積(相対)度数:相対度数の積み上げた度数。
度数分布表の例
階級
以上未満度数相対度数(%)累積相対度数(%)
250~30013.13.1
300~35000.03.1
350~40026.39.4
400~45039.418.8
450~50026.325.1
500~550515.640.7
550~6001134.475.1
600~650721.997.0
650~70013.1100.0
合計32100.0

グラフ

ヒストグラム

横軸に変数の値で、各階級(ビン)の区間上に長方形(度数と比例する面積)を描く。

度数分布多角形

ヒストグラムの各階級値(長方形の辺の真ん中)を線で結ぶ。

適切な階級値=スタージェスの公式

 適切な階級の数=1+\log_2n(nはデータ数)

ちょこっとメモ

ヒストグラムの階級(ビン)

ちょうどよい階級幅が必要。
階級幅「大」:大きい傾向はわかるが、細かな分布の形状がつかみにくい。
階級幅「小」:各階級の度数が小さい。全体の傾向がつかみにくい。

分布の特徴

  • 右の裾が長い分布

  • 左の裾が長い分布

外れ値

極端に大きい又は小さい観測値