まぬねこの足跡。。。

備忘録+たのしさ+ひっそりと

統計学:時系列データ 要約(表・グラフ)

要約

集計⇒多数個の変数⇒小数個の数値やグラフ・表

グラフ

  • 折れ線グラフ


  • 時系列データの変化の様子

 変化率=\dfrac{現時点の値-前時点の値}{前時点の値}

  • 時系列データの指数、指標
    基準時点:ある時点
  • 時系列データの変化の様子

 指数、指標=\dfrac{各時点の値}{基準時点の値}×100
ちょこっとメモ

注意:時系列データの折れ線

時間間隔を均等に。謝ったイメージを持たせるグラフになってしまう。

対数 利用

比率を使た方法=対数変換(対数で表示)
例)成長率

統計学:質量変数 要約(クロス集計表・棒/円/帯グラフ)

要約

集計⇒多数個の変数(カテゴリ)⇒小数個の数値やグラフ・表

集計

度数、頻度:カテゴリに属する観測値の個数。

質的変数の表

所属グループ 度数 割合(%)
A 845 56
B 153 10
C 98 7
D 89 6
E 45 3
F 12 1
無回答 258 17
合計 1500 100

  • データの大きさ:合計の「1500」、「n=1500」

クロス集計表

  • クロス集計:複数項目を組合わせ、集計する方法。※その表をクロス集計表。

合計
87 65 152
73 95 168
合計 160 160 320

  • 横「」の和を100%

合計
87 57.2% 65 42.8% 152 100.0%
73 43.5% 95 56.5% 168 100.0%

  • 縦「」の和を100%

87 54.4% 65 40.6%
73 45.6% 95 59.4%
合計 160 100.0% 160 100.0%

  • 全体「」を100%

合計
87 27.2% 65 20.3% 152 47.5%
73 22.8% 95 29.7% 168 52.5%
合計 160 50.0% 160 50.0% 320 100.0%

グラフ・・・可視化

棒グラフ

  • 大小の比較を表現
  • カテゴリに順序がある場合、グラフも順序に並べるとよい。


円グラフ

  • 割合


帯グラフ

  • 割合+複数のグラフを比較+年次的な変化

統計学:その他の表・グラフ(幹葉図・レーダーチャート・積み上げ/複合グラフ)

表・グラフ

データ要約の表現

  • 幹葉図(みきはず)幹葉(かんよう)表示
    左に90度回転すると、ヒストグラムに対応。
    • 元データ:身長(cm)
      上から1段目{130, 131, 135, 136, 137, 137, 138}
      上から2段目{142, 142, 143, 145, 149}・・・


グラフ

  • レーダーチャート
    複数の値をまとめて表現。

  • 複数のグラフ 組合せ
    降水量:棒グラフ
    気温:折れ線グラフ


  • 積み上げ棒グラフ

各カテゴリの合計とその度数・・・割合を見るには計算が必要

  • 時点の異なる複数の帯グラフ


グラフの表現に注意

グラフをみるとき、目盛りに注意。{開始位置や目盛りの幅など}
⇒表現の仕方によって、同じグラフでも違って見えてしまう。

統計学:データ(統計資料)について

データ(統計資料)について

母集団、標本もデータとして扱う。

変数【variable】

同じ特徴・性質を持つ値。調査項目。※複数もある。

  • 次数:変数の数。
  • 観測値:変数の値。

データタイプ

  • 尺度【scale】:変数・データを分類するときの基準

変数の値 と 尺度

量的変数【quantitative variable】
  • 間隔尺度【interval scale】:(離散変数:飛び飛びの値の変数)
  • 比率尺度【continuous scale】、比尺度:(連続変数:小数点以下の値まで含んで値が続く変数。)
質的変数【qualitative variable】(カテゴリカル変数)
  • 名義尺度【nominal scale】、名目尺度:値で区別がつくのみ。
  • 順序尺度【ordinal scale】:値で大小関係がある値。
表にすると

尺度 変数 値同士の関係の有無
区別 大小 比率 利用可能な統計量
質的変数
(カテゴリカル変数)
名義尺度 2値変数 度数、最頻値 性別?(男 or 女)
多値変数 曜日、方角
順序尺度 上例+中央値、四分位数 成績評価
量的変数 間隔尺度 離散変数 上例+平均、標準偏差 気温、偏差値
比率尺度 連続変数 上例+変動係数、幾何平均 身長、体重

変数の個数

  • 1次元データ:変数1
  • 多変量データ、高次元データ:変数が多数。※可視化するとき、3次元までは、可能。
    • 多変量解析法:多変量データを解析する為の方法。

時間変動の有無

  • 時系列データ:同じ対象で異なる時点での変数の値を与えるデータ。
  • クロスセクション・データ:ある時点でのいくつかの異なる対象の調査や測定の結果を与えるデータ。
  • パネル・データ:調査対象集団を構成する同一の単位に対して繰り返し調査して、得られるデータ。

統計 目次

ことはじめ

データ種類・要約:グラフによる可視化

1変数データの分析

2変数以上のデータの分析

確率

数学

統計学:ことはじめ

統計学の定義

『データを収集、表示、解析する科学。』

統計学の種類

  • 記述統計学【descriptive statistics】:手持ちの(標本・母集団)データを整理・要約して、データの特徴をわかりやすく(グラフ・表などで)表現すること。
  • 推測統計学【inferential statistics】:手持ちの(標本)データから、データ発生元(母集団)データの性質を推測すること。

記述するために

  • データ(分布)の特徴を把握するための指標。
    • 統計量【statistic】、記述統計量、基本統計量、要約統計量:データから求める値やその計算方法を表す関数。平均や分散なども含む。
    • 代表値【measure of central tendency】:集団の中心的傾向を示す値。例)平均値(算術平均)、中央値、最頻値(モード) 
  • 可視化:グラフ

推測するために

確率モデルからデータが生成されたと仮定して、データから確率モデルの性質を推測する。

  • 確率モデル:確率変数と呼ばれる数学的な表現を用いて、ある現象がどのような確率で起こるかを表したもの。

推測統計の種類

  • 統計的推定【statistical inference】統計学的に、母集団の特性値(平均・分散など)を標本のデータから推測すること。

  ※あくまで憶測の範囲での推測。100%はない。不確実性の中で評価する。

  • 統計的仮説検定、検定【statistical hypothesis testing】:母集団に対する仮説が標本のデータを用いて、統計学的に成立するか評価し、判断すること。

母集団【population】

興味や研究などの調査対象の集まりすべて。標本を抽出するためのデータ発生元となる統計量の集まりすべて。

  • 母集団サイズ、母集団の大きさ: 母集団に含まれる要素数
  • 母数統計学では、母集団の性質。例:代表値


  • 有限母集団:含まれる要素数が有限のもの。例:1クラス分の人数。
  • 無限母集団:含まれる要素数が無限のもの。例:サイコロを振った出目

標本【sample】

母集団から抽出したデータの集まり。

  • 標本抽出、サンプリング:母集団から標本を取出すこと。
  • 標本サイズ、サンプルサイズ、標本の大きさ:標本に含まれる要素の数

調査

  • 全数調査:母集団の全要素を調査すること。※金銭的・時間的コスト多大の為、不可能がほとんど。
  • 標本調査:標本から母集団の性質や特徴を調べること。
  • 個体、ケース:調査する対象。