7Dec
みなさん、こんにちは。
本日は、「データの分析 part.3」です。
今回は共通テストが近づいてきていることもありますので、受験生は既に覚えている内容も多いことでしょう。
さて、皆さんは膨大な量のデータのサンプルを知りたいときにどのような特性をもつ数値に着目しますか。
それぞれの状況によると言われればそれまでですが、平均値や中央値といったものが代表的ですよね。中学生のときに最頻値というのも習いました。
しかし、この平均値や中央値を一定区間で区切って求める方法があります。
例で挙げるのであれば、8月の平均気温と1年間通しての平均気温のようなイメージです。
このように、一定時間範囲のデータの平均値を代表値とする方法を「移動平均法」といい、同じく一定時間範囲の中央値を代表値とする方法を「移動中央値法」といいます。
中央値は、元の特性である「外れ値」の影響を受けにくいというのがメリットですね。
「回帰分析」とは、複数の系列のデータがあるとき、その間に成り立つ関係を関数で表現する手法です。
2つの変数をもつデータの変数間の関係を表現したグラフの1つに「散布図」があります。
「直線回帰」とは、2つの数の関係を直線関係(一次関数)と仮定して近似することです。このとき、近似された直線を「回帰直線」といいます。
「相関係数」とは、変数間の相関の強さを示します。「強い相関関係」「弱い相関関係」「相関関係がない」というように表現します。
回帰分析では2つの変数間の関係を様々な関数として表現します。この関数を「モデル関数」といいます。
「最小二乗法」は実測値のデータに最も近いモデル関数を求める方法です。
一旦ここまでで一区切りです。
統計を行う上で、ある母集団の統計量がどのような値をとるかを予測することも大切です。
このとき予想する推定方法を「区間推定」といいます。
このときの予想の確からしさを「信頼度」といい、予想される値の範囲を「信頼区間」といいます。
「モンテカルロ法」は、確率的モデルの中で乱数を用いて問題を解決する手法です。
本日は、ここまでです。
次回は用語解説の最終回(?)「アルゴリズム・プログラミング」です。