4Dec
みなさん、こんにちは。
本日は、「データの分析」の2回目となります。
仮説検定の内容など、重要度が高いものが多いので、きちんと理解しておきましょう。
「尺度」とは、データの値を決めるための基準であり、
「尺度水準」とは、データをその意味や性質に基づいて分類する基準のことです。
さて、これだけではなんのことかよくわからないかと思います。
次に登場する内容とセットで覚えましょう。
「量的データ」は、そのデータに数量的な意味があり、計算を行うことができるものを指します。
この量的データには、「間隔尺度(数値の差が数量として意味をもつ)」と「比率尺度(数値の比に数量としての意味をもつ)」があります。
一方で、「質的データ」は、数量的な意味はなく、分類としての意味をもつデータのことです。
この質的データには、「名義尺度(異なる分類として区別するためのもの)」「順序尺度(分類の順序に意味をもつ)」があります。
ここまでで一区切りです。
統計の分野で数学でも出題される内容について、少し書いておきます。
「二項分布」は「一定の確率である2つの状態のうち一方が起こる」試行が複数回行われたときの分布を指します。
「期待値」とは、確率的に期待される値のことを指します。
次に「標本」関連の用語です。
「母集団」とは、調査を行いたい対象全体のことです。
「抽出」とは、母集団の一部を無作為に選び出す操作のことです。
「標本」とは、抽出された集団のことであり、「サンプル数」が1組の標本中のデータの数のことです。
「検定」とは、母集団について立てた仮説が正しいかどうかを標本から判定することです。
このとき、主張したい仮説を否定した「帰無仮説」を考え、
統計的に「滅多に起こらない(有意性がある)」ことを示すことによって、
主張したい仮説である「対立仮設」が正しいと結論づけます。
その有意性があるかどうかの基準を「臨界値(棄却限界値)」といい、
判断をする計算を行うための値を「検定統計量」といいます。
一般的には、確率(有意確立、p値)が5%未満の場合を有意性があると判断し、「有意水準5%」という。
この検定を大小のいずれか一方のみを検証することを「片側検定」としい、
両方検証することを「両側検定」といいます。
帰無仮説を棄却する範囲を「棄却域」といいます。
「Z検定」とは、
・母集団が正規分布に従っている
・母平均と母分散がわかっている ときに
標本平均と母平均が統計的に見て異なるといえるかどうかを検定する方法です。
「t検定」とは、
・母集団が正規分布に従っている
・母分散がわからない ときに
t分布を用いて、標本の不偏分散からある標本平均の出現確率を元舞えることを利用した検定です。
このとき用いる「t分布」とは、正規分布に従う母集団から抽出した標本について、標本平均の分布が正規分布に似た釣り鐘型となる分布のことです。
本日は、ここまでにしておきましょう。
次回、データの分析part.3です。