25Nov
みなさん、こんにちは。
本日は、「データの分析 part.1」を書いていきます。
さて、データと一口に言っても様々なものがあります。
これを大きく2つに分類する1つについて説明します。
「オープンデータ」とは、行政機関や企業などから提供され、一般に公開されているデータを指します。
一方で、「クローズドデータ」とは、一部の組織・業界の内部でのみ利用されているデータです。一般に企業秘密・機密事項などとして取り扱われているのは、クローズドデータの一種ですね。
そのデータを用いて、実際に何かをはじめる前に模擬環境下で検証を行います。
これが「シミュレーション」です。
シミュレーションを経て、さまざまな結果(データ)を得て、考察します。
この時、得られた測定値と真の値とのずれを「誤差」といいます。
また、測定値が他から大きく逸脱し、異なる特徴を示す一部の測定値を「外れ値」といいます。この外れ値は、実際のデータの利用環境・測定環境によって、「無視するべきもの」、「無視できるもの」、「考慮しなければならないもの」にわかれます。
何かしらの事情によって、取得できなかったデータを「欠損値」といいます。
次に、みなさんは、「相対的に」という言葉を聞いたことがあるでしょう。何かと比較して数値を指し示すときに使いますよね。一方で、変動する要素と比較しないものを「絶対的」といいますね。
「相対参照」とは、任意のあるセルにおいて、どの位置にあるセルを参照するかを決めた参照方式です。
「絶対参照」は、特定の列・行に属するセルを参照する参照方式です。
この2つはExcelなどの表計算ソフトを用いるときに、重要なポイントとなるので、覚えておきましょう。
「引数」って何か知っていますか。
関数に引き渡す値のことで「ひきすう」と読みます。
「仮引数」とは、関数の定義側の引数のことを指し、「実引数」とは、値を呼び出す側の引数です。
「返り値(戻り値)」は、その結果のことを指します。
ここからは、中学生~高校生の数学でも習う内容です。
既に習っている方は思い出しながら、読んでくださいね。
「度数分布表」とは、データの値または階級ごとに整理したもの、またそれを示したものです。
「ヒストグラム」とは、度数分布表を棒グラフによって表したものです。
「第1四分位数」とは、下位から25%の位置にあるデータ、
「第2四分位数」とは、下位から50%の位置にあるデータ(中央値)、
「第3四分位数」とは、下位から75%の位置にあるデータのことです。
「分散」は、データの値から平均値を引いた値(偏差)の二乗の平均値のことです。これによって、平均から離れているものは、より大きな値となります。
「標準偏差」とは、分散の正の平方根であり、一般にデータの散らばり具合を示します。
分散・標準偏差を計算することによって、データの散らばり具合を確かめるのに用います。特に再現性が求められるものや、一定の水準を保つ必要があるものは、分散が大きいと利用できないケースが多いですね。
本日は、ここまでです。
次回は、「データの分析 part.2 」です。