ていねいな保健統計学 第2版

ていねいな保健統計学 第2版

  • 白戸亮吉,鈴木研太/著
  • 2022年10月25日発行
  • B5判
  • 199ページ
  • ISBN 978-4-7581-0976-5
  • 2,420(本体2,200円+税)
  • 在庫:あり
本書を一部お読みいただけます

1章 データの種類とまとめ方

1.データの種類と代表値
統計学で料理する素材,それはデータ! まずは素材を知ることから

1. データには種類がある!

統計学はデータの扱い方を研究する学問です.看護では,多くのデータを扱います.体温,脈拍,血圧の測定はもちろんですが,人々の健康状態を評価したり,健康に効果がある方法はどの方法なのか,自分たちの行う保健活動が本当にベストなものなのかを,データを使って調べたりします※1.統計学を学ぶためには,最初にどのようなデータの種類があるのかを理解する必要があります.

データの分類

データはまず大きく2つの種類に分けることができます.1つ目は質的データ,2つ目は量的データです(表1-1).

質的データは,性質で表されるデータ大小で表されるデータが含まれます.例えば,性質を表す血液型(A型,B型,AB型,O型)や,カフェで注文するコーヒーの大小のサイズ(Sサイズ,Mサイズ,Lサイズ)などは質的データとしてとらえることができます.

一方,量的データ(数量データ)は,等間隔の数値で大小が表されるデータが含まれます.例えば,暦(西暦2018年など)や,年齢(10歳,20歳,30歳など)は量的データとしてとらえることができます.等間隔というのは,例えば,10歳と20歳,20歳と30歳では年齢差が同じ(10歳分)ということです.単に大きい小さいというだけでなく,どのくらいの差があるのかを数値で示すことができるデータを指します.

次に,それぞれのデータの細かな分類をみていきましょう※2

名義尺度(カテゴリーデータ)

名義尺度は,単純な区別や分類の考え方であり,名前や記号などの分け方になります.なお,カテゴリー(category)とは分類を意味します.

血液型はA,B,AB,Oの4種に分類できます.この血液型のデータのなかでは,AがBより大きい,あるいは,ABがOより小さい,などというような大小関係や順序関係はありません.しかしAは,B,AB,Oのどれでもないということはいえます.つまり,カテゴリーデータは文字(名前,名義)の情報しかもたないが,分類は可能であるデータであるといえます.性別(男,女)なども名義尺度でとらえるデータに含まれます.

順序尺度(順位データ・順序データ)

コーヒーを注文したとき,S,M,Lのカップに入っているコーヒーの量はSよりMが多く,MよりLが多いという順序(順位,順番)があります.しかし,コーヒーの量にどのくらい差があるかは店員さんに聞くなどしないかぎりハッキリしません.例えば,MはSの1.5倍の量かもしれませんし,2倍の量かもしれません.MはSの1.5倍の量で,LはSの2倍の量なのかもしれません.

このように,順序尺度では,順番はわかるけれども,どのくらいの差があるのかを数値で示すことはできません.例えば看護では,入院患者の満足度調査で,満足,ほぼ満足,普通,やや不満,不満の5段階から選んでもらう場合などがあります.順序に意味があるのが順序尺度です.

血液型は何尺度?

ABO式血液型は,赤血球膜の凝集原とよばれる抗原の種類によって分類されています.ABO式のほか,Rh式,MN式の血液型でも名義尺度を⽤います(カテゴリーデータ).

間隔尺度(間隔データ)

暦(カレンダー)をイメージしてください.1月の1日,2日,3日を比べた場合,2日は1日の後,3日は2日の後であり,順序があります.それに加えて,間隔を数値で表すことができます.1日と2日の間,2日と3日の間は等間隔で,ともに1日分の差があります.このような順序と間隔に意味があるのが間隔尺度です.

しかし,ここで一つ注意することがあります.2日は1日より1日分進んでいて,3日は1日より2日分進んでいますが,これは倍の間隔と言ってもよいのでしょうか.確かに,1月1日を基準とした場合は1日間と2日間で倍の差があると言えるでしょう.しかし,12月31日を基準とした場合はどうなるでしょうか.2日は2日分,3日は3日分となり,1.5倍の差があることになってしまいます.このように,間隔尺度では,絶対的な基準が定まっていないため,基準をどこにおくかでその比率が変わってしまいます

比率尺度(比例データ)

人間の年齢を表したとき,10歳と20歳,20歳と30歳では年齢差が等間隔でどちらも10歳分となります.それに加えて,生まれた日が0歳という絶対的な基準があるので,こちらの場合,30歳は20歳より年上ですし,1.5倍の年齢といっても問題ありません.

このような,間隔尺度と同じような性質をもっていて,かつ絶対的な零点や原点があるのが比率尺度となります.身長,体重,血圧値,生化学検査値なども比率尺度を⽤います.

温度とデータの種類

温度は種類によってデータの分類が異なります.

日本で一般的に使われているセルシウス温度(摂氏)は1気圧で水が氷になる温度を0℃,水が沸騰する温度を100℃としています.一方,ファーレンハイト温度(華氏)ではそれぞれ32℉と212℉となります.これは,水が液体である温度の範囲を100等分する場合と180等分(212−32=180になりますね)する場合の分け方の違いですので,0℃または0℉が絶対的な基準ではないということがわかります.このため,これらは一般的には間隔尺度を⽤います.

一方,絶対温度(熱力学温度)は,分子の熱運動が停止する絶対零度を基準に定め,0 K(ゼロ ケルビン)としています.すなわち,絶対的な基準をもつ絶対温度は,比率尺度を⽤いることができます.

情報が多いデータは少ないデータに変換できる

これまで4つの尺度とデータの種類について,それぞれの特徴を説明してきました(表1-1).これらの4種は,名義尺度<順序尺度<間隔尺度<比率尺度の順に情報量が多くなっています.そのため,情報が多いデータを少ないデータに変換することが可能です.

例えば,5名の100m走のタイムを計った場合,スタートを絶対的な基準として,比率尺度によって何秒かかったというデータを得ることができます.そのデータを時間が短いものから長いものに並べ替えることで,順序尺度によって 1〜5位のデータとして扱えるようになります.

逆に,情報が少ないデータを多いデータに変換するためには,新たにデータをとらなければなりません.コーヒーのS,M,Lは順序尺度によるものですが,このデータを比率尺度で扱うためには,中のコーヒーをメスシリンダーで量って体積(mL)のデータを得る必要゙があります.

2. データの特徴を表す値

データはそのままでは記号や数値の集まりですが,全体の特徴をつかむことができる指標があるのです.要約統計量といって,2種類あります.

1つ目は代表値です.後ほど詳しく説明しますが,最頻値,中央値,平均値など,データの分布の中心を表す値で,データの特徴や傾向を反映する値といえます.2つ目はバラツキ(散布度さんぷどです.分位数ぶんいすう標準偏差ひょうじゅんへんさ,分散など,データの分布の状況を表す値,つまりバラツキ(散らばり)具合を示す値です.

続きは書籍にてご覧ください
書籍概略はこちら
ていねいな保健統計学 第2版

ていねいな保健統計学 第2版

  • 白戸亮吉,鈴木研太/著
  • 2,420(本体2,200円+税)
  • 在庫:あり