統計の落とし穴と蜘蛛の糸
著/三中信宏
質問コーナー:散布図の幹葉表示の作成方法が一部分理解できません…
本連載第1回の内容に関連して,以下の質問をいただきました.
散布図の幹葉表示の作成方法が一部分理解できません。具体的には葉の「7」「45」「223」「01」「8」「3」の分割の規則はどのようになっているのでしょうか。
テューキーの「幹葉表示」は,広く用いられているヒストグラムから箱ひげ図への橋渡しとみなされるデータ可視化の方法です.その手順について以下に補足説明します.第1回図2の「累積番号」は最大値および最小値からメディアンに向かって累積されていく番号です.この数値例ではデータの最小値と最大値がそれぞれ3と17ですので,幅2(任意の幅)の区間で全範囲を分割することにします.このとき,最小値3を上端に,最大値17を下端に置いて,幅2の区間を順に積み重ねることで幹葉表示が描かれます.上端の区間[2,3]に入るデータは3だけです.3は一桁の数ですから十の位は「0」で一の位は「3」となります.この「0」が“幹”となり,「3」が “葉” になります.続く2つの区間[4, 5]と[6, 7]に入るデータはありませんので空白にしておきます.その次の区間[8, 9]にはデータ8が入るので,その幹と葉はそれぞれ「0」と「8」となります.その下の区間[10, 11]には2つのデータ10と11が属しますから,共通の幹「1」に対して2つの葉「0」と「1」を並列表示します.同様にメディアンが属する区間[12, 13]の3つのデータ12, 12, 13についても,共通の幹「1」の横に3つの葉「2」「2」「3」を並列します.このように最下段の区間[16, 17]にいたるまで続ければすべての幹葉表示が完成します.
統計の落とし穴と蜘蛛の糸 目次
- 第1回 データ解析の第一歩は計算ではない (2017/11/10公開)
- 第2回 データの位置とばらつきを可視化しよう (2017/11/17公開)
- 第3回 データのふるまいをモデル化する (2017/11/24公開)
- 第4回 パラメトリック統計学への登り道① ─ばらつきを数値化する (2017/12/01公開)
- 第5回 パラメトリック統計学への登り道② ―自由度とは何か (2017/12/08公開)
- 第6回 確率変数と確率分布をもって山門をくぐる (2017/12/15公開)
- 第7回 正規分布という王様が誕生する (2017/12/22公開)
- 第8回 ピアソンが築いたパラメトリック統計学の礎石 (2018/01/05公開)
- 第9回 秘宝:確率分布曼荼羅の発見! (2018/01/12公開)
- 第10回 実験計画はお早めに―完全無作為化法 (2018/01/19公開)
- 第11回 正規分布を踏まえたパラメトリック統計学の降臨 (2018/01/26公開)
- 第12回 統計データ解析の地上世界と天空世界 ―連載の総括として (2018/02/02公開)
- 質問コーナー:散布図の幹葉表示の作成方法が一部分理解できません… (2018/02/09公開)