Gap統計量
GAPとうけいりょう
k-means法では基本的に,クラスタ中心とそのクラスタに含まれるデータ点のユークリッド距離の二乗の総和を目的関数とし,この値が小さくなるように最適化される.したがって,クラスタ数Kを大きくすると最適化後の目的関数の値は必然的に小さくなり,Kを大きくすればするほど良い結果のように見えてしまう.そこで,データが存在する範囲で一様ランダムにサンプリングして作成したランダムデータに対して,同様にk-means法を行い目的関数の値を計算し,その値と実データの値を比較する.これにより,ランダムなデータをK分割した場合に比べ,実データをK分割することに意味があるかを評価でき,Kを大きくすることの歯止めになると期待される."Gap統計量とは,「ランダムデータの最適化後の目的関数の値の対数値」から,「実データの最適化後の目的関数の値の対数値」を引いたものであり,この値が大きいほどランダムに比べ意味のあるクラスタ数だと考えられる(実際にはランダムデータの結果は複数回計算されたものを用いることが多い).実際の処理としては,Kを1から,ある値までの範囲でそれぞれk-means法とGap統計量を計算し,Gap統計量が最大となるKや,K=1から見て最初に極大となったKを選ぶといった操作が行われる.(実験医学増刊3820より)
機械学習を生命科学に使う!
シークエンスや画像データをどう解析し、新たな生物学的発見につなげるか?
解説は発行当時の掲載内容に基づくものです
本コンテンツは,2018年まで更新されていた同名コンテンツを元に,新規追加・再編集したものです