データサイエンスの分野ではPython（パイソン）の人気が圧倒的であり，Pythonを用いた機械学習等に関する書籍も毎月のように出版されている．Pythonは，汎用プログラミング言語としての自由度と，RやMATLAB，SAS等のドメイン特化のプログラミング言語の使いやすさを併せ持っている．使いやすさの主な要因として，データの読み込み，可視化，統計，機械学習，画像処理等のさまざまな用途にそれぞれ特化したライブラリが多数用意されている点が挙げられる．ただし，PythonはR等と比べると，統計的仮説検定等の機能を実装する際のソースコードの行数（LOC）が多くなりがちである．それもあってPythonは生命科学系の研究者にとってハードルが高く感じられるかもしれない．しかしながら，R等と比べてLOCが多いことは，Pythonのプログラムのカスタマイズしやすさ，つまり汎用性の裏返しでもある．…

森　宙史（国立遺伝学研究所）

続きを読む

PDFダウンロード

Pythonでバイオインフォに取り組み，いずれは機械学習など始めたい方に．汎用的なテーブルデータ解析，可視化ライブラリを用いて，生命科学特有のシングルセル，RNA-Seq解析を実装しつつ学べる．

第1章　この本の使い方と事前準備【森　宙史】

1.1　Python を用いる理由

1.2　プログラミングを行うためのマシンの用意

1.2.1　macOS を推奨する理由

1.3　Anaconda について

1.3.1　Anaconda のインストール方法

1.3.2　Python のバージョン確認

1.4　プログラムの表記法

1.5　本書で何を扱わないか

1.6　本書で用いるプログラムやサンプルデータの置き場所

第2章　Jupyter Notebook の使い方【谷澤靖洋】

2.1　Jupyter Notebook の基本操作

2.1.1　インストールと起動

2.1.2　新規ノートブックの作成

2.1.3　コードの実行

2.1.4　編集モードとコマンドモード

2.1.5　セルの種類

2.1.6　ヘルプの表示とキーボードショートカット

2.1.7　コマンドパレット

2.2　Jupyter Notebook の便利な機能

2.2.1　コマンドの補完

2.2.2　ヘルプの表示

2.2.3　マジックコマンド

2.2.4　シェルコマンドの利用

2.2.5　表形式データの表示

2.2.6　グラフの描画

2.3　Jupyter Notebook の拡張

2.3.1　Notebook Extensions

2.3.2　カーネルの追加

2.4　今後の学習に向けて

2.4.1　JupyterLab

2.4.2　Google Colaboratory

2.5　おわりに

第3章　Python 速習コース【新海典夫】

3.1　はじめに

3.2　関数とメソッド

3.2.1　関数（functions）

3.2.2　メソッド（method）

3.3　変数

3.3.1　変数の基本

3.4　複合データ型

3.4.1　リスト（list）

3.4.2　タプル（tuple）

3.4.3　辞書型（ディクショナリ）

3.4.4　集合型（セット）

3.5　制御構文

3.5.1　if 文

3.5.2　for 文

3.5.3　while 文

3.5.4　リスト内包表記

3.6　自作関数

3.6.1　自作関数の基本

3.6.2　可変長引数

3.7　モジュールのimport

3.8　おわりに

3.9　参考

第4章　文字列処理の基本〜ファイルの読み書き，正規表現【高橋弘喜】

4.1　文字列処理

4.1.1　テキストファイル

4.1.2　バイナリファイル

4.2　ファイルの読み書き

4.2.1　ファイルを読み込む

4.2.2　ファイルに書き込む

4.2.3　改行コード

4.2.4　ファイル読み込み（具体例）

4.2.5　ファイル書き込み（具体例）

4.3　SAM

4.3.1　ビット演算子

4.3.2　SAM1

4.3.3　SAM2

4.4　正規表現

4.5　おわりに

第5章　Biopython を用いた塩基配列データの扱い方〜オブジェクト指向入門【谷澤靖洋】

5.1　クラスを利用したプログラミング

5.1.1　クラスとオブジェクト

5.1.2　クラスを定義する

5.1.3　クラスの利用

5.1.4　より高度なクラスの利用

5.1.5　オブジェクト指向

5.2　Biopython を使った配列ファイルの読み書き

5.2.1　SeqRecord オブジェクトとSeq オブジェクト

5.2.2　FASTA ファイルの読み書き

5.2.3　FASTA ファイルへのランダムアクセス

5.3　GenBank ファイルの読み込み

5.3.1　GenBank 形式ファイル

5.3.2　Biopython を使ったGenBank ファイルのパース

5.3.3　ファイル全体のfeature をループで回す

5.4　GFF ファイルの読み込み

5.4.1　GFF ファイルの構造

5.4.2　GFF ファイルのパース

5.4.3　GTF ファイルについて

5.5　おわりに

第6章　pandas はじめの一歩〜表形式データの扱い方【坂本美佳】

6.1　準備

6.1.1　pandas のimport

6.1.2　本章で使用するデータファイル

6.2　Series

6.2.1　Series の作成と四則計算

6.2.2　データの抽出

6.3　DataFrame の基本操作

6.3.1　DataFrame の作成

6.3.2　DataFrame を使った計算

6.3.3　関数を使った操作

6.3.4　データの抽出

6.3.5　DataFrame の編集

6.4　欠損値，重複の扱い

6.4.1　欠損値の削除

6.4.2　欠損値の補完

6.4.3　重複の除去

6.4.4　メソッドチェーン

6.5　DataFrame に対する関数の適用

6.5.1　DataFrame の集計

6.5.2　NumPy の関数の利用

6.5.3　map 関数の利用

6.6　行／列のループ処理

6.6.1　DataFrame をそのままループで回す

6.6.2　1 行ずつor1 列ずつ取り出す

6.6.3　for ループを使う場合の注意点

6.7　DataFrame の結合

6.7.1　2 つ以上のDataFrame の連結

6.7.2　index をkey として連結

6.7.3　index 以外をkey として連結

6.8　その他の機能

6.8.1　MultiIndex

6.8.2　データのグルーピング

6.8.3　カテゴリごとにグルーピングして計算

6.9　DataFrame の書き出し

6.10　おわりに

第7章　RNA-Seq カウントデータの処理〜pandas 実践編【坂本美佳】

7.1　準備

7.1.1　RNA-Seq とは

7.1.2　この章で用いるRNA-Seq データ

7.1.3　本章で使用するデータファイル

7.2　データファイルの読み込みとアノテーション

7.2.1　カウントデータ

7.2.2　データの概観

7.2.3　列名を変更する

7.2.4　ミトコンドリア上の遺伝子を除く

7.2.5　アノテーションファイルの読み込み

7.2.6　カウントデータとdescription を連結する

7.2.7　カウントデータ部分の切り出し

7.2.8　ファイルの保存

7.3　カウントデータの正規化

7.3.1　リード数で正規化（RPM ／ FPM）

7.3.2　遺伝子長による正規化（RPKM ／ FPKM）

7.3.3　TPM 正規化

7.3.4　NumPy を使った高速バージョンとの比較

7.4　発現変動遺伝子の抽出

7.5　TPM 正規化したデータのクラスタリング

7.6　おわりに

第8章　データの可視化〜Matplotlib，Seaborn を用いたグラフ作成【孫　建強】

8.1　解析環境のセットアップおよびデータの準備

8.1.1　可視化ライブラリ

8.1.2　ライブラリのインストール

8.1.3　データセットの準備

8.2　Matplotlib ライブラリの使い方

8.2.1　グラフのプロット領域

8.2.2　グラフの作成方法

8.2.3　グラフの保存方法

8.2.4　基本グラフを描くメソッド

8.2.5　座標軸や凡例を調整するメソッド

8.3　基本グラフ

8.3.1　ヒストグラム

8.3.2　ボックスプロット

8.3.3　散布図

8.3.4　線グラフ

8.3.5　棒グラフ

8.3.6　ヒートマップ

8.3.7　ベン図

8.4　プロット領域の分割

8.4.1　複数グラフ

8.5　おわりに

第9章　統計的仮説検定〜RNA-Seq データを用いた検定の基本からモデル選択まで【森　宙史】

9.1　必要ライブラリのimport

9.2　基本的な用語や概念

9.2.1　母集団と標本（サンプル）

9.2.2　標本データの尺度水準

9.2.3　確率変数と確率分布

9.3　さまざまな確率分布

9.3.1　二項分布

9.3.2　ポアソン分布

9.3.3　正規分布

9.4　統計的仮説検定について

9.4.1　帰無仮説と対立仮説

9.4.2　p 値

9.4.3　片側検定と両側検定

9.4.4　検定の使い分け

9.5　TPM データを用いた検定の例

9.5.1　TPM とは

9.5.2　TPM データの概観

9.5.3　相関係数について

9.5.4　群間の全体像の検定

9.5.5　群間の各カテゴリ（変数）の検定

9.6　検定の多重性の問題

9.7　実際のRNA-Seq における統計的仮説検定

9.8　 GLM による確率モデルの最尤推定とAIC によるモデル選択

9.9　発現量変動解析について

9.10　DESeq2 について

9.11　今後の統計的仮説検定の位置づけについて

第10章　シングルセル解析① 〜テーブルデータの前処理【東　光一】

10.1　はじめに

10.1.1　高次元データを「見る」

10.1.2　scRNA-Seq 解析

10.1.3　なぜわざわざ自分で解析するのか

10.1.4　本章で扱うデータ

10.2　データの前処理

10.2.1　データの読み込み

10.2.2　クオリティコントロール（細胞と遺伝子のフィルタリング）

10.2.3　データの正規化と対数変換

10.2.4　特徴量選択（発現量変動の大きい遺伝子の抽出）

10.2.5　データの標準化

10.2.6　処理データの保存

10.3　おわりに

第11章　シングルセル解析② 〜次元削減【東　光一】

11.1　データ読み込み

11.2　主成分分析

11.3　t-SNE

11.3.1　t-SNE のアルゴリズム概要

11.3.2　t-SNE の注意点

11.3.3　t-SNE の実例

11.4　UMAP

11.4.1　UMAP のアルゴリズム概要

11.4.2　UMAP の実例

11.5　その他の次元削減手法

第12章　シングルセル解析③ 〜クラスタリング【東　光一】

12.1　データ読み込み

12.2　階層的クラスタリング

12.3　k -means クラスタリング

12.4　近傍グラフに基づくクラスタリング

12.5　その他のクラスタリング手法

12.6　クラスタリング後の解析

12.7　おわりに：結局どれを使えばいいのか

付録A　NumPy 入門【東　光一】

A.1　NumPy のimport

A.2　NumPy で配列を作る

A.3　行ベクトルと列ベクトル

A.4　多次元配列を作る

A.5　二次元配列の操作

A.6　NumPy のブロードキャスト

A.7　実践：カウントデータを相対存在量に変換してみる

A.8　おわりに

付録B　Scanpy を使ったシングルセル解析【東　光一】

B.1　Scanpy のimport

B.2　anndata の構造

B.3　anndata に対する計算と結果の格納

B.4　Scanpy のプロット関数

B.4.1　バイオリンプロット

B.4.2　散布図

B.5　細胞と遺伝子のフィルタリング，正規化と標準化

B.6　次元削減

B.6.1　主成分分析

B.6.2　UMAP

B.7　クラスタリング

B.8　おわりに

索引

購入方法・送料について

本書は全国の羊土社取扱書店にてご購入いただけます．店頭にて見当たらない場合は，下記情報を書店にお伝え下さい．

【本書名】実験医学別冊：独習　Pythonバイオ情報解析〜Jupyter、NumPy、pandas、Matplotlibを理解し、実装して学ぶシングルセル、RNA-Seqデータ解析
【出版社名】羊土社

お近くに取扱書店が無い場合，特に海外でご覧になりたい場合，羊土社HPでのご注文および発送も承っておりますので，下記ご参照のうえ，注文をご検討ください．

羊土社HPでのご注文について

本書を羊土社HPにてご購入いただきますと，本体価格に加えて，送付先・お支払い方法などにより下記の費用がかかります．お手続き等詳細は書籍購入案内のページをご参照ください．

分類	項目		費用
国内	消費税		+600円
	送料		0円（5,000円以上，国内送料無料）
	手数料（代引きのみ）		+300円
海外	航空便送料	第1地帯（アジア、グアム、ミッドウェイ等）	+1310円
		第2地帯（オセアニア、中近東、北米、中米）	+1680円
		第2地帯（ヨーロッパ）	+1680円
		第3地帯（アフリカ、南米）	+2210円
	EMS便送料	第1地帯（アジア、グアム、ミッドウェイ等）	+1960円
		第2地帯（オセアニア、中近東、北米、中米）	+2720円
		第2地帯（ヨーロッパ）	+3000円
		第3地帯（アフリカ、南米）	+3760円