黄昏より暗きもの、血の流れより赤きもの

黄昏より暗きもの、血の流れより赤きもの

自分の好きな事を好きなように書いて行きます。

データ分析実務未経験の自分がお勧めする確率・統計学・機械学習向けの書籍6選!

今日はデータ分析実務未経験の自分がお勧めする確率・統計学機械学習向けのおすすめ書籍を6つ紹介したい。統計学関連の書籍や、Webスクレイピングなどを通して機械学習する為の土台を作るのにつながる書籍をまとめてみたので読んで欲しい。

第一章:確率統計関係の書籍

1:初心者向け:統計学がわかる

統計の本と言えば、ひたすら数式が出て来てと言う経験をされた方は多いはず。この本はそれに反し、ハンバーガー屋の事例を例に、様々な状況に分けて統計分析されていて分かりやすい。数式アレルギーな人にはおすすめだし、「ハンバーガー統計学」にこれに近い内容が書いてあるので、これを見てから購入するかを決めたい。


統計学がわかる (ファーストブック)

統計学がわかる (ファーストブック)

2:中上級者向け:統計学入門(基礎統計学)

自分は大学の時統計学の教科書を持ち歩いてなかったので、データ分析を始める手始めに買った本だ。数学的な根拠が簡単に書かれている点が良く、統計関係のネタをここに書く時必ず横に置いていたものだ。検定に出て来る検定統計量などの計算をExcelSQLに打ち込む際の確認用の本として役に立つ。


統計学入門 (基礎統計学)

統計学入門 (基礎統計学)

3:「それ、根拠あるの?」と言わせないデータ・統計分析ができる本

統計学関連の本となれば、重回帰分析や多変量解析と言った覚えるまでが大変なテクニックばかりである。又覚えたからと言って一般の人に納得してもらえるプレゼンやネタが作れるとは限らない。この本はあるヒストグラムの分布から、平均や中央値、標準偏差の読み取り方までが書かれていて、一般の人に納得してもらえるためのデータの見せ方、データから何が読み取れるかが書かれている。


「それ、根拠あるの?」と言わせないデータ・統計分析ができる本

「それ、根拠あるの?」と言わせないデータ・統計分析ができる本

最近「外資系コンサルExcelグラフ作成術」系の書籍が、書店のExcelやデータ分析コーナーのトップに並ぶ事も増えた。そこでは「5ヶ月の売り上げが10,20,30,10,50とかかれているとき、4ヶ月目の売り上げ低下を突っ込ませないように1ヶ月目と5ヶ月目だけ表示しろ!」と言うのを帯で書かれていて、少々恣意的なデータ加工術が紹介されていた。

現実問題として仕方の無い事もあるが、他人の提供したデータや順位の場合こういう事があったりなので、出来る限り自分でデータ集計している訳だ。この本は「恣意的にデータを改ざんしてはいけないよ」と書かれていて、そこの所はしっかりしている。

4:データー解析の実務プロセス入門(森北出版:あんちべ著)

「ニコニコ学会データ研究部」と言う勉強会の基調講演を聞き、ファンになったので思わず購入した。


データ解析の実務プロセス入門

データ解析の実務プロセス入門

特にソーシャルゲームのKPIの話は、「チュートリアルが長いとユーザーが離脱する」など実際に運用する立場じゃないと分からない情報があるのが嬉しい。この辺は素人では分かりにくいので非常にありがたい。

自分が趣味でやってて経験上、「統計の本を覚えて○○検定覚えたんだけど、使う局面が無い…」「A/Bテストと言っても、サイトやブログをリニューアルする訳ではないし…とどうしても書籍を読んで使わない箇所が出て来る事も。しかしこの本は心構えが多く書いてあるので、こうした事が少なく読める構成もうれしい。

さて先ほどのA/Bテスト*1を例に出す。A/Bテストは一定の期間サイトAとBをユーザーn_A、n_B人に見せ、その広告等のクリック数c_A,c_Bを比較すると言うテクニックを指す。ともすれば集計する期間が違えば、検定の結果が違うはず。丁度オリコンの週間と月間で違うように、1日間隔?3日間隔?あるいは1週間や1ヶ月間隔?これどうしようとなるわけだ。

ここで統計学の本の多くは集計されたデータを検定し、どのような事が言えるかについては詳しく書かれている。しかしこの本にある「シンプソンのパラドックス」のように、集計や調査のやり方次第で結果が変わる事については論じられていない。こうした小ネタを多く入れて説明してくれるのが、あんちべさんのいい所だ。

第二章:Web上のデータを機械学習するのにつながるプログラミング関連の書籍(SQLLinuxサーバーなど)

最後のこの章では機械学習につながる、プログラム回りの書籍を紹介したい。機械学習の有名所に「パターン認識機械学習(丸善出版)」と言う黄色い本があるが、数学的な根拠を掴むのが大変だ。最悪日がくれる可能性も高くリスクも多い。その為データ分析と行かなくても、データ集計位はできるためのテクニックが書かれている書籍を紹介したい。

さて、この記事にたどり着いた皆様ならばExcelの関数位は大丈夫だと思う。例えばExcelで平均と言えば、AVERAGE関数とすぐ思い受けべる事ができたはずだ。しかしぶっちゃげSQL苦手と言う方はかなりいると思う。

データ分析の本もこういう事が書いてあれば良いのだが、こうしたプログラム回りのテクニックと言うのは、データ分析の勉強会などではまず行なわれない。と言うのも勉強会などでは、統計を使ってどう検証するべきかが話の主軸となるためだ。この為本記事ではこういった事も盛り込み、皆さんの調べたい事を調べて頂ければと思う。

苦手と来ている所申し訳ないが、Web上のデータを集計する場合に至ってはLinux等のサーバー回りの事や、SQLと言ったデータベースの知識が必要な事は覚えておきたい。以下、LAMP(Linux+Apache+MySQL+PHP)や、名付けてLAMR(Linux+Apache+MySQL+Ruby)等の装備を使った場合の、データ分析に必要なプログラム回りの事を説明して行こうと思う。

5:Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例

この本は持ってはいないが、立ち読みするに俺がpixivのイラストの投稿数を1日おきに集計していたのに近いテクニックがまとめて書かれていた。自分がテクニックをここで書くのも良いのだが、書籍で読んじゃった方が速いと思うので勧めたい。

例えばWebページ上の数値や文章などを時系列で集計するとき、Webスクレイピングと言うテクニックを使う。次にそれを時系列で集計するために、Linuxのcronと言う機能を使い、集計プログラムを一定時間毎に実行できるようにする必要がある事等が書かれていておすすめだ。


Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例

Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例

6:改訂新版 反復学習ソフト付き SQL書き方ドリル (WEB+DB PRESS plusシリーズ)

次はSQLの書き方ドリルの紹介だ。amazonのレビューに依れば一部不備があるらしいが、SQLを書くのが苦手な場合に便利そうだ。とは言っても自分の時は、「SELECT * FROM ***** WHERE *****」位の簡単なSQL文で足りていたので、この本に書かれている事までやらなかった(細かい事はExcelで集計していた) 。

しかし表結合やサブクエリと言ったテクニックで、集計作業を自動化してデータを素早く見たい!と言うときに色々なSQLが書けると楽な場合もある。そんな時が来たときの練習用として役に立つのがこの書籍だ。


改訂新版 反復学習ソフト付き SQL書き方ドリル (WEB+DB PRESS plusシリーズ)

改訂新版 反復学習ソフト付き SQL書き方ドリル (WEB+DB PRESS plusシリーズ)

最後に

とまあ自分が今まで趣味でやってきた上で、必要な書籍をまとめてみた。正直に言うと無理矢理まとめたと言う感があるのも否めない。後半のSQL関連の書籍は、「データサイエンティストに必要な3つのスキル」さんを見て、こういう書籍があるといいなあを付け加えた。

ここから例えば「入門 機械学習」「Pythonによるデータ分析入門 ―NumPy、pandasを使ったデータ処理」と言ったのO'Reillyあたりの応用系の書籍と組み合わせて、あなたも素晴らしい分析ライフを送って頂きたい。

恐らく最初は文章を解析させる(自然言語処理)、数値データを解析する(機械学習)と言っても何をして良いか分からないはずだ。こんなときにアンケート調査でも、Webスクレイピングなどをしてみて、色々勘を掴んでみる事を勧めたい。

最後に本記事が確率・統計学、画像認識、音声認識自然言語処理機械学習の各ジャンルに興味を持ってもらう人が増えれば幸いである。