📚最近弊社で買ったデータ分析入門書📚

はじめに

こんにちは、Misoca開発チームの洋食(yoshoku)です。 Nintendo Switchを自宅近くの電器屋さんに買いに行ったらなかったので、あきらめてPS Vitaを買いました。 ゲームアーカイブスにある、PC Engineの「夢幻戦士ヴァリス」に大満足です。なんで、あんな薄着で戦うのでしょうか。

本の紹介

私はMisocaでは主にデータ分析を担当しています。 社内で参考書リストが欲しい!!というバイブスが上がってきました。 せっかくなので、ブログで世界に共有することにしました。

確率統計・線形代数

scikit-learnとかをたたくだけでも機械学習アルゴリズムを利用することはできますが、 アルゴリズムの特性を理解した上で適切に使う・結果を解釈するには、数学の知識があった方が良いです。 というわけで、復習・自習するために良いかなと思うモノを選びました。 高専生を対象とした数学の教科書は、主要なところをおさえたものが多いのと、たいてい問題集もあるので自習に向いてます。

確率統計 (高専テキストシリーズ)

確率統計 (高専テキストシリーズ)

重要な数式は、問題集の方にも掲載されているので、復習には問題集だけでも良いかもしれません。
確率統計問題集 (高専テキストシリーズ)

確率統計問題集 (高専テキストシリーズ)

「入門 統計学」は内容的には農学部の学生を対象としたものっぽいですが、検定から多変量解析まで一通り書かれており、 データ分析で必要な統計学の基礎知識が、これ一冊で学べます。内容もとてもわかりやすいです。
入門 統計学 −検定から多変量解析・実験計画法まで−

入門 統計学 −検定から多変量解析・実験計画法まで−

線形代数は「教養の線形代数」が良いです(経験)。 また「The Matrix Cookbook」でググって頂けると、とっても便利なPDFが見つかります。
教養の線形代数

教養の線形代数

機械学習

機械学習の本は、最近ではたくさん出版されていますが、 大学の教科書としての使用を前提に書かれたもので、網羅的にアルゴリズムをおさえた本が良いように思います。 私は、どんな勉強でも、いきなり分厚くて難しい本に挑戦して、挫折してしまうのはもったいないと考えています。 ベーシックな知識を押さえた上で、 興味をもったアルゴリズムについて詳しく書かれた専門書(例えば「機械学習プロフェッショナルシリーズ」など)で勉強を進めていくのが楽しいのではないでしょうか。

入門パターン認識と機械学習

入門パターン認識と機械学習

はじめてのパターン認識

はじめてのパターン認識

また、教師あり学習のみになりますが「わかりやすいパターン認識」は名著です。
わかりやすいパターン認識

わかりやすいパターン認識

とはいえ「固くて大きくて分厚い本をこなすのが快感なんだ」という気持ちもわかります!! そんな方には「パターン識別」をオススメします。ハードカバーで、B5サイズ、652ページあります。 私はリファレンスマニュアル的に使っています。たまにパラパラとめくると思わぬヒントが得られます。
パターン識別

パターン識別

ソフトウェア

Jupyter NotebookとPandasで分析するのが最近のトレンドでしょうか。 これらの教科書としては、オライリーの「Pythonによるデータ分析入門」がオススメです。 元の英語版のサブタイトルが「Data Wrangling with Pandas, NumPy, and IPython」ですが、そのまま、PandasとNumPyとIPythonの本です。

Pythonによるデータ分析入門 ―NumPy、pandasを使ったデータ処理

Pythonによるデータ分析入門 ―NumPy、pandasを使ったデータ処理

Python機械学習ライブラリといえば、scikit-learnですが、その解説書としては「Pythonではじめる機械学習」が最適です。 Irisデータセットをk-近傍法で分類する例からはじまり、データの正規化にも触れながら、教師あり/教師なし学習を解説し、特徴量の設計、モデルの評価へと進むあたり安心感があります。
Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

その他、Rの本で、サンプルデータをダウンロードできるものを買ってきて、Pandasに翻訳するのも良い訓練になります。
Rビジネス統計分析 [ビジテク]

Rビジネス統計分析 [ビジテク]

ビジネス活用事例で学ぶ データサイエンス入門

ビジネス活用事例で学ぶ データサイエンス入門

読み物

私は、まだ、第一部しか読めてないですが「データ・ドリブン・マーケティング」は良い本らしいです。 第一部を読んだだけですが「データドリブンにやっていくのがええんやな!!」という強い気持ちになります。

データ・ドリブン・マーケティング―――最低限知っておくべき15の指標

データ・ドリブン・マーケティング―――最低限知っておくべき15の指標

こちら「データ分析プロジェクトの手引」も、全部は読めてないですが、知人が薦めていたので良い本なのでしょう。 数式やコードは出てこないので「データ分析プロジェクトとは?」みたいなのを知るのに良いかもしれません。 第2章は、ページ数は少ないのですが、データ分析の見積もりに関連するもので参考になりました。
データ分析プロジェクトの手引: データの前処理から予測モデルの運用までを俯瞰する20章

データ分析プロジェクトの手引: データの前処理から予測モデルの運用までを俯瞰する20章

たまにネットで「相関関係があるだけで因果関係とは違う」という議論を見かけますが、 それをわかりやすい例で説明してくれるのが「原因と結果の経済学」です。 因果関係の分析が難しいこともわかります。
「原因と結果」の経済学―――データから真実を見抜く思考法

「原因と結果」の経済学―――データから真実を見抜く思考法

おわりに

「PS VitaでL2/R2ボタンってどこにあるんだろう?」と思っていたら、背面にあるツルツルの部分がタッチパネルみたいになってました。 「これムリじゃない!?」と戸惑っていたら、HORIが最高のソリューションを提供していました。

採用

Misoca本社の近くには、ジュンク堂書店三省堂書店ビックカメラもあります。また必要な専門書は会社の経費で自由に購入できます。