とっくに明けてしまってましておめでとうございます。
年末年始は帰省もせず (できず)、基本的に家にいずっぱりでちょくちょくセローで首都高ランに出た程度。
テレビもなければゲーム機もつながぬまま過ごしていました。
そんな中、自分の中で今さらっていうか再び高まっているのが、データ サイエンス熱。
統計学のちゃんとしたバックグラウンドもなければ、数学に特に強いわけでもないので、今からカリカリのデータ サイエンティストを目指そうというのではないのですが、今の仕事に対するアプローチ方法として、データ サイエンス的なエッセンスをきちんと取り込んでいこうと思った次第です。
今から 2 年ちょっと前は、主に web アクセス データの集計目的で R (RStudio) のお世話になっていたのでした。
当時も R やデータ サイエンスに関する書籍をいろいろ手にしていましたが、いったん仕上げたルーチン スクリプトを回すだけの身には手に余るものも多く、知識としてさほど定着しませんでした。
そこで今回、「別に統計学者になりたいわけでなく、ビジネスに適用できるツールとしてのデータ サイエンスを身に付けたい」と思っていたところで出会ったのが、こちらの書籍。
データサイエンスのための統計学入門 第2版 ―予測、分類、統計モデリング、統計的機械学習とR/Pythonプログラミング
- 作者:Peter Bruce,Andrew Bruce,Peter Gedeck
- 発売日: 2020/11/09
- メディア: 単行本(ソフトカバー)
カニ図鑑です (違
この本のいいところ:
- 統計の書籍につきものの、難解な数式がほとんど出てこない
- 統計学的に重視されることと、データ サイエンティストにとって大切なこととを区別している
- 第 2 版で Python もカバーされたが基本的に R 寄り
「概念の理解とコードの理解は分けてやった方がいい」という Ruby on Rails での経験を反映して、まずは概念にフォーカスして一読。
そして、書籍と並行して web ラーニングも受けてみました。
まずやったのこちら。
次に、Udemy にも手を出しました。
Python が書けた方がいいのかなと迷いつつ、以下 2 コースを受講。
しかし、なけなしとはいえ既存の R スキルを無駄にすることもないかと思い直して下記 1 コースを受講。
その後、コードの理解にフォーカスしてカニ図鑑の二周目に入っています。
また、これと並行して SIGNATE にも R でチャレンジ。
上述した Udemy の「ビジネスケースで学ぶPythonデータサイエンス入門」の中で、Python を使った予測の投稿をするのですが、それをカニ図鑑に基づき R で再アプローチ。
2 つの練習問題で、Python ベースのスコアを上回ることにも成功しました。
さらに、タイミングよく SIGNATE で Beginner 限定コンペなるものも始まったので、こちらにもエントリー予定です。
こんな感じで、仕事に生かす前提ではあるものの、連休中も楽しみながらデータ サイエンスのすそ野にどっぷりと浸かっていました。
統計学者になりたいわけでなく、かといって生粋のデータ サイエンティストになりたいわけでもなく、データ サイエンス的アプローチができるビジネス パーソンになることを目指して、2021 年は精進したいと思います。