目的
Kaggleをやっていると、Kaggleと業務は違うとか、Kaggleやっていても役に立たないとかいう意見が目につくようになったので、実際にデータサイエンティストとして働くということを知りたくなった。
著者はエンジニアとしての視点も、人を雇う経営者としての視点も持っている人なので、両方の観点からデータサイエンス業界で働くということを知りたかった。
 
内容
データサイエンティストは、情報処理、人工知能、統計学などを使うデータサイエンス力だけでなく、意味のある形に変えて実装、運営するデータエンジニアリング力や、課題背景を理解したりビジネス課題を整理したりするビジネス力も必要。
研究者になるための中に、アカデミア的アウトプット力が必要なのは知らなかった。論理的文章よくや学会発表における表現力など
 
セールスコンサルタント
営業とプロマネ
 
勉強会とかもくもく会とかで勉強仲間を作ってモチベーションを維持
 
おすすめ書籍
  • ゼロから作るDeep Leaning -Pythonで学ぶディープラーニングの理論と実装
  • 仕事で始める機械学習
  • ゼロから始めるデータサイエンス Pythonで学ぶ基本と実装
  • 線形代数キャンパス・ゼミ (マセマ出版社)
 
Udacity: AI,データサイエンス,ビジネスなどのオンラインコースを受講できるサイト
 
情報ソース
  • DLhacks Twitterアカウント。東大松尾豊研究室のメンバーが中心に運営してる。論文などのツイート
  • Two Minute Papers: 論文を2分間で解説するyoutubeチャンネル
  • HELLO CYBERNETICS ディープラーニングの情報についてまとめてある個人ブログ。
 
第2部 実務編 第7章 実務のためのノウハウ
ヒアリングを行い、開発のゴールを決める。
その後何のデータが必要となるか、仮説検証を素早く繰り返すアジャイル的なアプローチで用件を固める。この時に線形回帰など使って短い工程でアウトプットを試す。
その後、実際のデータを取得し、最小工程での仮説検証となるProof of Conceptを構築し成功してるかどうか判断してから大規模に開発
 
PoCとは、2~3ヶ月の短い期間でプロトタイプのモデルを作ってどれくらい成果が出るのか検証する。
 
 
感想
業務でPoCを行なって成果が出るか検証する工程が重要だということを知れたのが良かった。
実際の業務でどのようにAIを開発しているのか読むことができたのは勉強になった。
 
僕もデータサイエンスを本格的に勉強し始めたのが10月なので、勉強法とかおすすめの書籍や、ウェブサイトがまとめてあったのがありがたかった。
Two Minute Papersとかすごい面白そうなのでたくさん動画見たいと思う。