スケーラブルデータサイエンス : データエンジニアのための実践Google Cloud Platform

 

スケーラブルデータサイエンス データエンジニアのための実践Google Cloud Platform

スケーラブルデータサイエンス データエンジニアのための実践Google Cloud Platform

 

Google Cloud Platform(GCP)でアドホック的な分析を行ったり、データパイプラインを構成して自動処理を実装したりを本書を通じてトレースできる。

 

基本的にはGCPをベースに書かれているが、クラウドサービスを活用したデータエンジニアリングを学ぶ上で本書の内容は有用であると思う。(もちろんAWSやAzureによってできることや実行上の大小の違いはあると思うが。)

 

自分の仕事はホワイトボックス・ブラックボックス型を問わずにモデリングを行うこと(およびその周辺)がメインだが、自動化や処理のスケールアウトすることを想定した業務の組み立てを要する機会が増えている。

 

こういった状況において、データエンジニアの仕事についての理解の解像度が低いと、適切な業務進行が困難になってしまう。

 

本書は、実践的なデータエンジニアリングをケーススタディを通じて理解できる点がよく、「門前の小僧習わぬ経を読む」の精神で読む価値は十分にある。(読破できる平易さで記述されている、ともいえる)

 

自分はバックグラウンドや現時点の役務もエンジニアではなく、とくにJavaを使った実装部分は正直かなりコードを読み飛ばしている。それでも「何ができるか」「どこか実行上のボトルネックになりうるか」「ボトルネックの解消として何が考えられるか」についての基本を十分に本書から得られるとは思う。