勉強方法

DataCampのPythonデータサイエンティストコースを受講した感想

こんにちは、Dr.レオです。
私自身、臨床現場ではpythonを使って手術計画をしたり、研究では画像処理計算、AI研究をしています。

このたびデータキャンプDataCampのPythonデータサイエンスコース(Data Scientist with Python Track)の全過程を無事に受講し終わりました。

内容はその名の通り

Pythonを使ってデータ分析する方法を学習する

ことです。

私自身データ解析に関しては完全に独学でした。
今回は系統だった講義を受けることができたので、
結論としてはすごく良かったです。

プログラミングコースに関してはまとめページなど多くありますが、
DataCampのコースに関してはあまりないため、まとめておきます。

感想まとめ

受講してよかった点
  • Pythonはじめ、プログラミングに触れていない人でも問題ない
  • データの可視化(グラフにすること)を徹底している
  • 豊富な問題量をスムーズにこなせる演習形式
  • 講義の単元が長くなく、隙間時間に勉強できる
  • 統計などの理論中心ではなく、プログラムコード中心で実用向きである
ちょっと足りないな、と思う点もあります。
足りない点など
  • 機械学習は浅め
  • 解析に特化しており環境設定に関しては講義がない
  • 理論に関してはやや浅い
  • 講義が英語(字幕あり)

受講して、私自身の日常のデータの扱い方も変わりました。

受講して変わったこと

  • データを表にまとめる時、解析しやすい形式にするようになった
  • プログラミングを記述する時、一定のルールに従うようになった(Google形式)
  • グラフをエクセルで書かず、Seabornやmatplotlibで書くようになった

 

では、DataCampコースでのPythonデータサイエンティストのコースがどんなものだったか、
私の感想を書いていきます。

 

 

1.DataCampで学べること

DataCampとは
データサイエンスのためのプログラミングを教えているオンラインコースです。

データサイエンスというのは、科学分野でのデータの扱い方です。
主にデータ解析とデータの可視化の2つにわかれます。

①.データの可視化(グラフ)

 膨大なデータから、グラフをつかって理解しやすいように描画します。

グラフにするならエクセルでいいんじゃないですか?
エクセルの表計算も優秀だよね。使いやすいし。
でも表計算ソフトなので、計算途中を書き出してグラフにするのがほとんどなんだよ。
計算途中?
こんなイメージかな。 データ、合計、分散など全部を書き出す。
そしてグラフにする

 

一方でプログラミングを用いた解析だと、データをどう解析するか入れとけば
データからダイレクトでグラフを出せるんだ。

 

便利ですね。
エクセルの中に表がありすぎて、どれが清書グラフのデータかわからない・・・
なんてことはない?
あります。
プログラミングを用いると、決まった形式でデータを入力してやれば、ほしい形式のグラフにできる。
また、データの文書とプログラミングの記述を分けておくことで、データ管理と可視化の過程を整理できるんだよ。
なるほど。

プログラミングを使用すると、表を一気にグラフにすることができます。
しかも、グラフの種類、見栄えなどを操作できます。

具体的には

  • 実験データをレポートにするときのグラフに使える
  • 研究データを論文にするときにグラフにできる
  • 集めたデータを会議のプレゼンに使用する際、説得力のあるグラフにできる

などなど、応用できる点は様々です。

②.データの解析

主に機械学習です。

機械学習ってなんですか?
ざっくりいうと
いままでのわかっている膨大なデータを入力してパターンを覚えさせ、
新たなデータから情報を予測することだね。
  • 乳がん検査の過去の診断画像と診断名から、新しい画像の良性・悪性を判断する
  • 過去の天気を入力し、現在の天気図から明日の天気を予想する
  • 膨大な過去の株価のデータから今後の株価の動きを予想する

といった様々な使用例があります。

医学にも使えるんですね。
面白そう。やってみたい。
僕は自分の持っている仮想通貨がどうなるか予想してみたい・・

2.DataCampでPythonを勉強しようと思ったきっかけ

私自身がdatacampを受講したきっかけは、
現役医師でありながらGoogleに転職したLilianさんの記事を読んだからです。

【転職エントリ】 Googleに入社します

Lilianさん自体はPythonプログラミングを初めて1年でGoogleの面接をパスしている天才的な方です。
Lilianさんの記事によると、そのうちはじめの3カ月で
DataCampのData Scientist Courseをやったとあります。

「医師でありながらGoogleなんてかっこよすぎる・・
やるしかないでしょ。」

という超短絡的な考えで受講に至りました。

3.DataCampでの学習の流れ

問題、演習がひたすら繰り返される形式です。

各チャプター4から5個のレクチャーからなります。
レクチャーは3分から5分くらいと非常に短いです。
スライドで具体的なプログラミングの書き方と、解析の原理を学びます。

レクチャーのあとにはプログラミング演習があります。

このページ上に穴埋め形式で入力することによって、実際のプログラムを行い、解析したり、グラフを書くことができます。
必要な表データなどはすでに入っている状態で演習ができるので大変便利です。

入力して「Submit」を押すと、正解、不正解が表示されます。
正解なら次へ進め、不正解ならヒントがもらえます。
ほんとに困ったら解答を見た上で次へすすめます。

このあたりはProgateと同じですね。

DataCampはRやSQL、Excelなどデータ解析に有用なプログラミングを多数扱っており、
現状で300を超えるコースがあります。

DataCampのコース一覧

DataCampの各コースの最初のチャプターは無料で受けられます。

有料で受講するときも、無料体験で進んだ範囲は引き継がれるため、
講義の長さ、英語の聞きやすさ、演習のやりやすさなど
無料で体験してから受講することをおすすめします。

Introduction to Pythonコースメール登録のみで無料でできる。Pythonの入門コース(外部リンク)

4.オススメの勉強方法

①プログラムの記述をうつして覚えていく

「写経(しゃきょう)」と言われます。 とにかくテキストスライドのスクリプトをうつして覚えていきます。
「写すだけで覚えられるの?」
「自分で考えたほうがよくない?」
と思うかもしれませんが、心配ありません。 
演習量が膨大なので写すだけでも十分覚えられます。

また丁寧なことに、ほとんどの演習で、だんだん空欄が多くなっていくように作られています。
自転車の補助輪と同じで、気づいたら自分で書いている状態を目指せます。

データキャンプDataCampでは講義のスライドをダウンロードできます。
新しいチャプターになるたび、スライドのpdfファイルをダウンロードします。

私はパソコンとディスプレイを使用し、片方の画面にスライド、もう片方に演習画面を表示させていました。

演習を解きながら、わからない部分はスライドを参考にします。
ほとんどスライドのスクリプトと同一の文法でクリアできますので、これが一番よかったです。
プリントアウトしてもよいのですが、スライド量は膨大になってしまいます。

②使いたいプログラムが出てきたらメモしておく

プログラミングの勉強でよくあることですが、データキャンプDataCampは特に講義が多く、
「このプログラム使いたい!」
と思っても、どこのチャプターかわからなくなったり、どのスライドに記載してあるかわからなくなります。
私自身は使えそうなスクリプトは出てくるたびにエクセルの表に書き出して、チャプター名、簡単な機能をわかるようにしておきました。

③定期的にチャプターを進めていく

 私自身は日中は勤務で忙しかったので、朝起きてから1チャプターすすめるようにしていました。
演習はスライドを見ながらやっていたので、1チャプターあたりの所要時間は大体30-60分で、4日あれば1単元クリアできます。
なんだかんだで受講開始から受講修了までに5ヵ月かかりました。

日々の積み重ねってわけですね。
1時間だから習慣づけてしまえば意外と続くよ。

ちなみに終わったらこんな修了証が発行されます。

なんとなく充実感。

せっかくなので次のコースとして
Machine Learning Scientist with Python Track
を進行中です。

またある程度進んだら記事にしていきたいと思います。

興味ある人は以下で無料コースが体験できます。

DataCampのData Scientist with Python Track