TokyoRに行ってきた
TokyoR(R勉強会)に行ってきました。
進行は以下のような感じ。
1. Rによるデータサイエンス第Ⅱ部 第6章 自己組織化マップ
* 発表者 : @bob3bob3
2. ggplot2:パッケージ製作者(Wickamさん)の話を聞いて
* @aad34210
3. caretパッケージの紹介
* @dichika
4. RにおけるHPC 並列計算編
* @sfchaos
5. Rで始めるテキストマイニング
* @AntiBayesian
6. R言語による Random Forest 徹底入門
* @hamadakoichi
自己組織化マップは本当にお手軽に実行できますね。
他のクラスタリング手法と明確な差別化がわかりにくいのですが、これを専門に実践されている方もいらっしゃるようなので、それなりに意義があるのだと思います。
私は不勉強なのですが・・・。
ただ、クラスタ数を決めウチするより、固定のユニットのどこに所属するか、のほうがビビッドに個体間の差異は捉えられそうな気がしないこともないです。
ggplotはキレイな絵が描ける、ってことがよくわかりました。使い込む価値ありですねぇ。
caretはモデル比較がしやすいと言う意味では実践的・・・ともいえるでしょう。
(私はモデル比較をすることはあまりないので・・・。)
HPCについては、6~7年前に大規模データをRで処理したときに感じたジレンマを解決する手段だなぁ、と感動しました。
複数のCPUに処理を並列させることは、大規模でかつ複雑なモデルを適用するときは必須です。
オープンソースの力を感じます。
テキストマイニングは基礎からしっかり勉強できた印象です。
分かち書きや構文分析はMeCab使えばできてしまうので、こういう基礎が重要だなぁと改めて思います。
そして、Random Forest。
これは面白いアルゴリズムです。
ベースは決定木ですが、集合学習を適用することで精度の高い予測・分類が可能になるアルゴリズム。
決定木には最初の分岐となる変数にその後の分岐が依存するという特性があり、複数の目的変数に影響力が強い変数がある場合にはデメリットとなることがあります。
それをブートストラップサンプリングと変数のランダム選択、及びその統合で解決をするという考え方。
いやーシンプルかつ美しい。
スピーカーが分かりやすく噛み砕いてお話くださったので、その魅力が本当によく伝わりました。
今日の参加でより一層、Rの可能性の大きさを感じました。
これからのデータアナリストにはRを使えること、それをベースに最新の技術動向をキャッチアップしていくことが必須のスキルになるのかもしれません。
今日はここまで。