Tokyo.Rに行ってきた

Tokyo.R勉強会に行ってきました。


内容盛り沢山で、刺激的ですね。


個人的には時系列分析を行うxtsパッケージとgoogleVisとの連携が実践的に使えそうに思いました。


xts(zoo)のローリング機能はリサーチ(POS等の小売データなど)では有用ですし、googlevisとの連携は顧客によってはレポートとして魅力的ですね。



===============(以下メモ)===============

○生存時間分析
 -2種類の打ち切り(censered data)
 -ハザード関数
 -ノンパラ、セミノンパラ、パラメト(共変量、分布の過程)
 
 -ノンパラ:確率分布を仮定しない(共変量、分布仮定しない)
  -経験分布(カプランマイヤー)、ハザード関数
  -survival
   -surv,survfit
   -信頼区間推定→群間差分の検討?なのか?
  
 -セミノンパラ:コックス比例ハザード
  -複数共変量の検討
  -ハザード比一定の検討は必要
  -交互作用検討可能
 -パラメトリック
  -生存時間が確率分布に従うという仮定
  
○混合正規分布
 -混合分布による教師なしクラスタリング(EM推定)
 -複数の要素正規分布からmixtureが構成されるとき、要素をクラスタと考える
  →事後確率を導出→推定
  →クラスタラベルをとくため、EM推定
  
 -Mclust→Mclust2Dplot,cdens,map
 
○時系列分析
 -xtsパッケージ
 -ベースはzooオブジェクト
 -他クラスへの(からの)変換制御が容易
 -機能拡張が容易
 -zoo関数:rollapply
 -stackoverflowを参考に

○時系列分析による異常検知
 -大量なデータから異常なデータ、変化を検出する技術
  →障害発生から原因検出までの早期対処
 -確率モデルの学習→スコアリング-→アウトプット
 -基本的な異常検知
  -はずれ値検出:独立モデル、外れ値、多次元ベクトル
  -変化点検出:時系列モデル、多次元時系列、時系列上の急激な変化・バースト的異常
  -異常行動検出:行動モデル、セッション時系列、異常行動パターン→障害予兆検出
 -変化点検出の必要性
  -閾値設定の検出では手遅れのケースも→発生時点での検出が特に重要なケースで有効
 -変化点検出の概要
  -変化点前後の時系列モデルへの当てはまりで検出
  -PreError+Posterror