Tokyo.Rに行ってきた
Tokyo.R勉強会に行ってきました。
内容盛り沢山で、刺激的ですね。
個人的には時系列分析を行うxtsパッケージとgoogleVisとの連携が実践的に使えそうに思いました。
xts(zoo)のローリング機能はリサーチ(POS等の小売データなど)では有用ですし、googlevisとの連携は顧客によってはレポートとして魅力的ですね。
===============(以下メモ)===============
○生存時間分析
-2種類の打ち切り(censered data)
-ハザード関数
-ノンパラ、セミノンパラ、パラメト(共変量、分布の過程)
-ノンパラ:確率分布を仮定しない(共変量、分布仮定しない)
-経験分布(カプランマイヤー)、ハザード関数
-survival
-surv,survfit
-信頼区間推定→群間差分の検討?なのか?
-セミノンパラ:コックス比例ハザード
-複数共変量の検討
-ハザード比一定の検討は必要
-交互作用検討可能
-パラメトリック
-生存時間が確率分布に従うという仮定
○混合正規分布
-混合分布による教師なしクラスタリング(EM推定)
-複数の要素正規分布からmixtureが構成されるとき、要素をクラスタと考える
→事後確率を導出→推定
→クラスタラベルをとくため、EM推定
-Mclust→Mclust2Dplot,cdens,map
○時系列分析
-xtsパッケージ
-ベースはzooオブジェクト
-他クラスへの(からの)変換制御が容易
-機能拡張が容易
-zoo関数:rollapply
-stackoverflowを参考に
○時系列分析による異常検知
-大量なデータから異常なデータ、変化を検出する技術
→障害発生から原因検出までの早期対処
-確率モデルの学習→スコアリング-→アウトプット
-基本的な異常検知
-はずれ値検出:独立モデル、外れ値、多次元ベクトル
-変化点検出:時系列モデル、多次元時系列、時系列上の急激な変化・バースト的異常
-異常行動検出:行動モデル、セッション時系列、異常行動パターン→障害予兆検出
-変化点検出の必要性
-閾値設定の検出では手遅れのケースも→発生時点での検出が特に重要なケースで有効
-変化点検出の概要
-変化点前後の時系列モデルへの当てはまりで検出
-PreError+Posterror