トップ «前の日記(2017/10/01) 最新次の日記(2017/10/13)» 編集

kaztomo日記

2017/10/02 [長年日記]

_ 時系列データを扱うことについての今日の学び

時間情報、対象（目的変数）は絶対必要。他に説明変数を付け加えることで精度が向上できる。
モデルを生成するためには、「今から予測地点」までの期間Ａを過去に遡って見たときに、”期間Ａ”より前のデータを使う必要あり。これは、モデルに使ってよい時系列データ期間という意味であり、期間Ａよりも後の時系列データを使うと、「未来を知ったデータで予測」することになりＮＧ
時系列データを扱う場合の交差検定(CV)の考え方

Ｔ：学習用データ
Ｖ：検定用データ

時系列でない場合は
ＴＴＴＴＶ
ＴＴＴＶＴ
ＴＴＶＴＴ
ＴＶＴＴＴ
ＶＴＴＴＴ

時系列データならばこうする
　　　　ＴＴＴＴＶ
　　　ＴＴＴＴＶ
　　ＴＴＴＴＶ
　ＴＴＴＴＶ
ＴＴＴＴＶ

モデルの良しあしは、「検定用データ」がどれだけうまく説明できるか。モデル高めるために、説明できていない変数を見直す。
周期性パターンを把握する。パターン変動がある場合、説明変数にパターンを説明する特徴量を加えて考えてみる。（1日のうちに特定の変動がある、特定の月、など）
長期のデータを用意する（パターンが複数回発生するトレーニングデータ）。
原因が説明変数として入っていない変数は手動で排除・修正など前処理する。起きる頻度が非常に少ない事柄について、手動で目的変数の影響を処理しておく。（普段は変化がないのに、急激に変化してすぐ戻る場合）

特に最後のあたりは、先日「データよりアイデアを重んじる」と学んだことに近い考えだと思う。

[ツッコミを入れる]