共同研究「機械学習によるサーバの監視・異常検知のためのログやリソースデータの分析」レポート | ITOC しまねソフト研究開発センター
×閉じる
機械学習|レポート Machine learning

共同研究「機械学習によるサーバの監視・異常検知のためのログやリソースデータの分析」レポート

2019年01月28日

しまねソフト研究開発センターでは、株式会社プロビズモと「機械学習によるサーバの監視・異常検知のためのログやリソースデータの分析」というテーマで共同研究を行いました。以下、この取り組みについて、当社からのレポートを紹介します。

1.共同研究概要

(1)共同研究の題目
サーバの監視・異常検知のためのログやリソースデータの分析

(2)共同研究の目的
サーバの障害発生予測や障害事前検知の実現

(3)共同研究の内容及び目標
サーバの障害発生予測や障害事前検知を実現するためのログデータやリソースデータの調査・整理・分析を行う。

2.研究実施期間

平成29年7月~平成29年12月

3.共同研究の成果から得られたこと・分かったこと

(1)収集されている各サーバの出力するログやリソース利用状況の整理・分析
 しまねソフト研究開発センターより、各種ライブラリを活用したデータ分析手法のレクチャーを受けた。ログは長期間、統一されたルールで収集されていたためデータ分析をスムーズに行うことができたが、ログの数が莫大であることから今回の対象とするサーバの選定を行い、データ可視化により、ログの見逃されていた収集されていない期間などを発見することができた。 

(2)機械学習の特徴量の抽出
 機械学習に取組むにあたり、しまねソフト研究開発センターより、特微量の抽出における考え方やその方法についてレクチャーを受けた。レクチャー内容を踏まえてリソース利用状況やログの出力量の予測に取組んだ。リソース利用状況のログは一定時間間隔で出力され、機能のログはイベント発生時に出力されることから、出力データの形式は大きく異なるが、これらを統一的に扱う手法や過去データの利用方法、最適な特微量の組み合わせを選定する手法などを学んだ。

(3)共同研究を通じて得たこと
 各サーバの出力ログ数やリソース利用状況を予測することができるなど、機械学習についての知見を得ることができた。一方、機械学習を行うための処理時間、学習に使用するCPU/メモリ、ハードウェアスペックなどの課題も発見できたことから、今後は予測精度向上に向けて検討していきたい。

・予測に影響がないログデータの特定、除去
・良好な結果が得られていない予測対象(出力ログ数など)の予測精度向上の検討
・特徴量の充実化(例:アラートメールの内容を追加する 等)
・学習モデルを組み込んだ予測からの乖離検知アプリケーションの作成
・サーバの障害発生予測、障害事前検知への拡張 

<担当研究員からのコメント>
しまねソフト研究開発センター 専門研究員 木村 忍

 数十台のサーバを運用する時、そのログの数は膨大であり、分析の手法を用いないで人が管理するのは至難のことである。
今回の共同研究により、ログの持つ価値を最大限に利用する一助になれたのではないかと考える
ただ取り溜めるだけではなく、過去から現在までのログを有効活用する手法としてとても参考になる事例となった。

 問い合わせ先

しまねソフト研究開発センター
E-Mail : itoc@s-itoc.jp
TEL:0852-61-2225

このページのトップへ