このように貢献度による説明を踏まえることで、分析対象プロジェクトの異常性について、重要となる要素に焦点を当てて解釈や検討ができるようになります。例えば、今回のケースではプロジェクトの進捗度は主に経過期間の割合により説明ができるため、経過期間の割合との関係を見ながら進捗度の異常性について検討することになります。年度末付近に著しく進捗度が増加しているものの、過去のデータに基づけば一定の期間が残っている状況ではそういったことはまれであり、モデルでは直線的な推移を想定した進捗度を算出したことで、推定値と実績値の乖離が生じたと解釈が可能です。
モデルの構築の際に過去のさまざまなプロジェクトのデータが考慮されているため、今回のような一定の工期が残っているといった状況も進捗度の推定に当たり考慮されます。しかし、当然ながら機械学習モデルは完璧ではなく、モデルが考慮していない個別的な要因により推定値と実績値に乖離が生じることになります。この個別的な要因の中には不正な操作のほか合理的なものも多く含まれると考えられるため、乖離の要因が合理的なものなのかどうかという検討が必要になってきます。その際、例えば同じような一定の期間が残っている状況で異常ではなかったケースなどとの比較が、プロジェクトごとの状況やさまざまな要素や違いがモデルに勘案されているか否か、また乖離が合理的なものかといった検討に有用なことがあります。
2. 例示による異常性の説明
そこで、類似度指標を定義して同様のプロジェクトを検出する下記の分析アプローチを考案することができます。本誌2023年2月号でも紹介したように、識別した異常点と他のデータ点との類似度として、異常点の具体的な推定値への貢献度の大きさに応じて特徴量の類似度を算定した類似度指標を定義することができます。そして、次のようなプロジェクトをそれぞれ類似度指標が高い順に提示することができます。
① 推定値と実績値の乖離が小さく異常と判断されなかったプロジェクト(ベンチマーク)
② 分析対象プロジェクトと同様に推定値と実績値の乖離が大きく異常と判断されたプロジェクト(レコメンデーション)
ベンチマークは、類似する正常な比較対象プロジェクトとして、分析対象プロジェクトの推移が対象企業の他のプロジェクトでも一般的なことであるのか、それとも、やはり対象企業の他のプロジェクトと客観的に比較しても珍しいものなのかを分析することができます。<図5>からは、終了予定日に向けた直線的な進捗推移をたどる類似プロジェクトが多数あることを読み取れるため、終了予定日まで一定の期間を残しているにもかかわらず著しく進捗度が増加することは、他のデータと比較した上でも、やはり珍しいものであると、客観的に根拠付けることができます。