1. 不正会計予測モデルを用いた子会社ごとのリスクスコア
財務・非財務情報から将来の訂正を予測する不正会計予測モデルを構築し、構築したモデルに子会社の試算表や非財務情報を用いてリスクスコアを測定することで過去の不正・訂正事例と類似する子会社を特定できる可能性があります。
予測モデルの構築に当たっては会計学の領域におけるさまざまな先行研究において予測力のある財務情報や非財務情報の調査が行われているほか、アノテーション(不正・訂正のラベル付けに当たり何を予測するか、学習データの中で不正・訂正に当たるものをどう定義するか)についての検討、機械学習やモデル構築手法についての検討、学習データの不均衡である(不正・訂正事例が極端に少ない)ことへの対応、予測精度の測定方法についての検討などさまざまな点で参考になる議論がなされています。
このアプローチにおいて、モデルの学習に開示されている上場企業のデータを使う一方、リスクスコアの測定に子会社のデータを用いる場合、データの分布が異なる点に注意が必要です。子会社の中には特定の役割を果たすために設立され運営されているものもあり、その場合、財務・非財務情報の傾向は通常開示される上場企業のものと異なることが考えられます。上場企業のデータに基づくモデルを適用する際は子会社の中でも学習データと比較可能なところとそうでないところを峻(しゅん)別しアプローチを変える必要があります。
また、モデル構築の際は子会社データとして利用可能なもののみを用いることになるため、試算表のみが利用可能という前提の場合、キャッシュ・フロー計算書の情報や株価、ガバナンス情報などが利用できず精度に影響が出る点にも工夫が必要です。精度が十分得られない場合、モデルを使ったリスクスコアの測定自体の実用化が難しくなるため、精度向上にさまざまな知見や技術が必要になるかもしれません。
2. 説明可能AIの技術を用いたリスクの特定
不正・訂正の予測にロジスティック回帰などの線形モデルを用いる場合、推定した係数とインプットとなる実際の子会社の財務・非財務情報(特徴量)を掛け合わせることで、リスクスコアへの寄与が大きい特徴量が何かを示すことができます。これにより、リスクが高い子会社を特定した際に具体的にどの勘定科目や指標に着目すべきなのかというところまで知ることができるため、次のステップとして該当する勘定科目を対象としたデータ分析や異常検知など、より詳細な分析につなげることができます。
このように線形モデルは解釈がしやすい一方で、精度向上において機械学習を用いた他の手法が有利となることも多く、解釈のしやすさと精度とのどちらを優先すべきかといった議論もなされてきました。近年、説明可能AIという技術が広まり、こういった状況において精度がより高い複雑なモデルを使いつつ、リスクスコアの測定などのモデルの推論の背景としてどの特徴量がどの程度寄与したのかを示すことが行われています。
例えば、SHapley Additive exPlanations(SHAP)は子会社1社1社のリスクスコアの計算について、特徴量の情報がない場合のスコア(平均的なスコア)と実際のスコアとの差を特徴量ごとに分解することで、それぞれの特徴量の寄与を示すことができます。各特徴量が分かっている場合と分かっていない場合とのスコアの差分を取ることで、各特徴量の値のスコアへの寄与を計算します。特徴量が複数ある場合には、どの特徴量が分かっていてどの特徴量が分かっていないのかというケースごとに各特徴量が判明した際の寄与を計算し平均することになります。
SHAPを用いることで線形モデルと同様にリスクスコアが高い子会社について、どの財務・非財務情報が原因となっているかを特定することができるのです(<図1>参照)。