- AI / DX
モデル評価指標とは
モデル評価指標とは予測モデルの精度を定量的に計算することによって相互に比較ができるようにする指標のことです。モデル評価指標は機械学習技術においても、モデルを最適化する際においても活用されています。
近年注目を集めている機械学習は学習したデータをもとに予測をおこないますが、精度を評価する基準が必要です。そこで、機械学習モデルの評価指標として活用されているのがモデル評価指標です。
モデル評価指標とは
モデル評価指標とは、コンピュータが予測するモデルの正確性を計測し、ほかのモデルと比較できるようにするものです。機械学習技術が普及している現代でも、モデル評価指標は機械的にモデルを最適化するために用いられています。
モデル評価指標のプロセス
モデル評価指標とは、予測の正確性を数値で表す計算式のことです。通常、データサイエンス技術を使って予測モデルを開発する場合、まずモデル評価指標を決めて目標の数値を定め、その目標に達するためにモデルを試行錯誤して改善していくという手順を踏みます。
機械学習におけるモデル評価指標
機械学習技術においても、モデル評価指標を設定する必要があります。機械学習では、モデル評価指標を改善することで、より優れたモデルを構築します。このために、大量の計算を自動的に繰り返して、指標の改善をおこなうことが一般的です。
指標が重要である理由
ビジネスにおいて機械学習を活用するにあたり、ROI(Return On Investment、投資収益率)が重要です。ROIが高ければ高いほど、該当のモデルは経済効果が高いといったことになります。しかし、モデルを直接的に最適化するのは容易ではありません。
そこで、モデル評価指標をはじめとしてさまざまな指標を活用することによってモデルの経済効果を計測することが一般的です。モデル評価指標では、活用してアルゴリズムの妥当性を数値を用いて明確にすることが目的です。
過学習の基準となる
機械学習において、作成したモデルが学習用データに適合しすぎることから過学習になるといった課題があります。予測の精度が高い学習用データであるにもかかわらず、未知の予測をすると精度が高くなる傾向があり汎用性がない状態に陥ることが特徴です。
しかし、モデルが過学習であるかどうかを判断するのは決して容易ではありません。そこで、モデル評価指標を1つの基準にすることができます。機械学習モデルを作るにあたって、100%の精度になることはほとんどありません。このため、計測の誤差が低すぎる場合だけでなく100%に近い場合も過学習である可能性を疑うことが必要です。
モデル評価指標の種類
モデル評価指標には次の種類が挙げられます。
- 回帰モデル
- 分類モデル
回帰モデル
回帰モデルの評価指標においては、MAE(Mean Absolute Error、平均絶対値誤差)やMAPE(Mean Absolute Percentage Error、平均絶対パーセント誤差)がよく使われる傾向にあります。しかし、MAEは小さな値の誤差がわかりづらい指標でMAPEは小さな値の誤差に影響されやすい指標です。
そこで、バランスをとったWAPE(Weighted Absolute Percent Error、加重絶対パーセント誤差)や、RMSE(Root Mean Squared Error、平均二乗誤差)、MSE(Mean Squared Error、平均二乗誤差の平方根)などさまざまな評価指標が活用されています。
分類モデル
分類モデルには、適合率や正解率、再現率、F-mesureなどが挙げられます。
適合率
適合率は、予測したポジティブクラスのサンプルのうち、実際にポジティブであったサンプルの割合を表します。つまり、陽性と予測されたものに注目し、どの程度正確に予測できたかを測る指標です。適合率が低い場合、ネガティブなサンプルを誤って陽性と認識している可能性が高く、このような場合には適合率を上げるべきです。
適合率は、誤認識や誤検知を最小限に抑えたい場合に使用されます。例えば、迷惑メールフィルターの場合、正しく迷惑メールを認識できることが重要ですが、重要なメールを誤ってフィルターしてしまうと大きな問題となってしまいます。このため、迷惑メールではないものを誤って認識することを最小限に抑えることが必要です。
正解率
正解率とは、機械学習モデルを活用した予測結果をはじめとして、サンプル数に対する正解数の割合を把握する指標です。100%を1.0と表示することから、1.0に近づけば近づくほど正解した割合が高いことになります。正解率が高いことにより高い精度のモデルであるととらえられる場合もあり、正解率が高いほど性能が高いモデルと判断される場合があります。
正事例と負事例が不均衡なデータを分析する場合は正解率を使って評価すると正しい数値を予測できない場合があります。例えば、10個のサンプルデータのうち、9個のデータを正解させれば0.9と高い数値になります。しかし、場合によっては予測できなかったデータが1つあることで意味のないモデルと判断されることは少なくありません。この場合はほかの分類モデルを活用することが一般的です。
再現率
再現率は、ポジティブクラスの正解率を示す指標であり、陽性に分類されるデータのうち、どの程度正しく予測できたかを表します。再現率が高いほど、陽性サンプルの見逃しを少なくすることができます。ただし、陽性サンプルと予測することが多いと、誤検知が増え、システムの信頼性が低下します。
再現率を重視するのは異常検知や障害診断など、見逃しを最小限に抑える必要がある場合です。しかし、適合率とバランスを取る必要があるため、再現率だけに依存することは避ける必要があります。例えば、異常検知では再現率を高くすることで障害を見逃さないようにすることが重要ですが、正常な状態を異常と誤検知しないよう適合率も高いレベルで維持する必要があります。
F-mesure
F-measureは再現率と適合率を組み合わせて出来た指標です。このように、適合率と再現率はそれぞれ異なる観点からモデルの性能を評価する指標であり、両方を考慮することが望ましい場合があります。
例えば、不均衡なデータに対してモデルを評価する場合や、適合率と再現率の両方が同等に重要な場合、あるいは誤検知とネガティブクラスを両方とも注目して評価する必要がある場合には、適合率と再現率の両方を使用することが適しています。正解率は、正しく迷惑メールを認識することとネガティブクラスのみに着目して評価するため、適合率と再現率が必要な場合には向いていません。
まとめ
モデル評価指標とは、予測モデルの精度を定量的に計算してほかのモデルと比較をして評価できる指標です。そのため、機械学習での効果を測定するうえでよく活用されています。モデル評価市場には複数の種類があり、モデルに適応したタイプを選ぶことが重要です。
活用しているモデルがどの程度正確に予測できるのかを把握することが求められることから、機械学習においてモデル評価は重要です。そこで、モデルの精度を評価できるモデル評価指標の需要が高まっています。