- AI / DX
Light GBMとは
LightGBM(Light Gradient Boosting Machine)とはデータ分析方法のひとつであり、2020年に入って注目を集めています。ビジネスにおけるデータサイエンスとして、以前より使用されていたXGBoostを改良し、より高速でデータ分析をおこなうことが可能となりました。ニュースで取り上げられる機会が増えてきた機械学習が、以前よりも身近に感じるようになったのは、ビッグデータの増加とそれを処理できるテクノロジーの進化によるものです。
Light GBMは非常に強力な手法であり、実務やコンペなどでも使用されることの多いフレームワークです。しかし、すべてのデータに対して優れているわけではないため、データの特性によって使い分ける必要があります。
Light GBMとは
Light GBM(Light Gradient Boosting Machine)とは、機械学習における分析アルゴリズムであり、教師あり学習と呼ばれるデータ分析方法のひとつです。同様のアルゴリズムとして以前より使用されているXGBoostよりも高速な分析を可能にしたモデルであり、2016年にMicrosoft社によってリリースされました。
XGBoostを含め、ほかの機械学習と比較しても短時間でのモデル訓練が可能であり、計算速度が速いことから大規模データセットにも適しています。
Light GBMの特徴と仕組み
Light GBMを理解するには次の項目を把握する必要があります。
- 教師あり学習
- 決定木分析
- 勾配ブースティング
教師あり学習
教師あり学習とは、機械学習におけるデータ分析手法です。教師あり学習による分析は回帰と分類による2つの方法があり、Light GBMで使用されるのは分類による手法です。
教師あり学習では、入力データと正解ラベルをペアで学習し、未知のデータに対する予測をします。自動運転や画像検索、顧客のセグメンテーションなど、さまざまな分野で幅広く活用されていますが、分類を効果的におこなうために使用される代表的な手法が決定木分析です。
決定木分析
決定木分析とは、木構造でデータを分類していく手法であり、分析結果が樹木の枝分かれのように表されます。樹木上で視覚的に解釈が容易であるため、実務でもよく使用される手法です。
決定木分析の具体例としては、売上データと売上に影響する性別や価格、商品カテゴリーなどの特微量(分析対象データのなかの予測の手掛かりとなる変数のこと)を含むデータセットを使用して決定木分析をおこなった場合、売上の上昇や下降につながる要因を特定することができます。そのうえで売上予測モデルを構築し、モデルを活用することで需要予測や在庫管理などに役立てることが可能です。
ただし、決定木分析を単体でおこなっただけでは精度は低いため、ブースティングという手法を組み合わせます。決定木分析によって誤差が生じている部分に重みをつけ、再度決定木分析をおこない、繰り返すことで精度を高める方法です。
勾配ブースティング
Light GBMは決定木分析の精度をより高めるために、勾配ブースティングという方法を用いて複数回の決定木分析をおこないます。決定木分析により誤差が生じている部分に対して、通常のブースティングのように重みをかけるのではありません。勾配ブースティングではデータの予測値と実績値の誤差を計算し、再度決定木分析をおこないます。
勾配ブースティングは学習を繰り返すことで誤差を最小化していく方法であり、精度が高まっていきます。データ量に応じて計算量も増えますが、1つひとつの決定木の精度を落とさず、高速に構築が実現できる点がLight GBMの最大の特徴です。Light GBMで利用可能なライブラリはMicrosoft社が無償で提供しています。
Light GBMとXGBoostの相違点
Light GBMとXGBoostは同じアルゴリズムを使用しますが、実装の違いにより次のような異なる特徴があります。
- 決定木の学習方法
- ヒストグラムの作成方法
決定木の学習方法
Light GBMとXGBoostのもっとも大きな違いは決定木の学習方法です。XGBoostを含む通常の決定木では、leaf Wiseという学習方法を採用しており、階層ごとに分岐させていきます。このとき、ひとつの階層の分岐がすべて終わってから次の階層へ進むため、時間がかかってしまう点が課題でした。
一方で、Light GBMはleaf Wiseという学習方法を採用しており、分岐が必要なくなった葉に対しては、それ以上の計算はしません。重要と判断された葉ごとの学習のみをおこなっていくため、比較的高速な分析を可能とします。
ヒストグラムの作成方法
Light GBMでは決定木分析の際に特徴量をヒストグラムの作成をするのに対し、XGBoostでは決定木分析の後に作成されます。ヒストグラムとはデータを区切った度数分布表を棒グラフのように表したものです。横軸はデータの区間、縦軸は各区間に含まれる数量を表します。Light GBMは決定木分析時にヒストグラム化することによって計算コストを抑えられるため、より短時間での訓練が可能です。
Light GBMを活用するメリット
Light GBMを活用するメリットは次のとおりです。
- データ分析の高速化
- メモリ使用量の軽減
- 大規模のデータ分析
データ分析の高速化
勾配ブースティングを用いたアルゴリズムとしてXGBoostなども有名ですが、Light GBMほどデータ処理が高速なものはありません。高速なデータ処理によって迅速な意思決定やリアルタイムでの予測、生産性向上などのメリットが生まれます。また、Light GBMは大規模なデータに対して計算コストを極力おさえるよう工夫が施されているため、大規模なデータでも迅速な分析が可能です。
メモリ使用量の軽減
Light GBMヒストグラム化することでメモリ使用量をおさえられます。使用量が軽減されると、ハードウェアのスペックが低くても使用が可能となります。
そのため、スペックの大きな高額な製品を購入する必要もなくなり、コスト削減にもつながります。また、メモリ使用量をおさえることで、多くの情報を取り入れ、より精度の高い分析ができるようになる点も大きなメリットです。
大規模のデータ分析
Light GBMが大規模データの分析に最適である理由は高速処理というだけではなく、多様化したデータにも適応する点です。Light GBMはノイズや異常値などの影響を受けにくく、安定した性質を発揮するため、大規模データの分析にも高い精度が期待できます。
Light GBMを活用する際の注意点
Light GBMは複雑化しやすく、データに適合し過ぎて過学習になりやすい点に注意しなければなりません。特微量が増え過ぎて訓練データと過剰に適合してしまい、新しいデータに対して汎化性能が低下する可能性があります。
特にデータサイズが小さいケースで起こりやすいため、決定木の深さや分岐の基準などを適切に設定することが重要です。学習スピードにおいては明らかにLight GBMが速いといえますが、すべてのデータに対して精度が高くなるとは限らないため、データによってはXGBoostよりも精度が劣ることもあります。そのため、Light GBMを使用する際は適切なアルゴリズムの選択が重要です。