- AI / DX
ビッグデータの3V
ビッグデータの3Vとはデータ量(volume)やデータの種類(variety)、データ処理をする速度(velocity)のことです。
インターネットやスマートフォンなどの普及により、Webでさまざまな情報を調べる人が増えています。そこで、ビジネスをするためにはユーザーごとの行動を把握することが重要になっています。さらに、テキスト以外にも画像や動画、音声などのデジタルデータによってユーザーに情報を提供することから、マーケティングを進めるうえでさまざまなデータを累積、分析することが必要です。
ビッグデータとは
ビッグデータとは、コンピューターの処理速度をはじめとした性能が上がったことにより生成できる大容量のデジタルデータ群のことです。ビッグデータはデータ量やデータの種類、生成スピードの速さといった3つの概念があるほか、メールや音声、動画、画像といった非構造データにも活用されています。ビッグデータを効果的に活用することによって、業務効率化や社会の課題を解決するなどさまざまな効果を期待できるのです。
ビッグデータの分類
総務省はビッグデータを次の種類に分類されると定義しています。ビッグデータは政府、企業、個人と幅広く使われています。
- 政府(国や地方公共団体が提供するオープンデータ)
- 企業(ノウハウをデジタル化・構造化したデータ)
- 企業(M2M(Machine to Machine)から吐き出されるストリーミングデータ)
- 個人(個人の属性に係るパーソナルデータ)
ビッグデータの目的
ビッグデータを活用する目的として、主に次の点が挙げられます。
- データ予測
- データを活用した意思決定
データ予測
近年ではインターネットやスマートフォンが普及したことによって、誰でもWeb上で情報を集められます。さらに、パンデミックの影響を含めてECサイトを使った顧客が増えているのです。このため、顧客の行動情報を集めやすくWebサイトのアクセス数やクリック数、ページ離脱率、コンバージョン数など即座にさまざまなデータを入手できます。
膨大なビッグデータを活用することで顧客一人ひとりのニーズを掴み、さらに売れている商品や売れたタイミングなどのデータから傾向を分析することで高い精度の予測ができるのです。近年ビッグデータを活用することで、効率的なマーケティングが進められています。
データを活用した意思決定
ビッグデータを活用してさまざまな種類のデータのなかから有益な情報を蓄積、可視化することによりビジネスにおける意思決定であるデータドリブンの実施が可能です。データを活用することで客観的な根拠を基に意思決定ができるため、周囲が共感しやすいことが特徴です。
ビッグデータの特徴
ビッグデータには主に次の特徴が挙げられます。
- リアルタイムでのデータ把握
- 多様性
リアルタイムでのデータ把握
ビッグデータを活用することで、リアルタイムに現状を把握したり分析をしたりなど一目で可視化することが可能になりました。顧客一人ひとりのリアルタイムなニーズの把握や商品ごとの需要予測jなど、さまざまな活用方法があります。高い精度でデータ把握を可能にすることから、より効果的なマーケティングができるようになるのです。
多様性
従来のシステムでは構造化されたデータが基準となっていました。しかし、ビッグデータを活用することで、動画や画像、メール、SNS投稿などの構造化されていないデータも取り扱いをできるようになります。そのため、多様化されたデータを収集し蓄積、分析までおこなうことによってより正確なデータ分析が可能です。
ビッグデータの3V
ビッグデータの3Vとは次の特性を含んでいます。
- Volume(ボリューム)
- Veriety(バラエティ)
- Velocity(ベロシティ)
Volume(ボリューム)
ビッグデータにおけるボリュームとは、生成されるデータの量のことをいいます。通常の表形式におけるデータを分析処理する場合は、大規模なサーバーや大容量の共有ストレージを活用します。さまざまなシステムがありますが、RDBMS(リレーショナルデータベース管理システム)タイプが一般的です。しかし、RDBMSタイプはデータ量が増えた場合に利用者のニーズを満たすほど拡張しにくいことが課題点でした。
扱うべきデータ量は増えていく一方であり、データが多ければ多いほどより正確な分析や予測ができます。増加したデータ量の処理能力を上げられるデータ分析ソフトウェアは高額であり、コスト面での負担が大きくなります。そのため、中小企業はビッグデータを扱いきれないといった課題があるのです。
Veriety(バラエティ)
ビッグデータにおけるバラエティとは、作り出すデータの種類です。どのような外部データを取り出すのか、どのようなデータ構成にするのかなどデータの構造を定義することで加工処理を進めることが必要です。近年ではWebでよく利用されているXML形式のほかに、クラウド基盤やJSON形式などさまざまなデータがあります。このほかにも構造化されていない動画ファイル、半分構造されているSNSの投稿などさまざまなデータの種類が挙げられます。
このようにデータの種類が膨大であることから、どのデータ構造を選んでどのように加工や分析をするかといった手法の選択や設計が必要とされるのです。
Velocity(ベロシティ)
ビッグデータにおけるベロシティとは、データが生成される速度のことです。データ分析ソフトウェアの多くは、バッチ処理とよばれるまとめて処理する方法が導入されています。収集から加工処理、データベース基盤への収納までを一気におこない、集計処理は時間をかけておこなうのが特徴です。
ビッグデータの処理にはリアルタイム分析が活用されることが一般的です。リアルタイム分析とは、常に生成されてデータベースに収集します。ビッグデータの処理には生成されるスピードが求められることから、リアルタイム分析が利用されるのです。
しかし、リアルタイム分析はバッチ処理と比べて容易でないためシステムへの導入費が高額になる可能性が高くなります。
ビッグデータは非構造データも扱う
ビッグデータはVeriety(バラエティ)で表現されているように、さまざまなデータを扱います。文字列や数値などの構造データだけでなく、非構造データも扱います。
非構造データの特徴
非構造データとは、メールや契約書、企画書等の書類、画像、音声など構造定義されていないデータのことです。日常の業務において頻繁に生成されることが多く、それぞれ用途が異なるため処理するべき量が多い点が特徴です。
非構造データは構造定義を持たないことから、処理が容易ではありません。高度なAIであっても分析に活用するためには、データの目的や関係性などを認識させる必要があるなど加工や変換が必要です。
非構造データを扱う理由
ビッグデータには構造化データと非構造データの両方が含まれています。従来のシステムは非構造データを取り扱うことがむずかしいことから、ビッグデータの需要が高まっています。非構造データには映像コンテンツや設計データなどトレンドに沿ったものもあり、非構造データの活用は必要不可欠です。
非構造データを分析することで、デジタル化を導入した業務効率化や顧客ニーズの把握などさまざまな効果があるのです。そこで、非構造データを扱うことができるビッグデータを活用するケースが増えています。
まとめ
ビッグデータには、Volume(データ量)、Variety(バラエティ)、Velocity(ベロシティ)といった3つの特性があります。ビッグデータにおいてデータ量やデータの多様性、データを作る処理速度といった要素が重要なのです。
ビッグデータとは、大量のデータを分析することにより効率的な何かを生み出すことが根本にあります。さらに、ビッグデータは構造データ以外に非構造データを含めてさまざまなデータを扱います。Web上にあるデータは常に変化していることから、データ処理速度も重要な要素の1つです。