ECサイトの顧客分析に役立つクラスター分析とは

update : 2018/12/18（火）

Twitterなど各種SNSで、「○○クラスタ」という言葉を見たことがある人もいると思いますが、今回はそのクラスタの基となった「クラスター」に関しての分析を解説いたします。

クラスター分析とは

そもそも、クラスターの語源は英語の「cluster」を指し、「たくさんの数の集まり」という意味で使われます。 Twitterで見る○○クラスタというのも、共通の○○が好きな人たちの集まりというのが転じ、「○○ファン」「○○をする人たち」という意味で使われる用になりました。

クラスター分析とは、多くの中から仮説を元に、異なる属性が混在する中から、類似した属性のものを集めてグループを分析する手法です。このとき大切なのは、前もって分類の基準を決定せず、分類してみて、なぜそのようなグループが作られたかという理由を考える点です。

例えば、酒屋で考えてみましょう。・新潟県での売り上げは日本酒が伸びており、・山梨県ではワインが伸びていました。・男性はビール、女性は梅酒の購入がそれぞれ伸びていました。これらは、あらかじめ地域性や性別という分類の軸がある中での分類になるため、「クラスター」とは呼びません。

しかし、・日本酒がすごく売れている・ワインがすごく売れているこれらを購入している人はどういう人なのかを分類すると・それぞれ新潟の人が多かった・山梨の人が多かったという結果がわかりました。

これは、購入データを分類してみた結果、現れたグループごとの特徴となりますので、 「クラスター」となりえます。

また、やたらとビールばかりが売れる日と、ビールがまったく売れない日がありこれらを売れる日、売れない日で分けて、購買の理由を分析した結果・外気温が30度を超える日は売れる・それ以下であれば売れないということがわかりました。これも「30度を超えた日」というクラスターと「30度以下」というクラスターに分類することができます。

ネットショップ改善提案を聞ける

無料相談

クラスター分析の手法

クラスター分析には「階層クラスター分析」と「非階層クラスター分析」の2種類があります。

階層クラスター分析とは

階層クラスター分析は、最も似ている組み合わせからまとめていく手法になります。属性が近いものから順番にグループを作る方法をとり、事前にいくつのグループが作られるかは決める必要がないことが特徴です。最も似ている組み合わせから順番にグループを作り、グルーピングの途中過程を、下記の樹形図のように表すことができます。

ただ、分類するのではなく、分類の過程でできるグループを確認し、後から分類数を決定できるため、自由度の高い分析を行うことができます。例えば、上記の樹形図でいえば、クラスターA、B、Cと3つのグループに分類をすることが可能です。しかし①と②のグループ、③だけのグループ、④と⑤のグループ、⑥と⑦のグループ、⑧だけのグループ、⑨と⑩のグループという少し小さい分類クラスターA、B、Cを細分化し⑥と⑦と⑧のグループ、⑨と⑩のグループという分類 ①から⑩まですべて独立させたグループとして分類するなど、自由な分け方が可能となります。

この階層型クラスターの短所は、分類対象が多い場合、樹形図が複雑化し、かえってわかりにくくなってしまう点です。そのため、分類対象が多い場合は「非階層クラスター分析」を行うのが一般的です。

非階層クラスター分析とは

非階層クラスター分析とは、階層クラスター分析とは違い、事前に何個のグループに分けるかを決める手法の事です。あらかじめ、分類するグループに分けるかを決め、サンプルを分割する方法である。分類するためのデータが大きいものを分析するときに利用されます。ただし、あらかじめいくつのグループに分けるかは、分析者が決める必要があり、最適クラスター数を自動的には計算する方法は確立されていません。いくつか手法はありますが、最も代表的な物に「K-means法」があります。 K-means法の名称は「クラスターの『平均（means）』を用い、事前に決めていたクラスター数『k』個に分類する」ことに由来しています。

この分析の手順は次のようになります。 1:全てのデータから分類するグループの数を決め、グループの基準となるデータを決定数する。（ここでは5個） 2:全てのデータと基準となるデータとの距離を測る。 3:各データを最も近い基準と同じグループに分割する。 4:グループの重心点を決め、それを新たな基準データとする。 5:重心点の位置が変化したら、2に戻り、再度すべての（重心が変化しなくなるまで繰り返す） 6:重心が変化したので、再度全てのデータ個の数と基データの距離を測る。 7:各サンプルを最も近いデータと同じグループに分割する 8:重心が変化しなくなったので終了する。

もう少し具体的にみてみましょう。まず、何個のグループに分類していくかを決めます。このとき決定したグループの数は以下K個とします。