G検定対策:クラスタリング手法のうたで覚えるk-means・ウォード法・デンドログラム

オレンジ背景に「クラスタリング手法のうた」と濃紺文字で表示。左はk-meansの3色クラスタと重心マーク、右は階層クラスタのデンドログラム図を描いた概念イラスト。 AI
この記事は約3分で読めます。

はじめに

G検定の試験では、クラスタリング手法の定義や違いを正確に理解しておくことが重要です。
特に、k-means、ウォード法、デンドログラムの3つは混同しやすく、出題される可能性も高い分野です。
そこで今回は、AIを活用した教育音楽を通して、これらの用語をリズムに乗せて覚える楽曲「クラスタリング手法のうた」を制作しました。


AIを活用した楽曲制作

本楽曲は、歌詞の作成に生成AIであるChatGPTを、音楽の作曲にはAI作曲ツールであるSuno AIを使用しています。
明るくテンポの良い曲調になっています。
学習内容が頭に入りやすいよう、繰り返しとリズムを工夫しました。


タイトル・歌詞の紹介

曲タイトル

クラスタリング手法のうた

歌詞

k-meansは観測点を k個のクラスタに分割
k-meansのkは 事前指定が必要
k-meansは最も近い 重心に割り当て 
重心を再計算 更新・変更がなくなるまで反復
初期値で結果が変わることもある
ウォード法は階層的 クラスタリングの手法
全観測点を個別にして開始 結合ごとにクラスタ内分散増加を最小化
k指定不要で 後から切り取りクラスタ数決定
デンドログラムは階層的 結果を樹形図で可視化
葉は観測点 枝はクラスタの結合
縦軸の高さは 結合時の距離を表す
横切断で任意のクラスタ数設定
k-meansは非階層的 ウォード法は階層的
デンドログラムは階層法の可視化ツール

楽曲の視聴

  • YouTube

歌詞の解説

k-means

  • 観測点(データ点)をあらかじめ指定したk個のクラスタに分割します。
  • 各観測点を最も近い重心(各クラスタの平均ベクトル)に割り当て、その後重心を再計算します。
  • 更新と割り当ての変更がなくなるまで反復処理を行います。
  • 初期値の設定によって結果が変わる場合があります。
  • 目的はクラスタ内平方和(WCSS)の最小化です。
\(\text{WCSS} = \sum_{j=1}^{k}\sum_{x\in C_j}\lVert x-\mu_j\rVert^2\)


ウォード法

  • 階層的クラスタリングの一種です。
  • 全ての観測点を個別クラスタから開始します。
  • クラスタを結合する際、クラスタ内平方和の増加量が最も小さくなるペアを選びます。
  • kの指定は不要で、後からデンドログラムを切ってクラスタ数を決定できます。

クラスタ内分散は次のように計算されます。

\(\text{クラスタ }C\text{ の内分散}=\sum_{x\in C}\lVert x-\bar{x}_C\rVert^2\)


デンドログラム

  • 階層的クラスタリングの結果を樹形図で可視化します。
  • 葉は観測点、枝はクラスタの結合を示します。
  • 一般の連結法では縦軸は結合時の距離(不一致度)を表します。
  • Ward法では縦軸はクラスタ内平方和の増加量に対応します。
  • 横方向に切断することで任意のクラスタ数を設定できます。
  • 切る高さが高いほどクラスタ数は少なく、低いほど多くなります。

楽曲に込めたメッセージ

この曲は、試験に出やすいクラスタリング手法の要点を、正確かつ短くまとめています。
リズムに乗せて繰り返し聴くことで、用語の混同や計算手順の忘れを防ぎます。


まとめ

  • k-meansは非階層的でkを事前指定し、重心を使ってクラスタ分割を行います。
  • ウォード法は階層的でクラスタ内平方和の増加を最小化します。
  • デンドログラムは階層的手法の可視化ツールであり、縦軸の意味は手法によって異なります。
    音楽を活用することで、記憶への定着度を高め、試験で正確に答えられるようになります。

コメント

タイトルとURLをコピーしました