当前位置: 首页 > news >正文

实用指南:【机器学习基础】机器学习入门核心算法:层次聚类算法(AGNES算法和 DIANA算法)

实用指南:【机器学习基础】机器学习入门核心算法:层次聚类算法(AGNES算法和 DIANA算法)

在这里插入图片描述

一、算法逻辑

层次聚类(Hierarchical Clustering)通过构建树状结构(树状图/Dendrogram)揭示数据内在的层次关系,分为两类:

  1. 凝聚式(Agglomerative)
    • 自底向上:每个样本初始为一个簇 → 迭代合并最近簇 → 最终形成单一簇
    • 流程
      计算距离矩阵 → 合并最近簇 → 更新距离矩阵 → 重复至终止
  2. 分裂式(Divisive)
    • 自顶向下:所有样本初始为一个簇 → 迭代分裂最异质簇 → 直至每个样本一簇
    • 计算复杂度高,较少使用

核心特点

在这里插入图片描述

二、算法原理与数学推导
1. 距离度量

设样本 X = { x 1 , x 2 , . . . , x n } X = \{x_1, x_2, ..., x_n\} X={x1,x2,...,xn}, x i ∈ R d x_i \in \mathbb{R}^d xiRd
常用距离:

2. 簇间距离计算(连接标准)
类型公式特点
单连接 d min ( C i , C j ) = min ⁡ a ∈ C i , b ∈ C j d ( a , b ) d_{\text{min}}(C_i, C_j) = \min_{a \in C_i, b \in C_j} d(a,b) dmin(Ci,Cj)=aCi,bCjmind(a,b)易形成链式结构
全连接 d max ( C i , C j ) = max ⁡ a ∈ C i , b ∈ C j d ( a , b ) d_{\text{max}}(C_i, C_j) = \max_{a \in C_i, b \in C_j} d(a,b) dmax(Ci,Cj)=aCi,bCjmaxd(a,b)对噪声敏感
质心法 d cent ( C i , C j ) = d ( μ i , μ j ) d_{\text{cent}}(C_i, C_j) = d(\mu_i, \mu_j) dcent(Ci,Cj)=d(μi,μj)可能导致逆反(Inversion)

其中 μ i = 1 ∣ C i ∣ ∑ x ∈ C i x \mu_i = \frac{1}{|C_i|}\sum_{x \in C_i} x μi=Ci1xCix 为簇质心, Δ SSE \Delta \text{SSE} ΔSSE 为合并后的簇内平方和增量。

3. 算法伪代码(凝聚式)
输入: 数据集 X, 连接标准
输出: 树状图
1. 初始化 n 个簇,每个簇包含一个样本
2. 计算所有簇对的距离矩阵 D
3.
for k = n to 1:
4. 找到 D 中最小距离的簇对 (C_i, C_j)
5. 合并 C_i 和 C_j 为新簇 C_{
new
}
6. 更新距离矩阵 D(移除 C_i, C_j,添加 C_{
new
}7. 记录合并高度(距离)
8. 生成树状图
三、模型评估
1. 内部评估指标
2. 外部评估指标(已知真实标签)
  • 调整兰德指数(Adjusted Rand Index, ARI)
  • Fowlkes-Mallows Index(FMI)
3. 超参数选择
四、应用案例
1. 生物信息学
2. 文档主题分层
  • 步骤
    1. 文档→TF-IDF向量
    2. 余弦距离 + 平均连接
    3. 切割树状图得到主题层级(如:科技→AI→CV/NLP)
3. 图像分割
  • 流程
    像素→颜色+坐标特征 → Ward法聚类 → 合并相似区域
  • 优势:保留空间连续性
4. 社交网络分析
五、面试题及答案
常见问题
  1. Q: 层次聚类与K-means的本质区别?
    A:

  2. Q: Ward法的目标函数是什么?
    A: 最小化合并后的簇内平方和增量:
    Δ SSE = ∣ C i ∣ ∣ C j ∣ ∣ C i ∣ + ∣ C j ∣ ∥ μ i − μ j ∥ 2 \Delta \text{SSE} = \frac{|C_i||C_j|}{|C_i|+|C_j|} \|\mu_i - \mu_j\|^2 ΔSSE=Ci+CjCi∣∣Cjμiμj2

  3. Q: 何时选择全连接而非单连接?
    A: 当需要紧凑球形簇且数据噪声较少时;单连接易受噪声影响形成链式结构。

  4. Q: 如何处理大规模数据?
    A:

六、相关论文
  1. 奠基性论文

  2. 高效优化

  3. 生物学应用

七、优缺点对比
优点缺点
1. 可视化强(树状图展示层次)1. 计算复杂度高(凝聚式 O ( n 3 ) O(n^3) O(n3)
2. 无需预设聚类数2. 合并/分裂后不可逆
3. 灵活选择距离/连接标准3. 对噪声和离群点敏感(尤其全连接)
4. 适合层次结构数据(如生物分类学)4. 大样本内存消耗大

总结

http://www.sczhlp.com/news/170261/

相关文章:

  • 北京市建设工程审核在哪个网站wordpress整站下载
  • 万维网中文网站到期长安网站建设工作总结
  • 怎么做中英文的网站自定义wordpress的字体大小
  • 教育局两学一做网站免费人才招聘网站
  • 网站开发的技术流程飘雪影视在线观看免费观看西瓜
  • 厚瑜网站建设服装电子商务网站版式设计
  • ui设计师怎么做自己的网站网站开发用什么系统比较好
  • 新网网站制作wordpress调用会员等级
  • 太原企业建站模板太原哪里做网站
  • 做网站合同模板网站推广计划书范文
  • 专注昆明网站建设网站开发实用技术 代码
  • 商城网站的功能石家庄装修设计公司
  • 网站建设和app哪个好廊坊网站关键字优化
  • 哈尔滨松北区建设局网站软件开发和研发的区别
  • 什么软件 做短视频网站好湖南省网站建设项目
  • 广东制作公司网站在国外网站付款要怎么做
  • 最好的dm单网站建设二级域名搜索
  • 电子商务网站模板html湖南铁军工程建设有限公司官方网站
  • 天猫的网站导航怎么做的绿色建筑网站
  • 网站系统说明大连个人网站建设
  • ps网站交互设计产品备案号查询官网
  • 官方网站如何建设wordpress 动静
  • wordpress phpmyadmin插件seo怎么判断网站的好坏
  • 建电商网站前端如何根据ui设计写页面
  • 呼和浩特市做网站公司好的wordpress自己写插件
  • 手机可播放的网站12306网站架构
  • 免费咨询法律电话网站如何做seo
  • 陇南地网站seo网站的页面风格有哪些
  • 湛江市微信网站建设企业wordpress中文转拼音
  • 外贸cms 网站办一家建筑公司流程