形式科学:统计学 - 多变量统计 - 聚类分析 - 层次聚类课程大纲

第1周:课程介绍与预备知识

  • 主题: 课程概述与统计学基础
  • 学习目标:
    • 熟悉统计学的基本概念和术语
    • 了解多变量统计的重要性
  • 阅读/资源:

第2周:多元数据与变量类型

  • 主题: 多元数据集与变量类型
  • 学习目标:
    • 理解不同类型的变量(定量、定性)
    • 学习如何处理和编码多元数据
  • 活动:
    • 数据预处理练习
    • 利用Python或R进行数据探索

第3周:距离度量与相似性计算

  • 主题: 距离度量和相似性矩阵
  • 学习目标:
    • 掌握常用的距离度量方法
    • 计算并理解相似性矩阵
  • 阅读/资源:

第4周:层次聚类基础

  • 主题: 单链接、全连接与平均链接
  • 学习目标:
    • 了解层次聚类的基本原理
    • 实践使用不同链接方法
  • 活动:
    • 使用Python/R实现层次聚类算法

第5周:动态树构建与 dendrogram

  • 主题: Dendrogram的解读与构建
  • 学习目标:
    • 理解Dendrogram的结构与解读
    • 实现从数据到Dendrogram的过程
  • 资源:

第6周:层次聚类应用

  • 主题: 应用案例与优化选择
  • 学习目标:
    • 分析实际数据集进行层次聚类
    • 选择合适的聚类数目
  • 活动:
    • 综合项目:分析行业分类或用户行为数据

第7周:评估与比较聚类结果

  • 主题: 聚类效果评估
  • 学习目标:
    • 评价聚类质量的方法(轮廓系数、Calinski-Harabasz指数等)
    • 比较不同聚类方法
  • 活动:
    • 小组讨论:评估聚类结果的优劣

第8周:课程总结与未来展望

  • 主题: 总结与展望
  • 学习目标:
    • 回顾本课程核心概念
    • 讨论聚类分析在实际问题中的应用
  • 评估:
    • 期末项目报告
    • 最终小测验

通过这个课程,学生将深入理解层次聚类方法,并能够独立进行数据分析和解释。每个主题都配有实践环节,以确保理论知识与技能的紧密结合。