课程大纲:数据挖掘 - 数据科学中的形式科学与计算机科学

第1周:课程介绍与基础知识

学习目标:

  1. 理解数据挖掘的基本概念
  2. 掌握Python编程基础
  3. 熟悉SQL查询语言

讲座内容:

  • 数据挖掘简介
  • Python编程环境设置(Jupyter Notebook)
  • SQL基础教程

资源:

作业:安装Python并编写简单的Python程序,完成SQL查询练习

第2周:数据预处理与清洗

学习目标:

  1. 数据清洗技术
  2. 缺失值处理
  3. 异常值检测

讲座与讨论:

  • 数据预处理的重要性
  • Pandas库的数据清洗实践

实践活动:

  • 使用Pandas进行数据清洗和探索性数据分析

资源:

作业:清理和分析实际数据集

第3周:特征选择与降维

学习目标:

  1. 特征选择方法
  2. 主成分分析(PCA)
  3. 线性判别分析(LDA)

讲座与讨论:

  • 特征选择策略
  • PCA与LDA原理及应用

实践活动:

  • 通过代码实现PCA和LDA

资源:

作业:使用特征选择方法优化数据集

第4周:监督学习基础

学习目标:

  1. 回归与分类算法
  2. 决策树和随机森林
  3. KNN和SVM

讲座与实践活动:

  • 算法原理讲解
  • 示例代码实现(Scikit-learn)

小测验:监督学习基础概念测试

作业:使用所学算法解决实际问题

第5周:无监督学习与聚类

学习目标:

  1. 聚类算法(K-Means, DBSCAN)
  2. 关联规则学习
  3. 深度学习基础

讲座与讨论:

  • 无监督学习案例研究
  • 深度学习简介

实践活动:

  • K-Means和DBSCAN在真实数据上的应用

项目:设计一个小型聚类项目

第6周:评估与模型优化

学习目标:

  1. 性能指标(准确率、召回率)
  2. 模型调优
  3. 模型部署与监控

讲座与讨论:

  • 评估指标解析
  • 交叉验证与网格搜索

作业:优化选定模型并撰写报告

期末复习与项目展示

学习目标:

  1. 回顾所有重要概念
  2. 分享个人项目成果

活动:

  • 期末考试
  • 项目演示与分享

通过这个课程,学生将深入理解数据挖掘的基本流程和常用技术,以及如何在实践中应用它们。同时,他们将提升批判性思维和团队合作能力。