数据挖掘
课程大纲:数据挖掘 - 数据科学中的形式科学与计算机科学
第1周:课程介绍与基础知识
学习目标:
- 理解数据挖掘的基本概念
- 掌握Python编程基础
- 熟悉SQL查询语言
讲座内容:
- 数据挖掘简介
- Python编程环境设置(Jupyter Notebook)
- SQL基础教程
资源:
作业:安装Python并编写简单的Python程序,完成SQL查询练习
第2周:数据预处理与清洗
学习目标:
- 数据清洗技术
- 缺失值处理
- 异常值检测
讲座与讨论:
- 数据预处理的重要性
- Pandas库的数据清洗实践
实践活动:
- 使用Pandas进行数据清洗和探索性数据分析
资源:
作业:清理和分析实际数据集
第3周:特征选择与降维
学习目标:
- 特征选择方法
- 主成分分析(PCA)
- 线性判别分析(LDA)
讲座与讨论:
- 特征选择策略
- PCA与LDA原理及应用
实践活动:
- 通过代码实现PCA和LDA
资源:
作业:使用特征选择方法优化数据集
第4周:监督学习基础
学习目标:
- 回归与分类算法
- 决策树和随机森林
- KNN和SVM
讲座与实践活动:
- 算法原理讲解
- 示例代码实现(Scikit-learn)
小测验:监督学习基础概念测试
作业:使用所学算法解决实际问题
第5周:无监督学习与聚类
学习目标:
- 聚类算法(K-Means, DBSCAN)
- 关联规则学习
- 深度学习基础
讲座与讨论:
- 无监督学习案例研究
- 深度学习简介
实践活动:
- K-Means和DBSCAN在真实数据上的应用
项目:设计一个小型聚类项目
第6周:评估与模型优化
学习目标:
- 性能指标(准确率、召回率)
- 模型调优
- 模型部署与监控
讲座与讨论:
- 评估指标解析
- 交叉验证与网格搜索
作业:优化选定模型并撰写报告
期末复习与项目展示
学习目标:
- 回顾所有重要概念
- 分享个人项目成果
活动:
- 期末考试
- 项目演示与分享
通过这个课程,学生将深入理解数据挖掘的基本流程和常用技术,以及如何在实践中应用它们。同时,他们将提升批判性思维和团队合作能力。