《大数据技术与应用》课程大纲
课程概述
课程名称: 大数据技术与应用 课程代码: [CS401 / DS601] 适用对象: 计算机科学、数据科学、软件工程、信息技术等相关专业本科生或研究生 学分数/学时: [3学分,48学时,其中理论32学时,实验16学时] 先修课程: 计算机科学导论、数据结构与算法、计算机网络、数据库原理、操作系统
课程简介: 本课程旨在系统介绍大数据的核心概念、关键技术、主流生态系统及其在各行各业的应用,通过理论学习与编程实践相结合的方式,学生将掌握大数据从数据采集、存储、处理、分析到可视化的完整技术栈,并能够运用Hadoop、Spark等主流框架解决实际的大数据问题,课程强调理论与实践的结合,培养学生的工程实践能力和数据思维。

课程目标:
-
知识目标:
- 理解大数据的定义、特征(4V/5V)及其带来的挑战与机遇。
- 掌握大数据处理的核心架构和分布式计算的基本原理。
- 熟悉Hadoop生态系统(HDFS, MapReduce, YARN, Hive, HBase等)的核心组件及其工作原理。
- 掌握Spark框架的核心概念(RDD, DataFrame, Spark SQL, MLlib)及其优势。
- 了解数据仓库、数据湖、流处理、NoSQL数据库等关键技术。
- 了解大数据在金融、电商、医疗、交通等领域的典型应用场景。
-
能力目标:
- 能够搭建Hadoop和Spark分布式环境。
- 能够使用Hadoop进行离线数据处理与分析。
- 能够使用Spark进行高效的数据处理、SQL查询和机器学习。
- 能够使用Hive进行数据仓库的构建和查询。
- 能够使用HBase进行海量数据的实时读写。
- 能够使用Python/Java等编程语言与大数据框架进行交互。
- 能够设计和实现一个简单的端到端大数据应用。
-
素养目标:

- 培养学生的分布式系统思维和解决复杂工程问题的能力。
- 树立数据驱动决策的理念,提升数据素养。
- 培养团队协作能力和项目管理能力。
课程内容与学时分配
| 模块 | 章节 | 理论学时 | 实验学时 | |
|---|---|---|---|---|
| 第一部分:基础与概念 | 第1章:大数据导论 | 1 什么是大数据(4V/5V特征) 2 大数据的发展历程与重要性 3 大数据的应用领域与案例 4 大数据技术栈概述 |
2 | 0 |
| 第二部分:核心存储与计算框架 | 第2章:Hadoop生态系统入门 | 1 Hadoop的起源与设计哲学 2 分布式文件系统 3 HDFS架构、读写流程与Shell操作 4 分布式资源管理器 |
4 | 2 |
| 第3章:MapReduce编程模型 | 1 MapReduce核心思想 2 MapReduce工作流程 3 WordCount案例详解(Java/Python) 4 MapReduce的优缺点与局限性 |
4 | 2 | |
| 第4章:Spark核心原理 | 1 Spark简介与优势 2 Spark架构与运行模式 3 RDD弹性分布式数据集 4 RDD的转换与行动 5 DataFrame与Spark SQL |
4 | 2 | |
| 第三部分:数据仓库与处理工具 | 第5章:Hive数据仓库 | 1 Hive的架构与原理 2 Hive数据类型与表管理 3 HiveQL (HQL) 语法与查询优化 4 Hive与Spark的集成 |
4 | 2 |
| 第6章:NoSQL数据库 | 1 NoSQL数据库概述(CAP理论) 2 列式数据库:HBase - HBase数据模型、架构与应用场景 - HBase Shell与Java API操作 3 文档数据库:MongoDB简介 |
4 | 2 | |
| 第7章:流处理技术 | 1 流处理与批处理的区别 2 消息队列:Kafka - Kafka核心概念(Producer, Consumer, Broker, Topic) - Kafka架构与应用 3 流处理框架:Spark Streaming / Flink简介 |
4 | 2 | |
| 第四部分:数据分析与机器学习 | 第8章:Spark机器学习库 | 1 MLlib概述 2 机器学习流水线 3 分类、回归、聚类等常用算法 4 使用MLlib进行模型训练与评估 |
4 | 2 |
| 第五部分:综合应用与前沿 | 第9章:大数据平台架构 | 1 数据仓库 vs. 数据湖 vs. 数据湖仓一体 2 大数据平台架构设计(Lambda, Kappa架构) 3 云原生大数据技术栈(AWS EMR, Azure HDInsight, Google Dataproc) |
2 | 0 |
| 第10章:大数据项目实战 | 1 项目需求分析与设计 2 数据采集与预处理 3 数据存储与处理 4 数据分析与可视化 5 项目展示与总结 |
0 | 2 | |
| 第六部分:课程总结 | 第11章:大数据前沿与趋势 | 1 AI与大数据的融合 2 边缘计算与大数据 3 数据治理、隐私与安全 4 课程总结与复习 |
2 | 0 |
| 总计 | 34 | 16 |
教学方法与手段
- 课堂讲授: 系统讲解核心概念、原理和技术细节,配合PPT、图表和代码演示。
- 实验实践: 每个核心技术模块都配有对应的实验课,学生将在Linux环境下动手搭建环境、编写代码、调试程序,加深对理论的理解。
- 案例分析: 引入业界真实的大数据应用案例(如淘宝推荐系统、Uber路径规划、Netflix内容推荐等),分析其背后的技术架构和实现思路。
- 项目驱动: 课程后半段设置一个综合性的课程项目,要求学生以小组形式完成一个完整的大数据应用,培养综合解决问题的能力。
- 线上资源: 推荐相关的MOOC课程、技术博客、官方文档等,鼓励学生自主学习和探索。
考核方式与标准
| 考核环节 | 占比 | 与方式 |
|---|---|---|
| 平时成绩 | 30% | - 出勤与课堂互动 (10%) - 实验作业 (20%): 每次实验课提交实验报告和代码,考察动手能力和对技术的掌握程度。 |
| 期中考试 | 20% | - 闭卷或开卷笔试: 考察前半学期核心概念(Hadoop, MapReduce, HDFS等)的理解和记忆。 |
| 课程项目 | 30% | - 团队项目 (20%): 项目选题、设计、实现、文档和最终成果。 - 项目答辩 (10%): 现场演示、讲解和回答问题,考察团队协作、表达能力和对项目的理解深度。 |
| 期末考试 | 20% | - 闭卷笔试: 全面考察整个课程的知识点,重点在于Spark、Hive、流处理等后端技术和综合应用能力。 |
| 总计 | 100% |
教材与参考资料
推荐教材:
- 《大数据技术原理与应用》(第3版),林子雨,人民邮电出版社。(国内经典教材,内容全面,适合初学者)
- Hadoop: The Definitive Guide (4th Edition), Tom White. O'Reilly Media. (Hadoop领域的“圣经”,权威且详尽)
- Learning Spark (2nd Edition), Holden Karau, Andy Konwinski, etc. O'Reilly Media. (Spark官方推荐的入门书籍,实践性强)
参考资料:
- 官方文档: Apache Hadoop, Apache Spark, Apache Hive, Apache HBase, Kafka等项目的官方文档。
- 在线课程: Coursera上的 "Big Data Specialization" (UC San Diego), edX上的 "Data Science Essentials"。
- 技术博客与社区: Databricks博客、Cloudera博客、InfoQ、掘金、CSDN等。
- 学术论文: Google发表的GFS、MapReduce、BigTable等经典论文。

版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。