大数据技术与应用课程学什么？

99ANYc3cd6 课程介绍 2026-03-08 1

《大数据技术与应用》课程大纲

课程概述

课程名称： 大数据技术与应用 课程代码： [CS401 / DS601] 适用对象： 计算机科学、数据科学、软件工程、信息技术等相关专业本科生或研究生 学分数/学时： [3学分，48学时，其中理论32学时，实验16学时] 先修课程： 计算机科学导论、数据结构与算法、计算机网络、数据库原理、操作系统

课程简介： 本课程旨在系统介绍大数据的核心概念、关键技术、主流生态系统及其在各行各业的应用，通过理论学习与编程实践相结合的方式，学生将掌握大数据从数据采集、存储、处理、分析到可视化的完整技术栈，并能够运用Hadoop、Spark等主流框架解决实际的大数据问题，课程强调理论与实践的结合，培养学生的工程实践能力和数据思维。

课程目标：

知识目标：
- 理解大数据的定义、特征（4V/5V）及其带来的挑战与机遇。
- 掌握大数据处理的核心架构和分布式计算的基本原理。
- 熟悉Hadoop生态系统（HDFS, MapReduce, YARN, Hive, HBase等）的核心组件及其工作原理。
- 掌握Spark框架的核心概念（RDD, DataFrame, Spark SQL, MLlib）及其优势。
- 了解数据仓库、数据湖、流处理、NoSQL数据库等关键技术。
- 了解大数据在金融、电商、医疗、交通等领域的典型应用场景。
能力目标：
- 能够搭建Hadoop和Spark分布式环境。
- 能够使用Hadoop进行离线数据处理与分析。
- 能够使用Spark进行高效的数据处理、SQL查询和机器学习。
- 能够使用Hive进行数据仓库的构建和查询。
- 能够使用HBase进行海量数据的实时读写。
- 能够使用Python/Java等编程语言与大数据框架进行交互。
- 能够设计和实现一个简单的端到端大数据应用。
素养目标：
- 培养学生的分布式系统思维和解决复杂工程问题的能力。
- 树立数据驱动决策的理念,提升数据素养。
- 培养团队协作能力和项目管理能力。

课程内容与学时分配

模块	章节		理论学时	实验学时
第一部分：基础与概念	第1章：大数据导论	1 什么是大数据（4V/5V特征） 2 大数据的发展历程与重要性 3 大数据的应用领域与案例 4 大数据技术栈概述	2	0
第二部分：核心存储与计算框架	第2章：Hadoop生态系统入门	1 Hadoop的起源与设计哲学 2 分布式文件系统 3 HDFS架构、读写流程与Shell操作 4 分布式资源管理器	4	2
	第3章：MapReduce编程模型	1 MapReduce核心思想 2 MapReduce工作流程 3 WordCount案例详解（Java/Python） 4 MapReduce的优缺点与局限性	4	2
	第4章：Spark核心原理	1 Spark简介与优势 2 Spark架构与运行模式 3 RDD弹性分布式数据集 4 RDD的转换与行动 5 DataFrame与Spark SQL	4	2
第三部分：数据仓库与处理工具	第5章：Hive数据仓库	1 Hive的架构与原理 2 Hive数据类型与表管理 3 HiveQL (HQL) 语法与查询优化 4 Hive与Spark的集成	4	2
	第6章：NoSQL数据库	1 NoSQL数据库概述（CAP理论） 2 列式数据库：HBase - HBase数据模型、架构与应用场景 - HBase Shell与Java API操作 3 文档数据库：MongoDB简介	4	2
	第7章：流处理技术	1 流处理与批处理的区别 2 消息队列：Kafka - Kafka核心概念（Producer, Consumer, Broker, Topic） - Kafka架构与应用 3 流处理框架：Spark Streaming / Flink简介	4	2
第四部分：数据分析与机器学习	第8章：Spark机器学习库	1 MLlib概述 2 机器学习流水线 3 分类、回归、聚类等常用算法 4 使用MLlib进行模型训练与评估	4	2
第五部分：综合应用与前沿	第9章：大数据平台架构	1 数据仓库 vs. 数据湖 vs. 数据湖仓一体 2 大数据平台架构设计（Lambda, Kappa架构） 3 云原生大数据技术栈（AWS EMR, Azure HDInsight, Google Dataproc）	2	0
	第10章：大数据项目实战	1 项目需求分析与设计 2 数据采集与预处理 3 数据存储与处理 4 数据分析与可视化 5 项目展示与总结	0	2
第六部分：课程总结	第11章：大数据前沿与趋势	1 AI与大数据的融合 2 边缘计算与大数据 3 数据治理、隐私与安全 4 课程总结与复习	2	0
总计			34	16

教学方法与手段

课堂讲授： 系统讲解核心概念、原理和技术细节，配合PPT、图表和代码演示。
实验实践： 每个核心技术模块都配有对应的实验课，学生将在Linux环境下动手搭建环境、编写代码、调试程序，加深对理论的理解。
案例分析： 引入业界真实的大数据应用案例（如淘宝推荐系统、Uber路径规划、Netflix内容推荐等），分析其背后的技术架构和实现思路。
项目驱动： 课程后半段设置一个综合性的课程项目，要求学生以小组形式完成一个完整的大数据应用，培养综合解决问题的能力。
线上资源： 推荐相关的MOOC课程、技术博客、官方文档等，鼓励学生自主学习和探索。

考核方式与标准

考核环节	占比	与方式
平时成绩	30%	- 出勤与课堂互动 (10%) - 实验作业 (20%): 每次实验课提交实验报告和代码，考察动手能力和对技术的掌握程度。
期中考试	20%	- 闭卷或开卷笔试: 考察前半学期核心概念（Hadoop, MapReduce, HDFS等）的理解和记忆。
课程项目	30%	- 团队项目 (20%): 项目选题、设计、实现、文档和最终成果。 - 项目答辩 (10%): 现场演示、讲解和回答问题，考察团队协作、表达能力和对项目的理解深度。
期末考试	20%	- 闭卷笔试: 全面考察整个课程的知识点，重点在于Spark、Hive、流处理等后端技术和综合应用能力。
总计	100%

教材与参考资料

推荐教材：

《大数据技术原理与应用》（第3版），林子雨，人民邮电出版社。（国内经典教材，内容全面，适合初学者）
Hadoop: The Definitive Guide (4th Edition), Tom White. O'Reilly Media. （Hadoop领域的“圣经”，权威且详尽）
Learning Spark (2nd Edition), Holden Karau, Andy Konwinski, etc. O'Reilly Media. （Spark官方推荐的入门书籍，实践性强）

参考资料：

官方文档： Apache Hadoop, Apache Spark, Apache Hive, Apache HBase, Kafka等项目的官方文档。
在线课程： Coursera上的 "Big Data Specialization" (UC San Diego), edX上的 "Data Science Essentials"。
技术博客与社区： Databricks博客、Cloudera博客、InfoQ、掘金、CSDN等。
学术论文： Google发表的GFS、MapReduce、BigTable等经典论文。

标签：分析挖掘应用实践

本文地址： https://www.nbznz.com/detail/11977.html