大数据技术与应用课程学什么?

99ANYc3cd6 课程介绍 1

《大数据技术与应用》课程大纲

课程概述

课程名称: 大数据技术与应用 课程代码: [CS401 / DS601] 适用对象: 计算机科学、数据科学、软件工程、信息技术等相关专业本科生或研究生 学分数/学时: [3学分,48学时,其中理论32学时,实验16学时] 先修课程: 计算机科学导论、数据结构与算法、计算机网络、数据库原理、操作系统

课程简介: 本课程旨在系统介绍大数据的核心概念、关键技术、主流生态系统及其在各行各业的应用,通过理论学习与编程实践相结合的方式,学生将掌握大数据从数据采集、存储、处理、分析到可视化的完整技术栈,并能够运用Hadoop、Spark等主流框架解决实际的大数据问题,课程强调理论与实践的结合,培养学生的工程实践能力和数据思维。

大数据技术与应用课程学什么?-第1张图片-指南针培训网

课程目标:

  1. 知识目标:

    • 理解大数据的定义、特征(4V/5V)及其带来的挑战与机遇。
    • 掌握大数据处理的核心架构和分布式计算的基本原理。
    • 熟悉Hadoop生态系统(HDFS, MapReduce, YARN, Hive, HBase等)的核心组件及其工作原理。
    • 掌握Spark框架的核心概念(RDD, DataFrame, Spark SQL, MLlib)及其优势。
    • 了解数据仓库、数据湖、流处理、NoSQL数据库等关键技术。
    • 了解大数据在金融、电商、医疗、交通等领域的典型应用场景。
  2. 能力目标:

    • 能够搭建Hadoop和Spark分布式环境。
    • 能够使用Hadoop进行离线数据处理与分析。
    • 能够使用Spark进行高效的数据处理、SQL查询和机器学习。
    • 能够使用Hive进行数据仓库的构建和查询。
    • 能够使用HBase进行海量数据的实时读写。
    • 能够使用Python/Java等编程语言与大数据框架进行交互。
    • 能够设计和实现一个简单的端到端大数据应用。
  3. 素养目标:

    大数据技术与应用课程学什么?-第2张图片-指南针培训网
    • 培养学生的分布式系统思维和解决复杂工程问题的能力。
    • 树立数据驱动决策的理念,提升数据素养。
    • 培养团队协作能力和项目管理能力。

课程内容与学时分配

模块 章节 理论学时 实验学时
第一部分:基础与概念 第1章:大数据导论 1 什么是大数据(4V/5V特征)
2 大数据的发展历程与重要性
3 大数据的应用领域与案例
4 大数据技术栈概述
2 0
第二部分:核心存储与计算框架 第2章:Hadoop生态系统入门 1 Hadoop的起源与设计哲学
2 分布式文件系统
3 HDFS架构、读写流程与Shell操作
4 分布式资源管理器
4 2
第3章:MapReduce编程模型 1 MapReduce核心思想
2 MapReduce工作流程
3 WordCount案例详解(Java/Python)
4 MapReduce的优缺点与局限性
4 2
第4章:Spark核心原理 1 Spark简介与优势
2 Spark架构与运行模式
3 RDD弹性分布式数据集
4 RDD的转换与行动
5 DataFrame与Spark SQL
4 2
第三部分:数据仓库与处理工具 第5章:Hive数据仓库 1 Hive的架构与原理
2 Hive数据类型与表管理
3 HiveQL (HQL) 语法与查询优化
4 Hive与Spark的集成
4 2
第6章:NoSQL数据库 1 NoSQL数据库概述(CAP理论)
2 列式数据库:HBase
- HBase数据模型、架构与应用场景
- HBase Shell与Java API操作
3 文档数据库:MongoDB简介
4 2
第7章:流处理技术 1 流处理与批处理的区别
2 消息队列:Kafka
- Kafka核心概念(Producer, Consumer, Broker, Topic)
- Kafka架构与应用
3 流处理框架:Spark Streaming / Flink简介
4 2
第四部分:数据分析与机器学习 第8章:Spark机器学习库 1 MLlib概述
2 机器学习流水线
3 分类、回归、聚类等常用算法
4 使用MLlib进行模型训练与评估
4 2
第五部分:综合应用与前沿 第9章:大数据平台架构 1 数据仓库 vs. 数据湖 vs. 数据湖仓一体
2 大数据平台架构设计(Lambda, Kappa架构)
3 云原生大数据技术栈(AWS EMR, Azure HDInsight, Google Dataproc)
2 0
第10章:大数据项目实战 1 项目需求分析与设计
2 数据采集与预处理
3 数据存储与处理
4 数据分析与可视化
5 项目展示与总结
0 2
第六部分:课程总结 第11章:大数据前沿与趋势 1 AI与大数据的融合
2 边缘计算与大数据
3 数据治理、隐私与安全
4 课程总结与复习
2 0
总计 34 16

教学方法与手段

  1. 课堂讲授: 系统讲解核心概念、原理和技术细节,配合PPT、图表和代码演示。
  2. 实验实践: 每个核心技术模块都配有对应的实验课,学生将在Linux环境下动手搭建环境、编写代码、调试程序,加深对理论的理解。
  3. 案例分析: 引入业界真实的大数据应用案例(如淘宝推荐系统、Uber路径规划、Netflix内容推荐等),分析其背后的技术架构和实现思路。
  4. 项目驱动: 课程后半段设置一个综合性的课程项目,要求学生以小组形式完成一个完整的大数据应用,培养综合解决问题的能力。
  5. 线上资源: 推荐相关的MOOC课程、技术博客、官方文档等,鼓励学生自主学习和探索。

考核方式与标准

考核环节 占比 与方式
平时成绩 30% - 出勤与课堂互动 (10%)
- 实验作业 (20%): 每次实验课提交实验报告和代码,考察动手能力和对技术的掌握程度。
期中考试 20% - 闭卷或开卷笔试: 考察前半学期核心概念(Hadoop, MapReduce, HDFS等)的理解和记忆。
课程项目 30% - 团队项目 (20%): 项目选题、设计、实现、文档和最终成果。
- 项目答辩 (10%): 现场演示、讲解和回答问题,考察团队协作、表达能力和对项目的理解深度。
期末考试 20% - 闭卷笔试: 全面考察整个课程的知识点,重点在于Spark、Hive、流处理等后端技术和综合应用能力。
总计 100%

教材与参考资料

推荐教材:

  1. 《大数据技术原理与应用》(第3版),林子雨,人民邮电出版社。(国内经典教材,内容全面,适合初学者)
  2. Hadoop: The Definitive Guide (4th Edition), Tom White. O'Reilly Media. (Hadoop领域的“圣经”,权威且详尽)
  3. Learning Spark (2nd Edition), Holden Karau, Andy Konwinski, etc. O'Reilly Media. (Spark官方推荐的入门书籍,实践性强)

参考资料:

  1. 官方文档: Apache Hadoop, Apache Spark, Apache Hive, Apache HBase, Kafka等项目的官方文档。
  2. 在线课程: Coursera上的 "Big Data Specialization" (UC San Diego), edX上的 "Data Science Essentials"。
  3. 技术博客与社区: Databricks博客、Cloudera博客、InfoQ、掘金、CSDN等。
  4. 学术论文: Google发表的GFS、MapReduce、BigTable等经典论文。
大数据技术与应用课程学什么?-第3张图片-指南针培训网

标签: 分析挖掘 应用实践

抱歉,评论功能暂时关闭!