大数据架构培训课程学什么？

99ANYc3cd6 课程介绍 2026-04-19 1

大数据架构师实战培训课程

课程简介

本课程专为希望成为大数据架构师、数据平台工程师或高级数据开发工程师的学员设计，课程将系统性地讲解大数据生态的核心技术栈，深入剖析数据从产生、采集、存储、处理、分析到服务的完整生命周期，通过理论结合大量实践案例，学员将掌握如何设计高可用、高扩展、高性能、安全且成本可控的大数据平台,并解决实际业务场景中的复杂问题。

课程目标

掌握核心理论：深入理解大数据架构的核心思想、设计原则和关键挑战（如3V特性）。
熟悉技术栈：熟练掌握Hadoop、Spark、Flink、Hive、Kafka、HBase、Elasticsearch等主流大数据组件的原理与应用。
具备设计能力：能够根据不同的业务场景（批处理、流处理、交互式查询、实时搜索）设计合理的技术架构方案。
精通数据湖：掌握数据湖（Data Lake）和数据仓库（Data Warehouse）的异同、设计方法及构建技术（如Hudi, Iceberg, Delta Lake）。
了解云原生：熟悉云平台（AWS, Azure, 阿里云）上大数据服务的使用,以及Kubernetes在大数据领域的应用。
提升运维与优化：掌握大数据平台的监控、调优、故障排查和高可用架构设计能力。
建立全局视野：了解实时数仓、数据中台、AI/ML平台集成等前沿趋势,具备从0到1构建数据平台的全局观。

课程大纲

大数据基础与架构概览

第1章：大数据导论
- 大数据的定义、特征（Volume, Velocity, Variety, Veracity, Value）
- 大数据应用场景与商业价值
- 大数据架构师的职责与技能模型
第2章：大数据架构演进
- 从ETL到ELT：数据流水线的变迁
- 数据仓库 vs. 数据湖 vs. 数据湖仓一体
- 大数据架构的分层模型（数据源、数据存储、数据处理、数据服务、数据应用）
第3章：分布式系统核心原理
- CAP理论与BASE理论
- 一致性模型（强一致性、最终一致性）
- 分布式文件系统与分布式计算框架的设计哲学

数据采集与传输

第4章：数据接入层
- 日志数据采集：Flume, Logstash, Filebeat 原理与实践
- 数据库变更数据捕获：Debezium, Canal 原理与实践
- 消息队列选型与使用：Kafka, Pulsar, RabbitMQ
第5章：数据同步与交换
- 离线数据同步：Sqoop, DataX 原理与实践
- 实时数据同步：基于CDC的流式管道
- 数据格式与协议：JSON, Avro, Protobuf, Parquet, ORC

核心存储与计算引擎

第6章：分布式存储基石
- HDFS架构、核心原理（NameNode, DataNode, 副本机制）
- HDFS的高可用、联邦与联邦部署
- 对象存储：AWS S3, Azure Blob Storage, 阿里云OSS及其与HDFS的集成
第7章：离线批处理引擎
- MapReduce核心思想与编程模型
- Apache Spark (核心)
  - Spark Core: RDD, DAG, 调度器
  - Spark SQL: DataFrame, Dataset, Catalyst优化器, Tungsten执行引擎
  - Spark Streaming (Structured Streaming): 微批处理，Exactly-Once语义
第8章：实时流处理引擎
- Apache Flink (核心)
  - Flink核心概念：DataStream, 状态管理, 窗口, 水位线
  - Flink Table API & SQL
  - Flink的状态后端与检查点机制实现Exactly-Once
- Spark Streaming vs. Flink 对比
第9章：NoSQL数据库
- HBase：架构、RowKey设计、读写流程、应用场景
- Elasticsearch：倒排索引、核心概念（Index, Type, Document）、IK分词器、聚合分析
- Redis, MongoDB等在数据平台中的应用

数据仓库与数据湖

第10章：数据仓库与OLAP引擎
- Apache Hive：架构、Metastore、HiveQL执行流程、优化技巧
- Apache Kylin：预计算立方体，实现亚秒级查询
- ClickHouse, Doris, StarRocks等现代MPP引擎介绍
第11章：现代数据湖技术
- 数据湖的优势与挑战
- 数据湖仓一体
  - Apache Hudi：ACID事务、增量查询、时间旅行、Upsert/Delete
  - Apache Iceberg：表格式、演进式架构、与Spark/Flink/Trino集成
  - Delta Lake介绍
- 基于Trino (Presto SQL) 的跨数据源联邦查询

数据服务与调度

第12章：任务调度与工作流
- Azkaban, Airflow 原理与实践
- 工作流编排：任务依赖、重试、失败告警
第13章：数据服务与API
- 数据服务化架构
- 使用Spring Boot构建数据API
- API网关与授权
第14章：数据可视化
- Superset, Metabase, QuickBI 等BI工具集成
- 自定义可视化报表与仪表盘

大数据平台运维与优化

第15章：平台监控与告警
- Prometheus + Grafana 监控体系
- 组件级监控（HDFS, YARN, Spark, Kafka等）
- 日志收集与ELK/Loki栈
第16章：性能调优
- Spark/Flink作业调优：并行度、内存管理、Shuffle调优
- Hive SQL调优：执行计划、Join优化、分区与分桶
- Kafka集群调优
第17章：高可用与容灾
- YARN高可用配置
- Zookeeper/Kafka高可用
- 数据备份与恢复策略

云原生与前沿技术

第18章：云上大数据架构
- AWS EMR, Azure HDInsight, 阿里云EMR/MaxCompute等云服务介绍
- 无服务器大数据：AWS Glue, Azure Databricks
第19章：Kubernetes与大数据
- K8s上运行Spark/Flink作业
- KubeFlow, Spark on K8s Operator
第20章：大数据与AI/ML集成
- MLOps平台架构
- 使用Spark MLlib进行机器学习
- 特征存储
第21章：项目实战与架构设计
- 综合案例：设计一个支持实时和离线分析的电商用户行为分析平台
- 需求分析 -> 技术选型 -> 架构设计 -> 核心模块实现 -> 部署上线
- 架构答辩与评审