北京大数据培训 2024-05-22 16:17:06
课程介绍
发布日期:2024-05-22 16:17:06
随着互联网、5G、物联网、人工智能等的发展,数据规模越来越大,大数据产业的市场规模也越来越大。同时,大数据也逐渐渗透到了传统行业,工信部、农业部等纷纷推进工业大数据、农业大数据等大数据在传统行业的发展。随着数据规模越来越大,各个企业也分别进行数智化转型。而随着数据行业的扩大以及大数据的发展,也为IT行业带来了更多的岗位和选择!
课程内容:
阶段:开发基础
特点
本阶段要求学员掌握基本的JAVA语法、API、数据库、LINUX命令及SHELL以及MAVEN的使用。同时本阶段会深入讲解JAVA中集合和MAP的源码,加强学员的数据结构思想,为后续大数据的学习打好基础。
要求
掌握JAVA的基础语法、面向对象的核心思想;掌握JAVA中基本的API操作,掌握集合和MAP的源码分析;了解JDK各版本的新特性;掌握数据库的基本操作,了解MYSQL自定义函数;掌握LINUX的基本命令,了解基本的SHELL编程;掌握MAVEN的搭建和使用。
核心技能
STRING、基础语法、集合、文件及IO操作、网络编程、JDK8~17的部分特性、面向对象、异常机制、映射、线程、反射。
第二阶段:HADOOP生态圈
特点
本阶段要求学员掌握大数据离线处理中的基本框架:HADOOP、ZOOKEEPER、HIVE、FLUME、HBASE等。同时本阶段会深入讲解各个框架中设计到的部分算法和源码。
要求
掌握ZOOKEEPER的基本操作,了解ZOOKEEPER的源码和PAXOS算法;了解HADOOP发展历程,掌握HADOOP的分布式、高可用模式搭建;掌握HDFS的基本操作、原理和基本流程,了解HDFS的特点;掌握MAPREDUCE的SHUFFLE过程,掌握YARN的基本流程,了解YARN的常见优化;掌握FLUME的流动模型,了解FLUME的自定义组件;掌握HIVE的基本语法,了解HIVE的编译过程、自定义组件、优化过程;掌握HBASE的基本操作和原理,了解HBASE的常见优化。
核心技能
ZOOKEEPER的搭建及基本操作、MAPREDUCE各组件及SHUFFLE过程、FLUME流动模型搭建、自定义组件、HBASE的搭建、基本操作、读写流程和优化、HDFS的基本操作、NAMENODE、DATANODE、读写流程、HIVE基本语法、自定义组件、编译过程及优化、HADOOP搭建、扩展:PAXOS算法、YARN的基本流程及优化。
第三阶段:SPARK生态圈
特点
本阶段要求学员掌握SCALA语言以及大数据常用实时框架KAFKA、SPARK等。在课程中会讲解各个框架的源码及优化,辅助学员更好的理解和掌握各个框架。
要求
掌握SCALA的基本语法,熟悉SCALA的集合操作;掌握KAFKA的搭建以及操作,熟悉KAFKA的架构、数据策略等;掌握SPARK的搭建以及操作,熟悉SPARK中RDD、DAG、DATAFRAME、DATASET等概念和操作;掌握SPARKSQL,熟悉自定义组件、大小表JOIN、表优化的问题。
核心技能
SCALA基本语法、KAKFA架构及基本命令、SPARK搭建、SPARK调度、DATAFRAME和DATASET、SPARK优化、SCALA集合操作、KAFKA的策略及优化、RDD及DAG、SPARKSQL、自定义组件。
第四阶段:FLINK生态圈
特点
本阶段会讲解用于进行数据处理和分析的框架:FLINK、DORIS、HUDI、CLICKHOUSE等。在课程中,会详细讲解各个框架的基本操作以及基本的优化方案。
要求
掌握FLINK的基本操作以及FLINK的运行机制,了解FLINK的优化方案;掌握DORIS的扩容及分区,了解DORIS的优化及数据恢复问题;掌握HUDI的基本操作,了解湖仓一体化;掌握CLICKHOUSE的操作,了解CLICKHOUSE的优化。
核心技能
FLINK基本操作、FLINK状态编程、FLINK源码解析及优化、DORIS集成SPARK、FLINK、HUDI基本操作及优化、FLINK WINDOW API、FLINKSQL、DORIS基本操作、DORIS优化、CLICKHOUSE基本操作及优化。
数据仓库
项目介绍
本项目依托国内电商环境为背景,引入海量的日志数据和业务数据,基于高性能解决方案构建数据仓库,设计会员、交易、订单等多个主题,覆盖日活、月活、留存率、漏斗分析等100+指标,还原真实企业场景,给予学生真实的开发体验。项目覆盖HADOOP、FLUME、HIVE、SPARK、KAFKA、PRESTO、KYLIN等多个主流的大数据框架,包含ETL、数据存储、数据采集、数据计算、消息队列、定时调度、数据可视化等多个大数据领域。
解决问题
从数据采集到数据存储、数据计算、数据可视化、定时调度、监控预警一站式设计和搭建
核心要点
数据采集、ETL、指标计算、全流程调度、数据仓库分层、数据仓库建模、数据可视化、监控和预警。
用户画像
项目介绍
本项目基于电商平台构建的用户全方位画像,着眼于用数字化的标签描述用户个性特征,勾画目标用户,用于联系用户诉求与设计方向,提供了企业级多方位业务决策分析
解决问题
初步了解算法,完成标签体系的建设
核心要点
标签体系建设、CLICKHOUSE快速查询、决策树机制、基于SPARKMLIB的机器学习。
推荐系统
项目介绍
本项目是基于数据仓库和用户画像构建的电商推荐系统,综合利用了协同过滤算法以及基于内容的推荐算法实现混合推荐。
解决问题
加深推荐算法的掌握,实现"千人千面"的智能营销和推荐。
核心要点
协同过滤算法、隐语义模型、基于内容的推荐、聚类算法。
下一篇:北京少儿启蒙英语培训