简介:本课中将系统的讲解Spark SQL的核心知识,并以实战的方式,通过分析Nginx访问日志的实战例子,帮助同学们领略SparkSQL强大简便的数据分析能力,洞悉SparkSQL调优方式及其核心思想。
第2章 认识Spark SQL
本章介绍Spark SQL运行原理,DataFrame、DataSet和RDD的相互转化和使用场景,并讲解Parquet的使用。
第3章 DataFrame/DataSet常用操作
本章介绍DataFrame的过滤,分组,排序操作和列值的增删改,以及对Join的优化。
第4章 自定义函数和开窗函数
本章讲解自定义函数的使用,以及开窗函数在分组求TopN中的应用。
第5章 Nginx访问日志分析完整实战
本章会讲解使用Spark SQL分析Nginx访问日志的项目。包括了数据清洗,存储,监控和优化。
解锁即可观看《大数据工程师》完整课程视频
大数据工程师
硬核技能带你攻克热点商业项目,从入门直达中级工程师水平,掌握DT时代淘金利器!
【第1周】学好大数据先攻克Linux
【第2周】大数据起源之初识Hadoop
【第3周】Hadoop之HDFS的使用
【第4周】Hadoop之HDFS核心进程剖析
【第5周】Hadoop之初识MR
【第6周】拿来就用的企业级解决方案
【第7周】Flume从0到高手一站式养成记
【第8周】数据仓库Hive从入门到小牛
【第9周】Hive扩展内容
【第10周】快速上手NoSQL数据库HBase
【第11周】数据分析引擎之Impala
【第12周】7天极速掌握Scala语言
【第13周】Spark快速上手
【第14周】Spark性能优化的道与术
【第15周】Spark3.x扩展内容
【第16周】综合项目:电商数据仓库之用户行为数仓
【第17周】综合项目:电商数据仓库之商品订单数仓
【第18周】消息队列之Kafka从入门到小牛
【第19周】极速上手内存数据库Redis
【第20周】Flink快速上手篇
【第21周】Flink高级进阶之路
【第22周】Flink1.15新特性及状态的使用
【第23周】Flink1.15之状态的容错与一致性
【第24周】FlinkSQL(1.15)快速上手
【第25周】FlinkSQL双流JOIN详解
【第26周】全文检索引擎Elasticsearch
【第27周】Es+HBase仿百度搜索引擎项目
【第28周】直播平台三度关系推荐V1.0
【第29周】直播平台三度关系推荐V2.0
【第30周】数据中台大屏
【第31周】实时OLAP引擎之ClickHouse
【第32周】实时数仓-Kafka Eagle+DS
【第33周】实时数仓-Flink CDC数据采集
【第34周】实时数仓-Paimon(数据湖)快速上手
【第35周】实时数仓-Paimon(数据湖)高级进阶
【第36周】实时数仓-湖仓一体项目
【第37周】一站式流式开发平台StreamPark
【第38周】大数据分布式SQL网关Kyuubi