首页手记 1、Catalyst源码解读之SqlParser

1、Catalyst源码解读之SqlParser

标签：

Spark

本篇文章基于Spark1.6.1源码解读Catalyst下的SqlParser

spark sql中可以分三种sql语句
第一种DDL语句，DDL语句包含以下三种操作，代码见DDLParser

createTable | describeTable | refreshTable

第二种是spark自身的sql语句，spark自身的sql语句包含以下六种操作，代码见SparkSQLParser

cache | uncache | set | show | desc | others

第三种是真正的SQL语句，如select语句，SQL语句包含以下三种操作，代码见SqlParser

start1 | insert | cte

以上这些用"|"分隔的操作会生成一个Parser[LogicalPlan],最终变成LogicalPlan

从熟悉的sqlContext.sql("....")方法开始，一步一步分析sql语句是怎样被解析生成LogicalPlan。
第一步从SqlContext的sql方法开始，代码如下

def sql(sqlText: String): DataFrame = {  DataFrame(this, parseSql(sqlText))}

这里调用了parseSql(sqlText)方法，代码如下

protected[sql] def parseSql(sql: String): LogicalPlan = ddlParser.parse(sql, false)

第二步调用DDLParser的parse方法，代码如下

  def parse(input: String, exceptionOnError: Boolean): LogicalPlan = {    try {
      parse(input)
    } catch {      case ddlException: DDLException => throw ddlException      case _ if !exceptionOnError => parseQuery(input)      case x: Throwable => throw x
    }
  }

这里有两步操作，第一步是try语句中的parse(input)语句，他的作用是解析DDL语句，如果成功直接返回。否则看异常，异常中的语句不要忽略了，如果ddl语句解析失败调用parseQuery(input)，那么parseQuery(input)是从哪里来的呢？他是在DDLParser实例化的时候传递进来的

class DDLParser(parseQuery: String => LogicalPlan) extends AbstractSparkSQLParser with DataTypeParser with Logging {

这里插入一个知识点
parse()方法并不是DDLParser的方法，他是父类AbstractSparkSQLParser中的方法，接下来介绍的SparkSQLParser和SqlParser都继承自AbstractSparkSQLParser,看一下parse方法的代码

  def parse(input: String): LogicalPlan = synchronized {    //初始化并加载关键词，关键词是在子类中定义的，比如DDLParser、SparkSQLParser、SqlParser这三个类中分别定义了自己的关键词
    //initLexical方法本身很简单，这里就不说了
    initLexical    //phrase就是根据输入的语句(input)按照规则(start)来解析
    //start就是第1段中介绍的三种操作，start方法被子类重写
    //所以DDLParser中调用了父类的parse方法后会回调子类DDLParser中的start方法(或是变量，因为方法或函数也可以赋值给变量)
    phrase(start)(new lexical.Scanner(input)) match {      case Success(plan, _) => plan      case failureOrError => sys.error(failureOrError.toString)
    }
  }

回到SqlContext中看DDLParser实例化的代码

  @transient
  protected[sql] val sqlParser = new SparkSQLParser(getSQLDialect().parse(_))  @transient
  protected[sql] val ddlParser = new DDLParser(sqlParser.parse(_))

在DDLParser实例化的时候传入了SparkSQLParser中的parse方法，parse方法就是SparkSQLParser父类AbstractSparkSQLParser中的方法，在第3段中介绍过。看到这里终于明白了第2段中的parseQuery(input)就是这里的parse方法。

通过parse方法的调用回调SparkSQLParser中的start变量，start变量代码如下

override protected lazy val start: Parser[LogicalPlan] =  cache | uncache | set | show | desc | others

这里有五种操作，前面四种对应了spark自身操作的sql语句，这里就不展开说明了，以后有时间再具体分析。如果Spark自身操作的sql没有匹配成功会调用others规则，others操作其实是调用了SqlParser中的parse方法，他是怎么被调用的呢？接着住下看，这个调用有点绕。首先看others变量，代码如下

  private lazy val others: Parser[LogicalPlan] =
    wholeInput ^^ {      case input => fallback(input)
    }

这里回调 fallback(input)方法，fallback方法就在SparkSQLParser实例的时候传递进来的，我们看一下fallback方法是怎样产生的

回到SQLContext中看SparkSQLParser的实例化

  @transient
  protected[sql] val sqlParser = new SparkSQLParser(getSQLDialect().parse(_))

这里调用getSQLDialect()方法生成一个ParserDialect（方言），为什么需要方言呢，是为了区分spark sql 和hive sql。这里看DefaultParserDialect（ParserDialect的子类，默认是spark sql的方言）的parse方法，代码如下

 override def parse(sqlText: String): LogicalPlan = {
    sqlParser.parse(sqlText)
  }

看到这里sqlParser终于出现了，调用了SqlParser的parse方法（SqlParser父类AbstractSparkSQLParser中的parse方法）。这个parse方法就是传递给SparkSQLParser中的fallback(input)函数

这里重点看SqlParser是怎样解析sql语句的，根据前面介绍的内容知道调用SqlParser中的parse方法后，会回调SqlParser中的start变量，start变量代码如下

protected lazy val start: Parser[LogicalPlan] =  start1 | insert | cte

这里有三种操作，看一下start1 的代码

 protected lazy val start1: Parser[LogicalPlan] =
    (select | ("(" ~> select <~ ")")) *
    ( UNION ~ ALL        ^^^ { (q1: LogicalPlan, q2: LogicalPlan) => Union(q1, q2) }
    | INTERSECT          ^^^ { (q1: LogicalPlan, q2: LogicalPlan) => Intersect(q1, q2) }
    | EXCEPT             ^^^ { (q1: LogicalPlan, q2: LogicalPlan) => Except(q1, q2)}
    | UNION ~ DISTINCT.? ^^^ { (q1: LogicalPlan, q2: LogicalPlan) => Distinct(Union(q1, q2)) }
    )

这一堆是什么玩意儿,慢慢的来分析一下
select 会生成一个Parser，其他代码如下

 protected lazy val select: Parser[LogicalPlan] =
    SELECT ~> DISTINCT.? ~
      repsep(projection, ",") ~
      (FROM   ~> relations).? ~
      (WHERE  ~> expression).? ~
      (GROUP  ~  BY ~> rep1sep(expression, ",")).? ~
      (HAVING ~> expression).? ~
      sortType.? ~
      (LIMIT  ~> expression).? ^^ {        case d ~ p ~ r ~ f ~ g ~ h ~ o ~ l =>
          val base = r.getOrElse(OneRowRelation)
          val withFilter = f.map(Filter(_, base)).getOrElse(base)
          val withProjection = g
            .map(Aggregate(_, p.map(UnresolvedAlias(_)), withFilter))
            .getOrElse(Project(p.map(UnresolvedAlias(_)), withFilter))
          val withDistinct = d.map(_ => Distinct(withProjection)).getOrElse(withProjection)
          val withHaving = h.map(Filter(_, withDistinct)).getOrElse(withDistinct)
          val withOrder = o.map(_(withHaving)).getOrElse(withHaving)
          val withLimit = l.map(Limit(_, withOrder)).getOrElse(withOrder)
          withLimit
      }

通过上面简单的一二十行代码就完成了sql语句的解析，太有魔力了。感慨一下scala语句强大的表达能力。
想看懂上面的代码，我们先来看一下那些符号_>、、^^等是什么意思

|  左边算子和右边的算子只要有一个成功了，就返回succeed，类似or~  左边的算子成功后，右边的算子对后续的输入也计算成功，就返回succeed
.?  如果p算子成功则返回则返回Some（x） 如果p算子失败，返回fails
^^^  如果左边的算子成功，取消左边算子的结果，返回右边算子。
~> 如果左边的算子和右边的算子都成功了，返回的结果中不包含左边的返回值。  
<~ 这个和~>操作符的意思相反，如果左边的算子和右边的算子都成功了，返回的结果中不包含右边的
^^{} 或者 ^^=> 变形连接符，意思是如果左边的算子成功了，用^^右边的算子函数作用于返回的结果

这些符号究竟是什么东西，又代表的是什么语法，其实就是Parser的一个个方法而已，原来还是scala的语法，差点被迷惑了。
这个语句就是根据关键字、操作符号、函数生成一个parser[LogicalPlan]类型的withLimit。
关键字代码如下

protected val ALL = Keyword("ALL")  protected val AND = Keyword("AND")  protected val APPROXIMATE = Keyword("APPROXIMATE")  protected val AS = Keyword("AS")  protected val ASC = Keyword("ASC")  protected val BETWEEN = Keyword("BETWEEN")  protected val BY = Keyword("BY")  protected val CASE = Keyword("CASE")  protected val CAST = Keyword("CAST")  protected val DESC = Keyword("DESC")  protected val DISTINCT = Keyword("DISTINCT")  protected val ELSE = Keyword("ELSE")  protected val END = Keyword("END")  protected val EXCEPT = Keyword("EXCEPT")  protected val FALSE = Keyword("FALSE")  protected val FROM = Keyword("FROM")  protected val FULL = Keyword("FULL")  protected val GROUP = Keyword("GROUP")  protected val HAVING = Keyword("HAVING")  protected val IN = Keyword("IN")  protected val INNER = Keyword("INNER")  protected val INSERT = Keyword("INSERT")  protected val INTERSECT = Keyword("INTERSECT")  protected val INTERVAL = Keyword("INTERVAL")  protected val INTO = Keyword("INTO")  protected val IS = Keyword("IS")  protected val JOIN = Keyword("JOIN")  protected val LEFT = Keyword("LEFT")  protected val LIKE = Keyword("LIKE")  protected val LIMIT = Keyword("LIMIT")  protected val NOT = Keyword("NOT")  protected val NULL = Keyword("NULL")  protected val ON = Keyword("ON")  protected val OR = Keyword("OR")  protected val ORDER = Keyword("ORDER")  protected val SORT = Keyword("SORT")  protected val OUTER = Keyword("OUTER")  protected val OVERWRITE = Keyword("OVERWRITE")  protected val REGEXP = Keyword("REGEXP")  protected val RIGHT = Keyword("RIGHT")  protected val RLIKE = Keyword("RLIKE")  protected val SELECT = Keyword("SELECT")  protected val SEMI = Keyword("SEMI")  protected val TABLE = Keyword("TABLE")  protected val THEN = Keyword("THEN")  protected val TRUE = Keyword("TRUE")  protected val UNION = Keyword("UNION")  protected val WHEN = Keyword("WHEN")  protected val WHERE = Keyword("WHERE")  protected val WITH = Keyword("WITH")

根据关键词我们可以知道在写sql语句的时候哪些操作可以使用，哪些操作是不支持的

withLimit:Parser[LogicalPlan]是怎么变成LogicalPlan的呢？

Parser[LogicalPlan]继承自一个函数，最终返回ParseResult[T]类型，ParseResult[T]有两个子类,分别是Success和NoSuccess，代码如下

case class Success[+T](result: T, override val next: Input) extends ParseResult[T]sealed abstract class NoSuccess(val msg: String, override val next: Input) extends ParseResult[Nothing]

当sql解析成功后会返回Success。
再次看一下调用关系，最后调用的是start

接着看start的调用

def parse(input: String): LogicalPlan = synchronized {    // Initialize the Keywords.
    // 初始化分词器的关键字
    initLexical    phrase(start)(new lexical.Scanner(input)) match {      case Success(plan, _) => plan      case failureOrError => sys.error(failureOrError.toString)
    }
}

用模式匹配去匹配结果是ParseResult[LogicalPlan]的哪一个子类，如果是Success，看一下Success的代码

case class Success[+T](result: T, override val next: Input) extends ParseResult[T]

这里的T就是LogicalPlan

虽然还有很多其他操作，但解析的步骤都是一样的

作者：海纳百川_spark
链接：https://www.jianshu.com/p/86c87b1fe4b1

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

幕布斯6054654

手记
篇

粉丝

219

获赞与收藏

1011

关注作者，订阅最新文章

相关文章推荐

[Spark SQL] 源码解析之Parser

spark sql 深入解读

SparkSQL – 从0到1认识Catalyst

Spark 开源新特性：Catalyst 优化流程裁剪

Spark SQL Catalyst优化器

阅读免费教程

后端通用面试教程

41个小节 30273 342

网络编程入门教程

20个小节 12461 235

Pandas 入门教程

25个小节 18362 330

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

1、Catalyst源码解读之SqlParser

相关文章推荐

阅读免费教程