查询优化器通过优化逻辑计划从而输出物理计划,其主要阶段包含查询改写和计划枚举。
PolarDB-X 1.0接收到一条SQL后的执行过程大致如下:
本文将会介绍查询优化器的基本原理,包含如下几个方面:
一条SQL查询在数据库系统中通常被表示为一棵关系代数算子组成的树,有如下场景的算子:
例如,对于如下查询SQL(修改自TPC-H Query 3):
通过如下EXPLAIN命令看到PolarDB-X 1.0的执行计划:
用树状图表示如下:
查询改写(SQL Rewrite)阶段输入为逻辑执行计划,输出为逻辑执行计划。这一步主要应用一些启发式规则,是基于规则的优化器(Rule-Based Optimizer,简称RBO),所以也常被称为RBO阶段。
查询改写这一步的主要有如下功能:
子查询去关联化是将含有关联项的子查询(关联子查询)表示为SemiJoin或类似的算子,便于后续的各种优化,例如下推到存储层MySQL或在PolarDB-X 1.0层选择某种算法执行。在如下例子中IN子查询转化为SemiJoin算子,并最终转化成SemiHashJoin物理算子由PolarDB-X 1.0执行:
算子下推是非常关键的一步,PolarDB-X 1.0内置了如下算子的下推优化规则:
优化规则 | 描述 |
---|---|
谓词下推或列裁剪 | 将Filter及Project算子下推至存储层MySQL执行,过滤掉不需要的行和列。 |
JOIN Clustering | 将JOIN按照拆分方式及拆分键的等值条件进行重排和聚簇,方便下一步的JOIN下推。 |
JOIN下推 | 对于符合条件的JOIN,将其下推至存储层MySQL执行。 |
Agg下推 | 将聚合(Agg)拆分为FinalAgg和LocalAgg两个阶段,并将LocalAgg下推至存储层MySQL。 |
Sort下推 | 将排序(Sort)拆分为MergeSort和LocalSort两个阶段,并将LocalSort下推至存储层MySQL。 |
更多关于查询下推的信息,请参见查询改写与下推。
查询改写阶段输出的逻辑执行计划会被输入到查询计划枚举(Plan Enumerator)中,并输出一个最终的物理执行计划。查询计划枚举在多个可行的查询计划中,根据预先定义的代价模型,选择出代价最低的一个。与查询改写阶段不同,在查询计划枚举中,规则可能产生更好的执行计划,也可能产生更差的执行计划,可以根据算子经过规则优化后的前后代价对比选出较优的那个,因此这也被称为基于代价的优化(Cost-based Optimizer,简称CBO)。
其核心组件有以下几个部分:
逻辑上,CBO的过程包括如下几个步骤: