大数据分析表设计与优化

| 2022-09-07

基于MPP架构的Greenplum数据库在面向分析的应用中有着得天独厚的优势,但使用不当你一定会遇到很多问题。

本文主要介绍了greenplum数据库在表设计上的基础原则和使用过程中的一些优化建议。希望能给大家在使用greenplum的过程中有所收益,尽可能的降低你遇到问题的概率。

Greenplum是什么

简单的说,Greenplum数据库就是面向数据仓库应用的关系型数据库,它基于目前流行的PosgreSQL开发,通过标准的SQL就可以对Greenplum中的数据进行访问存取。

它主要用在数据仓库中,适用于面向分析的应用。 例如,数据分析,统计报表,数据可视化以及大数据计算等场景。

本质上讲,Greenplum是一个关系型数据库集群. 它实际上是由数个独立的数据库服务组合成的逻辑数据库。

与 ORACLE RAC的Shared-Storage架构不同,Greenplum采用的是Shared-Nothing架构,它根据表的分发列(distribute column),将一个表中的数据平均分布到每个节点上。

整个集群由多个数据节点(segment节点)和控制节点(master节点)组成,控制节点只存储一些数据库的元数据,不负责运算,它仅仅负责应用的连接,生成拆分执行计划,并把执行计划分配给数据节点去执行。

这种基于Shared-Nothing的分布式存储架构和MPP(Massive parallel processing)的大规模并行处理架构,使得Greenplum数据库能够极大地提高I/O吞吐和并发计算能力,并且随着数据节点的增加,可线性提高系统的存储容量,I/O吞吐和处理能力。

Greenplum表设计以及优化

本文的优化主要针对select 语句,以下的案例均为真实案例

表的类型

在gp设计中,还是遵循其他关系数据库的原则,字段需要合理设计。例如:如果md5值,我们就没有必要为了简单存储到text里。

另外,如果是join 联合几个表,那么一定要确保联合字段的类型一样

表的分布列设计

这个是gp表设计的重中之重,如下一些标准,供参考

1)确定表里有没有一个字段的数据是离散的,例如:类似mysql里的主键、唯一健,这个字段可以做为表的分布列;

2)如果满足第1条,并且如果这个字段在join关系里,这个字段可以做为表的分布列。

【真实案例,这个提升性能50%,原因:每个segment都能在自己的segment上join,避免数据motion】

3)如果不满足1和2,那么我们就设置DISTRIBUTED RANDOMLY,让表的数据完全随机离散开,也能提供不错的性能。

【真实案例:有人选择一个业务id做为分布列,但是因为个别业务的访问量巨大,而其他又特别小,那就出现了数据倾斜现象,造成性能特别的差】 

注: select gp_segment_id,count(*) from table_name group by 1 order by 1; #查看表在各个segment的分布情况

关于索引

官方文档一直建议:gp尽量避免添加索引,官方解释是:MPP架构,会让所有segment同时执行扫描数据操作,都是顺序IO,特别快。

其实不然,如果我们用线上关系数据库的方式去查询(例如:组合等值查询 where  name='张三' and status=1),我们还是需要添加 (name,status) 的索引。

create index idx_name on user(name,status)

【用线上关系型数据库思维去设计SQL,那么就需要用线上数据库思维来解决问题】

空洞回收

主要来源于一业务:一个SQL早期速度很快,但是后期速度特别特别的慢,表的行数整体并没有太多变化。

经过沟通了解到,该业务经常delete数据,而gp并没有回收delete的数据空间。

这个时候,我们需要重建表,MPP架构下的数据库表重建速度特别快,测试表明:9T数据,都只需要分钟级别(vacuum 并不靠谱)。

重建表方式:

(以user表为例)

create table user_new as select * from user;

rename table user to user_bak;

renmae table user_new to user;

针对SQL语句的优化

不能在一颗树上吊死

在日常的运维中,我们遇到过业务反馈如下报错:

ERROR:  insufficient memory reserved for statement (tuplesort_mk.h:115)

报错原因一般是由于业务执行了类似下面的SQL:

select count(distinct m3) from up_old_full ; 中间所需要的内存过大,出现错误。

我们一般会建议业务对SQL语句进行如下修改:

select count(*) from (select m3 from up_old_full group by m3)a ; 分两步走,避免上述问题。

能过滤的一定要过滤

根据需求,能在单个segment过滤数据的,一定要过滤。

例如:如下两条SQL,性能差别几十倍,唯一区别就是分析业务加了一个device字段。

select count(*) from info_push_realtime where act in('arrived','show','click') and device in('0','1') group by sign,pushid,style;

select count(*) from info_push_realtime where act in('arrived','show','click')  group by sign,pushid,style;

针对join的优化

我们需要按照如下几个原则:

join的表的字段务必相同类型

尽量让join的字段是 DISTRIBUTED键值

尽管有时候key分布不太均衡,我们也需要这样做,这样保证join的时候在通过一个segment,而不是全局motion redirect。

针对insert的优化

常情况下,标准的insert语句,只涉及到语法分析以及语句执行,理论不会执行慢,但是当访问量过多的时候,达到了resoure queue,insert就出现等待,造成堵塞。

这里我们设置resource_select_only=1,resoure queue的限制只限于select语句,达到了在实时写入系统的快速insert效果。

另外如果大量insert,但是又不太方便转换成load,那就只能使用HULK DBA团队与基础架构组联合开发的gpstall工具,加速insert。

后续我们会开源一套gpdb的工具集,包括,加速写入gpstall,集群之间的迁移gptransfer、mysql到gpdb的实时同步gpmysqlload、gp快速备份gpbakcup。

关于update/delete

超级慢,慢的你受不了。要尽量避免数据的更新删除。

关于prepare语句

Server prepare会特别的慢。在PHP PDO中,务必把PDO::ATTR_EMULATE_PREPARES 设置为TRUE。

网卡选型的建议

在机器选型中,尽量要用万M网卡,如果没有万M网卡,至少也要选择多网卡联合工作,否则segment节点间的大量数据传输和聚合,网卡会成为瓶颈。

segment 均衡策略

gpdb的mirror策略分为group mirror 和spread mirror。默认创建集群的mirror的策略为group mirror。

使用spread mirror策略优势是,如果A服务器宕机,压力不会全部集中到B服务器上,降低因为故障导致的集群性能瓶颈,甚至因为B机器压力过大,接连发生宕机导致集群雪崩。

它的劣势是A机器宕机后,A机器的segment节点的mirror节点所在的机器不能再宕机,否则会有segment和mirror节点同时宕机的情况,造成集群不可用。

在后续的文章中,我们会继续给大家更进一步的介绍gpdb的使用经验,以及加速写入中间层gpstall,mysql到gpdb的实时同步gpmysqlload,gp快速备份gpbakcup等工具的使用。欢迎大家继续关注。