分别部署三套测试集群:impala+hdfs、impala+kudu、greenplum,其中hdfs、kudu三副本,greenplum双副本;
tpcds总共24张表,7张事实表(加粗)、17张维度表,选取1T和10T两个规格的数据集;
总结:
1、关于加载速度:
从tpcds的横向比较测试来看,kudu的数据加载是最慢的,但是从ycsb的测试来看单个kudu-tserver的插入速度能够达到10w/s,并且可以线性扩展。考虑到主要目的是获取查询性能,所以这里的横向比较结果分析后续补充;
2、关于查询性能:
三组测试中,表都没有分区,系统也没有做深度定制优化,查询性能parquet最优、sql覆盖率greenplum最广。至于为什么kudu性能最差,在《
【大数据之数据仓库】kudu性能测试报告分析》已经详细分析。另外,在tpcds测试过程中,部分原始tpcds产生的sql是跑不通的,所以做了适当修改。
相关阅读:
本文来自网易实践者社区,经作者何李夫授权发布。