【大数据之数据仓库】基准测试之TPCDS


  • 测试环境:

     

     分别部署三套测试集群:impala+hdfs、impala+kudu、greenplum,其中hdfs、kudu三副本,greenplum双副本;
  • 测试数据集:
 
   tpcds总共24张表,7张事实表(加粗)、17张维度表,选取1T和10T两个规格的数据集;
  • 加载速度对比:
     
  • 查询性能对比:
     这里仅展示1T数据集的查询对比结果

总结:
1、关于加载速度:
  从tpcds的横向比较测试来看,kudu的数据加载是最慢的,但是从ycsb的测试来看单个kudu-tserver的插入速度能够达到10w/s,并且可以线性扩展。考虑到主要目的是获取查询性能,所以这里的横向比较结果分析后续补充;
2、关于查询性能:
  三组测试中,表都没有分区,系统也没有做深度定制优化,查询性能parquet最优、sql覆盖率greenplum最广。至于为什么kudu性能最差,在《 【大数据之数据仓库】kudu性能测试报告分析》已经详细分析。另外,在tpcds测试过程中,部分原始tpcds产生的sql是跑不通的,所以做了适当修改。
相关阅读: 

本文来自网易实践者社区,经作者何李夫授权发布。