【大数据之数据仓库】基准测试之TPCH

  • 测试环境
     
     分别部署三套测试集群:impala+hdfs、impala+kudu、greenplum,其中hdfs、kudu三副本,greenplum双副本,环境使用CM&CDH、GreenPlum RPM安装。
  • 测试数据集
     
     tpch总共8张表,选择了100GB一个规格的数据集进行测试;
  • 加载速度对比
     因为数据集比较小,基本上都能很快加载完,所以没有记录具体的耗时;
  • 查询性能对比
     

总结:
1、关于查询性能
  三组测试中,表都没有进行分区,系统没有做深度定制优化,查询性能greenplum胜出、sql覆盖率也是greenplum胜出;kudu性能指标最差,在《 【大数据之数据仓库】kudu性能测试报告分析》已经详细分析。

这里吐个槽:同样一份数据、同样一个系统,但是不同的配置会产生截然不同的结果。很多利益相关方,在发布测试报告的时候,会对自身的系统做深度优化,比如:对数据表进行自定义分区、对sql进行有利于自身系统的修改(有些可能是因为跑不通),所以第三方发布的测试报告适合参考,不能作为凭据!
相关阅读:
【大数据之数据仓库】安装部署phpPgAdmin


本文来自网易实践者社区,经作者 何李夫 授权发布。