多租户,从软件架构定义,即于多用户的环境共用相同的系统或程序组件,计算资源根据一定的策略进行隔离、竞争、共享,并且仍可确保各用户间数据的隔离性。
对于Spark On Yarn
而言,我们已经拥有了Yarn
这款优秀的的资源管理工具,怎样实现Multi Tenancy呢。
spark.yarn.queue
提交到不同的队列;
ISSUE | 超链接 | 状态 | 简介 |
---|---|---|---|
SPARK-2243 | Support multiple SparkContexts in the same JVM | Resolved/Won't Fix | 如该JIRA的标题所讲,支持单JVM多sc的特性。对于Spark On Yarn ,一个SparkContext实例对应于一个YarnSchedulerBackend,继而对应于一个Yarn的Application,在runtime的时候也只能提交到特定的某一个队列运行。用户无法在自己的一个程序中实例化多个SparkContext然后指定不同的queue来实现多租户的效果。详细讨论可通过连接前往。 |
SPARK-5159 | Thrift server does not respect hive.server2.enable.doAs=true | Unresolved/reopened | 这是自然的。对于HiveServer2/Spark ThriftServer而言, 一个thrift的Req里面包含客户端的UserGroupInformation ,无论走不走代理(proxying/Impersonation),doAs情况下,都会依赖于这个ugi去执行。前者没啥问题,一系列的进程都是通过这个ugi去拉起的,不会有冲突;后者不然,执行环境在Server启动的时候就已经由SparkSQLEnv给你实例化好了SparkContext,每次你openSession不过是得到一个sqlContext级别的东西了,执行环境ugi都是由linux user或者spark.yarn.principal 指定的,在两个ugi不一致的情况下,doAs自然会有权限的问题。 |
SPARK-5159 | [SPARK-5159][SQL] Make DAGScheduler event loop forwarding UGI info to processing thread | closed/unmerged | 这个PR挺有意思,应该是在Task执行期间将UGI信息deliver到executor端,但是这样的话,所有客户端用户用的其实都是同一个yarn队列,资源上不存在隔离。 |
原文链接:http://www.jianshu.com/p/e1cfcaece8f1 欢迎打赏
本文来自网易实践者社区,经作者姚琴授权发布。