个人签名

529篇博客

编辑推荐

网易数帆开源API网关与容器云项目，让云原生生产落地“多快好

网易汪源：统一负载与多云环境的“开放姿态”，才是云原生

网易数帆如何用 Kubernetes“原语”搞定云原生中间件

快手打新挤爆券商系统，网易数帆推出券商稳定性保障方案

探索智慧校园新模式，网易有数在教育行业的实践分享

金融行业大数据治理之路——数据模型篇

什么鬼！基于备份恢复的实例数据还能变多？

勿忘初心2018-10-19 10:01

此文已由作者温正湖授权网易云社区发布。

欢迎访问网易云社区，了解更多网易技术产品运营经验。

对数据库进行数据备份无非两种方式，一种是逻辑备份，也就是直接连上数据库导出所有的数据，对于MySQL，就是通过MySQL客户端或JDBC等MySQL驱动进行全表Select，将查询结果转化为Insert语句并保存到文件中，实际场景下，一般使用mysqldump或mydumper等工具来实现。同样的，对于MongoDB也是如此，可以借助mongodump工具来进行数据逻辑备份；另一种是物理备份，通俗地讲，就是通过dd或cp等方式直接拷贝数据库文件，对于MySQL，可以使用Percona Xtrabackup工具，对于MongoDB，目前还没有成熟的物理备份工具，不过目前Percona正在开发中，相信很快就能用上。目前主流的MongoDB数据物理备份方式还是基于块设备或文件系统的snapshot机制。相比逻辑备份，物理备份在性能上更好，对数据库的侵入性小，不足之处在于，相比逻辑备份，物理备份数据的跨版本兼容性较弱，备份所占的空间较大。一般建议在备份大库时，采用物理备份更佳。本文的重点不在对比两种备份方式的优劣，所以在此不展开分析。

本文要介绍和分析的问题发现在使用lvm snapshot对MongoDB实例进行物理备份的场景。更确切的说，是在恢复MongoDB sharding集群的物理备份时发生的。在此还得简单介绍几句MongoDB sharding cluster，sharding cluster又称分片集群。数据库一旦成为瓶颈就需要进行扩展，扩展包括垂直扩展，如下：

另一种是水平扩展，将一个复制集实例扩展为一个集群，原来的复制集变为其下的一个shard，分片集群就是MongoDB官方提供的数据在线水平扩展方案，可以理解为MongoDB线上部署的终极方式：

如下图所示，集群由三个部分组成，分别是mongos（Router）、config server和shard组成。

mongos是用户访问分片集群中数据的入口，该节点不会持久化数据，仅缓存config server上的元数据，比如查询的路由表（Router Table）等，用户发起的读写操作通过mongos路由到一个或多个Shard上。

config server是集群的大脑，保存了集群相关的元数据信息，这些信息包括在admin和config库下。其中admin保存账号和权限定义相关信息，config保存集群的mongos、shard节点信息，数据库和集合信息，如集群中保存的所有数据库，集群中启用分片的数据库，启用分片的集合等，还保存了每个数据chunk在shard上的分布信息。数据库、集合和chunk信息组成了查询的路由表，该路由表再mongos、config server和每个shard上均会缓存。

shard是真正存储数据的组件，熟悉MySQL的同学可以将每个shard想象成MySQL的分区表。MongoDB中对集合启用分片就相当于MySQL中对某个表进行了分区。每个shard对应一个分区。shard上的数据是由一系列chunk组成的，每个chunk默认64MB。

chunk在某些场景下会进行分裂，由mongos将一个chunk分裂为2个chunk。chunk也会由config server发起在不同的shard上进行迁移。在MongoDB 3.4中，config server和每个shard一般部署为3个节点的MongoDB复制集。chunk的迁移操作由config server复制集的Primary节点上的balancer线程来执行。通过分裂和迁移，实现MongoDB分片集群中数据在各个shard上的均匀分布。

做了上面这么多铺垫，终于可以开始详细描述问题了。首先对这个分片集群使用ycsb工具压入一定量的数据，确保能够触发其chunk分裂条件。在config server完成chunk分裂，balancer线程running状态为false后，在mongos节点使用db.find().count()命令获取usertable集合文档个数。然后使用lvm snapshot分别在config server和各shard上进行数据备份。备份前，已将balancer disable掉，确保在备份期间不会发生chunk迁移导致config server上的chunk元数据和shard上的chunk信息不一致。备份完成后，基于集群备份恢复出一个新的分片集群，再用count()命令在mongos上做查询，发现usertable集合的文档个数变多了。需要说明的是，上面的这一系列不是我操作的。而是我们外号架构师的QA MM操作的。发现这个现象后，她跟我说：“基于集群备份恢复出来的实例，数据变多了！”。乍一听这个这句话，我的表情瞬间变成下面这样，听说过基于备份恢复出来的数据库实例少数据的情况，数据多出来却很少见，为什么凭空多出来呢：

是不是搞错了，问了句：“Are you Ok！”

不过作为资深的测试人员，相信我们的QA不会犯那种低级错误。既然出现这个情况，那么肯定是有原因的。于是了解了整个测试的经过。经过初步分析，大致可以确定，问题虽然发生在备份恢复的时候，但症结却在执行lvm snapshot的那一刻就已经埋下了。那么，这是我们那里做错了吗？应该说这是我们还做得不够好。这一切都跟MongoDB chunk迁移的机制有关系。在前面我们提到，为了确保数据在各个shard上保存均衡。config server会将一个shard上的chunk迁移到另一个shard上。迁移有两个重点关注的点：1、对于不同的存储引擎，迁移的行为是不一样的，对于目前默认的WiredTiger存储引擎，chunk数据默认仅写到目标shard的Primary节点即返回（可以通过参数_secondaryThrottle来调整，但调后会影响迁移性能）。由于我们备份是在Secondary节点进行的，所以必须确保chunk数据已经从Primary复制到Secondary后才开始备份。这已经在我们的设计方案中得到保障。对于已经逐步弃用的MMAPv1存储引擎，chunk数据会同时写到Primary和Secondary上。2、迁移完成后，源shard上的这个chunk数据如何处理？MongoDB分片集群默认是在后台完成源shard上该chunk数据的删除的。不需要等到数据删除后才commit本次迁移。这么设计的目的是为了提高chunk迁移的效率，因为MongoDB规定一个shard上同时只能存在一个正在进行的chunk迁移操作，这么处理就无需等待本次chunk迁移完全结束即可开始下一个chunk迁移。

根据理论分析，本次出现的问题就是由于删除源shard的已迁移chunk数据环节导致的。下图截自MongoDB官方文档：

这些待删除的chunk会加入到位于shard复制集Primary节点上的一个队列中，删除线程逐个获取队列中的删除请求并执行。但这个队列是非持久化的，如果Primary节点Crash了，而Crash时队列中还有请求。那么这部分删除请求再也得不到处理。在MongoDB 分配集群中，将这些未被删除的冗余数据成为orphan文档。

但在备份前后，并没有发生过任意一个节点Crash啊？扯了半天，似乎还没有跟问题建立直接关系。其实对复制集节点做snapshot，在这个场景下，基本上可以等同为一次节点Crash，因为snapshot是对mongod数据盘做快照，这样能够确保硬盘上的数据不丢失，但此时内存中的信息是无法保存下来的。由于chunk数据删除全过程都仅在内存中进行，不会将进展持久化到硬盘上，而且我们又是在Secondary节点上进行snapshot，所以这部分内存信息肯定是丢失的。

好了，接下来就是如何证明上面的推断是对的。MongoDB官方针对orphan文档专门提供了一个命令cleanupOrphaned来进行删除。如下所示：

如果描述的问题确是该原因导致的，那么执行该命令后，集合usertable的文档数应该恢复到跟备份前的connt()一样。显然，答案是肯定的。相比MongoDB复制集实例，MongoDB分片集群复杂度提升数倍，在使用过程中需要关注的坑也较多，如果不是MongoDB老司机，最好悠着点玩。网易云MongoDB服务新推出分片集群实例，欢迎大家到时试用，让我们为您填坑。

网易云MongoDB 服务为开发者提供了一站式的 MongoDB 云端解决方案，包括提供三节点复制集的高可用架构，故障切换，并提供专业的备份、监控以及性能优化方案，彻底免除开发者的运维烦恼，点击可免费试用。

网易云免费体验馆，0成本体验20+款云产品！

更多网易技术、产品、运营经验分享请点击。

相关文章：
【推荐】探一探快应用的虚实

<上一篇MongoDB账号管理及实践

下一篇使用 MongoDB 存储商品分类信息>

最新博客

最新资源下载

编辑推荐

什么鬼！基于备份恢复的实例数据还能变多？

最新博客

最新资源下载

编辑推荐

什么鬼！基于备份恢复的实例数据还能变多？

推荐博客