11-4. 数据修复
Ⅰ. 误删修复
传统的高可用架构是不能预防误删数据的,因为主库的一个drop table命令,会通过binlog传给所有从库和级联从库,进而导致整个集群的实例都会执行这个命令。
为了找到解决误删数据的更高效的方法,我们需要先对和MySQL相关的误删数据做下分类
- 使用delete语句误删数据行;
- 使用drop table或者truncate table语句误删数据表;
- 使用drop database语句误删数据库;
- 使用rm命令误删整个MySQL实例。
1. delete:误删行
使用Flashback工具恢复数据。
- 原理:修改binlog内容,拿回原库重放。
- 如果误删数据涉及到了多个事务的话,需要将事务的顺序调过来再执行。
- 使用前提:binlog_format=row和binlog_row_image=FULL。
恢复数据比较安全的做法,是恢复出一个备份,或者找一个从库作为临时库,在这个临时库上执行这些操作,然后再将确认过的临时库的数据恢复回主库。如果直接修改主库,可能导致对数据的二次破坏
预防 delete 误删
- 把 sql_safe_updates 参数设置为 on。这样一来,如果我们忘记在delete或者update语句中写where条件,或者where条件里面没有包含索引字段的话,这条语句的执行就会报错
- 如果确定要把一个小表的数据全部删掉,在设置了sql_safe_updates=on情况下,可以在delete语句中加上where条件,比如where id>=0
- 代码上线前,必须经过SQL审计
2. truncate/drop :误删库/表
delete 全表是很慢的,需要生成回滚日志、写redo、写binlog。所以,从性能角度考虑,优先考虑使用truncate table或者drop table命令。
使用delete命令删除的数据,你还可以用Flashback来恢复。而使用truncate/drop table和drop database命令删除的数据,就没办法通过Flashback来恢复了。
因为,即使我们配置了binlog_format=row,执行这三个命令时,记录的binlog还是statement格式。binlog里面就只有一个truncate/drop语句,这些信息是恢复不出数据的。
方案
这种情况下,要想恢复数据,就需要使用全量备份,加增量日志的方式了。这个方案要求线上有定期的全量备份,并且实时备份binlog。
假如有人中午12点误删了一个库,恢复数据的流程如下:
- 取最近一次全量备份,假设这个库是一天一备,上次备份是当天凌晨2点
- 用备份恢复出一个临时库
- 从日志备份里面,取出凌晨2点之后的日志
- 把这些日志,除了误删除数据的语句外,全部应用到临时库
- 最后恢复到主库
3. 预防误删库/表的方法
3.1 账号分离
- 只给业务开发同学DML权限,而不给truncate/drop权限。而如果业务开发人员有DDL需求的话,可以通过开发管理系统得到支持。
- 即使是DBA团队成员,日常也都规定只使用只读账号,必要的时候才使用有更新权限的账号。
3.2 制定操作规范
- 在删除数据表之前,必须先对表做改名操作。然后,观察一段时间,确保对业务无影响以后再删除这张表。
- 改表名的时候,要求给表名加固定的后缀(比如加 _to_be_deleted),然后删除表的动作必须通过管理系统执行。并且管理系统删除表的时候,只能删除固定后缀的表。
3.3 延迟复制备库
如果有 非常核心 的业务,不允许太长的恢复时间,可以考虑搭建延迟复制的备库。一般的主备复制结构存在的问题是,如果主库上有个表被误删了,这个命令很快也会被发给所有从库,进而导致所有从库的数据表也都一起被误删了。
延迟复制的备库是一种特殊的备库,通过 CHANGE MASTER TO MASTER_DELAY = N 命令,可以指定这个备库持续保持跟主库有 N秒的延迟 。比如你把N设置为3600,这就代表了如果主库上有数据被误删了,并且在1小时内发现了这个误操作命令,这个命令就还没有在这个延迟复制的备库执行。这时候到这个备库上执行stop slave,再通过之前介绍的方法,跳过误操作命令,就可以恢复出需要的数据。
此外,延迟复制p可以用来解决以下问题:
- 用来做延迟测试,比如做好的数据库读写分离,把从库作为读库,那么想知道当数据产生延迟的时候到底会发生什么,就可以使用这个特性模拟延迟。
- 用于老数据的查询等需求,比如你经常需要查看某天前一个表或者字段的数值,你可能需要把备份恢复后进行查看,如果有延迟从库,比如延迟一周,那么就可以解决这样类似的需求。
4. 误删MySQL实例
对于一个有高可用机制的MySQL集群来说,不用担心rm删除数据了。只是删掉了其中某一个节点的数据的话,HA系统就会开始工作,选出一个新的主库,从而保证整个集群的正常工作。我们要做的就是在这个节点上把数据恢复回来,再接入整个集群。