当MirrorView复制出现不同的故障时,比如生产服务器和存储间连接断开、单个SP异常或者整台存储设备异常,如何缩短磁盘掉线的时间、保证数据一致性以及尽量减小数据恢复对用户产生的影响?
生产存储(Primary Storage)上的故障情景
情景描述 | 状态 | 应对措施 |
生产存储整台设备异常 | 任意状态 | 选择一: 管理员将备选存储上的Secondary LUN提升成Primary LUN。当应用程序的数据恢复后,备选服务器可以再次访问数据。 注:生产存储出现故障时正在写入的IO无法传输给备选存储。此外,如果此时备选存储镜像当时正处于Fractured非同步状态,那么Fracture开始后写入的IO也无法传输给备选存储。 |
选择二: 修复并重启生产存储,然后用WIL(write intent log) 同步Secondary LUN。如果WIL尚未配置,则需要完全同步。 | ||
生产存储上次控SP(Secondary SP)异常 | 任意状态 | 修复该SP,数据访问不受其影响。 |
生产存储上主控SP(Primary SP)异常 | 服务器向主控SP的LUN发出IO请求 | IO请求被生产存储拒绝,服务上的多路径软件发起LUN trespass,将该LUN切换到次控SP上,然后用WIL同步Secondary LUN。 |
生产存储上主控SP(Primary SP)异常并重启。SP不可用时没有IO请求 | 任意状态 | 检查所有Primary LUN和Secondary LUN的状态 |
Primary LUN和Secondary LUN处于in-sync状态 | 无需操作 | |
Primary LUN和Secondary LUN处于synchronizing状态 | 如果完全同步中断,从上一次更新的时间开始重新同步。 如果使用fracture log的同步中断,需要完全同步。如果镜像用WIL同步,可以进行差量同步。 如果Auto Sync启用的话,同步会中开始,否则管理员需手动开始同步。 | |
Primary LUN和Secondary LUN处于out-of-sync状态 | 需要完全同步。如果Auto Sync启用的话,同步会中开始,否则管理员需手动开始同步。 | |
Primary LUN和Secondary LUN处于consistent状态 | 如果Primary LUN使用WIL,Primary LUN中尚未同步的区域会写入Secondary LUN中。如果Primary LUN没有使用WIL,Secondary LUN变成 out-of-sync状态,需要完全同步。如果Auto Sync启用的话,同步会中开始,否则管理员需手动开始同步。 | |
路径故障-Primary LUN从原先的主控SP切换到次控SP | LUN处于consistent或者in-sync状态 | 在LUN切换时暂停相应I/O,Fracture Log(MV/S)或者Reserved LUN(MV/A)切换到另一个SP上。 |
Primary LUN正在和Secondary LUN 同步 | 在新的主控SP(原来次控SP)上继续同步。 | |
Secondary LUN处于fractured状态 | Fracture Log(MV/S)或者Reserved LUN(MV/A)从当前的主控SP切换到另一个SP上。 | |
后端(Back End)故障 | 任意状态 | 如果I/O能通过内部CMI重定向到另一个SP,主机仍然可以访问数据,镜像也会继续更新。 |
Media Error: 数据写入 | 返回服务器报错信息,任何Secondary images都变成admin fractured状态 | |
Media Error: Write intent log | 关闭Write intent log,镜像变成admin fractured状态。 | |
Reserved LUNs 满容量(MV/A) | MV/A更新 | 镜像变为admin fractured,用户须向RLP增添容量,然后继续更新。 |
备份存储(Secondary Storage)上的故障情景
情景描述 | 状态 | 应对措施 |
备份存储整台设备异常 | 任意状态 | 修复并重启备份存储, Secondary LUN变成Fractured。 除非在in-sync状态,须启用同步。 |
备份存储上次控SP(Secondary SP)异常 | 任意状态 | 无需操作。修复该SP,数据访问不受其影响。 |
备份存储上主控SP(Primary SP)异常并重启。 | 生产存储检测到故障,并且暂停Secondary LUN。 如果有故障的SP有段时间无法访问,管理员须手动切换Primary LUN到其次控SP。 当有故障的SP恢复正常,需要进行同步(除非在in-sync状态)。如果LUN是consistent或者synchronizing,系统会使用fracture log进行同步。否则需要实施完全同步。 | |
路径故障- LUN从原先的主控SP切换到次控SP | 无需操作。 | |
后端(Back End)故障 | 任意状态 | 如果I/O能通过内部CMI重定向到另一个SP,主机仍然可以访问数据,镜像也会继续更新。 |
Media Error: 数据写入 | 镜像变成admin fractured状态。当故障修复后,管理员开始同步。 | |
Reserved LUNs 满容量(MV/A) | MV/A更新 | 镜像变成admin fractured状态。用户须向RLP增添容量,然后继续更新。 |