主流数据容灾技术介绍及对比
目 录
一、 主流数据容灾技术介绍 2
(一) 应用级数据复制技术 2
(二) 逻辑复制技术(比如STREAMS,GOLDENGATE,DSG等) 2
(三) 数据库软件级容灾解决方案---ORACLE DATAGUARD 3
(四) 操作系统级别容灾解决方案---镜像卷管理 4
(五) 基于交换机容灾解决方案 4
(六) 存储硬件级容灾解决方案---存储同步/异步复制技术 4
(七) 存储硬件级备份、容灾统一解决方案---持续数据保护技术 5
(八) 容灾技术逻辑分布图 7
二、 主流数据容灾技术对比 8
(一) 存储级CDP与传统备份系统优势对比 8
(二) 存储级CDP与存储级镜像容灾系统优势对比 8
(三) VERITAS VVR与RECOVERPOINT对比 9
(四) 飞康CDP与RECOVERPOINT对比 12
一、 主流数据容灾技术介绍
随着全球信息化时代的到来,信息数据越来越成为企业关注的焦点,即在各种自然灾害或者人为破坏的情况下,如何保证生产数据的安全和关键业务的不中断运行。传统的保护方法离线备份、备份介质异地保存在一定程度上可以解决上述问题,但为了能够对业务系统提供更高的实时性和可靠性,保证关键业务7x24不中断,应对激烈的市场竞争和提高客户满意度,企业必须在IT系统围绕“连续”(BC)主题进行构建,实施业务连续/容灾备份计划,包括业务连续性、高可用性管理、容灾、数据复制和恢复方案、安全等,下面就对数据复制技术做一个简单的介绍。
根据数据复制运行的位置,可以将数据复制方式分为以下几种:
(一) 应用级数据复制技术
应用级数据复制是指在应用软件层面将数据写指令分拆,即写主生产系统又写容灾系统,实现一个写操作同时在多份目标上生效,一旦主生产系统发生物理故障,容灾系统可以继续对外提供数据服务,一般在中间件层面实现此功能;
(二) 逻辑复制技术(比如STREAMS,GOLDENGATE,DSG等)
逻辑复制技术一般用于数据库异构同步,常见产品如:Streams Replication(流复制),GoldenGate,DSG,实现原理基本一致,例如:GoldenGate。
GoldenGate软件是一种基于日志的结构化数据复制软件,它通过解析源数据库在线日志或归档日志获得数据的增量变化,再将这些变化应用到目标数据库,从而实现源数据库与目标数据库同步。GoldenGate 可以在异构的IT基础结构(包括几乎所有常用操作系统平台和数据库平台)之间实现大量数据的实时复制(大概5秒以内的延迟),从而在可以在应急系统、在线报表、实时数据仓库供应、交易跟踪、数据同步、集中/分发、容灾等多个场景下应用。
同时,GoldenGate可以实现一对一、广播(一对多)、聚合(多对一)、双向、点对点、级联等多种灵活的拓扑结构。
因为采用的是在线日志或归档日志的分析手段,所以软件的兼容性比较高,基本上不挑操作系统,只和数据库的版本有关,目前9i以上的数据库库版本基本支持。
也正因为采用的在线日志或归档日志的分析手段,所以数据库需要设置成归档模式。必须打开补充日志,打开force logging(强制日志模式,就是所有的操作都会记入日志)。
并且这种模式就注定了存在几个问题不能解决,比如说表空间的扩容,源数据库扩容后,目标客户机不会跟着一起扩容等一些无法用日志重现的操作都不会被同步。
综上所述,GoldenGate的亮点还是在异构上,但是作为玩家级的产品,对于用户真正的实用价值还是很值得继续深入研究。这样的软件还是越简单越容易为用户所用。
另外,GoldenGate和Streams Replication是Oracle自身的产品,内部机制支持比较好。而非Oracle原厂来做这个功能,对Oracle底层机制的理解可能不到位,如:一旦更改日志模式,或者将日志加密,都会出现很大的问题。
(三) 数据库软件级容灾解决方案---Oracle dataguard
DATA GUARD的最主要的功能是冗灾。当然根据配置的不同,DATA GUARD还可以具备以下特点:高可用、性能提升、数据保护以及故障恢复等。
DATA GUARD可以分为物理STANDBY和逻辑STANDBY两种。二者的最大差别在于,物理STANDBY应用的是主库的归档日志,而逻辑STANDBY应用的是主库的归档日志中提取的SQL语句。由于二者这一点的区别,决定了物理STANDBY无论从逻辑结构和物理结构都是和主库保持一致,而逻辑STANDBY则只需保证逻辑结构一致,且逻辑STANDBY在应用SQL语句的时候,数据库可以处于打开的状态。
如果从DATA GUARD的保护模式分,可以分为三种不同的保护模式:
保护最大化:这种模式的配置可以保证主库和备库的同步,任何情况下主库的损毁都不会导致已提交数据的丢失。如果主库和备库之间的网络出现问题,或者备库本身出现问题,都会导致主库停止数据处理。
可用最大化:这种模式和上面一种类似,也是会保证主库和备库的同步,区别在于,当网络或备库不可用时,主库仍然可以继续处理。
性能最大化:主库和备库是异步的。这种模式可能在主库出现损毁时,丢失一部分数据。但是这种模式对主库负荷最小,因此具有最好的性能。
1.最大保护模式:(如果采用这种模式,最好能建立多个standby database,以确保日志能够至少归档到一台备用机上,减少down机的机会。)
1).这种模式提供了最高级别的数据保护能力
2).重做日志在至少一个物理从库数据库后,主库的事务才能够提交
3).主库找不到合适的从库写入时,主库会自动关闭,防止无保护的数据出现
4).优点:该模式可以保证从库没有数据丢失
5).缺点:主库的自动关闭会影响到主库的可用性,同时需要从库恢复后才能提交,对网络等客观条件要求非常的高,主库的性能会受到非常大的影响。
2.最大可用性模式:(如果只有一台standby,又不想有数据丢失的话,推荐采用这种模式。)
1).这种模式提供了仅次于“最大保护模式”的数据保护能力
2).重做日志在至少一个物理从库数据库后,主库的事务才能够提交
3).主库找不到合适的从库写入时,主库不会关闭,而是临时降低到“最大性能模式”模式,直到问题得到处理
4).优点:该模式可以在没有问题出现的情况下保证从库没有数据丢失,是一种折中的方法
5).缺点:在正常运行的过程中缺点是主库的性能收到诸多因素的影响
3.最大性能模式:
1).默认模式,提供主数据库的最高可用性
2).保证主库运行过程中不受从库的影响,主库事务正常提交,不因从库的任何问题影响到主库的运行
4).优点:避免了从库对主数据库的性能和可用性影响
5).缺点:如果与主库提交的事务相关的恢复数据没有发送到从库,这些事务数据将被丢失,不能保证数据无损失
(四) 操作系统级别容灾解决方案---镜像卷管理
第一种为操作系统本身的卷管理,当前主流操作系统都支持逻辑卷管理,如:Windows将基本磁盘升级为卷后可以支持空间合并及镜像,Linux的LVM逻辑卷管理,AIX的MirrorVG等等,它们即可对物理磁盘进行镜像也可以对分区进行管理。
第二种为第三方软件公司的卷管理,如Symantec公司的Veritas Volume Replicator (VVR),是存储卷的复制技术。需要占用主机一定的系统资源。
采用这种方案的优点是:
1、 成本便宜,操作系统自带功能,无需单独购买,只要系统是正版,没有法律风险;(VVR需要按节点购买)
2、 兼容性强,支持几乎所有的存储;
3、 部署灵活,可以实现主机层对存储的细化管理;
4、
但缺点也很明显,如:
1、 对后端到存储访问带宽要求较高,要求两块存储空间性能一致,IO访问带宽一致;
2、 对操作系统依赖较大,一旦操作系统或卷上文件系统出现问题,有数据丢失风险;
3、 占用主机处理性能较大,会吃掉一部分CPU和内存资源,影响业务系统运行;
(五) 基于交换机容灾解决方案
运行于挂接在存储网络上的专用设备中,代表厂商有CISCO的SANTap,FalconStor IPStor,Topio SANsafe,DataCore SANsymphony, Asynchronous Internet Mirroring (AIM)等,支持在存储交换机层对写数据进行分拆,不过这种技术还是需要后端存储和前端主机的配合,一般打包到其它容灾方案中,以实现对异构存储的支持,如EMC RecoverPoint就支持这种功能,进而实现数据在存储交换层的分拆,再结合自身的管理实现异构的容灾。
(六) 存储硬件级容灾解决方案---存储同步/异步复制技术
代表厂商有EMC SRDF、EMC MirrorView S/A、IBM PPRC/GDPS 、HP BusinessCopy、HDS TrueCopy等,特点对主机透明,对应用系统的影响较小,技术成熟,有较多的成功案例,但是投资较大,对网络连接的要求也较高。
采用这种方案两站点数据会完全一致,能快速提供单站点数据故障替换,从而快速恢复生产系统,但不能提供逻辑错误数据保护,如:数据误删除等;
(七) 存储硬件级备份、容灾统一解决方案---持续数据保护技术
持续数据保护(CDP)技术是对传统数据备份技术的一次革命性的重大突破。传统的数据备份解决 方案专注在对数据的周期性备份上,因此一直伴随有备份窗口、数据一致性以及对生产系统的影响等问题。现在,CDP为用户提供了新的数据保护手段,系统管理 者无须关注数据的备份过程(因为CDP系统会不断监测关键数据的变化,从而不断地自动实现数据的保护),而是仅仅当灾难发生后,简单地选择需要恢复到的时 间点即可实现数据的快速恢复。
CDP技术通过在操作系统核心层中植入文件过滤驱动程序,在存储交换机层完成写指令分拆、在存储层完成数据分拆等方式,来实时捕获所有文件访问操作。对于需 要CDP连续备份保护的文件,当CDP管理模块经由文件过滤驱动拦截到其改写操作时,则预先将文件数据变化部分连同当前的系统时间戳(System Time Stamp)一起自动备份到UnaCDP存储体。从理论上说,任何一次的文件数据变化都会被自动记录,因而称之为持续数据保护。
当前主流的有两家,飞康CDP和EMC RecoverPoint,后者有以下特征:
支持任意时间点恢复数据 可以捕获并记录每一个写I/O操作,当数据需要恢复时,用户可从时间点中选择,使应用程序能够基于以前的事务快速地从任一时间点恢复
写I/O捕获方式 支持从主机上、SAN智能交换机或者阵列上等三种方式捕获写I/O
SAN智能交换机的支持 支持采用Brocade SAS协议或Cisco SANTap 协议的智能SAN交换机
保证应用数据的一致性 提供一致性组功能,可以将某个特定应用程序的所有LUN绑定到一个一致性组中,以确保事务向以前时间点的回滚同时进行,从而确保应用程序的一致恢复
事件书签集成 可以由应用程序和系统自动生成事件书签,也可以由用户向系统输入自己的书签,通过书签,将系统范围的事件(端口故障、系统错误等)与潜在的损坏事件关联起来,管理员可以通过选择书签来恢复数据,从而确保恢复的数据是正确的。
数据保护方式 对于捕获的写I/O,既支持同步复制到本地站点,也支持异步复制到远程容灾站点。以上两种方式可以配合使用,提供对同一数据卷的并行本地和远程保护。
快照整合功能 提供快照整合功能,可以让用户能够决定将捕获的每一个写I/O操作保留多久,在哪一时间点将数据更改整合成一个每日、每周或每月恢复点,从而让用户能够以一致性组为单位优化使用的日志空间,这样只使用其一部分就可以跟踪每一个写操作;余下的空间可用于保存每日、每周或每月映像。
同步复制距离 支持同步复制到最远达30公里的辅助站点
异步复制传输方式 捕获的写I/O通过异步复制到远程容灾站点是,可以通过IP网络传输,也可以选用光纤通道传输。
复制带宽优化 能够不断测量两个站点间的带宽,并根据优先级、压缩及其他参数以动态方式,满足RPO 的要求
目标端处理功能 支持在执行故障切换之前装载复制的映像以处理和检查一致性的能力
主机性能影响 采用“带外”基于网络的应用装置,不在主 I/O 路径中进行监控和数据保护,不影响主机性能
主机 IP 影响 不使用 LAN 通信量,并且不向客户的 IP 网络增加负载
可扩展性 提供线性扩展能力,每个应用装置吞吐量 >50MB/s,可以通过添加更多应用装置,实现性能的线性扩展,每个系统最多可以扩展到八个应用装置。
支持多种操作系统 支持各种主流操作系统,包括AIX,HP-UX,Solaris,RedHat Linux,SuSE Linux,Windows,VMWare ESX等。
支持多个厂家的存储阵列 支持EMC,HDS,HP ,IBM,LSI,SUN,NetApp,3Par等多家存储阵列
集群软件的支持 支持HACMP、HP Service Guard、MSCS、Oracle RAC、VCS等多种集群软件
多路径软件的支持 支持DMP、ESX Native、HDLM、HP-MPIO、MPIO、PowerPath、RDAC、SDD-DSM等多路径软件
管理界面 提供可在多种主机系统上运行的基于 Java 的管理界面,使管理员能够集中管理所有的操作,包括设置复制关系和参数、查看复制状态、恢复到某一时间点,和启动生产故障切换等。
(八) 容灾技术逻辑分布图
二、 主流数据容灾技术对比
以上介绍的各种数据容灾技术因属于不同的架构,我们只对存储层数据容灾进行对比。
(一) 存储级CDP与传统备份系统优势对比
1) 可快速恢复业务系统运行不用执行数据恢复流程
当业务系统发生宕机或数据丢失时,传统备份需要执行数据恢复流程,对业务数据执行完全或不完全恢复,数据恢复期间业务不能对外提供服务,通常为小时级别以上停机;
而CDP只需要在控制台中稍做操作即可将某时间点数据提供给业务主机使用,停机时间一般为秒或分钟级,对业务运行影响较小。
2) 具备更细粒度可恢复数据点,减少数据丢失风险
传统备份都有备份窗口设置,每次备份都要有主机参与,牺牲主机资源,并影响业务性能,当数据量较大时,为避免长时间影响业务性能,备份窗口通常要以天或周为单位进行设置,时间窗口内的数据有丢失风险;
而CDP保护数据为秒级或IO级,可提供更细化的时间点保护,且整个过程可不必主机参与,对业务影响最小;
但二者可以做为一个整合,备份适合更长时间点的数据保护,而CDP适合短时间内的数据保护;
3) 保留可恢复时间点数据占用空间更少,初始复制后只存变化数据
传统备份除全备外也有增量和差额备份,但对于空间的节约比还是无小于CDP,因为CDP直接应用于变化的数据块,是存储内部块机制;而传统备份在块基础上还通过了操作系统的文件系统管理、应用层分配等;
(二) 存储级CDP与存储级镜像容灾系统优势对比
1) 支持异构存储平台间的数据复制
2) 支持任意时间点的数据恢复,更方便实现操作恢复的需求
3) 复制卷更加灵活可用
复制卷可以在不中断同步复制关系的情况下激活使用
Recover Point支持在生产卷和复制卷进行同步复制数据的同时,可以将复制卷用于测试、分析、开发、备份等其它用途;
而存储级镜像容灾则必须要停止同步关系,并去除生产卷和复制卷的MIRROR定义后才可以用。
复制卷可以进行修改,并可以回退到修改前的状态
Recover Point支持这种应用模式,更加方便测试开发工作;
存储级镜像容灾不支持此功能。
4) 可以随时对复制卷进行验证
Recover Point提供验证工具,可以随时通过验证服务器来验证复制卷的可用性;
存储级镜像容灾不支持此功能。
5) 近程站点容灾可以获得更好的业务连续性和操作灵活性
当距离在20KM内的两地容灾项目建设中,RecoverPoint/CDP比存储级镜像容灾同步方式在同样保持数据0丢失的前提下,还能满足恢复到任意时间点的操作恢复功能需求。
(三) Veritas VVR与RecoverPoint对比
1) 不支持连续数据保护;
2) 每个应用的每个服务器的每个操作系统上都要装一个软件模块,不同操作系统软件还不一样,属于分布式容灾架构,和现在用户数据中心建设向集中化,统一化,标准化的思路背道而驰,不是企业级数据中心的架构,属于中小企业IT系统的容灾方案;
3) 所有应用系统的文件系统都必须升级到Veritas的文件系统格式,升级过程对正在运行的核心业务系统稳定运行是一个重大考验;如果未来考虑各省的统一灾备,各省系统也同样需要升级所有文件系统,对于所有省的IT运维都是风险极高的操作;
4) VVR内部进行远程数据复制时,其实没有对每个I/O记录时间点,只是通过批次传送I/O,每个批次才有一个时间点,这样会有极大概率造成容灾中心的数据库应用无法正常启动,需要很长的修复时间,甚至导致数据库无法正常恢复;
5) VVR复制软件是安装在操作系统核心模块之上的,对操作系统kernel性能没有控制调节能力,如果应用系统对服务器压力较大,将直接导致容灾系统停顿同时影响原有生产系统。这种操作系统之上的软件复制技术,也证明了它主要是用于中小企业规模的容灾;
RecoverPoint和Veritas VVR方案比较
EMC RecoverPoint Veritas VVR
远程数据复制和本地连续保护架构 不同模块,灵活配置,任意组合,在本方案中,采用远程容灾连续数据保护模块,未来可灵活扩展本地连续数据保护功能 只有远程数据镜像模块,没有数据连续性保护功能,不能防止逻辑性错误的数据恢复
统一管理模式 在RP上统一管理,配置,监控整个容灾环境,符合用户统一管理的要求 VVR要求分散的管理, 单独的版本控制, 不同操作系统必须安装安装不同的软件,在每台服务器上对不同的应用单独设置其功能
对现有应用系统环境影响 不在现有系统环境,包括数据库服务器上安全任何软件,不修改操作系统和文件系统配置,不改变现有系统连接,确保生产系统稳定性 每个需要进行容灾的服务器系统都需要将文件系统重新改为Veritas Volume manger文件系统,可能需要格式化现有应用的文件系统,重新迁移数据等操作,对现有应用系统影响极大
对现有应用系统性能影响 带外连接架构,对生产系统性能无影响,在上海容灾中心实际测试证明 VVR使得应用触发的1次写入操作转变成4次服务器的写操作,同时至少15% 的本地/异地服务器资源额外开销. 百分比随着异地节点的增加而增加. 同时, 应用服务器越忙, VVR造成的额外开销就越大, 对应用程序运行的影响也就越大,在异地的服务器上造成的”过载”会被放大若干倍
对磁盘阵列的性能要求 完全透明,支持多种RAID保护。 VERITAS 建议4个磁盘镜像外加日志的空间. VVR的数据在底层仍然需要本地/异地的阵列中的RAID保护. 当使用VVR时, Veritas常警告客户当心RAID-5的性能问题,是因为VVR对磁盘的使用隔了很多层次:File Systems—VVR—Volume Manager—OS Device—Storage LUN—Hard Drives, 因此相对效率低下而导致的
数据连续性保护机制 以I/O为单位,颗粒度极高,能够按客户要求随时进行数据回滚操作,真正实现数据连续保护和恢复 原理是数据镜像,不支持逻辑数据回滚,不支持数据连续保护。即使配置其他快照软件配合,也无法实现I/O级的数据逻辑恢复
远程传输性能 支持IP,同时数据传输具备压缩功能1:2到1:10,极大降低数据传输带宽 没有数据传输压缩功能,要求广域网带宽高,同时VVR 对每1次应用触发的写入操作要求有3个IP指令(write request, network acknowledge, write acknowledge),性能差
实施维护 只需要维护RP系统,对现有和未来新增生产系统环境透明 由于VVR必须装在所有服务器操作系统上,需要对每台服务器进行维护,服务器的更改如操作系统或应用程序的升级,将需要非常负杂的过程:卸载-重装-配置-测试-调整来保证复制功能仍然可用,如有必要还必须回退,而这将导致整个服务器端的升级无法完成.
可扩展性和高可靠性 缺省配置2个控制服务器,组成集群,实现故障自动切换和负载均衡功能,最大一个集群可以扩展到8个节点。同时对应用系统扩展完全透明 每台服务器需要按CPU收取许可,同时每个新的应用系统需要安装新的软件,重新配置容灾架构和流程,复杂性随着复制系统的扩展或增长而同步增长, 且增长幅度非常快
适用范围 大中型数据中心多应用系统统一容灾环境,统一容灾管理,对应用系统影响较小 小规模IT环境,单一应用系统容灾解决方案。
(四) 飞康CDP与RecoverPoint对比
1) 在中国多将运维外包给第三方个人和公司,技术运维能力有待考验;
2) 容灾技术架构主要针对中小企业规模的IT应用;
3) 对原有系统的性能影响很大,压力较小时看不出,但是大规模数据中心的多应用并发压力下,无法保证应用系统和容灾系统的稳定运行;
4) 必须先本地备份再远程复制,增加用户投资和管理难度
比较如下:
EMC RecoverPoint FalconStor IPstor
远程数据复制和本地连续保护架构 不同模块,灵活配置,任意组合,在本方案中,采用远程容灾连续数据保护模块,未来可灵活扩展本地连续数据保护功能 技术局限,必须捆绑一起。必须先作本地数据连续性保存,再进行远程复制。用户配置增加,国家局20TB生产数据必须在主运行中心额外购买至少40TB左右的裸空间存储设备保存本地备份数据。
对现有应用系统配置环境影响 不在现有系统环境,包括数据库服务器上安装任何软件,确保生产系统稳定性 每个数据库服务器均需要安装agent,开销系统资源,影响系统稳定性
对现有应用系统性能影响 带外连接架构,对生产系统性能无影响,在上海容灾中心实际测试证明 带内连接方式,采用和主I/O通道镜像方式,影响系统性能,尤其是在大规模的数据中心内部使用,影响明显
数据连续性保护机制 以I/O为单位,颗粒度极高,真正实现数据连续保护和恢复 在实际实施案例中,多采用快照方式,不是真正的数据连续性方案
可扩展性和高可靠性 缺省配置2个控制服务器,组成集群,实现故障自动切换和负载均衡功能,最大一个集群可以扩展到8个节点 一个集群只有两个节点,没有扩展性
|