成功案例
国家卫生和计划生育委员会

项目背景

随着新农合系统的深化建设,业务对IT系统的依赖性逐渐加强,保障新农合业务连续运行的重要性凸显。新农合结算是现行信息类系统中最为关键的业务系统之一,影响面广,连续性运行要求高,此次项目将围绕新农合系统的关键保护需求,对包括新农合应用系统进行统一灾备系统规划、设计和建设,制定灾难恢复预案制定并开展灾备演练。

结合以上项目背景和相关行业要求,总结本次项目主要目标为

1. 业务量快速增长对生产系统的压力增大业务的迅猛发展对IT物理设施、IT基础架构、应用系统的容量和性能都提出了较高的要求,对IT体系架构和运维支持保障业务连续性生产的也提升了要求;

2. 通过此次新农合等业务系统灾备项目建立起样板工程,通过对医科信息研究所应用的特征分析和典型设计,为其他系统灾备建设奠定基础和树立标杆;

3. 防范可能的不同级别的灾难的发生(设备、机房、区域性等)成为目前风险防范的重点;

4. 需要制定成体系的、规范的灾难恢复制度和计划;

5. 需要建设规范的、有清晰责任定义的灾难恢复管理组织;

6. 灾备机制需要针对核心生产进行有计划的演练,以确保灾备中心的真实可用。

灾备系统整体部署方案

2.1 系统部署现状

本次项目涉及新农合个系统中,其中新农合系统生产部署在雅宝路机房,其物理部署以及架构如下图所示:

u 新农合系统

位于雅宝路机房,主要有一套数据库和多套应用,数据库部署在2台未做逻辑分区的小型机上,应用部署在服务器。数据库是oracle 11.2.0.3,搭建了RAC环境,通过冗余的SAN网络把数据部署在两台EMC存储;应用服务器大约6台,应用数据放置在刀片内置磁盘。

截至到目前各数据库数据量情况见下表:

数据库及实例名

总数据量(TB)

Archive log数据量(GB)

高峰期Archive log变化量(MB/s)

平均每天

最大帐单日

前置库

7

10

15

0.3

中心库

7

10

20

0.5

 

14

20

35

0.8

2.2 灾备系统目标架构

根据前述技术方案和生产中心改造方案及东单灾备中心环境搭建方案,灾备系统的目标架构如下:



2.3 灾备需求

本次灾备系统建设的总体目标是实现项目范围内系统的应用级容灾,即当生产中心发生故障时,经过系统切换后灾备中心可以继续支撑业务系统的运行。从容灾数据、RPORTO这三项容灾关键指标来看,各业务系统具体的容灾需求如下:

u 新农合系统

容灾数据:oracle数据库数据和应用数据

RPO0分钟

RTO1小时

2.4 灾备技术方案

u 新农合系统

新农合系统需要把数据库数据复制到灾备中心,根据前期设计将通过ADG功能实现。

根据系统实际情况和客户需求,在最大保障系统生产系统安全性的前提下,要保证备库不能影响生产主库,针对本容灾方案,我们推荐采用Oracle Data Guard技术,模式选择我们采用物理dataguard模式,保护模式选择最大性能模式。

这种方式主库只有在发生归档时才会发送日志到备库,首先生产端主库有业务变更时候,发生日志切换时候,在本地归档同时,将归档日志通过网络传输到备端,备端通过mrp进程进行块级别的复制还原主库,达到数据库复制的目的,但是如果生产主库异常宕机,联机日志中的Redo内容没有来得及传输到备端,即会产生数据库丢失;


1.1 环境准备

1.1.1 生产中心环境改造

Ø 数据库归档准备

Ø 数据库备份准备

Ø 空间准备

1.1.2 灾备中心环境准备

为了实现应用级容灾,灾备中心需要提供服务器、存储、SAN网络、IP网络等硬件设施以及操作系统、数据库、中间件和应用程序等软件。总体来看:

1. 各系统的服务器将按照1:1的原则配置与生产中心相同个数的操作系统,且保持与生产中心相当的计算能力;

2. 新农合系统的存储将提供与生产中心容灾数据完全相同的存储空间;新农合系统的存储将提供总大小80TB的空间;

3. 各系统的SAN网络和IP网络将提供冗余网络设施,IP配置将在灾备中心提供一套单独的IP

操作系统、数据库和中间件等软件与生产中心保持版本一致。