成功案例
中国医学科学院


中国医学科学院

存储系统技术建议书

第一章  前言

中国医学科学院(下称医科院)成立于1956年,是我国唯一的国家级医学科学学术中心和综合性医学科学研究机构。医科院与协和医大实行院校合一的管理体制,医科院为协和医大提供雄厚的师资和技术力量,协和医大为医科院培养高层次的人才,相互依托,优势互补,教研相长。院校设有18个研究所(以及2个分所)、5所分院、7所临床医院(含与北京市共建的天坛医院)、5所学院。

  针对中国医学科学院提出建立一套高效、可扩展、高性价比的海量存储系统的需求,而且这种存储系统既要求采用先进的存储技术又要求具有很高的稳定性和可靠性,同时系统必须便于中远期的的扩展。我公司通过对中国医学科学院存储系统的需求进行深入了解,从实际出发,提出了对中国医学科学院存储系统技术方案。

第二章  中国医学科学院存储系统需求

1. 方案设计原则

中国医学科学院实际上是一个以存储为中心的分布式计算机系统,面对海量的文本、图形、图像、音频、动态视频信息等在内的多媒体数字化对象数据。应用服务器必须能提供很高的数据吞吐能力、可扩展性和容错能力;存储子系统应能提供TB级以上的存储容量和完美的数据管理手段,包括灾难恢复、文件检索、备份、安全存储、复制数据与分层存储管理。

根据中国医学科学院的总体要求以及IT系统的自身规律性,并充分考虑到业务系统的特点,我们在设计存储系统时,将遵循下述设计原则:

1) 集中化的数据存储架构

存储架构能够适应应用系统目前及未来存储容量的需求,又能够对存储资源进行集中化管理和利用,为适应业务系统提供一个集中、安全、可靠的存储环境。

2) I/O、高性能的存储架构         

应用系统的所有数据需要集中的存储系统支持,即同时连接多台应用服务器,而且必须兼备很高的I/O性能才能胜任。

3) 可保护投资的存储架构

整个应用系统数据的增长速度较快。因此在建设整个应用系统存储架构时,应从长远的角度考率,建设一个长期的存储架构,除了可以应对存储硬件设备的升级速度外,还必须考虑到对前期存储设备的投资保护,在保证不断提供功能和性能提高的同时,存储架构在较长的时间内能够保持相对稳定。

4) 高可用性与高数据安全性

数据是业务系统核心应用的最终保障,不但要保证整套系统能够安全运行,而且存储系统必须有高可用性,以保证应用系统对数据的随时存取。同时配置安全的备份系统,对应用数据进行更加安全的数据保护,降低人为操作失误或病毒袭击给业务系统造成的数据丢失。

5) 灵活的扩展性

结合业务系统的数据量增长情况,以及为满足以中国医学科学院的信息化建设的技术要求,存储系统必须具有强大的扩展性来满足这种高速发展的要求,以便将来的平滑升级。

6) 可行性原则

l 对设计方案采用的技术和产品要进行严格的可行性论证,把风险降低到最低限度;

l 设计的方案要系统、科学、正确、严谨且现实可行;

l 采用的先进技术应是成熟的经过实践证明是成功的技术;

l 选用的软硬件平台是信誉较高的大公司的名牌产品。

7) 简单易用的管理工具

业务系统的核心是数据存储,所以存储设备的数据分类和管理功能十分重要。为了提高系统管理的效率、管理的安全性,存储系统必须有便于使用的存储管理工具。

同时,对业务系统中的数据进行备份是为了进一步保证系统数据的安全性,消除系统使用者和操作者的后顾之忧。对于数据备份系统,要满足以下原则:

Ÿ 稳定性

备份产品的主要作用是为系统提供一个数据保护的方法,于是该产品本身的稳定性就变成了最重要的一个方面。一定要与操作系统100%的兼容。

Ÿ 全面性

在复杂的计算机网络环境中,可能会包括了各种操作平台,如NetWare、Windows NTUNIX等,并安装了各种应用系统,如数据库、群件系统等。选用的备份软件,要支持各种操作系统、数据库和典型应用。

Ÿ 自动化

很多单位由于工作性质,对何时备份、用多长时间备份都有一定的限制。在下班时间系统负荷轻,适于备份。可是这会增加系统管理员的负担,由于精神状态等原因,还会给备份安全带来潜在的隐患。因此,备份方案应能提供定时的自动备份,并利用磁带库等技术进行自动换带。在自动备份过程中,还要有日志记录功能,并在出现异常情况时自动报警。

Ÿ 高性能

随着业务的不断发展,数据越来越多,更新越来越快,在休息时间来不及备份如此多的内容,在工作时间备份又会影响系统性能。这就要求在设计备份时,尽量考虑到提高数据备份的速度。

Ÿ 安全性

计算机网络是计算机病毒传播的高速通道,给数据安全带来极大威胁。如果在备份的时候,把计算机病毒也完整的备份下来,将会是一种恶性循环。因此,要求在备份的过程中有查毒、防毒、杀毒的功能,确保无毒备份。

Ÿ 操作简单

数据备份应用于不同领域,进行数据备份的操作人员也处于不同的层次。这就需要一个直观的、操作简单的图形化用户界面,缩短操作人员的学习时间,减轻操作人员的工作压力,使备份工作得以轻松地设置和完成。

Ÿ 实时性

有些关键性的任务是要24小时不停机运行的,在备份的时候,有一些文件可能仍然处于打开的状态。那么在进行备份的时候,要采取措施,实时地查看文件大小、进行事务跟踪,以保证正确地备份系统中的所有文件。

Ÿ 容错性

数据是备份在磁带或磁盘上的,对备份介质进行保护,并确认备份介质中数据的可靠性,也是一个至关重要的方面。

雅宝路数据中心存储系统架构设计

2. 存储架构设计

根据我公司与中国医学科学院的相关领导及技术人员的长期的交流和沟通。并从中国医学科学院IT系统建设的实际需求出发,本期雅宝路数据中心存储系统采用SAN+IP SAN的存储网络作为的基础存储架构。FC SAN连接关键业务系统,IP SAN可连接非关键业务系统,从而实现分级存储,降低存储系统成本。为保证整套应用系统的数据安全,以及为用户提供7×24小时的数据查询和应用访问,建议整套存储系统设计成为完全冗余的网络结构,即在整套应用系统中(包括存储系统)不存在单故障点。在线磁盘存储系统建议采用EMC CX4-480C。

连接到FC SAN上的关键业务系统服务器,需要配置专用的HBA光纤通道存储卡,针对中国医学科学院服务器数量较多的情况,建议在服务器与EMC CX4-480CF之间配置2台SAN光纤存储交换机,从而构成冗余SAN网络。

在每台关键业务系统服务器上安装2块光纤通道卡(HBA),同时存储系统中配置2台光纤交换机,每台应用主机上的2块光纤通道卡分别与2台光纤交换机相连。磁盘阵列前端主机接口板(控制器)均为冗余配置,分别与2台光纤交换机相连。这样便构成了冗余的SAN网络。在主机端安装EMC PowerPath故障切换软件,配合主机的集群系统软件,实现应用的安全切换。


我公司建议建立完备的数据备份系统。推荐对数据库采用RAID 0+1(或RAID 6)保护的同时,可采用EMC SnapView对生产数据进行本地镜像,以确保在生产数据损坏时,可通过事先做好的另一份数据(快照卷)进行快速的数据恢复。


针对中国医学科学院领导对关键业务系统数据的本地磁盘备份要求,可根据实际要求,灵活配置快照/克隆。


分类存储:

· 为了提高关键数据库系统的处理性能,推荐采用RAID0+1方式进行存储,对生产数据采用FC磁盘进行保存,对于备份数据可采用SATA磁盘保存。

关键生产数据库系统可采用15000转的FC磁盘进行存储,安全性、处理性能更高。历史数据、备份数据、历史归档数据可采用7200转的SATA磁盘存储,降低存储成本。

3. 备份系统

为了保证应用系统的绝对安全,避免因人为的操作错误,系统软件或应用软件的缺陷、硬件的损毁、电脑病毒、黑客攻击、自然灾难等等诸多因素可能造成数据的丢失,我公司建议建立一套完善的数据备份系统,配置备份软件及备份设备实现数据的在线备份。同时,为了预防区域性灾难,而导致数据的丢失,建议建立一套备份系统,可采用EMC NetWorker和EMC DL磁盘库(虚拟磁带库),实现数据的自动备份。

3.1  备份系统需求

备份系统担负着业务处理主机的日常备份的重要工作,其数据的安全性关系到整个系统能否正常的运行,最终关系到能否提供正常的服务。

目前,业务系统中需要灾备系统实现的目标包括:

l 备份业务系统软件环境,包括文档、源代码、目标代码、配置文件、配置数据库表等,保证在灾难情况下能快速恢复运行;

l 备份中心的业务数据,包括原始数据和衍生数据;

l 能够对业务数据进行增量、全量备份;

l 对各业务系统的数据进行即时的备份,保证业务系统的数据能准确、快速地存放到备份介质上;

l 需要备份到本次配置的磁盘设备上;

l 对备份介质能进行妥善保管、维护。

3.2  备份系统设计原则

1、遵循系统硬件功能一体化的要求

设备按功能配置,实现设备的集中、统一管理和共享使用。

2、兼顾实用性和可扩展性

整个配置要考虑实用性和可扩展性,充分满足当前各系统数据不断增加和需远程备份的要求,并能支持业务发展需要,实现平滑升级。

3、兼顾成熟性与先进性

在保证系统可靠运行的基础上,选用成熟、先进的技术和设备,使构建的数据存储备份系统有较先进的技术水平,适应今后的拓展。

4、推动整合备份,保护已有投资

充分利用已有资源,将现有硬件设备(小型机以及Windows服务器等)有机整合入本项目建设方案中,保护投资。

充分利用目前的备份系统架构,在此基础上对数据进行进一步的保护。

第三章  业务连续性解决方案

1. 信息系统保护层次概述

通过与中国医学科学院相关技术人员的沟通,了解到:如果由于系统停机而引起数据业务系统的瘫痪,会影响到整个集团的正常业务,而数据丢失则造成关键业务数据的不准确。因此业务的连续性和数据的安全性对中国医学科学院信息系统是至关重要的。

现代的数据中心IT平台(包括主机平台、网络平台、存储平台等)的保护和恢复有不同的等级的技术手段,业务连续性建设的目标需要不断提高业务系统、数据的保护和恢复的等级。


                                                  不同层次的数据中心保护机制

如上图所示,对集中化数据中心的IT系统和业务数据进行保护可以有多种不同层次的保护方案,主要分为本地保护远程保护两个方面。

本地保护,即企业数据中心面向运营的保护及恢复包括三个层次:

1) 平台保护—主要是平台的高可用,如采用主机群集系统和高可用存储平台(包括SAN网络环境的高可用和存储系统的高可用),保证IT平台没有单点故障,实现业务和应用的高可用性。

2) 数据备份—对业务数据进行经常性的本地备份,在IT系统出现物理故障或逻辑故障时,数据备份都能提供可靠的数据保护。

3) 数据恢复—在出现数据错误或丢失时能够进行快速、可预见的数据恢复,减少IT系统的中断时间,降低对业务运营的影响。

建设了完善的本地保护和恢复后,企业需要规划建设面向灾难保护及恢复的“远程”数据及业务保护,它包括三个层次:

1) 远程的信息保护—是将企业的所有重要数据安全的存储在远程站点,提供保护,避免灾难性的事件破坏数据。

2) 远程处理—除了提供对生产数据的远程保护外,能够进行系统切换、回切及数据恢复等工作,从而在灾难事件发生时能够快速恢复业务运行。

3) 多数据中心保护—通过建设多个数据中心,采用多数据中心的数据保护、恢复技术,防范更大范围的灾难事件。


采用基于存储的容灾方案的技术核心是利用存储阵列自身的盘阵对盘阵的数据块复制技术实现对生产数据的远程拷贝,从而实现生产数据的灾难保护。在主数据中心发生灾难时,可以利用灾备中心的数据在灾备中心建立运营支撑环境,为业务继续运营提供IT支持。同时,也可以利用灾备中心的数据恢复主数据中心的业务系统,从而能够让企业的业务运营快速回复到灾难发生前的正常运营状态。


基于存储的容灾方案示意图如下:


                 图6. 基于存储数据复制技术的容灾方案示意图

采用基于存储的数据复制技术建设容灾系统是目前企业、政府采用较多的容灾方案,有非常多的应用案例,也是EMC公司本次给华为公司建议采用的容灾方案。

基于存储的容灾方案有两种方式:同步方式和异步方式,说明如下:

同步方式,可以做到主/备中心磁盘阵列同步地进行数据更新,应用系统的I/O写入主磁盘阵列后(写入Cache中),主磁盘阵列将利用自身的机制(如EMC的MirrorView/S)同时将写I/O写入后备磁盘阵列,后备磁盘阵列确认后,主中心磁盘阵列才返回应用的写操作完成信息。

异步方式,是在应用系统的I/O写入主磁盘阵列后(写入Cache中),主磁盘阵列立即返回给主机应用系统“写完成”信息,主机应用可以继续进行读、写I/O操作。同时,主中心磁盘阵列将利用自身的机制(如EMC的MirrorView/A)将写I/O写入后备磁盘阵列,实现数据保护。

采用同步方式,使得后备磁盘阵列中的数据总是与生产系统数据同步,因此当生产数据中心发生灾难事件时,不会造成数据丢失。

而采用异步方式应用程序不必等待远程更新的完成,因此远程数据备份的性能的影响通常较小,并且备份磁盘的距离和生产磁盘间的距离理论上没有限制。

基于存储的容灾技术方案是当前企业最优先选择的容灾技术平台,尤其是基于EMC公司的存储系统建设容灾方案有非常广泛的应用,这主要是由于基于存储的容灾技术方案—特别是EMC的容灾技术方案有如下优点

l 采用基于存储的数据复制独立于主机平台和应用,对各种应用都适用,而且完全不消耗主机的处理资源。

采用同步方式可以完全不丢失数据,在同城容灾或园区内容灾方案中,只要通信链路带宽许可,完全可以采用同步方案,而不会对主数据中心的生产系统性能产生显著影响。采用EMC基于存储的同步复制方式的容灾案例有很多,有非常多的成功经验。

l 采用异步方式虽然存在数据丢失的风险,但没有距离限制,可以实现远距离保护。

l 灾备中心的数据可以得到有效利用。

对于基于应用、基于主机、基于存储的三种容灾方案而言,灾备中心的数据通常不可用,仅为生产系统中的数据提供灾难保护和灾难恢复。但对采用基于存储技术的容灾方案中,有很灵活的技术手段可以充分利用灾备中心的数据,从而提高企业的业务运营效率,带来更多的投资回报。如下图所示:


                        图6. 基于存储的容灾方案有效利用灾备数据

如上图6所示,生产中心的“源数据”通过存储本身的数据复制机制被复制到了灾备中心,即“目标数据”。 “目标数据”在正常生产情况下是不可访问的,灾备中心的后备主机只能在灾难发生时,主中心服务停止后,才可以访问“目标数据”,接管主中心的服务(基于主机和应用的容灾方案的灾备中心数据与此类似)。但采用基于存储的容灾方案时,我们可以为“目标数据”建立一个快照或克隆,从而可以给到另外的服务器使用。

由于以上优点,基于存储灾难保护方案是目前采用最多的灾难保护方案,是各企业的灾难保护系统建设最优先的选择。

2. EMC CX系列同步数据复制技术

EMC CX系列存储能够支持存储对存储的数据复制技术,该技术被广泛用来构建企业关键信息数据平台的灾难保护系统。

CX系列的“同步“数据复制技术是利用CX存储的MirrorView功能模快,其工作原理如下:

采用EMC MirrorView同步模式数据复制技术有以下特点:

Ÿ 数据一致性保障

– 两个数据中心的数据完全保持一致,没有任何数据差异。

Ÿ 距离限制

– 支持最大200KM的数据同步复制

Ÿ 不需要服务器资源

– 独立于服务器操作系统、应用程序和文件系统

– 有效的带宽利用率

Ÿ 最好的系统可扩展能力

– 与应用、操作系统、数据库、网络透明使扩展变的很方便,包括容量的扩展、应用的扩展。

Ÿ 简单且价格可接受

– 用基于 Web 的 Navisphere 管理套件 GUI 进行设置和管理

– 在经济高效的 CLARiiON 平台上运行

3. EMC CX系列异步数据复制技术

EMC CX系列存储能够支持存储对存储的数据复制技术,该技术被广泛用来构建企业关键信息数据平台的灾难保护系统。

CX系列的“异步“数据复制技术是利用CX存储的MirrorView功能模快,其工作原理如下:



                                  图10. MirrorView 异步复制模式原理

采用EMC MirrorView异步模式数据复制技术有以下优点:

Ÿ 远距离复制

– 可定制的重启点(从几分钟到数小时乃至数天)

Ÿ 不需要服务器资源

– 独立于服务器操作系统、应用程序和文件系统

– 有效的带宽利用率

Ÿ 基于磁盘的副本加快了重启速度

– 始终都有一个可重启的数据“一致性”拷贝

Ÿ 简单且价格可接受

– 用基于 Web 的 Navisphere 管理套件 GUI 进行设置和管理

– 在经济高效的 CLARiiON 平台上运行

对于中国医学科学院而言,采用EMC CX系列MirrorView建设灾难保护方案的理想选择。

4. 中国医学科学院容灾系统方案

可根据中国医学科学院对信息系统的RPO/RTO等指标的要求,以及容灾备份中心设置的位置,与生产中心的距离,选用同步或异步的容灾方式。针对容灾系统建设方面,我公司希望有机会能与中国医学科学院的相关技术人员进行进一步沟通。

如果两数据中心之间仅有IP网络,则需要在两站点分别配置一台FCIP路由器,实现FC到IP网的协议转换,为了保证系统安全,建议采用冗余连接方式,及每台光纤交换机通过一个光纤接口与FCIP Router连接。容灾方式采用异步方式,确保本地应用系统的性能。在两站点的EMC CX磁盘阵列中配置MirrorView/A软件,实现两站点之间的数据互备。

如果两中心之间有独立的裸光纤,则可以考虑采用同步方式,即不需要FCIP Router进行相应的协议转换,仅通过光纤交换机连接即可,但需要确定两个站点之间的裸光纤的实际距离,在交换设备上配置相应的长波模块实现。

EMC CX4-480C同时配置了FC和iSCSI接口,以上两种方案均通过FC端口实现容灾备份,中间连接设备的成本较高。用户可根据实际情况,在东单数据中心采用一台EMC CX4的新存储系统,通过自带的iSCSI端口即可实现EMC CX4-480C之间的容灾数据复制,降低连接设备成本,同时提高东单数据中心存储系统性能。

5EMC业务连续性方案服务框架

业务连续性服务集成方法论(Business Continuity Solution Integration,简称BCSI)是EMC通过对多年实施业务连续性和容灾服务的所积累的经验进行总结和提炼,开发出来的业务连续性实施方法论模型,该实施方法在全球众多相关项目中广为使用并得到验证。

如下图所示,EMC在业务连续性服务方面有着一套完整的实施方法论,它包括规划(Plan)、建立(Build)、和管理(Manage)三个阶段的咨询和技术服务。

EMC BCSI方法论


   以下对EMC BCSI实施服务方法论作概要描述。


1.  评估当前的服务水平

Ÿ 与业务单位回顾并确认服务水平协议(SLAs,并确定各业务应用的RTORPO

Ÿ 针对每个应用,评估当前的系统架构和运作能力;并确定当发生故障或灾难时,当前系统的可用性、RTORPO

Ÿ 明确存在的弱点。

Ÿ 确定当前系统的可恢复能力。

2. 定义业务需求

Ÿ 回顾并验证现有的服务水平协议。

Ÿ 更新恢复和可用性服务水平定义。

Ÿ 将各个业务流程映射到相应的应用系统、基础设施和运作管理上。

Ÿ 明确各业务流程对应用系统和基础架构的依赖关系。

3. 评估可用性和恢复技术

Ÿ 基于数据分层的模型,进行系统架构平台的分析,设计可行的系统架构。

Ÿ 对可选的恢复技术进行评估。

Ÿ 建立高层次成本估算

4. 基础架构设计

Ÿ 根据业务连续性需求的恢复策略,回顾当前的系统架构连接,系统配置和容量规划。

Ÿ 衡量当前的应用性能及服务水平。

Ÿ 分析容量需求。

Ÿ 选择合适的技术来满足所需的服务水平。

Ÿ 提出对硬件、软件和网络配置的详细建议。

Ÿ 提出全面的技术架构来指导方案的实施。

5. 实施规划

Ÿ 制定详细的技术实施计划。

Ÿ 回顾项目实施方法。

Ÿ 确认项目实施的逻辑和流程。

Ÿ 定义项目实施的限制条件。

Ÿ 制定详细的项目计划。

Ÿ 制定成本计划以平衡开发、测试、和维护等活动。

6. 测试及实施

Ÿ 安装并配置必需的恢复系统架构组件(硬件/软件)。

Ÿ 按计划对应用进行迁移,并降低系统停机时间。

Ÿ 新系统架构的测试。

Ÿ 在新的系统架构中,稳定应用的运行。

Ÿ 对系统设计的准确性和完全性进行回顾。

7. 开发恢复及切换计划

Ÿ 通过研讨会来指导开发应用恢复流程。

Ÿ 开发并且书面化应用系统的切换及回切步骤。

Ÿ 开发并且书面化业务连续性计划。

8. 集成测试和演习

Ÿ 制定演习场景。

Ÿ 制定演习计划。

Ÿ 确定参与人员

Ÿ 确定期望的结果和成功要素

Ÿ 实施演习

9. 业务连续性更新

Ÿ 明确业务连续性目标。

Ÿ 确定人员和技能要求。

Ÿ 根据既定需求,确定所需的行动以确保系统架构和运作的可行性。

Ÿ 回顾当前的变更管理、配置管理和发布管理的流程。

Ÿ 修正和完善。

10. 资源管理、改进及衡量

Ÿ 回顾资源需求和技能状况。

Ÿ 检查变更管理流程、步骤和文档资料。

Ÿ 分析关键的性能指标(KPI)及趋势。

Ÿ 教育及培训。


在未来的容灾项目中,我们将针对容灾项目的实际情况,通过对EMC BCSI实施方法进行客户化,制定出适合中国医学科学院信息系统灾项目的实施规划。