>>所属分类 >> 通信技术    移动通信   

高可用性群集

背景:计算机群集系统的发展己有十余年历史了,其最初模型分化为两个不同的领域即高性能(HP)和高可用(HA)。群集系统大体上可以定义为:“互相连接的并行或分布的计算机集合,它们使用统一的计算资源”Ill。并行计算机系统侧重群集系统的高性能以及延展方面的性能,一般被称作WSCs (Workstation Clusters)或NOWs (Network OfWorkstations),而事务/任务关键系统则侧重于群集系统的高可用性,即被称作HA群集系统。

理论上,群集模型应不仅能提供高性能而且提供高可用性,另外应该具有可管理性、可延展性和高性价比,然而为了达到这一目的,群集系统软件仍需不断地改进。并行系统领域里,群集系统主要是提供延展性以及通过使应用程序在系统内不同的结点机上同时运行来增强处理能力,这同传统上的巨并行计算机(MPCs, Massively ParallelComputers)相较最大的优点就是造价低。实际上,同80年代的那些昂贵的、专用的、巨大的并行计算机系统相比,群集系统在90年代的出现就是满足人们对高性能的追求且花费相对便宜的要求。群集系统继承了许多分式系统的研究成果,当然,群集系统和分布式系统有着许多明显的不同,这使得前者的实现更容易一些。群集计算机是典型的同质系统,其结点机具有紧密祸合的特点,更为重要的是,结点之间相互信任(分布系统必须处理那些不被信任的结点)。

但群集系统并非无所不能的。因为系统中存在为数众多的硬件部分增加了出错的可能性。一个群集系统可能包括成千上万个结点,如果应用程序出现错误,则故障可能会成急速上升。Leslie Lamport(分布式系统的创始者之一)明确地指出:“分布式系统中的错误使你根本不知道是什么原因造成计算机无法正常使用。”

群集系统中的错误,特别会对那些长期运行的程序产生不好的影响,如大规模的科学计算等,因而在出现错误时,某种可以保证应用程序运行连续性的技术成为必需。

同样,在并行计算方面也有相同的需求,从事务或任务关键系统的角度看,群集系统就是一组即统一又相互独立的计算机系统,它们共享名空间,而且被设计为具有容错性和支持热结点增减的系统,这种结点的增减对用户是透明的,其问题的焦点并非在性能上而是其可用性上。




基本原理:
计算机系统的可用性(availability)是通过系统的可靠性(reliability)和可维护性(maintainability)来度量的。工程上通常用平均无故障时间(MTTF)来度量系统的可靠性,用平均维修时间(MTTR)来度量系统的可维护性。于是可用性被定义为:   MTTF/(MTTF+MTTR)*100%

业界根据可用性把计算机系统分为如下几类:  

可用比例
(Percent Availability) 年停机时间

(downtime/year) 可用性分类

99.5 3.7天 常规系统(Conventional)

99.9 8.8小时 可用系统(Available)

99.99 52.6分钟 高可用系统(Highly Available)

99.999 5.3分钟 Fault Resilient

99.9999 32秒 Fault Tolerant

高可用集群就是采用集群技术来实现计算机系统的高可用性。高可用集群通常有两种工作方式:

容错系统:通常是主从服务器方式。从服务器检测主服务器的状态,当主服务工作正常时,从服务器并不提供服务。但是一旦主服务器失效,从服务器就开始代替主服务器向客户提供服务。   负载均衡系统:集群中所有的节点都处于活动状态,它们分摊系统的工作负载。一般Web服务器集群、数据库集群和应用服务器集群都属于这种类型。




WINDOWS NT高可用群集的实现模式:
Windows NT将资源主要分为三种:资源、资源组和群集,它有三种主要模式:

1)共享硬盘模式:最早的服务器群集允许每个服务器访问每个硬盘,实现这种模式需要昂贵的专用线缆和切换器,以及专用的软件和应用程序,这意味着每年在服务器上开发的数百万应用程序中只有很少可以在群集上使用,而且负责协调到共享硬盘访问的专用软件— 分布式加锁管理器(Distributed lock Manager)在扩展性上有其固有的限制,在群集中增加服务器时DLM拥塞会呈几何级数增长。

2)镜像硬盘模式:一种比共享硬盘更为灵活的方法,每个服务器拥有自己的硬盘,再用软件将硬盘上的数据拷贝到至少一台其他的服务器上。使负责灾难恢复的服务器上保存有一份与主服务器同步的数据。如今有许多种硬盘镜像解决方法,如支持Windows NT环境的Octopus, Vinca和Li f eKeeper [301。然而,镜像硬盘技术不能提供群集的扩展性,更重要的是,镜像数据必然导致主服务器的性能下降,同时由于镜像数据总存在一定时间差,2个服务器上的数据不可能100%相同,因此无法保证数据的完整性。

3)非共享模式:微软的群集服务器采用的是这种模式,即每个服务器拥有自己的硬盘资源,在同一时刻服务器间不共享硬盘。在某个服务器失效时,非共享群集中的软件可将硬盘拥有权从失效服务器传递给正常运行的服务器。与镜像硬盘模式相比,这种模式只有一份数据,因而不需要进行数据拷贝,同时也没有数据的不同步问题,在性能和数据完整性上有更好的表现,与共享硬盘模式相比,这种模式下不会有多个服务器同时读写一块硬盘,不需要分布式加锁管理器。使群集具有更好的扩展性;同时对应用程序而言,在工作时与非高可用性状态下没有区别。它支持标准化的硬件和软件,降低了群集的成本。

现状及发展方向:高可用群集系统起初演化自双结点冗余的配置,随着对计算性能要求的不断提高,逐渐地它可以支持多个结点机,并且通过均衡负载对参与运算的结点机提供了额外的机制以充分利用其聚合计算的性能优点,这使得高性能和高可用性的关系变得愈为密切。虽然高性能和高可用性的发展并非是同步的,但事实上,高性能并行计算机和高可用性的发展可谓是相辅相呈的。并行处理是将多个处理单元整合以达到高性能的目的,而只有具有一定的容错性才能形成有效的并行计算,这是因为容错性使得应用程序运行的连续性得以保证;另外一方面,由于并行处理技术从本质上提供给了高可用系统一种重要的因素即整体架构的冗余,因此高性能技术又促进了高可用技术的发展。

附件列表


→如果您认为本词条还有待完善,请 编辑词条

上一篇无线移动通信下一篇高性能群集

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
0

收藏到:  

词条信息

baikeeditor
baikeeditor
圣贤
词条创建者 发短消息   
  • 浏览次数: 1209 次
  • 更新时间: 2010-11-24

相关词条