联系我们
南京宇宽科技有限公司 |
HA集群
作者:PEICE | 点击:3060 | 录入时间:2014/7/24
一 集群概述 集群技术可如下定义:一组相互独立的服务器在网络中表现为单一的系统,并以单一 系统的模式加以管理。此单一系统为客户工作站提供高可用性的服务。大多数模式下,集群中所有的计算机拥有一个共同的名称,集群内任一系统上运行的服务可被 所有的网络客户所使用。集群必须可以协调管理各分离的组件的错误和失败,并可透明地向集群中加入组件。一个集群包含多台(至少二台)拥有共享数据存储空间 的服务器。任何一台服务器运行一个应用时,应用数据被存储在共享的数据空间内。每台服务器的操作系统和应用 程序文件存储在其各自的本地储存空间上。集群内各节点服务器通过一内部局域网相 互通讯。当一台节点服务器发生故障时,这台服务器上所运行的应用程序将在另一节点服务器上被自动接管。当一个应用服务发生故障时,应用服务将被重新启动或 被另一台服务器接管。当以上的任一故障发生时,客户都将能很快连接到新的应用服务上。 集群的特点有: 1高可扩展性,可以加入新的节点,扩大集群; 2高可用性,HA集群中的一个节点失效它的任务可传递给其他节点; 3高性能负载,平衡集群允许系统同时接入更多的用户; 4高性价比,可以采用廉价的符合工业标准的硬件构造高性能的系统。
二 HA概述高可用High Availability集群简称HA集群。这类集群致力于提供高度可靠的服务。就是利用集群系统的容错性对外提供7*24小时不间断的服务如高可用的文 件服务器、数据库服务等关键应用。负载均衡集群使任务可以在集群中尽可能平均地分摊不同的计算机进行处理充分利用集群的处理能力提高对任务的处理效率。在 实际应用中这几种集群类型可能会混合使用以提供更加高效稳定的服务。如在一个使用的网络流量负载均衡集群中就会包含高可用的网络文件系统、高可用的网络服 务。
高可用集群主要是有两个或者多个节点进行工作,从上图可知一套ha基本组成部分包括四个部分:
1,位于最底层的信息和基础架构层(Messaging and Infrastructure),主要用于节点之间传心跳信息。节点之间传递心跳信息可以通过广播,组播,单播等方式。 2,第二层为成员关系(Membership)层,这层最重要的作用是主节点通 过cluster consensus menbership service(CCM或者CCS)这种服务由第一层提供的信息,来生产一个完整的成员关系。这层主要实现承上启下的作用,承上->将下层产生的信 息生产成员关系图传递给上层以通知各个节点的工作状态;启下->将上层对于隔离某一设备进行实施。 3,第三层为资源分配层(Resource Allocation),真正实现集群服务的层。在该层中每个节点都运行一个集群资源管理器(CRM,cluster Resource Manager),它能为实现高可用提供核心组件,包括资源定义,属性等。在每一个节点上CRM都维护有一个CIB(集群信息机库 XML文档)和LRM(本地资源管理器)组件。 对于CIB,只有工作在DC(主节点)上的文档是可以修改的,其他CIB都是复 制DC上的那个文档而来的。对于LRM,是执行CRM传递过来的在本地执行某个资源的执行和停止的具体执行人。当某个节点发生故障之后,是由DC通过 PE(策略引擎)和TE(实施引擎)来决定是否抢夺资源。 4,第四层为资源代理层,集群资源代理(能够管理本节点上的属于集群资源的某一资源的启动,停止和状态信息的脚本)。 HA 计算机系统的可靠性用平均无故障时间MTTF来度量即计算机系统平均能够正常运行多长时间才发生一次故障。系统的可靠性越高平均无故障时间越长。 HA的可维护性用平均维修时间MTTR来度量即系统发生故障后维修和重新恢复正常运行平均花费的时间。系统的可维护性越好平均维修时间越短。 计算机系统的可用性定义为MTTF,MTTF=MTTR*100。由此可见计算机系统的可用性定义为系统保持正常运行时间的百分比。 HA负载均衡服务器的高可用性,主服务器和备份机上都运行High Availability监控程序通过传送诸如“I am alive”这样的信息来监控对方的运行状况。当备份机不能在一定的时间内收到这样的信息时它就接管主服务器的服务IP并继续提供服务当备份管理器又从主 管理器收到“I am alive”这样的信息是它就释放服务IP地址这样的主管理器就开始再次进行集群管理的工作了。 HA的容错备援运作过程,自动侦测Auto-Detect阶段由主机上的软件通 过冗余侦测线经由复杂的监听程序。逻辑判断来相互侦测对方运行的情况所检查的项目有主机硬CPU和周边、主机网络、主机操作系统、数据库引擎及其它应用程 序、主机与磁盘阵列连线。为确保侦测的正确性而防止错误的判断可设定安全侦测时间包括侦测时间间隔 侦测次数以调整安全系数并且由主机的冗余通信连线将所汇集的讯息记录下来以供维护参考。 HA的有三种方式 主从式:正常情况下,工作都由主服务器承担,从服务器不工作;只有当主机宕机时,从服务器才开始工作。 另外,正常情况下,只有主服务器mount(挂载)在存储上,从服务器不进行 mount。 从服务器配置要比主服务器配置低一些。 主服务器上必须有vip(虚拟IP)、service(服务)、share storage(公用存储)。一旦主服务器宕机,这三样东西都自动切换到从服务器上。 缺点:性能不稳定,但相对于对称式稳定,因为从服务器只承担一个服务。 对称式:真对于两个不同的服务,两台服务器 互为主从关系,没有绝对的主,也没有绝对的从。如:server1既作为MYSQL的主又作为NFS的从,server2既作为MYSQL的从又作为 NFS的主,两台服务器虽然同时运行,但只运行自己为主的服务。 两台服务器都mount在存储上,并同时工作。 必须双控制器 缺点:sharestorage造价高,至少3万;一旦,一台机器宕机,另外一台就要负载两个服务,稳定性差 集群式:结合以上两种方式的优点,集群式采用三台或三台以上服务器同时工作,service1为主服务、service2为主服务、server3为servece1和service2为从服务。 正常情况下,server1和server2同时分当不同的服务进行工 作,server3作为server1的从服务器和作为server2的从服务器不工作,只有当server11宕机时,server3作为 server1的从才开始工作;或当server2宕机时,server3作为server2的从开始工作。 优点:相对于对于对称式,稳定性提高 缺点:sharestorage造价更高;一旦server1和server2同时宕机,server3就要承担两个服务,稳定性能下降,当然这种情况的几率要比对程式低。 三 HA相关软件现在用于实现HA集群的主要软件有
主要用作RealServer的健康状态检查以及LoadBalance主机和BackUP主机之间failover的实现。 2,Heartbeat是基于主机或网络的服务的高可用方式。它是Linux的HA组件。 四 IBM 与HAHA by Middleware: DB2 HADR,WAS 集群,CICS集群 HA by OS: AIX LVM镜像,HACMAP for AIX HA by Hardware: 服务器:冗余的处理器、I/O适配器卡、电源、内置磁盘RAID技术保护 外置磁盘,I/O总线、SAN交换机、LAN、LAN交换机 通过磁盘复制:FlashCopy,Metro/Global mirror IBM有基于POWER的HA集群,IBM PowerHA SystemMirror。 |
|