vSphere可用性Update2VMwarevSphere7.
0VMwareESXi7.
0vCenterServer7.
0您可以从VMware网站下载最新的技术文档:https://docs.
vmware.
com/cn/.
VMware,Inc.
3401HillviewAve.
PaloAlto,CA94304www.
vmware.
com威睿信息技术(中国)有限公司北京办公室北京市朝阳区新源南路8号启皓北京东塔8层801www.
vmware.
com/cn上海办公室上海市淮海中路333号瑞安大厦804-809室www.
vmware.
com/cn广州办公室广州市天河路385号太古汇一座3502室www.
vmware.
com/cn版权所有2009-2021VMware,Inc.
保留所有权利.
版权和商标信息vSphere可用性VMware,Inc.
2目录关于vSphere可用性61业务连续性和最小化停机时间7减少计划的停机时间7防止非计划停机时间8vSphereHA提供快速中断恢复8vSphereFaultTolerance提供连续可用性9使用vCenterHighAvailability保护vCenterServer9使用VMwareServiceLifecycleManager保护vCenterServer102创建和使用vSphereHA集群11vSphereHA的工作方式11首选主机和辅助主机12主机故障类型12确定对主机问题的响应13虚拟机和应用程序监控15虚拟机组件保护16网络分区17数据存储检测信号17vSphereHA安全性17vSphereHA准入控制19集群资源百分比准入控制19插槽策略准入控制21专用故障切换主机准入控制23vSphereHA互操作性24将vSphereHA与vSAN配合使用24结合使用vSphereHA和DRS25其他vSphereHA互操作性问题26创建vSphereHA集群27vSphereHA对照表27在vSphereClient中创建vSphereHA集群28配置vSphere可用性设置29配置故障响应30配置ProactiveHA32配置准入控制33配置检测信号数据存储34设置高级选项35VMware,Inc.
3适用于VMwarevSphereHighAvailability集群的最佳做法38网络连接的最佳做法38互操作性的最佳做法40集群监控最佳做法40HAVIB行为的更改413为虚拟机提供FaultTolerance42FaultTolerance的工作方式42FaultTolerance用例43FaultTolerance要求、限制和许可43FaultTolerance互操作性44FaultTolerance不支持的vSphere功能44不与FaultTolerance兼容的功能和设备45将FaultTolerance功能与DRS配合使用45为FaultTolerance准备集群和主机46FaultTolerance对照表46为主机配置网络47创建集群和检查合规性48使用FaultTolerance48打开FaultTolerance时的验证检查48打开FaultTolerance49关闭FaultTolerance50挂起FaultTolerance51迁移辅助虚拟机51测试故障切换51测试重新启动辅助虚拟机52升级用于FaultTolerance的主机52启用FaultTolerance加密53FaultTolerance的最佳做法54旧版FaultTolerance55容错虚拟机故障排除55硬件虚拟化未启用56无兼容主机可用于辅助虚拟机56过载主机上的辅助虚拟机降低主虚拟机的性能57在FT虚拟机中发现网络延迟时间增加57某些主机的FT虚拟机过载58无法访问FT元数据数据存储58为打开电源的虚拟机打开vSphereFT失败59vSphereDRS未放置或撤出FT虚拟机59FaultTolerant虚拟机故障切换60vSphere可用性VMware,Inc.
44vCenterHighAvailability61规划vCenterHA部署62vCenter架构概览62vCenterHA硬件和软件要求63vSphereClient中的配置工作流概述63配置网络64使用vSphereClient配置vCenterHA65管理vCenterHA配置67设置SNMP陷阱68设置环境以使用自定义证书68管理vCenterHASSH密钥69启动vCenterHA故障切换69编辑vCenterHA集群配置70执行备份和恢复操作71移除vCenterHA配置71重新引导所有vCenterHA节点72更改服务器环境72收集vCenterHA节点的支持包72vCenterHA环境故障排除73vCenterHA克隆操作在部署过程中失败73重新部署被动或见证节点74vCenterHA部署失败并显示错误74已降级vCenterHA集群的故障排除75从隔离的vCenterHA节点中恢复76解决故障切换故障76VMwarevCenterHA警报和事件77修补vCenterHighAvailability环境78vSphere可用性VMware,Inc.
5关于vSphere可用性《vSphere可用性》介绍提供业务连续性的解决方案,包括如何建立vSphereHighAvailability(HA)和vSphereFaultTolerance.
VMware非常重视包容性.
为了在客户、合作伙伴和内部社区中促进这一原则,我们采用包容性语言创建内容.
目标读者此信息专供需要通过vSphereHA和FaultTolerance解决方案提供业务连续性的用户使用.
本书的目标读者为熟悉虚拟机技术和数据中心操作且具有丰富经验的Windows或Linux系统管理员.
VMware,Inc.
6业务连续性和最小化停机时间1无论是计划停机时间还是非计划停机时间,都会带来相当大的成本.
但是,用于确保更高级别可用性的解决方案通常都需要较大开销,并且难以实施和管理.
VMware软件可为重要应用程序提供更高级别的可用性,并且操作更简单,成本更低.
使用vSphere,您可以提高为所有应用程序提供的可用性基准级别,并且以更低成本和更简单的操作来实现更高级别的可用性.
使用vSphere,您可以:n独立于硬件、操作系统和应用程序提供高可用性.
n减少常见维护操作的计划停机时间.
n在出现故障时提供自动恢复.
vSphere可以减少计划的停机时间,防止出现非计划停机,并迅速从中断中恢复.
本章讨论了以下主题:n减少计划的停机时间n防止非计划停机时间nvSphereHA提供快速中断恢复nvSphereFaultTolerance提供连续可用性n使用vCenterHighAvailability保护vCenterServern使用VMwareServiceLifecycleManager保护vCenterServer减少计划的停机时间计划的停机时间通常占数据中心停机时间的80%以上.
硬件维护、服务器迁移和固件更新均需要将物理服务器停机.
为最小化此停机时间的影响,会强制组织延迟维护,直到出现不便且难以调度的停机时间段.
通过vSphere,组织可以显著减少计划的停机时间.
由于vSphere环境中的工作负载无需停机或服务中断就可以动态移动到其他物理服务器,所以服务器维护无需应用程序和服务停机就可以执行.
通过vSphere,组织可以执行以下任务:n消除常见维护操作的停机时间.
n消除计划的维护时间段.
VMware,Inc.
7n随时执行维护,无需中断用户和服务.
由于VMware环境中的工作负载无需中断服务即可动态移动到不同的物理服务器或基础存储器,所以,通过vSphere中的vSpherevMotion和StoragevMotion功能,组织可以减少计划的停机时间.
管理员可以快速而完整地执行透明的维护操作,无需强制调度不方便的维护时间段.
防止非计划停机时间在ESXi主机为应用程序的运行提供稳定平台时,组织还必须保护自身,避免出现硬件或应用程序故障所导致的非计划停机时间.
vSphere将重要功能构建到数据中心基础架构中,这有助于避免出现非计划停机时间.
这些vSphere功能是虚拟基础架构的一部分,因此,对操作系统以及虚拟机中运行的应用程序而言是透明的.
这些功能可以进行配置,而且可供物理系统上的所有虚拟机使用,从而降低成本并降低实现高可用性的复杂程度.
vSphere中内置的密钥可用性功能:n共享存储器.
通过在共享存储器(如光纤通道、iSCSISAN或NAS)上存储虚拟机文件来消除单一故障点.
可以使用SAN镜像和复制功能将虚拟磁盘的更新副本保留在灾难恢复站点.
n网络接口绑定.
允许单个网卡发生故障.
n存储多路径.
允许存储路径发生故障.
除了这些功能外,vSphereHA和FaultTolerance功能分别通过提供中断快速恢复和连续可用性来最小化或消除非计划停机时间.
vSphereHA提供快速中断恢复vSphereHA利用配置为集群的多台ESXi主机,为虚拟机中运行的应用程序提供快速中断恢复和具有成本效益的高可用性.
vSphereHA通过以下方式保护应用程序可用性:n通过在集群内的其他主机上重新启动虚拟机,防止服务器故障.
n通过持续监控虚拟机并在检测到故障时对其进行重新设置,防止应用程序故障.
n通过在仍然有权访问其数据存储的其他主机上重新启动受影响的虚拟机,可防止出现数据存储可访问性故障.
n如果虚拟机的主机在管理或vSAN网络上被隔离,它会通过重新启动这些虚拟机来防止网络隔离.
即使网络已分区,仍会提供此保护.
与其他集群解决方案不同,vSphereHA提供基础架构并使用该基础架构保护所有工作负载:n无需在应用程序或虚拟机内安装特殊软件.
所有工作负载均受vSphereHA保护.
配置vSphereHA之后,不需要执行操作即可保护新虚拟机.
它们会自动受到保护.
n可以将vSphereHA与vSphereDistributedResourceScheduler(DRS)结合使用以防止出现故障,以及在集群内的主机之间提供负载平衡.
vSphere可用性VMware,Inc.
8与传统的故障切换解决方案相比,vSphereHA具有多个优势:最小化设置设置vSphereHA集群之后,集群内的所有虚拟机无需额外配置即可获得故障切换支持.
减少了硬件成本和设置虚拟机可充当应用程序的移动容器,可在主机之间移动.
管理员会避免在多台计算机上进行重复配置.
使用vSphereHA时,必须拥有足够的资源来对要通过vSphereHA保护的主机数进行故障切换.
但是,VMwarevCenterServer系统会自动管理资源并配置集群.
提高了应用程序的可用性虚拟机内运行的任何应用程序的可用性变得更高.
虚拟机可以从硬件故障中恢复,提高了在引导周期内启动的所有应用程序的可用性,而且没有额外的计算需求,即使该应用程序本身不是集群应用程序也一样.
通过监控和响应VMwareTools检测信号并重新启动未响应的虚拟机,可防止客户机操作系统崩溃.
DRS和vMotion集成如果主机发生了故障,并且在其他主机上重新启动了虚拟机,则DRS会提出迁移建议或迁移虚拟机以平衡资源分配.
如果迁移的源主机和/或目标主机发生故障,则vSphereHA会帮助从该故障中恢复.
vSphereFaultTolerance提供连续可用性vSphereHA通过在主机出现故障时重新启动虚拟机来为虚拟机提供基本级别的保护.
vSphereFaultTolerance可提供更高级别的可用性,允许用户对任何虚拟机进行保护以防止主机发生故障时丢失数据、事务或连接.
FaultTolerance通过确保主虚拟机和辅助虚拟机的状态在虚拟机的指令执行的任何时间点均相同来提供连续可用性.
如果运行主虚拟机的主机或运行辅助虚拟机的主机发生故障,则会发生即时且透明的故障切换.
正常运行的ESXi主机将无缝变成主虚拟机的主机,而不会断开网络连接或中断正在处理的事务.
使用透明故障切换,不会有数据损失,并且可以维护网络连接.
在进行透明故障切换之后,将重新生成新的辅助虚拟机,并将重新建立冗余.
整个过程是透明且全自动的,并且即使vCenterServer不可用,也会发生.
使用vCenterHighAvailability保护vCenterServervCenterHighAvailability(vCenterHA)不仅能够在主机和硬件出现故障时提供保护,而且还能够在vCenterServer应用程序出现故障时提供保护.
使用自动故障切换功能从主动切换到被动,vCenterHA支持的高可用性可最大限度减少停机时间.
您从vSphereClient中配置vCenterHA.
配置向导提供以下选项.
vSphere可用性VMware,Inc.
9选项描述自动"自动"选项可以将主动节点克隆到被动节点和见证节点,并为您配置这些节点.
如果您的环境满足以下要求,您可以使用此选项.
n成为主动节点的vCenterServer要管理其自己的ESXi主机及虚拟机.
此配置有时称为自我管理vCenterServer.
手动"手动"选项更具灵活性.
如果您的环境满足硬件和软件要求,便可以使用此选项.
如果您选择此选项,您将负责将主动节克隆到被动节点和见证节点.
您还必须执行一些网络配置.
使用VMwareServiceLifecycleManager保护vCenterServerVMwareServiceLifecycleManager可提供vCenterServer可用性.
如果vCenter服务失败,VMwareServiceLifecycleManager会重新启动该服务.
VMwareServiceLifecycleManager监控服务的运行状况,并在检测到故障时采取预先配置的修复操作.
如果多次尝试修复均失败,服务将不会重新启动.
vSphere可用性VMware,Inc.
10创建和使用vSphereHA集群2vSphereHA集群允许ESXi主机集合作为一个组协同工作,这些主机为虚拟机提供的可用性级别比ESXi主机单独提供的级别要高.
当规划新vSphereHA集群的创建和使用时,您选择的选项会影响集群对主机或虚拟机故障的响应方式.
在创建vSphereHA集群之前,应清楚vSphereHA标识主机故障和隔离以及响应这些情况的方式.
还应了解接入控制的工作方式以便可以选择符合故障切换需要的策略.
建立集群之后,不但可以通过高级选项自定义其行为,还可以通过执行建议的最佳做法优化其性能.
注尝试使用vSphereHA时可能会获得错误消息.
有关与vSphereHA相关的错误消息的信息,请参见位于http://kb.
vmware.
com/kb/1033634的VMware知识库文章.
本章讨论了以下主题:nvSphereHA的工作方式nvSphereHA准入控制nvSphereHA互操作性n创建vSphereHA集群n配置vSphere可用性设置n适用于VMwarevSphereHighAvailability集群的最佳做法nHAVIB行为的更改vSphereHA的工作方式vSphereHA可以将虚拟机及其所驻留的主机集中在集群内,从而为虚拟机提供高可用性.
集群中的主机均会受到监控,如果发生故障,故障主机上的虚拟机将在备用主机上重新启动.
创建vSphereHA集群时,会自动选择一台主机作为首选主机.
首选主机可与vCenterServer进行通信,并监控所有受保护的虚拟机以及辅助主机的状态.
可能会发生不同类型的主机故障,首选主机必须检测并相应地处理故障.
首选主机必须能够区分故障主机与网络分区中的主机或已与网络隔离的主机.
首选主机使用网络和数据存储检测信号确定故障的类型.
SphereHA集群VMware,Inc.
11(http://link.
brightcove.
com/services/player/bcpid2296383276001bctid=ref:vSphereHAClusters)首选主机和辅助主机在将主机添加到vSphereHA集群时,代理将上载到主机,并配置为与集群内的其他代理通信.
集群中的每台主机作为首选主机或辅助主机运行.
如果为集群启用了vSphereHA,则所有活动主机(未处于待机或维护模式的主机或未断开连接的主机)都将参与选择集群的首选主机.
挂载最多数量的数据存储的主机在选举中具有优势.
每个集群通常只存在一台首选主机,其他所有主机都是辅助主机.
如果首选主机出现故障、关机或处于待机模式或者从集群中移除,则会进行新的选举.
集群中的首选主机具有多个职责:n监控辅助主机的状况.
如果辅助主机发生故障或无法访问,首选主机将确定必须重新启动哪些虚拟机.
n监控所有受保护虚拟机的电源状况.
如果有一台虚拟机出现故障,首选主机可确保重新启动该虚拟机.
首选主机还可使用本地放置引擎确定进行重新启动的位置.
n管理集群主机和受保护的虚拟机列表.
n充当集群的vCenterServer管理界面并报告集群运行状况.
辅助主机主要通过在本地运行虚拟机、监控其运行时状况和向首选主机报告状况更新来对集群提供支持.
首选主机也可运行和监控虚拟机.
辅助主机和首选主机都可实现虚拟机和应用程序监控功能.
首选主机执行的功能之一是协调受保护虚拟机的重新启动.
在vCenterServer观察到为响应用户操作,某虚拟机的电源状况由关闭电源变为打开电源之后,该虚拟机会受到首选主机的保护.
首选主机会将受保护虚拟机的列表保留在集群的数据存储中.
新选的首选主机使用此信息来确定要保护哪些虚拟机.
注如果断开主机与集群之间的连接,则向该主机注册的虚拟机将不受vSphereHA保护.
主机故障类型VMwarevSphereHighAvailability集群的首选主机负责检测辅助主机的故障.
根据检测到的故障类型,在主机上运行的虚拟机可能需要进行故障切换.
在vSphereHA集群中,检测三种类型的主机故障:n故障.
主机停止运行.
n隔离.
主机出现网络隔离.
n分区.
主机失去与首选主机的网络连接.
首选主机监控集群中辅助主机的活跃度.
此通信通过每秒交换一次网络检测信号来进行.
当首选主机停止从辅助主机接收这些检测信号时,它会在声明该主机出现故障之前检查主机活跃度.
首选主机执行的活跃度检查用于确定辅助主机是否正在与其中一个数据存储交换检测信号.
请参见数据存储检测信号.
此外,首选主机还检查主机是否对发送至其管理IP地址的ICMPping进行响应.
vSphere可用性VMware,Inc.
12如果首选主机无法直接与辅助主机上的代理通信,则辅助主机不会响应ICMPping.
如果代理未发出检测信号,则被视为出现故障.
会在备用主机上重新启动主机的虚拟机.
如果此类辅助主机正在与数据存储交换检测信号,首选主机会认为辅助主机在网络分区上或已与网络隔离.
因此,首选主机会继续监控该主机及其虚拟机.
请参见网络分区.
当主机仍在运行但无法再监视来自管理网络上vSphereHA代理的流量时,会发生主机网络隔离.
如果主机停止监视此流量,则它会尝试ping集群隔离地址.
如果此ping也失败,主机会声明它已与网络隔离.
首选主机会监控隔离主机上正在运行的虚拟机.
如果首选主机观察到虚拟机已关闭电源,且首选主机负责虚拟机,则会重新启动虚拟机.
注如果您确保网络基础架构具有足够的冗余度且至少有一个网络路径始终可用,则不太可能发生主机网络隔离.
ProactiveHA故障当主机组件发生故障时,即发生了ProactiveHA故障,这会导致冗余丢失或非灾难性故障.
但是,主机上的虚拟机的功能行为不会受到影响.
例如,如果主机出现电源故障,但是其他电源可用,则属于ProactiveHA故障.
发生ProactiveHA故障时,可在vSphereClient的"vSphere可用性"部分自动执行修复操作.
受影响主机上的虚拟机可以撤出到其他主机,并将该主机置于隔离模式或维护模式.
注您的集群必须使用vSphereDRS,以便ProactiveHA故障监控正常工作.
确定对主机问题的响应如果主机发生故障而必须重新启动虚拟机,您可使用虚拟机重新启动优先级"设置控制重新启动虚拟机的顺序.
您也可使用主机隔离响应设置,配置主机与其他主机失去管理网络连接时vSphereHA的响应方式.
发生故障后,vSphereHA重新启动虚拟机时还将考虑其他因素.
以下设置适用于主机发生故障或主机隔离时集群内的所有虚拟机.
此外,也可以为特定虚拟机配置异常.
请参见自定义单个虚拟机.
主机隔离响应主机隔离响应确定当vSphereHA集群内的某个主机失去其管理网络连接但仍继续运行时出现的情况.
您可以使用隔离响应使vSphereHA关闭隔离主机上运行的虚拟机的电源,然后在非隔离主机上将其重新启动.
主机隔离响应要求启用"主机监控状态".
如果"主机监控状态"处于禁用状态,则主机隔离响应将同样被挂起.
当主机无法与其他主机上运行的代理通信且无法ping其隔离地址时,该主机确定其已被隔离.
然后,主机会执行其隔离响应.
响应为"关闭虚拟机电源再重新启动虚拟机"或"关闭再重新启动虚拟机".
还可以为各个虚拟机自定义此属性.
注如果虚拟机的重新启动优先级设置为"已禁用",则不会做出任何主机隔离响应.
vSphere可用性VMware,Inc.
13要使用"关闭再重新启动虚拟机"设置,必须在虚拟机的客户机操作系统中安装VMwareTools.
将虚拟机关机的优点在于可以保留其状况.
关机操作优于关闭虚拟机电源操作,关闭虚拟机不会将最近的更改刷新到磁盘中,也不会提交事务.
在关机完成时,正在关机的虚拟机需要更长时间进行故障切换.
未在300秒内或在高级选项das.
isolationshutdowntimeout中指定的时间内关机的虚拟机将被关闭电源.
创建vSphereHA集群后,可以替代特定虚拟机的"重新启动优先级"和"隔离响应"的默认集群设置.
此替代操作对于用于特殊任务的虚拟机很有帮助.
例如,可能需要先打开提供基础架构服务(如DNS或DHCP)的虚拟机电源,再打开集群内的其他虚拟机电源.
如果主机已从首选主机隔离或分区,或首选主机无法使用检测信号数据存储与该主机通信,则可能会发生虚拟机"裂脑"情况.
在这种情况下,首选主机无法确定该主机处于活动状态,因此声明其已停止运行.
然后,首选主机尝试重新启动已隔离或已分区主机上正在运行的虚拟机.
如果虚拟机仍在已隔离/已分区主机上运行,且该主机在隔离或分区时失去对虚拟机数据存储的访问权限,则此尝试将成功.
然后,便会发生裂脑情况,因为存在两个虚拟机实例.
但是,只有一个实例能够读取或写入虚拟机的虚拟磁盘.
虚拟机组件保护可用于防止发生此裂脑情况.
使用激进设置启用VMCP时,它会监控已打开电源的虚拟机的数据存储可访问性,并关闭失去对其数据存储访问权限的虚拟机.
为了从此情况中恢复,ESXi会针对已丢失磁盘锁的虚拟机生成一个问题(关于主机何时摆脱隔离状态且无法重新获取磁盘锁).
vSphereHA将自动回答该问题,这就使已丢失磁盘锁的虚拟机实例关闭电源,只留下具有磁盘锁的实例.
虚拟机依赖关系可以在虚拟机组之间创建依赖关系.
要执行此操作,必须首先在vSphereClient中创建虚拟机组,方法是转到集群的配置选项卡,然后选择虚拟机/主机组.
创建组之后,可以在组之间创建重新启动依赖关系规则,方法是浏览到虚拟机/主机规则,然后在"类型"下拉菜单中,选择虚拟机到虚拟机.
这些规则可以指定在其他指定虚拟机组就绪之前,不会重新启动某些虚拟机.
重新启动虚拟机要考虑的因素发生故障后,集群的首选主机会确定一个可打开受影响虚拟机电源的主机,从而尝试重新启动这些虚拟机.
选择此类主机时,首选主机会考虑许多因素.
文件可访问性在可启动虚拟机之前,必须能够从可通过网络与首选主机通信的某个活动集群主机中访问该虚拟机的文件虚拟机与主机的兼容性如果存在可访问的主机,则虚拟机必须至少与其中一个主机兼容.
为虚拟机设置的兼容性包括任何所需虚拟机-主机关联性规则的影响.
例如,如果某个规则仅允许虚拟机在两个主机上运行,则会考虑将其放置在这两个主机上.
资源预留在可运行虚拟机的主机中,必须至少有一个主机具有足够的未预留容量以满足虚拟机的内存开销及任何资源预留.
可采用四种预留类型:CPU、内存、虚拟网卡和虚拟闪存.
此外,必须提供足够的网络端口,才能打开虚拟机电源.
vSphere可用性VMware,Inc.
14主机限制除了资源预留之外,一个虚拟机只能放置在一个主机上(如果这样做不会违反允许的虚拟机最大数量或正在使用的vCPU数量).
功能限制如果已设置需要vSphereHA强制执行虚拟机-虚拟机反关联性规则的高级选项,则vSphereHA不会违反此规则.
此外,vSphereHA不会违反为容错虚拟机配置的任何每主机限制.
如果没有任何主机满足上述注意事项,则首选主机会发布一个事件指出没有足够的资源让vSphereHA来启动虚拟机,并会在集群状况发生更改时进行重试.
例如,如果虚拟机不可访问,则首选主机会在文件可访问性发生更改后进行重试.
虚拟机和应用程序监控如果在设置的时间内没有收到单个虚拟机的VMwareTools检测信号,虚拟机监控将重新启动该虚拟机.
同样,如果没有收到虚拟机正在运行的应用程序的检测信号,应用程序监控也可以重新启动该虚拟机.
可以启用这些功能,并配置vSphereHA监控无响应时的敏感度.
启用虚拟机监控后,虚拟机监控服务(使用VMwareTools)将通过检查正在客户机内运行的VMwareTools进程的常规检测信号和I/O活动来评估集群内的每个虚拟机是否正在运行.
如果没有收到检测信号或I/O活动,则很有可能是客户机操作系统出现故障,或未分配给VMwareTools用来完成任务的时间.
在这种情况下,虚拟机监控服务会先确定虚拟机已发生故障,然后决定重新引导虚拟机以还原服务.
有时,仍然正常工作的虚拟机或应用程序会停止发送检测信号.
为了避免不必要的重置,虚拟机监控服务还监控虚拟机的I/O活动.
如果在故障时间间隔内未收到任何检测信号,则会检查I/O统计间隔(集群级别属性).
I/O统计间隔确定在前两分钟(120秒)内是否已发生与虚拟机有关的任何磁盘或网络活动.
如果没有,则重置该虚拟机.
可以使用高级选项das.
iostatsinterval更改此默认值(120秒).
要启用应用程序监控,必须先获取相应的SDK(或使用可支持VMware应用程序监控的应用程序),然后使用它来设置要监控的应用程序的自定义检测信号.
完成此操作后,应用程序监控的工作方式将与虚拟机监控的工作方式大致相同.
如果在指定时间内没有收到应用程序的检测信号,将重新启动其虚拟机.
您可以配置监控敏感度的级别.
高敏感度监控可以更快得出已发生故障的结论.
然而,如果受监控的虚拟机或应用程序实际上仍在运行,但由于资源限制等因素导致未收到检测信号,高敏感度监控可能会错误地认为此虚拟机发生了故障.
低敏感度监控会延长实际故障和虚拟机重置之间服务中断的时间.
请选择一个有效折衷满足需求的选项.
也可以通过选中自定义复选框来指定监控敏感度和I/O统计间隔的自定义值.
表2-1.
虚拟机监控设置设置故障时间间隔(秒)重置期高301小时中6024小时低1207天vSphere可用性VMware,Inc.
15检测到故障后,vSphereHA会重置虚拟机.
重置可确保这些服务仍然可用.
为了避免因非瞬态错误而反复重置虚拟机,默认情况下,在某个可配置的时间间隔内将对虚拟机仅重置三次.
在对虚拟机执行过三次重置后,指定的时间结束之前,vSphereHA不会在后续故障出现后进一步尝试重置虚拟机.
可以使用每个虚拟机的最大重置次数自定义设置来配置重置次数.
注当关闭虚拟机电源然后再次打开虚拟机电源时,或使用vMotion将虚拟机迁移到其他主机时,重置统计信息将被清除.
这将导致客户机操作系统重新引导,但不同于虚拟机电源状况发生更改的"重新启动".
虚拟机组件保护如果启用虚拟机组件保护(VMCP),vSphereHA可以检测到数据存储可访问性故障,并为受影响的虚拟机提供自动恢复.
VMCP可防止发生数据存储可访问性故障,这些故障可能会影响vSphereHA集群中主机上正在运行的虚拟机.
当发生数据存储可访问性故障时,受影响的主机无法再访问特定数据存储的存储路径.
您可以确定vSphereHA将对此类故障作出的响应,从创建事件警报到虚拟机在其他主机上重新启动.
注使用虚拟机组件保护功能时,ESXi主机的版本必须为6.
0或更高版本.
故障类型存在两种类型的数据存储可访问性故障:PDLPDL(永久设备丢失)是在存储设备报告主机无法再访问数据存储时发生的不可恢复的可访问性丢失.
如果不关闭虚拟机的电源,此状况将无法恢复.
APDAPD(全部路径异常)表示暂时性或未知的可访问性丢失,或I/O处理中的任何其他未识别的延迟.
此类型的可访问性问题是可恢复的.
配置VMCP在vSphereClient中配置虚拟机组件保护.
转到配置选项卡并单击vSphere可用性和编辑.
在故障和响应下,可以选择处于PDL状态的数据存储或处于APD状态的数据存储.
您可选择的存储保护级别以及可用的虚拟机修复操作根据数据库可访问性故障的类型而异.
PDL故障在处于PDL状态的数据存储下,可以选择发布事件或关闭虚拟机电源再重新启动虚拟机.
APD故障响应APD事件是更加复杂的,相应地配置是更加精细的.
可以选择发布事件、关闭虚拟机电源再重新启动虚拟机-保守的重新启动策略或关闭虚拟机电源再重新启动虚拟机-激进的重新启动策略注如果禁用"主机监控"或"虚拟机重新启动优先级"设置,VMCP将无法执行虚拟机重新启动.
但是,仍可监控存储运行状况,且可发布事件.
vSphere可用性VMware,Inc.
16网络分区在vSphereHA集群发生管理网络故障时,该集群中的部分主机可能无法通过管理网络与其他主机进行通信.
一个集群中可能会出现多个分区.
已分区的集群会导致虚拟机保护和集群管理功能降级.
请尽快更正已分区的集群.
n虚拟机保护.
vCenterServer允许虚拟机打开电源,但仅当虚拟机与负责它的首选主机在同一分区中运行时,才能对其进行保护.
首选主机必须与vCenterServer进行通信.
如果首选主机以独占方式锁定虚拟机配置文件所在数据存储上的系统定义的文件,则首选主机将负责该虚拟机.
n集群管理.
vCenterServer可以与首选主机通信,但只能与一部分辅助主机通信.
因此,只有在解决分区之后,配置中影响vSphereHA的更改才能生效.
此故障可能会导致其中一个分区在旧配置下操作,而另一个分区使用新的设置.
数据存储检测信号当VMwarevSphereHighAvailability集群中的首选主机无法通过管理网络与辅助主机通信时,首选主机将使用数据存储检测信号来确定辅助主机是否出现故障,是否位于网络分区中,或者是否与网络隔离.
如果辅助主机已停止数据存储检测信号,则认为该辅助主机出现故障,并且其虚拟机已在别处重新启动.
VMwarevCenterServer选择一组首选数据存储集用于检测信号.
这种选择会使有权访问检测信号数据存储的主机数最大,也会使数据存储由同一LUN或NFS服务器支持的可能性最小.
可以使用高级选项das.
heartbeatdsperhost更改vCenterServer为每个主机选择的检测信号数据存储的数量.
默认值为2,最大有效值为5.
vSphereHA将在用于数据存储检测信号和保留受保护的虚拟机集的每个数据存储的根目录中创建一个目录,目录名称为.
vSphere-HA.
请勿删除或修改存储在此目录中的文件,因为这可能会对操作产生影响.
由于多个集群可能使用一个数据存储,因此将针对每个集群创建该目录的子目录.
根用户拥有这些目录和文件,并且只有根用户可以读写这些目录和文件.
vSphereHA使用的磁盘空间取决于多个因素,包括所用的VMFS版本以及将数据存储用于信号检测的主机数.
使用vmfs3时,最大使用量为2GB,典型使用量为3MB.
使用vmfs5时,最大使用量和典型使用量均为3MB.
vSphereHA使用数据存储增加的开销很小,并且不会对其他数据存储操作的性能产生任何影响.
vSphereHA会限制配置文件可在单个数据存储中的虚拟机数量.
有关更新的限制,请参见最高配置.
如果将超过该数量的虚拟机置于数据存储中并打开其电源,则vSphereHA只保护该上限数量的虚拟机.
注vSAN数据存储无法用于数据存储检测信号.
因此,如果集群中的所有主机均无法访问其他共享存储,则无法使用任何检测信号数据存储.
但是,如果您拥有的存储可通过独立于vSAN网络的备用网络路径访问,则可以将其用于设置检测信号数据存储.
vSphereHA安全性多个安全功能增强了vSphereHA.
选择已打开的防火墙端口vSphere可用性VMware,Inc.
17vSphereHA对代理至代理的通信使用TCP和UDP端口8182.
防火墙端口将自动打开和关闭,确保仅在需要时打开端口.
使用文件系统权限保护的配置文件vSphereHA在本地存储或ramdisk(如果没有本地数据存储)上存储配置信息.
使用文件系统权限保护这些文件,且仅root用户可以访问它们.
不具有本地存储的主机只有在由AutoDeploy管理时才受支持.
详细的日志记录vSphereHA放置日志文件的位置取决于主机版本.
n对于ESXi5.
x主机,vSphereHA默认仅写入syslog,因此,日志放置在syslog所配置的放置位置.
vSphereHA日志文件名前置fdm(fdm代表故障域管理器,vSphereHA中的一种服务).
n对于旧版ESXi4.
x主机,vSphereHA写入本地磁盘上的/var/log/vmware/fdm以及syslog(如果已配置).
n对于旧版ESX4.
x主机,vSphereHA写入/var/log/vmware/fdm.
安全vSphereHA登录vSphereHA使用vCenterServer创建的用户帐户vpxuser登录到vSphereHA代理.
此帐户与vCenterServer用于管理主机的帐户相同.
vCenterServer为此帐户创建随机密码,并定期更改密码.
时间段由vCenterServerVirtualCenter.
VimPasswordExpirationInDays设置进行设置.
对主机的根文件夹具有管理特权的用户可登录到代理.
安全通信vCenterServer和vSphereHA代理之间的所有通信都是通过SSL完成的.
除选举消息以外(通过UDP完成),代理至代理的通信也使用SSL.
选举消息通过SSL进行验证,以便恶意代理只能阻止在其上运行代理的主机被选为首选主机.
在这种情况下,将发出集群的配置问题,以便用户了解问题.
需要验证主机SSL证书vSphereHA要求每个主机都具有一个经过验证的SSL证书.
每个主机在首次引导时都会生成一个自签署证书.
然后,可以重新生成或使用机构颁发的证书替换该证书.
如果证书被替换,需要重新配置主机上的vSphereHA.
如果主机在其证书更新后断开与vCenterServer的连接,且重新启动ESXi或ESX主机代理,则主机重新连接到vCenterServer时将自动重新配置vSphereHA.
如果此时因禁用vCenterServer主机SSL证书验证而没有断开连接,请验证新证书并重新配置主机上的vSphereHA.
vSphere可用性VMware,Inc.
18vSphereHA准入控制vSphereHA使用准入控制确保在主机出现故障时预留足够的资源用于虚拟机恢复.
准入控制对资源使用施加一些限制.
任何可能违反这些限制的操作都不会被允许.
可能不允许的操作示例如下:n打开虚拟机电源n迁移虚拟机n增加虚拟机的CPU或内存预留vSphereHA准入控制的基础是集群允许的且仍能保证可故障切换的主机故障数.
可通过三种方式来设置主机故障切换容量:n集群资源百分比n插槽策略n专用故障切换主机注可以禁用vSphereHA准入控制.
但是,如果禁用VMwareHA准入控制,将无法保证预期数量的虚拟机能够在故障后重新启动.
请勿永久禁用准入控制.
无论选择的准入控制选项如何,都会存在虚拟机资源减少阈值.
您可以使用此设置指定允许的资源减少百分比,但在启用vSphereDRS后才可用.
会针对CPU和内存进行资源减少计算.
此项计算会考虑虚拟机的预留内存和内存过量分配以便决定是否允许打开电源、执行迁移或更改预留.
计算不会考虑虚拟机消耗的实际内存,因为内存预留并不总是与虚拟机的实际内存使用率相关联.
如果实际使用率大于预留内存,则故障切换容量会不足,导致故障切换的性能下降.
通过设置性能减少阈值,可以指定配置问题的发生次数.
例如:n默认值为100%,不会产生任何警告.
n如果阈值降至0%,则集群使用率超过可用容量时,就会生成警告.
n如果阈值降至20%,可以允许的性能减少量按如下方式计算:performancereduction=currentutilization*20%.
当前使用率减去性能减少量的值超过可用容量时,将发出配置通知.
集群资源百分比准入控制可以将vSphereHA配置为通过预留特定百分比的集群CPU和内存资源来执行准入控制,用于从主机故障中进行恢复.
使用此准入控制类型,vSphereHA可确保预留特定百分比的CPU和内存资源总量用于进行故障切换.
使用集群资源百分比选项,vSphereHA可强制执行下列准入控制:1计算集群内所有已打开电源虚拟机的总资源要求.
2计算可用于虚拟机的主机资源总数.
vSphere可用性VMware,Inc.
193计算集群的"当前的CPU故障切换容量"和"当前的内存故障切换容量".
4确定"当前的CPU故障切换容量"或"当前的内存故障切换容量"是否小于对应的"配置的故障切换容量"(由用户提供).
如果是,则准入控制不允许执行此操作.
vSphereHA将使用虚拟机的实际预留.
如果虚拟机没有预留(即预留量为0),则会应用默认设置(0MB内存和32MHzCPU).
注准入控制的集群资源百分比选项还会检查集群中是否至少有两个启用了vSphereHA的主机(不包括正在进入维护模式的主机).
如果只有一个已启用vSphereHA的主机,即使可以使用足够的资源百分比,也不允许执行此操作.
进行此次额外检查的原因在于如果集群中只有一个主机,则vSphereHA无法进行故障切换.
计算当前故障切换容量已打开电源的虚拟机的总资源要求由两个组件组成,即CPU和内存.
vSphereHA将计算这些值.
nCPU组件值的计算方法是:加总已打开电源虚拟机的CPU预留.
如果没有为虚拟机指定CPU预留,则系统会为其分配一个默认值32MHz(可以使用das.
vmcpuminmhz高级选项更改此值).
n内存组件值的计算方法是:加总每台已打开电源虚拟机的内存预留(以及内存开销).
计算出主机的CPU和内存资源总和,从而得出虚拟机可使用的主机资源总数.
这些值包含在主机的根资源池中,而不是主机的总物理资源中.
不包括用于虚拟化目的的资源.
只有处于连接状态、未进入维护模式而且没有vSphereHA错误的主机才列入计算范畴.
先用主机CPU资源总数减去总CPU资源要求,然后再用这个结果除以主机CPU资源总数,从而计算出"当前的CPU故障切换容量".
"当前的内存故障切换容量"的计算方式与之相似.
示例:使用集群资源百分比进行准入控制示例中展示了使用此准入控制策略计算和使用"当前故障切换容量"的方式.
对集群进行如下假设:n集群包括三台主机,每台主机上可用的CPU和内存资源数各不相同.
第一台主机(H1)的可用CPU资源和可用内存分别为9GHz和9GB,第二台主机(H2)为9GHz和6GB,而第三台主机(H3)则为6GHz和6GB.
n集群内存在五个已打开电源的虚拟机,其CPU和内存要求各不相同.
VM1所需的CPU资源和内存分别为2GHz和1GB,VM2为2GHz和1GB,VM3为1GHz和2GB,VM4为1GHz和1GB,VM5则为1GHz和1GB.
nCPU和内存的已配置故障切换容量都设置为25%.
vSphere可用性VMware,Inc.
20图2-1.
使用"预留的集群资源的百分比"策略的准入控制示例资源总量要求7GHz、6GB主机资源总量24GHz、21GB2GHz1GB2GHz1GB1GHz2GB1GHz1GB1GHz1GB虚拟机19GHz9GBH19GHz6GBH26GHz6GBH3虚拟机2虚拟机3虚拟机4虚拟机5已打开电源的虚拟机的总资源要求为7GHzCPU和6GB内存.
可用于虚拟机的主机资源总数为24GHzCPU和21GB内存.
根据上述情况,"当前的CPU故障切换容量"为70%((24GHz-7GHz)/24GHz).
同样,"当前的内存故障切换容量"为71%((21GB-6GB)/21GB).
由于集群的"配置的故障切换容量"设置为25%,因此仍然可使用45%的集群CPU资源总数和46%的集群内存资源打开其他虚拟机电源.
插槽策略准入控制使用插槽策略选项,vSphereHA准入控制允许指定数目的主机出现故障,同时可以确保集群内留有足够的资源来对这些主机上的所有虚拟机进行故障切换.
使用插槽策略时,vSphereHA通过以下方式执行准入控制:1计算插槽大小.
插槽是内存和CPU资源的逻辑表示.
默认情况下,会调整插槽的大小来满足集群中任何已打开电源虚拟机的要求.
2确定集群内每台主机可以拥有的插槽数目.
3确定集群的当前故障切换容量.
这是可以发生故障并仍然有足够插槽满足所有已打开电源虚拟机的主机的数目.
4确定"当前故障切换容量"是否小于"配置的故障切换容量"(由用户提供).
如果是,则准入控制不允许执行此操作.
注您可以从vSphereClient中vSphereHA设置的准入控制部分设置CPU和内存的特定插槽大小.
vSphere可用性VMware,Inc.
21插槽大小计算vSphereHA插槽大小和准入控制(http://link.
brightcove.
com/services/player/bcpid2296383276001bctid=ref:video_vsphere_slot_admission_control)插槽大小由两个组件(CPU和内存)组成.
nvSphereHA计算CPU组件的方法是先获取每台已打开电源虚拟机的CPU预留,然后再选择最大值.
如果没有为虚拟机指定CPU预留,则系统会为其分配一个默认值32MHz.
可以使用das.
vmcpuminmhz高级选项更改此值.
nvSphereHA计算内存组件的方法是先获取每台已打开电源虚拟机的内存预留和内存开销,然后再选择最大值.
内存预留没有默认值.
如果集群内虚拟机的预留值大小不一致,则会影响插槽大小的计算.
为避免出现这种情况,可以使用das.
slotcpuinmhz或das.
slotmeminmb高级选项分别指定插槽大小的CPU或内存组件的上限.
请参见vSphereHA高级选项.
您也可以通过查看需要多个插槽的虚拟机数来确定集群中资源碎片的风险.
可以从vSphereClient中vSphereHA设置的准入控制部分对此进行计算.
如果已使用高级选项指定了固定插槽大小或最大插槽大小,则虚拟机可能需要多个插槽.
使用插槽数目计算当前故障切换容量计算出插槽大小后,vSphereHA会确定每台主机中可用于虚拟机的CPU和内存资源.
这些值包含在主机的根资源池中,而不是主机的总物理资源中.
可以在vSphereClient中主机的摘要选项卡上查找vSphereHA所用主机的资源数据.
如果集群中的所有主机均相同,则可以用集群级别指数除以主机的数量来获取此数据.
不包括用于虚拟化目的的资源.
只有处于连接状态、未进入维护模式且没有任何vSphereHA错误的主机才列入计算范畴.
然后,即可确定每台主机可以支持的最大插槽数目.
为确定此数目,请用主机的CPU资源数除以插槽大小的CPU组件,然后将结果化整.
对主机的内存资源数进行同样的计算.
然后,比较这两个数字,较小的那个数字即为主机可以支持的插槽数.
通过确定可以发生故障并仍然有足够插槽满足所有已打开电源虚拟机要求的主机的数目(从最大值开始)来计算当前故障切换容量.
示例:使用插槽策略的准入控制示例中展示了使用此准入控制策略计算和使用插槽大小的方式.
对集群进行如下假设:n集群包括三台主机,每台主机上可用的CPU和内存资源数各不相同.
第一台主机(H1)的可用CPU资源和可用内存分别为9GHz和9GB,第二台主机(H2)为9GHz和6GB,而第三台主机(H3)则为6GHz和6GB.
n集群内存在五个已打开电源的虚拟机,其CPU和内存要求各不相同.
VM1所需的CPU资源和内存分别为2GHz和1GB,VM2为2GHz和1GB,VM3为1GHz和2GB,VM4为1GHz和1GB,VM5则为1GHz和1GB.
n"集群允许的主机故障数目"设置为1.
vSphere可用性VMware,Inc.
22图2-2.
使用"集群允许的主机故障数目"策略的准入控制示例如果H1出现故障则剩余6个插槽插槽大小2GHz、2GB2GHz1GB2GHz1GB1GHz2GB1GHz1GB1GHz1GB虚拟机19GHz9GB4个插槽H19GHz6GB3个插槽H26GHz6GB3个插槽H3虚拟机2虚拟机3虚拟机4虚拟机51比较虚拟机的CPU和内存要求,然后选择最大值,从而计算出插槽大小.
最大CPU要求(由VM1和VM2共享)为2GHz,而最大内存要求(针对VM3)为2GB.
根据上述情况,插槽大小为2GHzCPU和2GB内存.
2由此可确定每台主机可以支持的最大插槽数目.
H1可以支持四个插槽.
H2可以支持三个插槽(取9GHz/2GHz和6GB/2GB中较小的一个),H3也可以支持三个插槽.
3计算出当前故障切换容量.
最大的主机是H1,如果它发生故障,集群内还有六个插槽,足够供所有五个已打开电源的虚拟机使用.
如果H1和H2都发生故障,集群内将仅剩下三个插槽,这是不够用的.
因此,当前故障切换容量为1.
集群内可用插槽的数目为1(H2和H3上的六个插槽减去五个已使用的插槽).
专用故障切换主机准入控制在配置vSphereHA时可以将特定主机指定为故障切换主机.
借助专用故障切换主机准入控制,在主机发生故障时,vSphereHA将尝试在任一指定的故障切换主机上重新启动其虚拟机.
如果无法重新启动虚拟机(例如,故障切换主机发生故障或者资源不足时),vSphereHA会尝试在集群内的其他主机上重新启动这些虚拟机.
为了确保故障切换主机上拥有可用的空闲容量,将阻止您打开虚拟机电源或使用vMotion将虚拟机迁移到故障切换主机.
而且,为了保持负载平衡,DRS也不会使用故障切换主机.
注如果使用专用故障切换主机准入控制,并指定多个故障切换主机,则DRS不会尝试对故障切换主机上运行的虚拟机实施虚拟机-虚拟机关联性规则.
vSphere可用性VMware,Inc.
23vSphereHA互操作性vSphereHA可以与其他功能进行交互操作,如DRS和vSAN.
在配置vSphereHA之前,应了解其与其他功能或产品进行交互操作的限制.
将vSphereHA与vSAN配合使用可以使用vSAN作为vSphereHA集群的共享存储.
如果启用,vSAN会将主机上指定的本地可用存储磁盘汇聚到所有主机共享的单个数据存储中.
要将vSphereHA与vSAN配合使用,必须注意针对这两种功能的互操作性的某些注意事项和限制.
有关vSAN的信息,请参见管理VMwarevSAN.
注可以将vSphereHA与vSAN延伸集群配合使用.
ESXi主机要求仅当满足以下条件时,才能将vSAN与vSphereHA集群配合使用:n集群中所有ESXi主机的版本必须全部为5.
5或更高版本.
n集群必须最低具有三个ESXi主机.
网络连接差异vSAN具有自己的网络.
如果为同一集群启用vSAN和vSphereHA,HA代理间流量将流经此存储网络,而非管理网络.
仅当禁用vSAN时,vSphereHA才使用管理网络.
当主机上配置了vSphereHA时,vCenterServer会选择合适的网络.
注仅当禁用vSphereHA时,才可以启用vSAN.
如果您更改了vSAN网络配置,vSphereHA代理将不自动获取新网络设置.
要更改vSAN网络,必须在vSphereClient中执行以下步骤:1为vSphereHA集群禁用主机监控.
2更改vSAN网络.
3右键单击集群中的所有主机,然后选择重新配置vSphereHA.
4重新为vSphereHA集群启用主机监控.
表2-2.
vSphereHA网络连接差异显示了使用和不使用vSAN时vSphereHA网络连接中的差异.
vSphere可用性VMware,Inc.
24表2-2.
vSphereHA网络连接差异已启用vSAN已禁用vSANvSphereHA使用的网络vSAN存储网络管理网络检测信号数据存储挂载到1个以上主机的任何数据存储,但非vSAN数据存储挂载到1个以上主机的任何数据存储声明已隔离的主机隔离地址不可ping,并且vSAN存储网络无法访问隔离地址不可ping,并且管理网络无法访问容量预留设置通过准入控制策略为vSphereHA集群预留容量时,必须与确保出现故障时的数据可访问性的相应vSAN设置协商此设置.
具体来说,vSAN规则集中的"允许的故障数目"设置不得低于vSphereHA准入控制设置预留的容量.
例如,如果vSAN规则集仅允许两个故障,则vSphereHA准入控制策略预留的容量只能等于一个或两个主机故障.
如果您为具有八个主机的集群使用"预留的集群资源的百分比"策略,则预留的容量不得超过集群资源的25%.
在同一集群中,使用"集群允许的主机故障数目"策略时,该设置不得大于两个主机.
如果vSphereHA预留的容量较少,则故障切换活动可能不可预知.
如果预留太多容量,则会过分限制打开虚拟机的电源和集群间vSpherevMotion迁移操作.
结合使用vSphereHA和DRS将vSphereHA和DistributedResourceScheduler(DRS)一起使用,可将自动故障切换与负载均衡相结合.
这种结合会在vSphereHA将虚拟机移至其他主机后生成一个更均衡的集群.
vSphereHA执行故障切换并在其他主机上重新启动虚拟机时,其首要的优先级是所有虚拟机的立即可用性.
虚拟机重新启动后,其上打开虚拟机电源的主机可能会负载过重,而其他主机的负载则相对较轻.
vSphereHA会使用虚拟机的CPU、内存预留和开销内存来确定主机是否有足够的空闲容量容纳虚拟机.
在结合使用DRS和vSphereHA并且启用了接入控制的集群内,可能不会从正在进入维护模式的主机上撤出虚拟机.
这种行为的出现是由于用于重新启动虚拟机的预留资源出现了故障.
必须使用vMotion将虚拟机手动迁出主机.
在某些情况下,vSphereHA可能由于资源限制而无法对虚拟机进行故障切换.
这种情况的出现有多种原因.
n禁用了HA接入控制,但启用了DistributedPowerManagement(DPM).
这会导致DPM将虚拟机整合到较少数量的主机上,并将空主机置于待机模式,使得没有足够的已打开电源容量来执行故障切换.
n虚拟机-主机关联性规则(必需)可能会限制可以容纳某些虚拟机的主机.
n可能有足够多的聚合资源,但这些资源在多台主机上是资源碎片,因此虚拟机无法使用它们进行故障切换.
在这些情况下,vSphereHA可使用DRS尝试调整集群(例如,通过使主机退出待机模式或者迁移虚拟机以整理集群资源碎片),以便HA可以执行故障切换.
vSphere可用性VMware,Inc.
25如果DPM处于手动模式,则可能需要确认主机打开电源建议.
同样,如果DRS处于手动模式,可能需要确认迁移建议.
如果要使用虚拟机-主机关联性规则,请注意不能违反这些规则.
如果执行故障切换违反这样的规则,则vSphereHA将不会执行故障切换.
有关DRS的详细信息,请参见《vSphere资源管理》文档.
注vSphereDRS是vSphere的一项重要功能,要维持在vSphere集群内运行的工作负载正常运行,必须使用此功能.
从vSphere7.
0Update1开始,DRS依赖于vCLS虚拟机的可用性.
有关详细信息,请参见《vSphere资源管理》中的"vSphere集群服务(vCLS)".
vSphereHA和DRS关联性规则如果为集群创建DRS关联性规则,可以指定在虚拟机故障切换过程中vSphereHA应用此规则的方式.
您可以为以下两种类型的规则指定vSphereHA故障切换行为:n虚拟机反关联性规则在故障切换操作过程中强制指定的虚拟机保持分离.
n虚拟机-主机关联性规则在故障切换操作过程中将指定的虚拟机放在特定主机或一组定义主机的成员上.
编辑DRS关联性规则时,必须使用vSphereHA高级选项强制执行vSphereHA的所需故障切换行为.
nHA必须在故障切换期间遵守虚拟机反关联性规则--当设置了虚拟机反关联性规则的高级选项时,如果对虚拟机进行故障切换违反规则,则vSphereHA不会进行故障切换.
而是,vSphereHA会发出一个事件,报告资源不足,无法执行故障切换.
nHA应在故障切换过程中遵守虚拟机-主机关联性规则--vSphereHA尝试将具有此规则的虚拟机放在指定的主机上(如果可能).
有关更多信息,请参见"vSphereHA高级选项".
注如果在设置规则后不久(默认情况下,在5分钟内)发生主机故障,vSphereHA可以重新启动已禁用DRS的集群中的虚拟机,以替代虚拟机-主机关联性规则映射.
其他vSphereHA互操作性问题要使用vSphereHA,必须注意以下其他互操作性问题.
虚拟机组件保护虚拟机组件保护(VMCP)具有以下互操作性问题和限制:nVMCP不支持vSphereFaultTolerance.
如果使用FaultTolerance为集群启用VMCP,受影响的FT虚拟机将自动接收禁用VMCP的替代项.
nVMCP无法检测或响应vSAN数据存储上文件的可访问性问题.
如果虚拟机的配置和VMDK文件仅位于vSAN数据存储上,则它们不受VMCP保护.
nVMCP不会检测或响应位于VirtualVolumes数据存储上的文件的可访问性问题.
如果虚拟机的配置和VMDK文件仅位于VirtualVolumes数据存储上,则它们不受VMCP保护.
vSphere可用性VMware,Inc.
26nVMCP不会防止不可访问的裸设备映射(RDM).
IPv6如果观察到以下注意事项,可以将vSphereHA与完全受支持的IPv6网络配置一起使用:n集群仅包含ESXi6.
0或更高版本的主机.
n必须使用相同的IP版本(IPv6或IPv4)配置集群中所有主机的管理网络.
vSphereHA集群不能同时包含这两种类型的网络连接配置.
nvSphereHA使用的网络隔离地址必须与集群用于其管理网络的IP版本匹配.
n不能在vSphereHA集群中同时使用vSAN和IPv6.
除了之前的限制外,不支持将以下类型的IPv6地址用于vSphereHA隔离地址或管理网络:本地链接、ORCHID、具有区域索引的本地链接.
此外,不能将环回地址类型用于管理网络.
注要将现有IPv4部署升级到IPv6,必须先禁用vSphereHA.
创建vSphereHA集群vSphereHA在ESXi(或旧版ESX)主机集群的环境中运行.
必须创建集群,然后用主机填充集群,并配置vSphereHA设置,才能建立故障切换保护.
创建vSphereHA集群时,必须配置许多可决定功能如何运行的设置.
在此之前,请确定集群的节点.
这些节点是为支持虚拟机而提供资源,并且将由vSphereHA用于故障切换保护的ESXi主机.
然后应当确定如何互相连接这些节点,以及如何将这些节点连接到虚拟机数据所在的共享存储.
在建立好网络架构后,可以将主机添加到集群并完成vSphereHA配置.
将主机节点添加到集群之前,可以启用和配置vSphereHA.
但是,在将主机添加到集群之前,集群的所有功能并非都能运行,部分集群设置不可用.
例如,在出现可以指定为故障切换主机的主机之前,"指定故障切换主机"准入控制策略不可用.
注为处于(或移入)vSphereHA集群的主机上驻留的所有虚拟机禁用"虚拟机启动和关机"(自动启动)功能.
与vSphereHA配合使用时,不支持自动启动.
vSphereHA对照表vSphereHA对照表包含在创建和使用vSphereHA集群之前必须了解的要求.
在设置vSphereHA集群之前,应查看此列表.
有关详细信息,请遵循相应的交叉引用.
n所有主机必须获得vSphereHA许可.
n集群必须至少包含两个主机.
n必须为所有主机配置静态IP地址.
如果使用的是DHCP,必须确保每台主机的地址在重新引导期间保留.
vSphere可用性VMware,Inc.
27n所有主机必须至少有一个共有的管理网络.
最佳做法是至少有两个共有的管理网络.
您应使用已启用管理流量复选框的VMkernel网络.
这些网络必须能够相互访问,且管理网络上的vCenterServer和主机必须能够相互访问.
请参见《网络连接的最佳做法》.
n为了确保任何虚拟机都可以在集群内的任何主机上运行,所有主机都必须可以访问相同的虚拟机网络和数据存储.
同样,虚拟机必须位于共享而非本地存储器上,否则在主机出现故障时它们将无法进行故障切换.
注vSphereHA使用数据存储信号检测来区分已分区的主机、已隔离的主机和出现故障的主机.
因此,如果环境中有更可靠的数据存储,请将vSphereHA配置为优先考虑这些数据存储.
n为了使虚拟机监控工作,必须安装VMwareTools.
请参见《虚拟机和应用程序监控》.
nvSphereHA同时支持IPv4和IPv6.
有关使用IPv6时的注意事项,请参见其他vSphereHA互操作性问题.
n为使虚拟机组件保护能够正常运行,主机必须已启用全部路径异常(APD)超时功能.
n要使用虚拟机组件保护,集群必须包含ESXi6.
0或更高版本的主机.
n仅可使用包含ESXi6.
0或更高版本主机的vSphereHA集群来启用VMCP.
包含早期版本主机的集群无法启用VMCP,且无法将此类主机添加到已启用VMCP的集群中.
n如果您的集群使用虚拟卷数据存储,当启用了vSphereHA时,vCenterServer会在每个数据存储上创建一个配置虚拟卷.
vSphereHA将其使用的文件存储在这些容器中以保护虚拟机.
如果您删除这些容器,vSphereHA将无法正常运行.
每个虚拟卷数据存储仅创建一个容器.
在vSphereClient中创建vSphereHA集群要为集群启用vSphereHA,必须先创建空集群.
规划集群的资源和网络架构后,可使用vSphereClient将主机添加到集群中,并指定集群的vSphereHA设置.
启用了vSphereHA的集群是vSphereFaultTolerance的必备条件.
前提条件n确认所有虚拟机及其配置文件都驻留在共享存储上.
n验证是否已将主机配置为访问共享存储,以便您可以通过使用集群中的不同主机打开虚拟机电源.
n确认主机配置为具有虚拟机网络的访问权限.
n确认正在为vSphereHA使用冗余管理网络连接.
有关设置网络冗余的信息,请参见网络连接的最佳做法.
n确认至少已为主机配置两个数据存储,来为vSphereHA数据存储检测信号提供冗余.
n使用具有集群管理员权限的帐户将vSphereClient连接到vCenterServer.
步骤1在vSphereClient中,浏览到希望集群驻留的数据中心,然后单击新建集群.
vSphere可用性VMware,Inc.
282完成新建集群向导.
请不要打开vSphereHA(或DRS).
3单击确定关闭向导并创建空集群.
4根据您的集群资源和网络架构计划,使用vSphereClient将主机添加到集群.
5浏览到集群并启用vSphereHA.
a单击配置选项卡.
b选择vSphere可用性,然后单击编辑.
c选择vSphereHA.
6在故障和响应下,选择启用主机监控.
启用主机监控后,集群中的主机可以交换网络检测信号,vSphereHA可以在检测到故障时采取措施.
主机监控是vSphereFaultTolerance恢复进程正常运行所必需的.
7为虚拟机监控选择一项设置.
如果在设置的时间内没有收到单个虚拟机的检测信号,请选择仅虚拟机监控以重新启动该虚拟机.
也可以选择虚拟机和应用程序监控来启用应用程序监控.
8单击确定.
结果此时即已拥有包含主机的vSphereHA集群.
后续步骤为集群配置相应的vSphereHA设置.
n故障和响应n准入控制n检测信号数据存储n高级选项请参见配置vSphere可用性设置.
配置vSphere可用性设置创建vSphereHA集群时或配置现有集群时,必须配置可决定功能如何运行的设置.
在vSphereClient中,您可以配置以下vSphereHA设置:故障和响应在此处提供关于主机故障响应、主机隔离、虚拟机监控和虚拟机组件保护的设置.
准入控制vSphere可用性VMware,Inc.
29可以为vSphereHA集群启用或禁用准入控制,并选择有关其执行方式的策略.
检测信号数据存储为vSphereHA用于数据存储检测信号的数据存储指定首选项.
高级选项通过设置高级选项来自定义vSphereHA行为.
配置故障响应利用vSphereHA设置的故障和响应窗格,可以配置遇到问题时集群的响应方式.
在vSphereClient的此部分,可以确定vSphereHA集群针对主机故障和隔离做出的特定响应.
还可以配置出现永久设备丢失(PDL)和全部路径异常(APD)状况时的虚拟机组件保护(VMCP)操作,并且可以启用虚拟机监控.
可以执行的任务包括:步骤1响应主机故障您可以针对vSphereHA集群中发生的主机故障设置特定响应.
2响应主机隔离您可以针对vSphereHA集群中发生的主机隔离设置特定响应.
3配置VMCP响应配置当数据存储遇到PDL或APD故障时,虚拟机组件保护(VMCP)采取的响应.
4启用虚拟机监控您可以打开虚拟机和应用程序监控,并设置vSphereHA集群的监控敏感度.
响应主机故障您可以针对vSphereHA集群中发生的主机故障设置特定响应.
仅当启用vSphereHA后,此页面才可编辑.
步骤1在vSphereClient中,浏览到vSphereHA集群.
2单击配置选项卡.
3选择vSphere可用性,然后单击编辑.
4单击故障和响应,然后展开主机故障响应.
vSphere可用性VMware,Inc.
305选择以下配置选项.
选项描述故障响应如果选择已禁用,发生主机故障时,此设置会关闭主机监控,且不会重新启动虚拟机.
如果选择重新启动虚拟机,发生主机故障时,虚拟机会基于重新启动优先级进行故障切换.
默认虚拟机重新启动优先级重新启动优先级用于确定主机发生故障时虚拟机的重新启动顺序.
优先级较高的虚拟机将首先启动.
如果多个主机发生故障,将首先迁移优先级最高的主机上的所有虚拟机,然后迁移优先级第二高的主机上的所有虚拟机,以此类推.
虚拟机重新启动优先级条件必须选择特定条件以及满足该条件后的延迟,然后才允许vSphereHA继续下一个虚拟机重新启动优先级.
6单击确定.
结果您的主机故障响应设置将生效.
响应主机隔离您可以针对vSphereHA集群中发生的主机隔离设置特定响应.
仅当启用vSphereHA后,此页面才可编辑.
步骤1在vSphereClient中,浏览到vSphereHA集群.
2单击配置选项卡.
3选择vSphere可用性,然后单击编辑.
4单击故障和响应并展开针对主机隔离的响应.
5要配置主机隔离响应,请选择已禁用、关闭再重新启动虚拟机或关闭虚拟机电源并重新启动虚拟机.
6单击确定.
结果您的主机隔离响应设置将生效.
配置VMCP响应配置当数据存储遇到PDL或APD故障时,虚拟机组件保护(VMCP)采取的响应.
仅当启用vSphereHA后,此页面才可编辑.
步骤1在vSphereClient中,浏览到vSphereHA集群.
2单击配置选项卡.
3选择vSphere可用性,然后单击编辑.
vSphere可用性VMware,Inc.
314单击故障和响应,然后展开处于PDL状态的数据存储或处于APD状态的数据存储.
5如果单击处于PDL状态的数据存储,则可以将此类问题的VMCP故障响应设置为已禁用、发布事件或关闭虚拟机电源并重新启动虚拟机.
6如果单击处于APD状态的数据存储,则可以将此类问题的VMCP故障响应设置为禁用、发布事件、关闭虚拟机电源并重新启动虚拟机-保守的重新启动策略或关闭虚拟机电源并重新启动虚拟机-激进的重新启动策略.
您还可以设置响应恢复,即VMCP在采取操作之前等待的分钟数.
7单击确定.
结果您的VMCP故障响应的设置将生效.
启用虚拟机监控您可以打开虚拟机和应用程序监控,并设置vSphereHA集群的监控敏感度.
仅当启用vSphereHA后,此页面才可编辑.
步骤1在vSphereClient中,浏览到vSphereHA集群.
2单击配置选项卡.
3选择vSphere可用性,然后单击编辑.
4单击故障和响应,然后展开虚拟机监控.
5选择虚拟机监控和应用程序监控.
这些设置会分别启用VMwareTools检测信号和应用程序检测信号.
6要设置检测信号监控敏感度,请在低和高之间移动滑块,或者选择自定义以提供自定义设置.
7单击确定.
结果监控设置将生效.
配置ProactiveHA您可以配置当提供程序通知vCenter其运行状况降级(表示主机出现部分故障)时ProactiveHA的响应方式.
启用vSphereDRS后,才能编辑此页面.
步骤1在vSphereClient中,浏览到ProactiveHA集群.
2单击配置选项卡.
3选择vSphere可用性,然后单击编辑.
vSphere可用性VMware,Inc.
324选择启用ProactiveHA.
5单击ProactiveHA故障和响应.
6选择以下配置选项.
选项描述自动化级别确定主机隔离或维护模式和虚拟机迁移是建议还是自动执行.
n手动.
vCenterServer会给出虚拟机的迁移建议.
n自动.
虚拟机将迁移到正常主机,降级主机将进入隔离或维护模式,具体取决于配置的ProactiveHA自动化级别.
修复确定对部分降级的主机执行的操作.
n对所有故障应用隔离模式.
在虚拟机性能不受影响的情况下,通过避免使用部分降级的主机来平衡性能和可用性.
n对中等故障应用隔离模式并对严重故障应用维护模式(混合).
在虚拟机性能不受影响的情况下,通过避免使用适度降级的主机来平衡性能和可用性.
确保虚拟机不在出现严重故障的主机上运行.
n对所有故障应用维护模式.
确保虚拟机不在出现部分故障的主机上运行.
将主机置于隔离模式和维护模式分别需要Host.
Config.
Quarantine和Host.
Config.
Maintenance特权.
要为该集群启用ProactiveHA提供程序,请选中相应的复选框.
安装了提供程序对应的vSphereClient插件时提供程序会显示,并且提供程序会监控集群中的每个主机.
要查看或编辑提供程序支持的故障状况,请单击编辑链接.
7单击确定.
配置准入控制创建集群后,可以配置准入控制,以指定虚拟机违反可用性限制时是否可以启动它们.
集群会预留资源,以便在指定数量的主机上对所有正在运行的虚拟机进行故障切换.
"准入控制"页面仅在启用了vSphereHA时才会出现.
步骤1在vSphereClient中,浏览到vSphereHA集群.
2单击配置选项卡.
3选择vSphere可用性,然后单击编辑.
4单击准入控制以显示配置选项.
5为集群允许的主机故障数目选择一个数字.
这是集群能够进行恢复或者确保进行故障切换所允许的最大主机故障数.
vSphere可用性VMware,Inc.
336为主机故障切换容量的定义依据选择一个选项.
选项描述集群资源百分比指定为了支持故障切换而作为备用容量保留的集群CPU和内存资源的百分比.
插槽策略(已打开电源的虚拟机)选择可覆盖所有打开电源的虚拟机或为固定大小的插槽大小策略.
您还可以计算有多少个虚拟机需要多个插槽.
专用故障切换主机选择要用于进行故障切换操作的主机.
默认故障切换主机没有足够的资源时,仍可在集群内的其他主机上进行故障切换.
已禁用选择此选项将禁用准入控制,并允许在违反可用性限制时打开虚拟机电源.
7为虚拟机允许的性能降低设置百分比.
此设置确定故障期间集群中的虚拟机允许的性能降低百分比.
8单击确定.
结果准入控制设置将生效.
配置检测信号数据存储vSphereHA使用数据存储检测信号区分出现故障的主机和位于网络分区上的主机.
利用数据存储检测信号,当发生管理网络分区时,vSphereHA可以监控主机并继续响应故障.
您可以指定要用于数据存储检测信号的数据存储.
步骤1在vSphereClient中,浏览到vSphereHA集群.
2单击配置选项卡.
3选择vSphere可用性,然后单击编辑.
4单击检测信号数据存储以显示数据存储检测信号的配置选项.
5要指示vSphereHA如何选择数据存储以及如何处理首选项,请从以下选项中选择:表2-3.
数据存储检测信号选项自动选择可从以下主机访问的数据存储仅使用指定列表中的数据存储使用指定列表中的数据存储并根据需要自动补充6在"可用检测信号数据存储"窗格中,选择要用于检测信号的数据存储.
列出的数据存储由vSphereHA集群中的多个主机共享.
选择了某个数据存储后,下方的窗格将显示vSphereHA集群中可访问此数据存储的所有主机.
7单击确定.
vSphere可用性VMware,Inc.
34设置高级选项要自定义vSphereHA行为,请设置高级vSphereHA选项.
前提条件确认您具有集群管理员特权.
注因为这些选项会影响vSphereHA的运行,所以更改时请小心谨慎.
步骤1在vSphereClient中,浏览到vSphereHA集群.
2单击配置选项卡.
3选择vSphere可用性,然后单击编辑.
4单击高级选项.
5单击添加,然后在文本框中键入高级选项的名称.
您可在"值"列的文本框中设置选项的值.
6针对要添加的每个新选项重复执行第5步,然后单击确定.
结果集群即会使用您已添加或修改的选项.
后续步骤设置高级vSphereHA选项后,它将保持不变,直到您执行以下操作之一:n使用vSphereClient将其值重置为默认值.
n从集群中所有主机上的fdm.
cfg文件中手动编辑或删除此选项.
vSphereHA高级选项您可以设置影响vSphereHA集群的行为的高级选项.
表2-4.
vSphereHA高级选项选项描述das.
isolationaddress[.
.
.
]设置为了确定主机是否与网络隔离而要ping的地址.
只有当未从集群内的任何其他主机接收到检测信号时才ping此地址.
如果未指定,则使用管理网络的默认网关.
此默认网关必须是可用的可靠地址,以便主机可以确定它是否与网络隔离.
可以为集群指定多个隔离地址(最多10个):das.
isolationAddressX,其中X=0-9.
通常每个管理网络应指定一个隔离地址.
如果指定的地址太多,则进行隔离检测所需的时间将会较长.
das.
usedefaultisolationaddress默认情况下,vSphereHA使用控制台网络的默认网关作为隔离地址.
此选项指定是否使用此默认设置(true|false).
vSphere可用性VMware,Inc.
35表2-4.
vSphereHA高级选项(续)选项描述das.
isolationshutdowntimeout关闭虚拟机电源之前,系统等待虚拟机关机的时间段.
只有在主机的隔离响应为"关闭虚拟机"时,此选项才适用.
默认值为300秒.
das.
slotmeminmb定义内存插槽大小的最大限制.
如果使用此选项,则插槽大小小于该值,或是小于集群内任何已打开电源虚拟机的最大内存预留以及内存开销.
das.
slotcpuinmhz定义CPU插槽大小的最大限制.
如果使用此选项,则插槽大小小于该值,或是小于集群内任何已打开电源虚拟机的最大CPU预留.
das.
vmmemoryminmb定义在没有指定虚拟机内存预留或者内存预留为零时,分配给虚拟机的默认内存资源值.
用于"集群允许的主机故障数目"准入控制策略.
如果未指定任何值,则默认值为0MB.
das.
vmcpuminmhz定义在没有指定虚拟机CPU预留或者内存预留为零时,分配给虚拟机的默认CPU资源值.
用于"集群允许的主机故障数目"准入控制策略.
如果未指定任何值,则默认值为32MHz.
das.
iostatsinterval更改虚拟机监控敏感度的默认I/O统计间隔.
默认值为120(秒).
可以设置为大于等于0的任何值.
设置为0会禁用检查.
注建议不要使用小于50的值,因为较小的值可能会导致vSphereHA意外重置虚拟机.
das.
ignoreinsufficienthbdatastore如果主机不具有足够的vSphereHA检测信号数据存储,则禁用创建的配置问题.
默认值为false.
das.
heartbeatdsperhost更改所需的检测信号数据存储的数量.
有效值范围为2至5,默认值为2.
das.
config.
fdm.
isolationPolicyDelaySec在确定主机被隔离后执行隔离策略之前系统等待的秒数.
最小值为30.
如果设置的值小于30,延迟时间将为30秒.
das.
respectvmvmantiaffinityrules确定vSphereHA是否强制执行虚拟机间反关联性规则.
默认值为"true",该设置会强制执行规则(即使未启用vSphereDRS).
在此情况下,如果对虚拟机进行故障切换违反规则,则vSphereHA不会进行故障切换,但会发出一个事件,报告资源不足,无法执行故障切换.
此选项还可以设置为"false",该设置不会强制执行规则.
有关反关联性规则的详细信息,请参见《vSphere资源管理》.
das.
maxresetsVMCP进行重置尝试的最大次数.
如果受APD状况影响的虚拟机上的重置操作失败,VMCP将在放弃之前重试此操作许多次das.
maxterminatesVMCP进行虚拟机终止重试的最大次数.
das.
terminateretryintervalsec如果VMCP无法终止虚拟机,这是它重试终止尝试之前系统等待的秒数das.
config.
fdm.
reportfailoverfailevent如果设置为1,则在vSphereHA尝试重新启动虚拟机失败时启用详细的每虚拟机事件生成.
默认值为0.
在早于vSphere6.
0的版本中,会默认生成此事件.
vSphere可用性VMware,Inc.
36表2-4.
vSphereHA高级选项(续)选项描述vpxd.
das.
completemetadataupdateintervalsec设置虚拟机-主机关联性规则后的时间段(秒),在该时间段内,vSphereHA可以重新启动已禁用DRS的集群中的虚拟机以替代此规则.
默认值为300秒.
das.
config.
fdm.
memReservationMB默认情况下,vSphereHA代理运行时的配置内存限制为250MB.
如果主机用尽可预留的容量,主机可能不允许此预留.
您可以使用此高级选项来降低内存限制以避免此问题.
仅可指定大于100(最小值)的整数.
相反,为防止在大型集群(包含6,000至8,000个虚拟机)的主代理选举期间出现问题,应将此限制增加至325MB.
注此限制更改后,必须为集群中的所有主机运行重新配置HA任务.
另外,在将新主机添加到集群或重新引导现有主机时,应对这些主机执行此任务以便更新此内存设置.
das.
reregisterrestartdisabledvms在某个特定虚拟机上禁用vSphereHA时,此选项确保该虚拟机会在故障后在其他主机上进行注册.
这使您能够打开该虚拟机的电源,而无需手动重新注册.
注使用此选项时,vSphereHA不会打开虚拟机的电源,而是仅注册该虚拟机.
das.
respectvmhostsoftaffinityrules确定vSphereHA是否在属于同一虚拟机-主机组的主机上重新启动相应的VM.
如果没有这样的主机可用,或者如果此选项的值设置为"false",vSphereHA将在集群中的任何可用主机上重新启动虚拟机.
在vSphere6.
5中,默认值为true.
可能不会在集群的高级HA选项中明显地定义此值.
如果您要禁用该选项,必须在集群的高级HA选项中手动将此选项设置为false.
注如果更改以下任一高级选项的值,则必须先禁用vSphereHA,再重新启用它,更改才会生效.
ndas.
isolationaddress[.
.
.
]ndas.
usedefaultisolationaddressndas.
isolationshutdowntimeout自定义单个虚拟机vSphereHA集群中的每个虚拟机均分配了"虚拟机重新启动优先级"、"主机隔离响应"、"虚拟机组件保护"和"虚拟机监控"的集群默认设置.
可以通过更改这些默认项来指定每个虚拟机的特定行为.
如果虚拟机离开该集群,则将丢弃这些设置.
步骤1在vSphereClient中,浏览到vSphereHA集群.
2单击配置选项卡.
3在"配置"下,选择虚拟机替代项,然后单击添加.
4使用+按钮选择要将替代项应用到的虚拟机.
vSphere可用性VMware,Inc.
375单击确定.
6(可选)您可以更改其他设置,如自动化级别、虚拟机重新启动优先级、针对主机隔离的响应、VMCP设置、虚拟机监控或虚拟机监控敏感度设置.
注您可先后展开相关集群设置和vSphereHA,查看这些设置的集群默认值.
7单击确定.
结果现在,对于更改的每项设置,虚拟机的行为将不同于集群默认值.
适用于VMwarevSphereHighAvailability集群的最佳做法为确保获得最佳vSphereHA集群性能,您必须遵循某些最佳做法.
本节重点介绍适用于vSphereHA集群的一些主要的最佳做法.
您也可以参考《vSphereHighAvailability部署最佳做法》出版物了解更多信息.
网络连接的最佳做法请遵守以下针对主机网卡配置和vSphereHA的网络拓扑的最佳做法.
最佳做法包括对ESXi主机的建议,以及对电缆、交换机、路由器和防火墙的建议.
网络配置和维护下列网络维护建议可以帮助您避免对由于丢失vSphereHA检测信号而发生故障的主机和网络隔离的意外检测.
n更改集群ESXi主机所在网络时,请挂起主机监控功能.
更改网络硬件或网络设置会中断vSphereHA用于检测主机故障的检测信号,这可能导致不必要的虚拟机故障切换尝试.
n在ESXi主机上更改网络连接配置时(例如,添加端口组或移除vSwitch),请挂起主机监控.
在对网络连接配置进行更改之后,您必须在集群中的所有主机上重新配置vSphereHA,从而能够重新检查网络信息.
然后重新启用主机监控.
注由于网络是vSphereHA的一个重要组件,因此,如果必须执行网络维护,请通知vSphereHA管理员.
用于vSphereHA通信的网络要标识哪些网络操作可能会中断vSphereHA的运行,必须了解哪些管理网络用于检测信号和其他vSphereHA通信.
n在集群中的旧版ESX主机上,vSphereHA通信通过被指定为服务控制台网络的所有网络进行传输.
这些主机没有将VMkernel网络用于vSphereHA通信.
要在ESX控制台网络子集中包含vSphereHA流量,请使用allowedNetworks高级选项.
vSphere可用性VMware,Inc.
38n在集群中的ESXi主机上,默认情况下,vSphereHA通信通过VMkernel网络进行传输.
在ESXi主机上,如果不使用vCenterServer所用的网络与vSphereHA主机进行通信,您必须明确启用管理流量复选框.
要保留已指定网络上的vSphereHA代理流量,请配置主机,以便vSphereHA所使用的vmkNIC不会与用于其他用途的vmkNIC共享子网.
如果至少为vSphereHA管理流量配置了一个vmkNIC,则vSphereHA代理将使用与给定子网关联的任一pNIC发送数据包.
因此,要确保网络流量分离,vSphereHA以及其他功能所使用的vmkNIC必须位于不同的子网上.
网络隔离地址网络隔离地址是要ping的IP地址,以确定主机是否与网络隔离.
只有当主机已停止从集群内的任何其他主机接收检测信号时才ping此地址.
如果主机可以ping其网络隔离地址,则说明该主机并未与网络隔离,并且集群内的其他主机已出现故障或网络分区.
但是,如果主机无法ping其隔离地址,则可能该主机已与网络隔离,并且不会执行故障切换操作.
默认情况下,网络隔离地址是主机的默认网关.
无论已定义多少个管理网络,都只会指定一个默认网关.
使用das.
isolationaddress[.
.
.
]高级选项为其他网络添加隔离地址.
请参见vSphereHA高级选项.
网络路径冗余集群节点之间的网络路径冗余对vSphereHA可靠性非常重要.
单个管理网络会最终成为单一故障点,并且,尽管只有该网络出现故障,仍可能会导致故障切换.
如果仅有一个管理网络,那么在网络连接故障期间未保留检测信号数据存储连接时主机和集群之间的任何故障都可能会导致不必要(或错误)的故障切换活动.
可能的故障包括网卡故障、网络电缆故障、网络电缆移除和交换机重置.
考虑主机可能导致故障的上述原因,然后尝试减少这些问题(通常通过提供网络冗余来实现此目的).
实现网络冗余的首选方法是在网卡级别使用网卡绑定.
如果用两个连接到不同物理交换机的网卡组成一个网卡组,则可以提高管理网络的可靠性.
因为通过两个网卡(并且通过单独的交换机)连接的服务器具有两条独立的路径来发送和接收检测信号,所以集群具有更好的弹性.
要为管理网络配置网卡组,请在活动或待机配置的vSwitch配置中配置vNIC.
推荐的vNIC参数设置如下:n默认的负载均衡=基于源虚拟端口ID的路由n故障恢复=否在为vSphereHA集群中的一个主机添加网卡之后,必须在该主机上重新配置vSphereHA.
在大多数实现中,网卡绑定可以提供足够的检测信号冗余,但是除此之外,您还可以创建一个连接到单独虚拟交换机的辅助管理网络连接.
冗余管理网络连接能够可靠地检测故障并防止出现隔离或分区的情况,因为检测信号可以通过多个网络发送.
原始管理网络连接用于网络和管理.
辅助管理网络连接创建之后,vSphereHA会同时通过两种管理网络连接发送检测信号.
如果一条路径发生故障,vSphereHA仍可通过另一条路径发送和接收检测信号.
注在集群内的服务器之间尽量少配置硬件分段,目的是为了限制单一故障点.
此外,跃点过多的路由可能会导致检测信号的网络数据包延迟,并增加潜在的故障点数目.
vSphere可用性VMware,Inc.
39使用IPv6网络配置只能向vSphereHA集群使用的给定网络接口分配一个IPv6地址.
分配多个IP地址会增加集群的首选主机发送的检测信号消息数量,这其实弊大于利.
互操作性的最佳做法请遵守以下最佳做法,确保vSphereHA和其他功能之间的互操作性.
混合集群中的vSphereHA和StoragevMotion互操作性在包含ESXi5.
x主机和ESX/ESXi4.
1或更早版本主机的集群中,以及在广泛使用StoragevMotion或启用StorageDRS的集群中,请勿部署vSphereHA.
vSphereHA可通过在某个ESXi版本的主机上(不同于出现故障前运行虚拟机的主机版本)重新启动虚拟机来响应主机故障.
如果出现故障时ESXi5.
x主机正在进行虚拟机StoragevMotion操作,且vSphereHA在ESXi版本5.
0之前的主机上重新启动虚拟机,则会出现问题.
虽然虚拟机可能打开电源,但针对快照操作的任何后续尝试都可能会使vdisk状态遭到损坏并导致虚拟机不可用.
将AutoDeploy与vSphereHA配合使用可以将vSphereHA与AutoDeploy配合使用来提高虚拟机的可用性.
AutoDeploy可在打开主机电源时置备这些主机,您还可以将其配置为在引导过程中在主机上安装vSphereHA代理.
有关详细信息,请参见《vSphere安装和设置》中的AutoDeploy文档.
使用vSAN升级集群中的主机如果要将vSphereHA集群中的ESXi主机升级到版本5.
5或更高版本,并且计划使用vSAN,请按以下过程执行操作.
1升级所有主机.
2禁用vSphereHA.
3启用vSAN.
4重新启用vSphereHA.
集群监控最佳做法请遵守以下针对监控vSphereHA集群状态和有效性的最佳做法.
将警报设置为监控集群更改当vSphereHA或FaultTolerance执行用于维护可用性的操作时(例如,虚拟机故障切换),可能会向您通知此类更改.
将vCenterServer中的警报配置为在执行这些操作时触发,并向指定的一组管理员发送警示(如电子邮件).
提供多个默认的vSphereHA警报.
n故障切换资源不足(集群警报)n找不到首选主机(集群警报)vSphere可用性VMware,Inc.
40n正在进行故障切换(集群警报)n主机HA状态(主机警报)nVM监控错误(虚拟机警报)n虚拟机监控操作(虚拟机警报)n故障切换失败(虚拟机警报)注默认的警报包括功能名称vSphereHA.
HAVIB行为的更改在vSphere7.
0中,如果在LifecycleManaged(vLCM)集群上启用HA,则可能会在某些情况下移除HAVIB.
在以前的版本中,vCenter不会尝试从ESXi主机中移除HAVIB.
只有在启用了vSphereHA的vLCM集群上才会出现这种情况.
在集群上禁用vSphereHA后,如果执行vLCM修复操作(作为用户启动的操作或API调用),则可能会移除vSphereHAVIB.
注这种行为更改无害,因为当再次启用HA时,vCenter会推送所需的vSphereHAVIB.
vSphere可用性VMware,Inc.
41为虚拟机提供FaultTolerance3您可以将vSphereFaultTolerance用于虚拟机,以确保连续性及更高级别的可用性和数据保护.
FaultTolerance基于ESXi主机平台构建,它通过在单独的主机上运行相同的虚拟机来提供可用性.
要获取FaultTolerance的最佳结果,必须先熟悉其工作原理、如何为集群和虚拟机启用它及其最佳使用方法.
本章讨论了以下主题:nFaultTolerance的工作方式nFaultTolerance用例nFaultTolerance要求、限制和许可nFaultTolerance互操作性n为FaultTolerance准备集群和主机n使用FaultTolerancen启用FaultTolerance加密nFaultTolerance的最佳做法n旧版FaultTolerancen容错虚拟机故障排除FaultTolerance的工作方式可以为大多数任务关键虚拟机使用vSphereFaultTolerance(FT).
FT通过创建和维护与此类虚拟机相同且可在发生故障切换时随时替换此类虚拟机的其他虚拟机,来确保此类虚拟机的连续可用性.
受保护的虚拟机称为主虚拟机.
重复虚拟机,即辅助虚拟机,在其他主机上创建和运行.
主虚拟机会持续复制到辅助虚拟机,以便辅助虚拟机可以随时接管工作,从而提供FaultTolerant保护.
主虚拟机和辅助虚拟机会持续监控彼此的状态以确保维护FaultTolerance.
如果运行主虚拟机的主机发生故障,系统将会执行透明故障切换,此时会立即启用辅助虚拟机以替换主虚拟机,启动新的辅助虚拟机,并自动重新建立FaultTolerance冗余.
如果运行辅助虚拟机的主机发生故障,则该主机也会立即被替换.
在任一情况下,用户都不会遭遇服务中断和数据丢失的情况.
VMware,Inc.
42容错虚拟机及其辅助副本不允许在相同主机上运行.
此限制可确保主机故障不会导致两个虚拟机都丢失.
注也可以使用虚拟机-主机关联性规则来确定要在其上运行指定虚拟机的主机.
如果使用这些规则,应了解对于受这种规则影响的任何主虚拟机,其关联的辅助虚拟机也受这些规则影响.
有关关联性规则的更多信息,请参见《vSphere资源管理》文档.
容错可避免"裂脑"情况的发生,此情况可能会导致虚拟机在从故障中恢复后存在两个活动副本.
共享存储上锁定的原子文件用于协调故障切换,以便只有一端可作为主虚拟机继续运行,并由系统自动重新生成新辅助虚拟机.
vSphereFaultTolerance可容纳最多具有4个vCPU的对称多处理器(SMP)虚拟机.
FaultTolerance用例几种典型情况可以受益于vSphereFaultTolerance的使用.
FaultTolerance可提供比vSphereHA更高级别的业务连续性.
当调用辅助虚拟机以替换与其对应的主虚拟机时,辅助虚拟机会立即取代主虚拟机的角色,并会保存其整个状况.
应用程序已在运行,并且不需要重新输入或重新加载内存中存储的数据.
vSphereHA提供的故障切换将重新启动受故障影响的虚拟机.
更高的连续性级别以及增加的状况信息和数据保护功能可在您要部署容错时提供方案信息.
n必须始终可用的应用程序,尤其是用户希望在硬件故障期间保持持久客户端连接的应用程序.
n不能通过任何其他方式实现集群功能的自定义应用程序.
n可以通过自定义集群解决方案提供高可用性,但这些解决方案太复杂,很难进行配置和维护的情况.
用容错保护虚拟机的另一个关键用例可以描述为按需容错.
在这种情况中,虚拟机在正常操作期间受到vSphereHA的充分保护.
在某些关键期间,您可能希望增强虚拟机的保护.
例如,您可能正在运行季末报告,如果发生中断,则可能会延迟关键信息的可用性.
使用vSphereFaultTolerance,可以在运行此报告之前保护此虚拟机,然后在生成报告之后关闭或挂起FaultTolerance.
可以在关键时间段使用按需容错保护虚拟机,然后在非关键操作期间将资源置回正常状态.
FaultTolerance要求、限制和许可在使用vSphereFaultTolerance(FT)之前,请考虑适用于此功能的高级别要求、限制和许可.
要求以下CPU和网络要求适用于FT.
主机中用于容错虚拟机的CPU必须与vSpherevMotion兼容.
此外,还需要CPU支持硬件MMU虚拟化(IntelEPT或AMDRVI).
支持以下CPU.
nIntelSandyBridge或更高版本.
Avoton不受支持.
nAMDBulldozer或更高版本.
请对FT使用10Gb日志记录网络并验证网络延迟时间是否非常短.
强烈建议使用专用FT网络.
vSphere可用性VMware,Inc.
43限制在已配置为使用FaultTolerance的集群中,分别强制执行两个限制.
das.
maxftvmsperhost集群中的主机上允许的最大容错虚拟机数量.
默认值为4.
未设置每个主机的FT虚拟机上限,如果工作负载在FT虚拟机中性能良好,可以使用更大的数字.
可以通过将该值设置为0来禁用检查.
das.
maxftvcpusperhost主机上所有容错虚拟机的汇总最大vCPU数.
默认值为8.
未设置每个主机的FTvCPU上限,如果工作负载性能良好,可以使用更大的数字.
可以通过将该值设置为0来禁用检查.
许可单个容错虚拟机支持的vCPU数量受您针对vSphere购买的许可级别限制.
FaultTolerance支持情况如下:nvSphereStandard和Enterprise.
最多可允许2个vCPUnvSphereEnterprisePlus.
最多可允许8个vCPU注FT仅在vSphereStandard、vSphereEnterprise和vSphereEnterprisePlus版本中受支持.
FaultTolerance互操作性在配置vSphereFaultTolerance之前,必须了解FaultTolerance不能与之交互操作的功能和产品.
FaultTolerance不支持的vSphere功能配置集群时,应注意并非所有vSphere功能都可与FaultTolerance进行交互操作.
容错虚拟机不支持以下vSphere功能.
n快照.
在虚拟机上启用FaultTolerance前,必须移除或提交快照.
此外,不可能对已启用FaultTolerance的虚拟机执行快照.
注FaultTolerance支持为vStorageAPIs-DataProtection(VADP)备份而创建的仅磁盘快照.
但是,旧版FT不支持VADP.
nStoragevMotion.
不能为已启用FaultTolerance的虚拟机调用StoragevMotion.
要迁移存储,应当先暂时关闭FaultTolerance,然后再执行StoragevMotion操作.
在完成迁移之后,可以重新打开FaultTolerance.
n链接克隆.
不能在为链接克隆的虚拟机上使用FaultTolerance,也不能从启用了FT的虚拟机创建链接克隆.
nVirtualVolumes数据存储.
n基于存储的策略管理.
vSAN存储支持存储策略.
nI/O筛选器.
vSphere可用性VMware,Inc.
44n磁盘加密.
nTPM.
n启用VBS的虚拟机.
不与FaultTolerance兼容的功能和设备并非所有第三方设备、功能或产品都可与FaultTolerance进行交互操作.
要使虚拟机与FaultTolerance功能兼容,虚拟机不能使用以下功能或设备.
表3-1.
不与FaultTolerance兼容的功能和设备以及纠正操作不兼容的功能或设备纠正操作物理裸磁盘映射(RDM).
使用旧版FT,可以将具有支持物理RDM的虚拟设备的虚拟机重新配置为改用虚拟RDM.
由物理或远程设备支持的CD-ROM或虚拟软盘设备.
移除CD-ROM或虚拟软盘设备,或使用共享存储上安装的ISO重新配置备用功能.
USB和声音设备.
从虚拟机移除这些设备.
N_PortID虚拟化(NPIV).
禁用虚拟机的NPIV配置.
网卡直通.
FaultTolerance不支持此功能,因此必须将其关闭.
热插拔设备.
容错虚拟机的热插拔功能将自动禁用.
要热插拔设备(添加或移除),必须临时关闭FaultTolerance,完成热插拔操作,然后重新启用FaultTolerance.
注使用FaultTolerance时,如果在虚拟机正在运行过程中更改虚拟网卡的设置,该操作即为热插拔操作,因为它要求先拔出网卡,然后重新插入.
例如,当正在运行的虚拟机使用虚拟网卡时,如果更改虚拟网卡所连接到的网络,必须首先关闭FT.
串行或并行端口从虚拟机移除这些设备.
启用了3D的视频设备.
FaultTolerance不支持启用了3D的视频设备.
虚拟机通信接口(VMCI)不受FaultTolerance支持.
2TB+VMDK2TB+VMDK不支持FaultTolerance.
将FaultTolerance功能与DRS配合使用可以将vSphereFaultTolerance与vSphereDistributedResourceScheduler(DRS)结合使用.
FT虚拟机不要求EVC支持DRS.
在由vSphere6.
7或更高版本VC管理的vSphere6.
5和6.
0主机上,可以将FT与DRS结合使用.
注vSphereDRS是vSphere的一项重要功能,要维持在vSphere集群内运行的工作负载正常运行,必须使用此功能.
从vSphere7.
0Update1开始,DRS依赖于vCLS虚拟机的可用性.
有关详细信息,请参见《vSphere资源管理》中的"vSphere集群服务(vCLS)".
vSphere可用性VMware,Inc.
45为FaultTolerance准备集群和主机要为集群启用vSphereFaultTolerance,必须满足此功能的必备条件,然后在主机上执行特定的配置步骤.
完成这些步骤并创建集群后,还可以检查配置是否符合启用FaultTolerance的要求.
尝试为集群设置FaultTolerance之前,应完成的任务包括:n确保您的集群、主机和虚拟机满足FaultTolerance对照表中所述要求.
n为每台主机配置网络.
n创建vSphereHA集群,添加主机,并检查合规性.
在为集群和主机准备好FaultTolerance之后,便可为虚拟机打开FaultTolerance.
请参见打开FaultTolerance.
FaultTolerance对照表以下对照表包含在使用vSphereFaultTolerance之前需要了解的集群、主机和虚拟机要求.
在设置FaultTolerance之前,应查看此列表.
注容错虚拟机的故障切换与vCenterServer无关,但必须使用vCenterServer来设置FaultTolerance集群.
FaultTolerance的集群要求在使用FaultTolerance之前,必须满足以下集群要求.
n配置了FaultTolerance日志记录和vMotion网络.
请参见为主机配置网络.
nvSphereHA集群已创建并启用.
请参见创建vSphereHA集群.
打开容错虚拟机电源或者将主机添加到已支持容错虚拟机的集群之前,必须启用vSphereHA.
FaultTolerance的主机要求在使用FaultTolerance之前,必须满足以下主机要求.
n主机必须使用受支持的处理器.
n主机必须获得FaultTolerance的许可.
n主机必须已通过FaultTolerance认证.
请参见http://www.
vmware.
com/resources/compatibility/search.
php并选择按与容错兼容的集合搜索,确定主机是否已通过认证.
n在配置每台主机时,都必须在BIOS中启用硬件虚拟化(HV).
注VMware建议将用于支持FT虚拟机的主机的BIOS电源管理设置设为"最高性能"或"受操作系统管理的性能".
要确认集群内的主机是否兼容,从而判断其是否支持FaultTolerance,还可以按创建集群和检查合规性中所说明的那样运行配置文件合规性检查.
vSphere可用性VMware,Inc.
46FaultTolerance的虚拟机要求在使用FaultTolerance之前,必须满足以下虚拟机要求.
n没有不受支持的设备连接到虚拟机.
请参见FaultTolerance互操作性.
n不兼容的功能一定不能与容错虚拟机一起运行.
请参见FaultTolerance互操作性.
n虚拟机文件(VMDK文件除外)必须存储在共享存储中.
可接受的共享存储解决方案包括光纤通道、(硬件和软件)iSCSI、vSAN、NFS和NAS.
其他配置建议在配置FaultTolerance时还应遵循以下准则.
n如果要使用NFS访问共享存储,请使用至少具有1千兆位网卡的专用NAS硬件,以获取为了使FaultTolerance功能正常工作所需的网络性能.
n在开启FaultTolerance功能后,容错虚拟机的预留内存设置为虚拟机的内存大小.
确保包含容错虚拟机的资源池拥有大于虚拟机内存大小的内存资源.
如果资源池中没有额外内存,则可能没有内存可用作开销内存.
n为确保冗余和最大FaultTolerance保护,集群中应至少有三台主机.
如果发生故障切换情况,这可确保有主机可容纳所创建的新辅助虚拟机.
为主机配置网络在要添加到vSphereHA集群的每台主机上,必须配置两个不同的网络交换机(vMotion和FT日志记录),以便主机支持vSphereFaultTolerance.
要为主机设置FaultTolerance,必须为每个端口组选项(vMotion和FT日志记录)完成此步骤,以确保有足够的带宽可供FaultTolerance日志记录使用.
选择一个选项,完成该过程,然后选择另一个端口组选项,再执行一次该过程.
前提条件需要多个千兆位网络接口卡(NIC).
对于支持FaultTolerance功能的每台主机,建议最少使用两个物理网卡.
例如,您需要一个网卡专门用于FaultTolerance日志记录,另一个则专门用于vMotion.
使用三个或更多网卡来确保可用性.
步骤1在vSphereClient中,浏览到主机.
2依次单击配置选项卡和网络.
3选择VMkernel适配器.
4单击添加网络图标.
5提供相应的连接类型信息.
6单击完成.
vSphere可用性VMware,Inc.
47结果在创建vMotion和FaultTolerance日志记录虚拟交换机后,可以根据需要创建其他虚拟交换机.
将主机添加到集群,并完成打开FaultTolerance所需的所有步骤.
后续步骤注如果将网络连接配置为支持FT,但随后又挂起了FaultTolerance日志记录端口,则已打开电源的容错虚拟机对将保持打开电源状态.
如果出现了故障切换情况,那么,当主虚拟机被其辅助虚拟机替换时,将不会启动新的辅助虚拟机,这会导致新的主虚拟机以"不受保护"状态运行.
创建集群和检查合规性vSphereFaultTolerance在vSphereHA集群环境中使用.
为每台主机配置网络连接后,创建vSphereHA集群并向其中添加主机.
您可查看集群配置是否正确以及是否符合启用FaultTolerance的要求.
步骤1在vSphereClient中,浏览到集群.
2单击监控选项卡,然后单击配置文件合规性.
3单击立即检查合规性运行合规性测试.
结果此时将显示合规性测试结果,并显示每台主机是合规还是不合规.
使用FaultTolerance在采取了为集群启用vSphereFaultTolerance所需的全部步骤之后,可以为各个虚拟机打开FaultTolerance功能.
在打开FaultTolerance之前,需要在虚拟机上执行验证检查.
在通过这些检查并为虚拟机打开vSphereFaultTolerance之后,新选项将添加到其上下文菜单的"FaultTolerance"区域.
这包括关闭或禁用FaultTolerance、迁移辅助虚拟机、测试故障切换和测试辅助虚拟机重新启动的选项.
打开FaultTolerance时的验证检查如果用于打开FaultTolerance的选项可用,则此任务仍然必须进行验证,并且在未满足某些要求时可能会失败.
在打开FaultTolerance之前,需要在虚拟机上执行多项验证检查.
n必须在vCenterServer设置中启用SSL证书检查.
n主机必须位于vSphereHA集群或包含vSphereHA和DRS的混合集群内.
n主机必须安装ESXi6.
x或更高版本.
n虚拟机不得有快照.
vSphere可用性VMware,Inc.
48n虚拟机不得是模板.
n对于虚拟机不得禁用vSphereHA.
n虚拟机不得有启用了3D的视频设备.
已启动虚拟机的检查已对已打开电源的虚拟机(或正在打开电源的虚拟机)执行了多项附加验证检查.
n容错虚拟机所驻留的主机的BIOS必须启用了硬件虚拟化(HV).
n支持主虚拟机的主机必须有支持FaultTolerance的处理器.
n您的硬件应认证为与FaultTolerance兼容.
为了确认这点,请使用http://www.
vmware.
com/resources/compatibility/search.
php中的《VMware兼容性指南》并选择按与容错兼容的集合搜索.
n虚拟机的配置必须有效,以便与FaultTolerance功能配合使用(例如,不得包含任何不受支持的设备).
辅助虚拟机放置当为虚拟机打开FaultTolerance这一操作通过验证检查时,将创建辅助虚拟机.
辅助虚拟机的放置位置和即时状态取决于在打开FaultTolerance时主虚拟机是已打开电源还是已关闭电源.
如果主虚拟机已打开电源:n将复制整个主虚拟机的状况,创建辅助虚拟机,并将其放置在单独的兼容主机上,而且会在通过接入控制时打开电源.
n虚拟机的FaultTolerance状态显示为受保护.
如果主虚拟机已关闭电源:n将立即创建辅助虚拟机并在集群的主机中注册(打开该虚拟机电源时,可能会在更合适的主机上重新进行注册).
n辅助虚拟机在主虚拟机打开电源之后打开电源.
n虚拟机的FaultTolerance状态显示为不受保护、虚拟机未运行.
n当尝试在打开FaultTolerance之后打开主虚拟机的电源时,将执行上面列出的附加验证检查.
通过这些检查之后,将打开主虚拟机和辅助虚拟机的电源,并将其分别放置在单独的兼容主机上.
虚拟机的FaultTolerance状态标记为受保护.
打开FaultTolerance您可以通过vSphereClient打开vSphereFaultTolerance.
在打开FaultTolerance功能后,vCenterServer会重置虚拟机的内存限制,并将内存预留值设置为虚拟机的内存大小.
当FaultTolerance保持打开状态时,不能更改内存预留、大小、限制、vCPU数量或份额.
也不能添加或移除虚拟机磁盘.
在关闭容错功能后,已更改的任何参数均不会恢复到其原始值.
使用具有集群管理员权限的帐户将vSphereClient连接到vCenterServer.
vSphere可用性VMware,Inc.
49前提条件如果符合下列任一情况,则用于打开FaultTolerance的选项将不可用并变成灰色:n虚拟机所驻留的主机并未获得使用该功能的许可证.
n虚拟机所驻留的主机处于维护模式或待机模式.
n虚拟机已断开连接或被孤立(无法访问其.
vmx文件).
n用户没有打开此功能的权限.
步骤1在vSphereClient中,浏览到您要为其打开FaultTolerance的虚拟机.
2右键单击虚拟机,然后选择FaultTolerance>关闭FaultTolerance.
3单击是.
4选择用于放置辅助虚拟机配置文件的数据存储.
然后,单击下一步.
5选择要在其中放置辅助虚拟机的主机.
然后,单击下一步.
6检查选择内容,然后单击完成.
结果特定的虚拟机将被指定为主虚拟机,并在另一台主机上建立辅助虚拟机.
现在,主虚拟机已启用了容错功能.
注打开FT的过程中会复制虚拟机数据存储和内存.
这可能需要几分钟时间,具体取决于复制的数据的大小.
复制完成之前,虚拟机状态不会显示为"受保护".
关闭FaultTolerance关闭vSphereFaultTolerance将删除辅助虚拟机及其配置以及所有历史记录.
如果您不打算重新启动FaultTolerance功能,请使用关闭FaultTolerance选项.
否则,请使用挂起FaultTolerance选项.
注如果辅助虚拟机所驻留的主机处于维护模式、已断开或不响应,则不能使用关闭FaultTolerance选项.
在这种情况下,应当挂起FaultTolerance,然后再将其恢复.
步骤1在vSphereClient中,浏览到您要为其关闭FaultTolerance的虚拟机.
2右键单击虚拟机,然后选择FaultTolerance>关闭FaultTolerance.
3单击是.
vSphere可用性VMware,Inc.
50结果选定虚拟机的FaultTolerance功能将关闭.
选定虚拟机的历史记录和辅助虚拟机都将被删除.
注当辅助虚拟机正在启动时,无法关闭FaultTolerance.
由于该过程涉及将主虚拟机的完整状态同步到辅助虚拟机,因此所用时间可能会超过预期.
挂起FaultTolerance挂起虚拟机的vSphereFaultTolerance也将挂起FaultTolerance保护,但会保留该虚拟机的辅助虚拟机、配置和所有历史记录.
使用该选项可在将来恢复FaultTolerance保护.
步骤1在vSphereClient中,浏览到要为其挂起FaultTolerance的虚拟机.
2右键单击虚拟机,然后选择FaultTolerance>挂起FaultTolerance.
3单击是.
结果选定虚拟机的FaultTolerance功能将被挂起.
所选虚拟机的辅助虚拟机和所有历史记录都将保留,并在恢复该功能时使用.
后续步骤挂起FaultTolerance后,要恢复功能,请选择恢复FaultTolerance.
迁移辅助虚拟机在为主要虚拟机打开vSphereFaultTolerance之后,可以迁移其关联的辅助虚拟机.
步骤1在vSphereClient中,浏览到您要迁移其辅助虚拟机的主虚拟机.
2右键单击虚拟机,然后选择FaultTolerance>迁移辅助虚拟机.
3完成"迁移"对话框中的选项,并确认做出的更改.
4单击完成以应用所做的更改.
结果与选定容错虚拟机关联的辅助虚拟机会迁移到指定的主机中.
测试故障切换可以通过诱发所选主要虚拟机的故障切换来测试容错保护.
如果已关闭虚拟机电源,则此选项不可用(灰显).
vSphere可用性VMware,Inc.
51步骤1在vSphereClient中,浏览到要对其测试故障切换的主虚拟机.
2右键单击虚拟机,然后选择FaultTolerance>测试故障切换.
3在任务控制台中查看有关故障切换的详细信息.
结果此任务通过诱发主要虚拟机故障来确保辅助虚拟机能够替换主要虚拟机.
同时会启动一个新的辅助虚拟机,而主要虚拟机将置回受保护状态.
测试重新启动辅助虚拟机可以通过诱发辅助虚拟机发生故障以测试为所选主要虚拟机提供的容错保护.
如果已关闭虚拟机电源,则此选项不可用(灰显).
步骤1在vSphereClient中,浏览到您要对其进行测试的主虚拟机.
2右键单击虚拟机,然后选择FaultTolerance>测试重新启动辅助虚拟机.
3在任务控制台中查看有关测试的详细信息.
结果此任务会导致为所选主要虚拟机提供容错保护的辅助虚拟机终止.
将启动一个新的辅助虚拟机,而主要虚拟机将置回受保护状态.
升级用于FaultTolerance的主机请使用以下步骤升级用于FaultTolerance的主机.
前提条件确认您具有集群管理员特权.
确认拥有多组ESXi主机,每组由四台或多台主机组成,这些主机托管已打开电源的容错虚拟机.
如果虚拟机已关闭电源,则主虚拟机和辅助虚拟机可以重定位到具有不同内部版本的主机.
注此升级过程适用于至少包含四个节点的集群.
更小的集群也可以遵循此说明,不过不受保护的时间间隔将稍微长一些.
步骤1使用vMotion从两台主机中迁出容错虚拟机.
2将这两台已撤出的主机升级到相同的ESXi内部版本.
3在主虚拟机上挂起FaultTolerance.
4使用vMotion将已挂起FaultTolerance的主虚拟机移至其中一台已升级的主机上.
vSphere可用性VMware,Inc.
525针对已移动的主虚拟机恢复FaultTolerance.
6要在升级的主机上容纳尽可能多的容错虚拟机对,请重复步骤1到步骤5.
7使用vMotion重新分配容错虚拟机.
结果集群中的所有ESXi主机即已升级.
启用FaultTolerance加密您可以加密FaultTolerance日志流量.
vSphereFaultTolerance会在主虚拟机和辅助虚拟机之间执行频繁检查,以便辅助虚拟机可以从上次成功的检查点快速恢复.
检查点包含自上一检查点之后已修改的虚拟机状态.
您可以加密FaultTolerance日志流量.
打开FaultTolerance时,FT加密默认设置为视情况,这意味着只有在首选主机和辅助主机均能加密时,才启用加密.
如果需要手动更改FT加密模式,请执行以下过程.
前提条件FT加密需要SMP-FT.
不支持对旧版FT(记录/重放FT)进行加密.
步骤1选择虚拟机,然后选择编辑设置.
2在虚拟机选项下,选择已加密FT下拉菜单.
3选择以下选项之一:选项描述已禁用不启用加密FaultTolerance日志记录.
视情况仅在双方均能加密时,才启用加密.
允许FaultTolerance虚拟机移动到不支持加密FaultTolerance日志记录的ESXi主机.
必需选择同时支持加密FT日志记录的FaultTolerance首选主机和辅助主机.
注启用虚拟机加密后,FT加密模式默认设置为必需,且无法修改.
当FT加密模式设置为必需时:n启用FT后,将仅列出支持FT加密的主机以便放置FT辅助主机.
n只能在支持FT加密的主机上进行FT故障切换.
4单击确定.
vSphere可用性VMware,Inc.
53FaultTolerance的最佳做法为确保获得最佳FaultTolerance结果,您应当遵循某些最佳做法.
以下主机和网络配置建议有助于提高集群的稳定性和性能.
主机配置运行主虚拟机和辅助虚拟机的主机应当按照与处理器大致相同的频率运行,否则辅助虚拟机可能会更频繁地重新启动.
不依据工作负载进行调整(例如,为省电而执行功率封顶和强制低频率模式)的平台电源管理功能可能会导致处理器频率大范围浮动.
如果辅助虚拟机要定期重新启动,请在运行容错虚拟机的主机上禁用所有的电源管理模式,或者确保所有主机以相同电源管理模式运行.
主机网络配置您可以按照以下准则配置主机的网络,以便在不同流量类型的组合(如NFS)和不同数目的物理网卡的情况下支持FaultTolerance.
n将每个网卡组分布到两台物理交换机,并确保这两台物理交换机之间的每个VLAN的L2域连续性.
n使用确定的绑定策略确保特定流量类型与特定网卡(活动/待机)或网卡集(如源虚拟端口ID)具有关联性.
n使用活动/待机策略时,将流量类型配对,以便使两种流量类型共享某个vmnic的情况下发生故障切换时所产生的影响最小.
n使用活动/待机策略时,配置所有活动适配器,以便特定流量类型(如FT日志记录)流向相同物理交换机.
这样可使网络跃点的数目最少,并降低超额预订交换机到交换机链路的可能性.
注主虚拟机与辅助虚拟机之间的FT日志记录通信是未加密的,且包含客户机网络和存储I/O数据以及客户机操作系统的内存内容.
此通信可以包含敏感数据,如纯文本格式的密码.
为避免这些数据被泄漏,尤其是避免受到"中间人"攻击,请确保此网络是受保护的.
例如,可以对FT日志记录通信使用专用网络.
同类集群vSphereFaultTolerance可以在主机不一致的集群内使用,但在节点兼容的集群内才能起到最好的效果.
构建集群时,所有主机都应具有以下配置:n对虚拟机所用数据存储的一般访问权限.
n相同的虚拟机网络配置.
n所有主机的相同BIOS设置(电源管理和超线程).
运行检查合规性确定不兼容性并进行更正.
性能要为主虚拟机和辅助虚拟机之间的日志记录通信增加可用带宽,请使用10千兆位网卡,并允许使用巨帧.
vSphere可用性VMware,Inc.
54您可以选择多个网卡用于FT日志记录网络.
通过选择多个网卡,即使所有网卡都不是专门用于运行FT,您也可以利用多个网卡的带宽.
在共享存储上存储ISO以连续进行访问将启用了FaultTolerance的虚拟机访问的ISO存储在可以供容错虚拟机的两个实例访问的共享存储上.
如果使用此配置,虚拟机中的CD-ROM会继续正常工作,即使发生了故障切换也是如此.
避免网络分区当vSphereHA集群出现管理网络故障而导致某些主机与vCenterServer隔离并且使这些主机彼此隔离时,会出现网络分区.
请参见网络分区.
如果出现分区,则可能降低FaultTolerance保护.
在使用FaultTolerance的已分区vSphereHA集群中,主虚拟机(或其辅助虚拟机)可以在由首选主机(不负责管理虚拟机)管理的分区中停止.
如果需要故障切换,则仅当主虚拟机位于首选主机(负责管理该主虚拟机)管理的分区中时才重新启动辅助虚拟机.
为确保管理网络尽可能不出现导致网络分区的故障,请遵循网络连接的最佳做法中的建议.
使用vSAN数据存储vSphereFaultTolerance可以使用vSAN数据存储,但您必须考虑以下限制:n主虚拟机和辅助虚拟机均不支持混合使用vSAN和其他类型的数据存储.
nFT不支持vSANMetro集群.
要提高使用FT与vSAN时的性能和可靠性,建议采用下列条件.
nvSAN和FT应使用单独的网络.
n将主虚拟机和辅助虚拟机置于单独的vSAN故障域中.
旧版FaultTolerance旧版FT虚拟机只能存在于版本6.
5之前的vSphere上运行的ESXi主机中.
版本6.
5之前的ESXi主机支持基于不同技术的vSphereFaultTolerance.
如果您正在使用此版本的FaultTolerance并且需要继续使用,建议您保留一个vCenter6.
0实例来管理运行这些虚拟机所需的版本6.
5之前的主机的池.
vCenter6.
0是最后一个完全能够管理由旧版FT保护的虚拟机的版本.
有关旧版FaultTolerance的更多信息,请参见《vSphere6.
0可用性》文档.
容错虚拟机故障排除要保持容错虚拟机的高级别性能和稳定性并最小化故障切换率,应当了解某些故障排除问题.
此处讨论的故障排除主题重点介绍了在虚拟机上使用vSphereFaultTolerance功能时可能遇到的问题.
本主题还介绍了解决这些问题的方法.
vSphere可用性VMware,Inc.
55也可以参见VMware知识库文章,网址为http://kb.
vmware.
com/kb/1033634,以帮助您排除FaultTolerance故障.
该文章包含在尝试使用该功能时可能遇到的错误消息列表,以及如何解决每个错误的建议(如果可用).
硬件虚拟化未启用使用vSphereFaultTolerance之前,必须启用硬件虚拟化(HV).
问题尝试打开启用了FaultTolerance的虚拟机的电源时,如果未启用HV,则可能会显示一条错误消息.
原因通常情况下,出现此错误的原因是:对于您尝试在其上打开虚拟机电源的ESXi服务器,HV在其上不可用.
硬件虚拟化不可用的原因可能是其不受ESXi服务器硬件支持或未在BIOS中启用.
解决方案如果ESXi服务器硬件支持硬件虚拟化,但当前未启用硬件虚拟化,请在该服务器的BIOS中将其启用.
各种BIOS中启用硬件虚拟化的过程不同.
请参见主机的BIOS文档以获取有关如何启用硬件虚拟化的详细信息.
如果ESXi服务器硬件不支持硬件虚拟化,请切换到使用支持FaultTolerance的处理器的硬件.
无兼容主机可用于辅助虚拟机如果打开启用了FaultTolerance的虚拟机的电源,但没有为辅助虚拟机提供任何兼容主机,可能会显示一条错误消息.
问题您可能遇到以下错误消息:辅助虚拟机无法打开电源,因为没有兼容主机可以容纳该虚拟机.
原因这可能是由多种原因造成的,包括集群内没有其他主机、没有其他已启用硬件虚拟化的主机、主机CPU不支持硬件MMU虚拟化、数据存储不可访问、可用容量不足或主机正处于维护模式中.
解决方案如果主机数量不足,请向集群内添加更多主机.
如果集群内有多台主机,请确保它们支持硬件虚拟化且硬件虚拟化已启用.
各种BIOS中启用硬件虚拟化的过程不同.
请参见主机的BIOS文档以获取有关如何启用硬件虚拟化的详细信息.
检查主机是否有足够容量,并确认它们未处于维护模式中.
vSphere可用性VMware,Inc.
56过载主机上的辅助虚拟机降低主虚拟机的性能如果主虚拟机的执行速度似乎缓慢,即便它所在主机上的负载较轻且有空闲CPU时间,也请检查运行辅助虚拟机的主机是否负载较重.
问题当辅助虚拟机所在的主机负载过重时,辅助虚拟机会影响主虚拟机的性能.
原因在过载(例如CPU资源过载)的主机上运行的辅助虚拟机获取的资源量与主虚拟机获取的资源量可能不同.
当出现此情况时,主虚拟机必须减速以使辅助虚拟机跟进,将主虚拟机的执行速度大大降低至辅助虚拟机的较慢速度.
解决方案如果辅助虚拟机位于过载的主机上,可以将虚拟机移至其他位置而不会导致出现资源争用问题.
或者,更具体来说,请执行以下操作:n对于FT网络争用,请使用vMotion技术将辅助虚拟机移至FT网络中FT虚拟机争用较少的主机上.
确认对虚拟机的存储访问质量是非对称的.
n如果存在存储争用问题,请关闭并重新打开FT.
重新创建辅助虚拟机时,请将其数据存储更改到资源争用较少且潜在性能更佳的位置.
n要解决CPU资源问题,请为主虚拟机设置明确的CPU预留(以MHz为单位),该预留应足以在所需性能级别上运行负载.
此预留对于主虚拟机和辅助虚拟机均适用,能够确保两者均能以指定的速率执行.
有关设置此预留的指导,请在启用FaultTolerance前查看虚拟机的性能图表以查看在正常条件下使用的CPU资源量.
在FT虚拟机中发现网络延迟时间增加如果您的FT网络未以最佳方式配置,FT虚拟机可能会出现延迟问题.
问题FT虚拟机可能会发现数据包延迟时间不断增加(大约增加几毫秒时间).
要求网络数据包延迟或抖动时间非常短的应用程序(例如,某些实时应用程序)可能会发现性能下降.
原因在一定程度上增加的延迟时间是FaultTolerance的预期开销,但某些因素可能会增加此延迟时间.
例如,如果FT网络位于延迟时间特别长的链接上,此延迟可能会被传递到应用程序.
此外,如果FT网络的带宽不足(低于10Gbps),可能会出现更长时间的延迟.
解决方案验证FT网络的带宽是否充足(10Gbps或更高),并在主虚拟机与辅助虚拟机之间使用短延迟链接.
这些预防措施不会避免网络延迟,但可以最大程度地减小潜在影响.
vSphere可用性VMware,Inc.
57某些主机的FT虚拟机过载如果您的集群主机中FT虚拟机分布不平衡,则可能会遇到性能问题.
问题集群中的某些主机可能FT虚拟机过载,其他主机可能包含未使用的资源.
原因vSphereDRS不会加载平衡FT虚拟机(除非这些虚拟机使用旧的FT).
此限制可能导致某个集群中出现FT虚拟机在主机中不均等分配的状况.
解决方案使用vSpherevMotion手动将FT虚拟机在集群中再次平衡.
通常,主机上的FT虚拟机越少,其性能发挥得越好,因为这样可以减少FT网络带宽和CPU资源争用.
无法访问FT元数据数据存储访问FaultTolerance元数据数据存储对于FT虚拟机的正常运行至关重要.
无法访问会导致出现各种问题.
问题由此产生的问题如下:nFT意外终止.
n如果主虚拟机和辅助虚拟机均无法访问元数据数据存储,则虚拟机可能会意外终止.
通常,当主虚拟机和辅助虚拟机均无法访问FT元数据数据存储时,也会发生无关联故障并导致FT终止.
然后,vSphereHA会尝试在可访问元数据数据存储的主机上重新启动主虚拟机.
nvCenterServer可能会停止将虚拟机识别为FT虚拟机.
识别失败会导致某些操作不受支持,如在虚拟机上执行快照操作,而且会导致有问题的行为出现.
原因无法访问FaultTolerance元数据数据存储会导致先前列表中出现不良结果.
解决方案规划FT部署时,请将元数据数据存储置于高可用性存储中.
FT运行时,如果发现主虚拟机或辅助虚拟机无法访问元数据数据存储,请立即解决存储问题,以免访问失败导致先前问题出现.
如果vCenterServer停止将虚拟机识别为FT虚拟机,请勿在虚拟机上执行不支持的操作.
恢复访问元数据数据存储.
FT虚拟机的访问恢复且刷新时间间隔结束后,将可识别虚拟机.
vSphere可用性VMware,Inc.
58为打开电源的虚拟机打开vSphereFT失败如果尝试为打开电源的虚拟机打开vSphereFaultTolerance,则该操作可能会失败.
问题为打开电源的虚拟机选择打开FaultTolerance时,该操作失败并会显示未知错误(Unknownerror)消息.
原因如果运行虚拟机的主机没有足够的内存资源来提供容错保护,此操作可能失败.
vSphereFaultTolerance会自动尝试为虚拟机分配主机上的全部内存预留.
容错虚拟机需要开销内存,且开销内存有时可扩展到1到2GB.
如果运行打开电源的虚拟机的主机没有足够的内存资源来容纳全部预留以及内存开销,则尝试打开FaultTolerance的操作将失败.
随后,将返回未知错误(Unknownerror)消息.
解决方案选择以下解决方案之一:n释放主机上的内存资源来容纳虚拟机的内存预留以及增加的开销.
n将该虚拟机移到具有足够的可用内存资源的主机,然后重试.
vSphereDRS未放置或撤出FT虚拟机如果当前已禁用增强型vMotion兼容性(EVC),则已启用vSphereDRS的集群中的FT虚拟机无法正常运行.
问题由于EVC是DRS与FT虚拟机搭配使用的必备条件,如果禁用EVC(即使随后重新启用),则DRS不会放置或撤出这些虚拟机.
原因如果DRS集群上已禁用EVC,则可能会添加在FT虚拟机上禁用DRS的虚拟机替代项.
即使随后重新启用EVC,也不会取消此替代项.
解决方案如果DRS未放置或撤出集群中的FT虚拟机,请检查虚拟机是否存在禁用DRS的虚拟机替代项.
如果找到替代项,请移除禁用DRS的替代项.
注有关如何编辑或删除虚拟机替代项的详细信息,请参见《vSphere资源管理》.
vSphere可用性VMware,Inc.
59FaultTolerant虚拟机故障切换即使主虚拟机或辅助虚拟机的ESXi主机未崩溃,主虚拟机或辅助虚拟机也可进行故障切换.
在这种情况下,虚拟机执行不会中断,但会临时失去冗余.
要避免此类故障切换,请了解可能会出现此类故障切换的一些情况,并采取措施进行避免.
与存储器有关的部分硬件故障当存储器访问缓慢或无法访问某台主机时,可能出现此问题.
此问题发生时,VMkernel日志中将列出许多存储器错误.
要解决此问题,必须解决与存储器有关的问题.
与网络有关的部分硬件故障如果日志记录网卡不能正常工作或通过该网卡与其他主机的连接断开,将触发容错虚拟机进行故障切换,从而重新建立冗余.
要避免此问题,请将每个独立网卡专门用于vMotion和容错日志记录通信,并仅在虚拟机活动较少时执行vMotion迁移.
日志记录网卡网络上的带宽不足如果主机上有过多的容错虚拟机,则会发生此问题.
要解决此问题,请将容错虚拟机对分布到更多的不同主机上.
请对FT使用10Gb日志记录网络并验证网络滞后时间是否非常短.
由虚拟机活动级别引起的vMotion故障如果通过vMotion迁移容错虚拟机失败,则虚拟机可能需要进行故障切换.
此问题通常在虚拟机过于活跃(因而无法在对其造成最小损坏的情况下完成迁移)时发生.
要避免此问题,请只在虚拟机活动较少时执行vMotion迁移.
VMFS卷上活动过多可能会导致虚拟机故障切换在单一VMFS卷上执行大量文件系统锁定操作、虚拟机启动/关闭或vMotion迁移时,可能会触发容错虚拟机进行故障切换.
可能发生此现象的症状为在VMkernel日志中收到许多有关SCSI预留的警告.
要解决此问题,请减少文件系统操作的数量,或确保容错虚拟机位于VMFS卷上,而且该卷上没有大量定期启动/关闭或使用vMotion进行迁移的其他虚拟机.
文件系统空间不足导致无法启动辅助虚拟机请检查/(root)或/vmfs/datasource文件系统中是否有可用空间.
这些文件系统可能会因多种原因而变得空间已满,空间不足会导致您无法启动新辅助虚拟机.
vSphere可用性VMware,Inc.
60vCenterHighAvailability4vCenterHighAvailability(vCenterHA)可防止vCenterServer发生主机和硬件故障.
修补vCenterServer时,解决方案的主动-被动架构还有助于显著缩短停机时间.
进行某些网络配置之后,请创建一个包含主动节点、被动节点和见证节点的三节点集群.
可使用不同配置路径.
所选路径取决于现有配置.
步骤1规划vCenterHA部署配置vCenterHA之前,必须考虑几种要素.
包含使用不同版本vSphere组件的部署需要考虑的要素不同于仅包含vSphere7.
0组件的部署.
灰场部署还必须要认真考虑资源和软件要求以及网络连接设置.
2配置网络无论您选择哪种部署选项和清单层次结构,都必须先设置网络,然后才能开始配置.
要设置vCenterHA网络的基础,请将端口组添加到每个ESXi主机.
3使用vSphereClient配置vCenterHA使用vSphereClient时,设置vCenterHA向导会在vCenterServer上创建和配置第二个网络适配器,克隆主动节点,并配置vCenterHA网络.
4管理vCenterHA配置配置vCenterHA集群之后,您可以执行管理任务.
这些任务包括证书替换、SSH密钥替换和SNMP设置.
您还可以编辑集群配置以禁用或启用vCenterHA,进入维护模式,以及移除集群配置.
5vCenterHA环境故障排除如果出现问题,您可以对环境进行故障排除.
需要执行的任务取决于故障症状.
有关其他故障排除信息,请参见VMware知识库系统.
6修补vCenterHighAvailability环境可以使用vCenterServershell中提供的software-packages实用程序修补vCenterHighAvailability集群中的vCenterServer.
VMware,Inc.
61规划vCenterHA部署配置vCenterHA之前,必须考虑几种要素.
包含使用不同版本vSphere组件的部署需要考虑的要素不同于仅包含vSphere7.
0组件的部署.
灰场部署还必须要认真考虑资源和软件要求以及网络连接设置.
vCenter架构概览一个vCenterHA集群由三个vCenterServer实例组成.
第一个实例初始用作主动节点,该节点被克隆两次,分别克隆为被动节点和见证节点.
三个节点一起可提供主动-被动故障切换解决方案.
在不同的ESXi实例上部署单独的节点可防止出现硬件故障.
向DRS集群中添加三个ESXi主机可为您的环境提供进一步保护.
vCenterHA配置完成后,只有主动节点具有活动管理界面(公共IP).
三个节点通过称为vCenterHA网络的专用网络通信,该网络是在配置过程中设置的.
主动节点会不断将数据复制到被动节点.
图4-1.
vCenter三节点集群vCenter(主动)HA接口vCenter(被动)见证vCenterHA网络HA接口管理接口所有这三个节点是运行此功能所必需的.
比较节点责任.
表4-1.
vCenterHA节点节点描述活动n运行主动vCenterServer实例n为管理界面使用公共IP地址n使用vCenterHA网络将数据复制到被动节点.
n使用vCenterHA网络与见证节点通信.
被动n最初是主动节点的克隆n通过vCenterHA网络不断从主动节点接收更新,并与主动节点保持同步状态n在发生故障时自动接管主动节点的角色见证n主动节点的轻量克隆n提供仲裁来防止发生裂脑情况vSphere可用性VMware,Inc.
62vCenterHA硬件和软件要求设置vCenterHA之前,请确保内存、CPU和数据存储资源充足,并确保所使用的vCenterServer和ESXi版本支持vCenterHA.
您的环境必须满足以下要求.
表4-2.
vCenterHA要求组件要求ESXin需要ESXi6.
0或更高版本.
n强烈建议至少使用三个ESXi主机.
可以在不同主机上运行单独的vCenterHA节点以获得更加完善的保护.
管理vCenterServer(如果使用)您的环境可以包括管理vCenterServer系统,也可以设置vCenterServer来管理在其上运行的ESXi主机(自行管理的vCenterServer)n需要vCenterServer6.
0或更高版本.
vCenterServern需要vCenterServer6.
5或更高版本.
n需要部署"小型"规模(4CPU和16GBRAM)或稍大一些的规模,以满足RTO.
不要在生产环境中使用"微型"规模.
nvCenterHA受支持,并已通过测试,可用于VMFS、NFS和vSAN数据存储.
n确保主动节点具有充足的磁盘空间,可用于收集和存储所有三个节点的支持包.
请参见收集vCenterHA节点的支持包.
网络连接n主动节点、被动节点和见证节点之间的vCenterHA网络延迟时间必须小于10毫秒.
nvCenterHA网络与管理网络必须位于不同的子网.
vCenterHA所需的许可nvCenterHA需要一个vCenterServer许可证.
nvCenterHA需要Standard许可证.
vSphereClient中的配置工作流概述可以在vSphereClient中使用设置vCenterHA向导配置被动节点和见证节点.
设置vCenterHA向导会在vCenterHA配置过程中自动创建被动节点和见证节点.
使用手动选项,您需手动克隆主动节点,才能创建被动节点和见证节点.
在vSphereClient中执行自动配置必须满足以下要求才能执行自动配置.
n将成为主动节点的vCenterServer管理自己的ESXi主机及虚拟机.
此配置有时称为自我管理vCenterServer.
如果您满足上述要求,则可执行如下自动工作流.
1用户部署第一个vCenterServer,它将成为主动节点.
2用户在每个ESXi主机上为vCenterHA通信添加另一个网络(端口组).
3用户开始进行vCenterHA配置,并为每个克隆提供IP地址、目标ESXi主机或集群和数据存储.
4系统将克隆主动节点,并使用完全相同的设置(包括相同的主机名)创建被动节点.
vSphere可用性VMware,Inc.
635系统再次克隆主动节点,并创建更轻型的见证节点.
6系统设置vCenterHA网络,在此网络中,三个节点将通过交换检测信号和其他信息等方式进行通信.
在vSphereClient中执行手动配置如果需要更好地控制部署,可以执行手动配置.
使用此选项后,您需自己在vCenterHA设置过程中克隆主动节点.
如果选择此选项并稍后移除vCenterHA配置,则需删除自己创建的节点.
对于手动选项,工作流如下所示.
1用户部署第一个vCenterServer,它将成为主动节点.
2用户在每个ESXi主机上为vCenterHA通信添加另一个网络(端口组).
3如果主动管理vCenterServer的凭据未知,用户必须将第二个网络适配器(网卡)添加到主动节点.
4用户使用vSphereClient登录到vCenterServer(主动节点).
5用户开始进行vCenterHA配置,选中手动配置对应的复选框,并为被动节点和见证节点提供IP地址和子网信息.
(可选)用户可替代故障切换管理的IP地址.
6用户登录到管理vCenterServer并创建两个vCenterServer克隆(主动节点).
7系统设置vCenterHA网络,在此网络中,三个节点将交换检测信号和复制信息.
8vCenterServer受vCenterHA保护.
有关详细信息,请参见使用vSphereClient配置vCenterHA.
配置网络无论您选择哪种部署选项和清单层次结构,都必须先设置网络,然后才能开始配置.
要设置vCenterHA网络的基础,请将端口组添加到每个ESXi主机.
完成配置后,vCenterHA集群拥有两个网络,第一个虚拟网卡上的管理网络和第二个虚拟网卡上的vCenterHA网络.
管理网络管理网络可处理客户端请求(公共IP).
管理网络IP地址必须为静态地址.
vCenterHA网络vCenterHA网络可连接到主动节点、被动节点和见证节点,并复制服务器状态.
它还可监控检测信号.
n主动节点、被动节点和见证节点的vCenterHA网络IP地址必须为静态地址.
nvCenterHA网络与管理网络必须位于不同的子网.
三个节点可以位于同一子网,也可以位于不同子网.
n主动节点、被动节点和见证节点之间的网络延迟必须少于10毫秒.
n您不得为集群网络添加默认的网关条目.
vSphere可用性VMware,Inc.
64前提条件n稍后成为主动节点的vCenterServer已部署.
n您可访问并有特权修改该vCenterServer以及它在其上运行的ESXi主机.
n在网络设置期间,管理网络需要静态IP地址.
管理和集群网络地址必须为IPv4或IPv6.
它们不能是混合模式的IP地址.
步骤1登录到管理vCenterServer并找到运行主动节点的ESXi主机.
2将一个端口组添加到ESXi主机.
此端口组可以位于现有虚拟交换机,您也可以为加强网络隔离而创建新的虚拟交换机.
它必须不同于管理网络.
3如果您的环境包括建议的三个ESXi主机,请将该端口组添加到每个主机上.
使用vSphereClient配置vCenterHA使用vSphereClient时,设置vCenterHA向导会在vCenterServer上创建和配置第二个网络适配器,克隆主动节点,并配置vCenterHA网络.
前提条件n部署您要用作初始主动节点的vCenterServer.
nvCenterServer必须具有静态IP地址.
n必须在vCenterServer上启用SSH.
n确认您的环境满足以下要求.
n将成为主动节点的vCenterServer管理自己的ESXi主机及虚拟机.
此配置有时称为自我管理vCenterServer.
n为vCenterHA网络设置基础架构.
请参见配置网络.
n确定要用于两个vCenterServer节点的静态IP地址,这两个节点将分别成为被动节点和见证节点.
步骤1通过vSphereClient登录到主动节点.
2在清单中选择vCenterServer对象,然后选择配置选项卡.
3选择设置下的vCenterHA.
4单击设置vCenterHA按钮以启动设置向导.
n如果vCenterServer是自我管理,则会显示资源设置页面.
继续到步骤7.
n如果您的vCenterServer由同一SSO域中的其他vCenterServer管理,请转到步骤7.
vSphere可用性VMware,Inc.
65n如果您的vCenterServer由不同SSO域中的其他vCenterServer管理,则输入该管理vCenterServer的位置和凭据详细信息.
5单击管理vCenterServer凭据.
指定管理vCenterServerFQDN或IP地址、SingleSign-On用户名和密码,然后单击下一步.
如果没有SingleSign-On管理员凭据,请选择第二个项目符号,然后单击下一步.
6您可能会看到显示证书警告.
查看SHA1指纹,然后选择是以继续.
7在资源设置部分中,首先从下拉菜单中为主动节点选择vCenterHA网络.
8如果要自动创建被动节点和见证节点的克隆,请单击相应的复选框.
注如果不选中该复选框,则必须在单击完成后,手动创建被动节点和见证节点的克隆.
9对于被动节点,单击编辑.
a指定唯一名称和目标位置.
b为此操作选择目标计算资源.
c选择要存储配置和磁盘文件的数据存储.
d选择虚拟机管理(网卡0)网络和vCenterHA(网卡1)网络.
如果选择内容出现问题,则会显示错误或兼容性警告.
e检查选择内容,然后单击完成.
10对于见证节点,单击编辑.
a指定唯一名称和目标位置.
b为此操作选择目标计算资源.
c选择要存储配置和磁盘文件的数据存储.
d选择vCenterHA(网卡1)网络.
如果选择内容出现问题,则会显示错误或兼容性警告.
e检查选择内容,然后单击完成.
11单击下一步.
12在IP设置部分中,从下拉菜单中选择IP版本.
13输入主动节点、被动节点及见证节点的IPv4地址(网卡1)和子网掩码或前缀长度信息.
可以为被动节点编辑管理网络设置.
自定义这些设置是可选的.
默认情况下,将应用主动节点的管理网络设置.
14单击完成.
vSphere可用性VMware,Inc.
66结果将创建被动节点和见证节点.
完成设置vCenterHA时,vCenterServer具有高可用性保护.
启用vCenterHA后,可以单击编辑,进入维护模式,启用或禁用vCenterHA.
有移除vCenterHA或启动vCenterHA故障切换的单独按钮.
后续步骤请参见管理vCenterHA配置,查看集群管理任务列表.
有关使用vCenterHA时vSphereClient中的增强功能的简要概述,请参见:在vSphereClient中使用vCenterHA的增强功能(http://link.
brightcove.
com/services/player/bcpid2296383276001bctid=ref:video_vsphere67_HA)管理vCenterHA配置配置vCenterHA集群之后,您可以执行管理任务.
这些任务包括证书替换、SSH密钥替换和SNMP设置.
您还可以编辑集群配置以禁用或启用vCenterHA,进入维护模式,以及移除集群配置.
n设置SNMP陷阱您可以设置简单网络管理协议(SimpleNetworkManagementProtocol,SNMP)陷阱以接收vCenterHA集群的SNMP通知.
n设置环境以使用自定义证书每个节点上的计算机SSL证书用于集群管理通信和复制流量加密.
若要使用自定义证书,必须移除vCenterHA配置、删除被动节点和见证节点、使用自定义证书置备主动节点并重新配置集群.
n管理vCenterHASSH密钥vCenterHA在主动节点、被动节点和见证节点之间使用SSH密钥进行无密码身份验证.
身份验证用于检测信号交换,以及文件和数据复制.
要替换vCenterHA集群节点中的SSH密钥,请禁用集群,在主动节点上生成新的SSH密钥,将密钥传输到被动节点,然后启用集群.
n启动vCenterHA故障切换您可以手动启动故障切换,并使被动节点成为主动节点.
n编辑vCenterHA集群配置编辑vCenterHA集群配置时,您可以禁用或启用集群、将集群置于维护模式,或移除集群.
n执行备份和恢复操作为了提高安全性,您可以备份vCenterHA集群中的主动节点.
然后您可以在出现灾难性故障时还原该节点.
n移除vCenterHA配置您可以从vSphereClient中移除vCenterHA配置.
n重新引导所有vCenterHA节点如果需要先关闭再重新引导集群中的所有节点,您必须按特定的关闭顺序以防止被动节点承担主动节点的角色.
vSphere可用性VMware,Inc.
67n更改服务器环境部署vCenterServer时,您需要选择环境.
对于vCenterHA,生产环境支持"小型"、"中型"、"大型"和"超大型"这几种配置.
如果您需要更多空间并且想要更改环境,您必须先删除被动节点虚拟机,然后才能更改配置.
n收集vCenterHA节点的支持包从vCenterHA集群的所有节点收集支持包有助于进行故障排除.
设置SNMP陷阱您可以设置简单网络管理协议(SimpleNetworkManagementProtocol,SNMP)陷阱以接收vCenterHA集群的SNMP通知.
陷阱默认为SNMP版本1.
为主动节点和被动节点设置SNMP陷阱.
通过在snmpd配置中添加一个目标项告知代理发送相关陷阱的位置.
步骤1使用虚拟机控制台或SSH登录到主动节点.
2运行vicfg-snmp命令,例如:vicfg-snmp-t10.
160.
1.
1@1166/public在此示例中,10.
160.
1.
1为客户端侦听地址,1166为客户端侦听端口,public为团体字符串.
3运行以下命令,以启用SNMP代理(snmpd).
vicfg-snmp-e后续步骤以下命令可能也会非常有用.
n要查看命令的完整帮助,请运行vicfg-snmp-h.
n要禁用SNMP代理,请运行vicfg-snmp-D.
n要显示SNMP代理的配置,请运行vicfg-snmp-s.
n要将配置重置为默认值,请运行vicfg-snmp-r.
设置环境以使用自定义证书每个节点上的计算机SSL证书用于集群管理通信和复制流量加密.
若要使用自定义证书,必须移除vCenterHA配置、删除被动节点和见证节点、使用自定义证书置备主动节点并重新配置集群.
如果可以,请先替换将成为主动节点的vCenterServer中的证书,然后再克隆该节点.
步骤1编辑集群配置并选择移除.
vSphere可用性VMware,Inc.
682删除被动节点和见证节点.
3在当前作为独立vCenterServer的主动节点上,将计算机SSL证书替换为自定义证书.
4重新配置集群.
管理vCenterHASSH密钥vCenterHA在主动节点、被动节点和见证节点之间使用SSH密钥进行无密码身份验证.
身份验证用于检测信号交换,以及文件和数据复制.
要替换vCenterHA集群节点中的SSH密钥,请禁用集群,在主动节点上生成新的SSH密钥,将密钥传输到被动节点,然后启用集群.
步骤1编辑集群,然后将模式更改为禁用.
2使用虚拟机控制台或SSH登录到主动节点.
3启用Bashshell.
bash4运行以下命令在主动节点上生成SSH密钥.
/usr/lib/vmware-vcha/scripts/resetSshKeys.
py5使用SCP将密钥复制到被动节点和见证节点.
scp/vcha/.
ssh/*6编辑集群配置,将vCenterHA集群设置为启用.
启动vCenterHA故障切换您可以手动启动故障切换,并使被动节点成为主动节点.
vCenterHA集群支持两种故障切换.
自动故障切换被动节点在主动节点发生故障时尝试接管主动节点的角色.
手动故障切换用户可以使用"启动故障切换"操作强制被动节点接管主动节点的角色.
启动手动故障切换以进行故障排除和测试.
步骤1使用vSphereClient登录到主动节点vCenterServer,然后针对需要启动故障切换的vCenterServer单击配置.
2在设置下,选择vCenterHA并单击启动故障切换.
vSphere可用性VMware,Inc.
693单击是启动故障切换.
此时将打开一个对话框,其中提供了强制进行故障切换而不执行同步的选项.
在大多数情况下,最好执行同步.
4进行故障切换之后,您可以在vSphereClient中验证被动节点是否具有主动节点的角色.
编辑vCenterHA集群配置编辑vCenterHA集群配置时,您可以禁用或启用集群、将集群置于维护模式,或移除集群.
vCenterServer的运行模式可控制vCenterHA集群中的故障切换能力和状态复制.
vCenterHA可以在下列模式之一中运行.
表4-3.
vCenterHA集群运行模式模式自动故障切换手动故障切换复制已启用是是是此默认运行模式通过执行自动故障切换,可防止vCenterServer出现硬件和软件故障.
维护否是是用于一些维护任务.
对于其他任务,您必须禁用vCenterHA.
已禁用否否否如果被动节点或见证节点丢失或正从故障中恢复,可以禁用vCenterHA配置.
主动节点作为独立vCenterServer继续运行.
注如果集群在"维护"或"已禁用"模式下运行,即使被动节点和见证节点已丢失或不可访问,主动节点仍可继续处理客户端请求.
前提条件验证vCenterHA集群是否已部署并包含主动、被动和见证节点.
步骤1使用vSphereClient登录到主动节点vCenterServer,然后单击配置.
2在设置下,选择vCenterHA,然后单击编辑.
3选择其中一个选项.
选项结果启用vCenterHA启用主动节点和被动节点之间的复制.
如果集群处于正常状态,将从被动节点进行自动故障切换以保护主动节点.
维护模式在维护模式下,主动节点与被动节点之间仍会进行复制.
但是,自动故障切换将被禁用.
禁用vCenterHA禁用复制和故障切换.
保留集群的配置.
您稍后可以再次启用vCenterHA.
移除vCenterHA集群移除集群.
不再提供复制和故障切换.
主动节点作为独立vCenterServer继续运行.
有关详细信息,请参见移除vCenterHA配置.
vSphere可用性VMware,Inc.
704单击确定.
执行备份和恢复操作为了提高安全性,您可以备份vCenterHA集群中的主动节点.
然后您可以在出现灾难性故障时还原该节点.
注在还原主动节点之前先移除集群配置.
如果在您还原主动节点时被动节点仍在运行或者其他集群配置仍存在,则结果不可预知.
前提条件确认vCenterHA与备份和还原解决方案的互操作性.
其中一种解决方案是基于vCenterServer文件的还原.
步骤1备份主动节点.
请勿备份被动节点和见证节点.
2在还原集群之前,请关闭所有vCenterHA节点的电源并将它们删除.
3还原主动节点.
主动节点将还原为独立的vCenterServer.
4重新配置vCenterHA.
移除vCenterHA配置您可以从vSphereClient中移除vCenterHA配置.
步骤1登录主动节点vCenterServer并单击配置.
2在设置下,选择vCenterHA并单击移除VCHA.
n从主动节点、被动节点和见证节点中移除vCenterHA集群的配置.
n您可以选择删除被动节点和见证节点.
n主动节点继续作为独立的vCenterServer运行.
n无法在新的vCenterHA配置中重用被动节点和见证节点.
n如果执行了手动配置,或者无法发现被动节点和见证节点,您必须明确删除这些节点.
n即使第二个虚拟NIC是由配置过程添加的,移除过程也不会移除该虚拟NIC.
vSphere可用性VMware,Inc.
71重新引导所有vCenterHA节点如果需要先关闭再重新引导集群中的所有节点,您必须按特定的关闭顺序以防止被动节点承担主动节点的角色.
步骤1按以下顺序关闭节点.
n被动节点n主动节点n见证节点2重新启动每个节点.
可以按任何顺序重新启动节点.
3验证是否所有节点均成功加入集群,并验证先前的主动节点是否恢复该角色.
更改服务器环境部署vCenterServer时,您需要选择环境.
对于vCenterHA,生产环境支持"小型"、"中型"、"大型"和"超大型"这几种配置.
如果您需要更多空间并且想要更改环境,您必须先删除被动节点虚拟机,然后才能更改配置.
步骤1使用vSphereClient登录主动节点,编辑集群配置,并选择禁用.
2删除被动节点虚拟机.
3更改主动节点的vCenterServer配置,例如从小型环境更改为中型环境.
4重新配置vCenterHA.
收集vCenterHA节点的支持包从vCenterHA集群的所有节点收集支持包有助于进行故障排除.
从vCenterHA集群中的主动节点收集支持包时,系统将执行如下操作.
n从主动节点本身收集支持包信息.
n从被动和见证节点收集支持包,并将其放置在主动节点支持包上的commands目录中.
注从被动和见证节点收集支持包是最佳操作方式,在节点可访问时才可行.
vSphere可用性VMware,Inc.
72vCenterHA环境故障排除如果出现问题,您可以对环境进行故障排除.
需要执行的任务取决于故障症状.
有关其他故障排除信息,请参见VMware知识库系统.
nvCenterHA克隆操作在部署过程中失败如果vCenterHA配置过程未成功创建克隆,您必须解决该克隆错误.
n重新部署被动或见证节点如果被动或见证节点发生故障,并且vCenterHA集群是使用自动克隆方法配置的,则可以在vCenterHA设置页面中对其进行重新部署.
nvCenterHA部署失败并显示错误部署失败的原因可能是配置问题,尤其是网络设置问题.
n已降级vCenterHA集群的故障排除要让vCenterHA集群正常运行,每个主动、被动和见证节点都必须完全正常运行,并且可通过vCenterHA集群网络进行访问.
如果任何节点出现故障,集群将被视为处于已降级状态.
n从隔离的vCenterHA节点中恢复如果vCenterHA集群中的所有节点均无法相互通信,主动节点将停止处理客户端请求.
n解决故障切换故障如果被动节点在故障切换期间未成为主动节点,您可以强制被动节点在故障切换期间成为主动节点.
nVMwarevCenterHA警报和事件如果vCenterHA集群处于已降级状态,则警报和事件显示错误.
vCenterHA克隆操作在部署过程中失败如果vCenterHA配置过程未成功创建克隆,您必须解决该克隆错误.
问题克隆操作失败.
注将VCHA部署的被动或见证虚拟机克隆到与源主动节点相同的NFS3.
1数据存储会失败.
您必须使用NFS4或将被动和见证虚拟机克隆到与主动虚拟机不同的数据存储.
原因查找克隆异常.
它可能指示以下问题之一.
n您有一个已启用DRS的集群,但是没有三个主机.
n主机或数据库连接丢失.
n磁盘空间不足.
n其他克隆虚拟机错误vSphere可用性VMware,Inc.
73解决方案1解决造成这个问题的错误.
2移除集群并重新启动配置.
重新部署被动或见证节点如果被动或见证节点发生故障,并且vCenterHA集群是使用自动克隆方法配置的,则可以在vCenterHA设置页面中对其进行重新部署.
步骤1通过vSphereClient登录到主动节点.
2在清单中选择vCenterServer对象,然后选择配置选项卡.
3选择设置下的vCenterHA.
4单击节点旁边的重新部署按钮以启动"重新部署"向导.
5n如果您的vCenterServer由同一SSO域中的其他vCenterServer管理,请转到步骤6.
n如果您的vCenterServer由不同SSO域中的其他vCenterServer管理,则输入该管理vCenterServer的位置和凭据详细信息.
输入管理vCenterServerFQDN或IP地址和SingleSign-On凭据.
6指定唯一名称和目标位置.
7为此操作选择目标计算资源.
8选择要存储配置和磁盘文件的数据存储.
9配置虚拟机网络.
n如果将重新部署被动节点,请选择虚拟机管理(网卡0)和vCenterHA(网卡1)网络.
n如果将重新部署见证节点,请选择vCenterHA(网卡1)网络.
如果选择内容出现问题,则会显示错误或兼容性警告.
10查看您的选择,然后单击完成以重新部署节点.
vCenterHA部署失败并显示错误部署失败的原因可能是配置问题,尤其是网络设置问题.
问题开始vCenterHA集群配置,但配置失败并显示错误.
错误可能会显示问题的原因,例如,您可能会看到SSH连接失败消息.
vSphere可用性VMware,Inc.
74解决方案如果部署失败,请按照以下步骤解决网络问题.
1确认可从主动节点访问被动节点和见证节点.
2确认节点之间的路由设置正确.
3检查网络延迟.
已降级vCenterHA集群的故障排除要让vCenterHA集群正常运行,每个主动、被动和见证节点都必须完全正常运行,并且可通过vCenterHA集群网络进行访问.
如果任何节点出现故障,集群将被视为处于已降级状态.
问题集群处于已降级状态时,不会进行故障切换.
有关集群处于已降级状态时故障情形的信息,请参见解决故障切换故障.
原因集群处于已降级状态有很多原因.
某个节点出现故障n如果主动节点出现故障,则会自动从主动节点故障切换到被动节点.
故障切换之后,被动节点将成为主动节点.
此时,集群处于已降级状态,因为原来的主动节点不可用.
出现故障的节点在修复或恢复联机后成为新的被动节点,而集群在主动节点和被动节点同步后恢复到正常状态.
n如果被动节点发生故障,主动节点继续正常运行,但是无法进行故障切换且集群处于已降级状态.
如果被动节点已修复或恢复联机,它会自动重新加入集群,主动节点和被动节点同步后,集群状态恢复正常.
n如果见证节点发生故障,主动节点继续正常运行,主动节点和被动节点之间的复制也会继续,但无法进行故障切换.
如果见证节点已修复或恢复联机,它会自动重新加入集群且集群状态恢复正常.
数据库复制失败当主动节点与被动节点之间的复制失败时,集群将被视为已降级.
主动节点继续与被动节点同步.
如果同步成功,集群恢复到正常状态.
此状态可能是由于网络带宽问题或其他资源短缺所致.
配置文件复制问题如果主动节点和被动节点之间未正确复制配置文件,集群则处于已降级状态.
主动节点继续尝试与被动节点同步.
此状态可能是由于网络带宽问题或其他资源短缺所致.
vSphere可用性VMware,Inc.
75解决方案如何进行恢复取决于已降级集群状态的起因.
如果集群处于已降级状态,事件、警报和SNMP陷阱将显示错误.
如果某个节点关闭,请检查是否发生硬件故障或网络隔离.
检查发生故障的节点是否已打开电源.
如果复制失败,请检查vCenterHA网络的带宽是否充足,并确保网络延迟不超过10ms.
从隔离的vCenterHA节点中恢复如果vCenterHA集群中的所有节点均无法相互通信,主动节点将停止处理客户端请求.
问题节点隔离为网络连接问题.
解决方案1尝试解决连接问题.
如果连接可以还原,隔离的节点会自动重新加入集群,并且主动节点会开始处理客户端请求.
2如果无法解决连接问题,您必须直接登录到主动节点的控制台.
a关闭被动节点和见证节点虚拟机的电源并删除这些虚拟机.
b使用SSH或通过虚拟机控制台登录主动节点.
c要启用Bashshell,请在appliancesh提示符下输入shell.
d运行以下命令移除vCenterHA配置.
vcha-destroy-fe重新引导主动节点.
主动节点现在为独立的vCenterServer.
f再次执行vCenterHA集群配置.
解决故障切换故障如果被动节点在故障切换期间未成为主动节点,您可以强制被动节点在故障切换期间成为主动节点.
问题在尝试承担主动节点的角色时,被动节点发生故障.
原因vCenterHA故障切换可能会因为以下原因而无法成功.
n当被动节点尝试承担主动节点的角色时,见证节点不可用.
n节点之间存在服务器状态同步问题.
vSphere可用性VMware,Inc.
76解决方案可以按如下所示从此问题恢复.
1如果主动节点从故障中恢复,它会再次成为主动节点.
2如果见证节点从故障中恢复,请遵循以下步骤.
a通过虚拟机控制台登录到被动节点.
b要启用Bashshell,请在appliancesh提示符下输入shell.
c运行下列命令.
vcha-reset-primaryd重新引导被动节点.
3如果主动节点和见证节点均无法恢复,可以强制被动节点成为独立vCenterServer.
a删除主动节点虚拟机和见证节点虚拟机.
b通过虚拟机控制台登录到被动节点.
c要启用Bashshell,请在appliancesh提示符下输入shell.
d运行下列命令.
vcha-destroye重新引导被动节点.
VMwarevCenterHA警报和事件如果vCenterHA集群处于已降级状态,则警报和事件显示错误.
问题表4-4.
以下事件会在vpxd中引发VCHA运行状况警报:事件名称事件描述事件类型类别vCenterHA集群状态当前为正常vCenterHA集群状态当前为正常com.
vmware.
vcha.
cluster.
state.
healthy信息vCenterHA集群状态当前为已降级vCenterHA集群状态当前为已降级com.
vmware.
vcha.
cluster.
state.
degraded警告vCenterHA集群状态当前为已隔离vCenterHA集群状态当前为已隔离com.
vmware.
vcha.
cluster.
state.
isolated错误vCenterHA集群已销毁vCenterHA集群已销毁com.
vmware.
vcha.
cluster.
state.
destroyed信息vSphere可用性VMware,Inc.
77表4-5.
以下事件会在vpxd中引发PSCHA运行状况警报:事件名称事件描述事件类型类别PSCHA状态当前为正常PSCHA状态当前为正常com.
vmware.
vcha.
psc.
ha.
health.
healthy信息PSCHA状态当前为已降级PSCHA状态当前为已降级com.
vmware.
vcha.
psc.
ha.
health.
degraded信息在销毁vCenterHA集群后PSCHA不受监控PSCHA状态为不受监控com.
vmware.
vcha.
psc.
ha.
health.
unknown信息表4-6.
集群状态相关的事件事件名称事件描述事件类型类别节点{nodeName}重新加入了集群有一个节点重新加入了集群com.
vmware.
vcha.
node.
joined信息节点{nodeName}退出了集群有一个节点退出了集群com.
vmware.
vcha.
node.
left警告故障切换成功故障切换成功com.
vmware.
vcha.
failover.
succeeded信息当集群处于禁用模式时,无法继续进行故障切换当集群处于禁用模式时,无法继续进行故障切换com.
vmware.
vcha.
failover.
failed.
disabled.
mode警告当集群并未连接所有三个节点时,无法继续进行故障切换当集群并未连接所有三个节点时,无法继续进行故障切换com.
vmware.
vcha.
failover.
failed.
node.
lost警告当被动节点上的vPostgres尚未准备好接管时,无法继续进行故障切换当被动节点尚未准备好接管时,无法继续进行故障切换com.
vmware.
vcha.
failover.
failed.
passive.
not.
ready警告vCenterHA集群模式已更改为{clusterMode}vCenterHA集群模式已更改com.
vmware.
vcha.
cluster.
mode.
changed信息表4-7.
数据库复制相关的事件事件名称事件描述事件类型类别数据库复制模式已更改为{newState}数据库复制状态已更改为:同步、异步或未复制com.
vmware.
vcha.
DB.
replication.
state.
changed信息表4-8.
文件复制相关的事件事件名称事件描述事件类型类别设备{fileProviderType}处于{state}状态设备文件复制状态已更改com.
vmware.
vcha.
file.
replication.
state.
changed信息修补vCenterHighAvailability环境可以使用vCenterServershell中提供的software-packages实用程序修补vCenterHighAvailability集群中的vCenterServer.
有关详细信息,请参见vSphere升级中的修补vCenterHighAvailability环境.
vSphere可用性VMware,Inc.
78
如何低价香港服务器购买?想要做一个个人博客,想用香港服务器,避免繁琐备案,性能不需要多高,只是记录一些日常而已,也没啥视频之类的东西,想问问各位大佬有没有低价的香港服务器推荐?香港距大陆近,相比美国服务器最大的优势在于延迟低,ping值低,但是带宽紧张,普遍都是1M,一般戏称其为“毛细血管”。同时价格普遍高,优质稳定的一般价格不菲。大厂云梯队阿里云、腾讯云两家都有香港服务器,要注意的是尽量不要选择...
这次RackNerd商家提供的美国大硬盘独立服务器,数据中心位于洛杉矶multacom,可选Windows、Linux镜像系统,默认内存是64GB,也可升级至128GB内存,而且硬盘采用的是256G SSD系统盘+10个16TSAS数据盘,端口提供的是1Gbps带宽,每月提供200TB,且包含5个IPv4,如果有需要更多IP,也可以升级增加。CPU核心内存硬盘流量带宽价格选择2XE5-2640V2...
Justg是一家俄罗斯VPS云服务器提供商,主要提供南非地区的VPS服务器产品,CN2高质量线路网络,100Mbps带宽,自带一个IPv4和8个IPv6,线路质量还不错,主要是用户较少,带宽使用率不高,比较空闲,不拥挤,比较适合面向非洲、欧美的用户业务需求,也适合追求速度快又需要冷门的朋友。justg的俄罗斯VPS云服务器位于莫斯科机房,到美国和中国速度都非常不错,到欧洲的平均延迟时间为40毫秒,...
vmware7.0序列号为你推荐
曲妙玲张婉悠香艳版《白蛇传》是电影还是写真集?seo优化工具SEO优化神器有什么比较好的?长尾关键词挖掘工具大家是怎么挖掘长尾关键词的?www.78222.com我看一个网站.www.snw58.com里面好有意思呀,不知道里面的信息是不是真实的www.mywife.ccmywife哪部最经典www.se222se.com原来的www站到底222eee怎么了莫非不是不能222eee在收视com了,/?求解partnersonline国内有哪些知名的ACCA培训机构www.36ybyb.com有什么网址有很多动漫可以看的啊?我知道的有www.hnnn.net.很多好看的!但是...都看了!我想看些别人哦!还有优酷网也不错...www.zhiboba.com上什么网看哪个电视台直播NBAwww.884tt.com刚才找了个下电影的网站www.ttgame8.com,不过好多电影怎么都不能用QQ旋风或者是迅雷下在呢?
100m虚拟主机 万网域名代理 免费域名跳转 nerd 双11抢红包攻略 777te 秒杀预告 可外链网盘 中国网通测速 东莞服务器 银盘服务 香港亚马逊 512mb 石家庄服务器托管 广州虚拟主机 数据湾 shuangcheng websitepanel godaddy中文 优惠服务器 更多