Salut,

voila j'aimerai avoir quelques informations et précisions sur Redhat cluster suite, ainsi que sur la notion de quorum.

je vient de réaliser une installation d'un cluster à deux noeuds, et j'ai quelques problèmes à comprendre comment fonctionnent certaines choses.

La configuration:

- 2 noeuds, HP Proliant DL380G5, 2 Xeon quad-core 1.6Mhz, 8Go de RAM, 2x146Go disques SAS en RAID1
- Une baie de disque HP MSA2000 fiber channel, 8x146Go disques SAS en RAID5
- Chaque noeud posséde deux chemins vers la baie (utilisation du multipath)
- OS: RHEL5.3


la petite histoire:
j'ai installé un cluster à deux noeuds en mode actif/passif, le cluster est configuré avec le quorum disque, et il utilise HP ILO2 comme fence device.


Questions:

1- Prenons ce scénario, le noeud1 (maitre) perd son lien HA, ie la carte réseau heartbeat tombe en panne ou bien le cable est débranché, nous seront dans l'état d'un "split brain", dans ce cas et sur ma config aprés un moment le noeud1 est fencé (redémarré) par le noeud2, ensuite ce dernire prend le control et démarre le service controlé par le cluster, est-ce le bon comprtement?
je croyait que, comme le noeud1 pouvait toujours écrire son état sur la partition quorum, il ne sera pas fencé par le noeud2.


2- Lorsque je simule un crash du noeud1 (je débranche tous les cables d'alimentation), le noeud2 essaye de fencé le noeud1 mais sans succès, et ceci est dû au fait que le ILO du noeud1 ne répond plus (il n'est plus sous tension), ce qui implique que le noeud2 ne prendra jamais la main et le service tombe en panne. Ce que j'aimerai savoir c'est comment contourner ce problème, bien que le fait que le risque que deux alimentations redondantes tombent en panne au même temps, mais ça peut arriver

et surtout quel est le rôle du quorum disque, il sert a quoi à la fin?????

Voici mon fichier cluster.conf:

Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
<?xml version="1.0"?>
<cluster config_version="11" name="my-cluster">
	<quorumd device="/dev/mpath/partitionp1" interval="3" min_score="1" tko="9" votes="1">
		<heuristic interval="3" program="ping -c3 -t2 10.10.10.1" score="1"/>
	</quorumd>
	<fence_daemon clean_start="0" post_fail_delay="0" post_join_delay="3"/>
	<clusternodes>
		<clusternode name="hanode1.domaine.com" nodeid="1" votes="1">
			<fence>
				<method name="1">
					<device name="ILO_Z1"/>
				</method>
			</fence>
		</clusternode>
		<clusternode name="hanode2.domaine.com" nodeid="2" votes="1">
			<fence>
				<method name="1">
					<device name="ILO_Z2"/>
				</method>
			</fence>
		</clusternode>
	</clusternodes>
	<cman expected_votes="1" two_node="1"/>
	<fencedevices>
		<fencedevice agent="fence_ilo" hostname="172.168.1.11" login="iloadmin" name="ILO_Z1" passwd="password"/>
		<fencedevice agent="fence_ilo" hostname="172.168.1.10" login="iloadmin" name="ILO_Z2" passwd="password"/>
	</fencedevices>
	<rm>
		<failoverdomains>
			<failoverdomain name="failover" ordered="1" restricted="1">
				<failoverdomainnode name="hanode1.domaine.com" priority="1"/>
				<failoverdomainnode name="hanode2.domaine.com" priority="2"/>
			</failoverdomain>
		</failoverdomains>
		<resources>
			<fs device="/dev/mpath/partitionp2" force_fsck="0" force_unmount="1" fstype="ext3" mountpoint="/mountpoint" name="MyMountPoint" options="" self_fence="0"/>
			<ip address="10.10.10.18" monitor_link="1"/>
			<script file="/etc/init.d/myscript" name="MyScript"/>
		</resources>
		<service autostart="1" domain="failover" exclusive="1" name="MyService" recovery="relocate">
			<fs ref="MyMountPoint"/>
			<ip ref="10.10.10.18"/>
			<script ref="MyScript"/>
		</service>
	</rm>
	<totem token="60000"/>
</cluster>
merci d'avance