Storage High Availability - Jaki mechanizm replikacji wybrac do sprzętu.

ox1de · Styczeń 13, 2016

Up potwierdzam 3 maszyny minimum z quorum wiec i chyba w drbd minimum 3 maszyny jesli kluster kozysta z quorum.

Edytowano Styczeń 13, 2016 przez ox1de (zobacz historię edycji)

Kszysiu · Styczeń 13, 2016

Czy do jakiegokolwiek quorum nie są potrzebne co najmniej trzy maszyny?

Są potrzebne conajmniej 3 maszyny...

Ale DRBD nie obsługuje takiego configu. Da się je stackować:

https://drbd.linbit.com/users-guide/s-three-nodes.html

I niby da się to obsłużyć w pacemakerze (ale nie doczytywałem, jak to śmiga)

https://drbd.linbit.com/users-guide/s-pacemaker-stacked-resources.html

W każdym razie przy 3 maszynach na których postawisz np. raid6 z 12 dysków wychodzi, że dane po zreplikowaniu zajmują jakieś 360% swojego miejsca przed replikacją...

ox1de · Styczeń 14, 2016

HAHAHA koledzy, który mi wykrakał padaczkę raidu5???

Wczoraj padł system plików ext4 nie wiem dlaczego, nie wiem jak, zero danych, superblock niemożliwy do odzyskania Cóż jest okazja na raid10 nie

Edytowano Styczeń 14, 2016 przez ox1de (zobacz historię edycji)

Styczeń 14, 2016

HAHAHA koledzy, który mi wykrakał padaczkę raidu5???

Wczoraj padł system plików ext4 nie wiem dlaczego, nie wiem jak, zero danych, superblock niemożliwy do odzyskania Cóż jest okazja na raid10 nie

Ulala, aż tak? Ale jak - padło Ci więcej dysków? Bo jak jeden - to co to za RAID, który przy padzie dysku rozwala filesystem? Może sprzęt do wymiany?

ox1de · Styczeń 14, 2016

Własnie dziwne, bo dyski wszystkie są okej, sam ext4 się wysypał, dziwna sprawa. Wchodzę wieczorem bo dostałem maila że zasoby NFS sie od montowały, patrze a moja macierz nie ma systemu plików zdefiniowanego, no to próbuje zrobić recovery tych wszystkich cudnych superbloków ale żaden z zapasowych nie zaskoczył...

Na szczęście należę do tych co robią backupy a nie będą robić, i mam z czego robić recovery, ale przy okazji przestoju zmieniłem na raid10 i faktycznie śmiga aż miło (jeszcze cache na kontrolerze włączyłem, bo nie zwróciłem uwagi a był wyłączony )

Jeszcze pytanie xfs pod nfs bedzie lepszy niż ext4 przy takim raidzie ?

Styczeń 14, 2016

Własnie dziwne, bo dyski wszystkie są okej, sam ext4 się wysypał, dziwna sprawa. Wchodzę wieczorem bo dostałem maila że zasoby NFS sie od montowały, patrze a moja macierz nie ma systemu plików zdefiniowanego, no to próbuje zrobić recovery tych wszystkich cudnych superbloków ale żaden z zapasowych nie zaskoczył...

Przejrzyj solidnie logi kontrolera, ja tam bym raczej na tym sprzęcie już nic bez solidnych testów i znalezienia źródła problemu nie stawiał!

ox1de · Styczeń 14, 2016

Aż mi wstyd!!! Okazuje się co następuje, to nie kontroler czy macierz, tylko moje nie uważne posługiwanie się dd, narobiłem bałaganu po prostu, ale na błędach człowiek się uczy, i jak sam zawsze powtarzam nic się nie dzieje samo czy bez przyczyny Także moja wina!

Kszysiu · Styczeń 14, 2016

dd na urządzenie zamiast na plik?

ox1de · Styczeń 14, 2016

yhm Można, można Kto bogatemu zabroni jak to się mówi, ale już wszystko stoi na miejscu, tylko jeden backup wirtualki który waży prawie 2TB bedzie się jeszcze przez noc kopiować, niestety miedzy serwerem backupu a reszta mam jeszcze 1Gbit ;(

Styczeń 14, 2016

yhm Można, można Kto bogatemu zabroni jak to się mówi, ale już wszystko stoi na miejscu, tylko jeden backup wirtualki który waży prawie 2TB bedzie się jeszcze przez noc kopiować, niestety miedzy serwerem backupu a reszta mam jeszcze 1Gbit ;(

Sprawdź iptrafem jaki ruch leci - bo jak masz tam bardzo dużo małych plików to może się okazać, że wąskim gardłem są IOPSy, a nie 1Gbit LAN

ox1de · Styczeń 14, 2016

To jest jedna paczka po uploadzie restor na proxmosie, leci max 1Gbit.

Styczeń 14, 2016

To jest jedna paczka po uploadzie restor na proxmosie, leci max 1Gbit.

To w 5h powinno przelecieć

ox1de · Styczeń 14, 2016

Ciut wiecej, ale to zaden problem. Musze karte wkoncu kupic 10Gbit

Edytowano Styczeń 14, 2016 przez ox1de (zobacz historię edycji)

theONE · Styczeń 14, 2016

Teraz to chyba 40 lepiej do storage...

ox1de · Styczeń 14, 2016

Ja nie pracuje w datacenter google, ja mam nie wielka firmowa serwerownie Btw trunk z 2 portow w fullduplex wyjdzie mi 40Gbit ale transfer sumujemy w dwoe strony xD takie male oszustwo. Dla moich polek dyskowych 10 Gbit jest juz z zapasem, nie sa bog wie jak wydajne

theONE · Styczeń 14, 2016

40 kosztuje 25% wiecej niz 10 za port w switchu i serwerze

mcbarlo · Styczeń 14, 2016

W jakim konkretnie switchu?

Kszysiu · Styczeń 15, 2016

hmmm próbuje sobie rozrysować na szybko jakieś HA środowisko:

http://scr.hu/1ffd/quzqu

Założenia:

Switche są połączone redundantnym połączeniem (lacp/stack/stp)

Wszystkie maszyny są podpięte do obu switchy (lacp o ile switche zestakowane lub obsługują vlt, albo bonding active-passive)

Dobrze rozumiem, że wystarczy mieć 3 maszyny z pacemakerem, dwie z drbd i nie muszę się bać o split brain przy padzie jednego z urządzeń? Czyli wystarczy do dwóch maszyn z drbd dostawić byle malinkę, co by samego pacemakera miała na sobie? Dobrze kombinuje?

Tylko czy wtedy drbd w active-active można bez bólu? czy to głupi pomysł?

ox1de · Styczeń 15, 2016

A co gdy przy padzie wiekszosc glosow zdobedzie malina na ktorej nie ma danych?

Ja chcesz tylko 2 maszyny uyj heartbeat-a zamiast quorum

Edytowano Styczeń 15, 2016 przez ox1de (zobacz historię edycji)

theONE · Styczeń 15, 2016

W jakim konkretnie switchu?

Arista, quanta, mellanox

Kszysiu · Styczeń 15, 2016

A co gdy przy padzie wiekszosc glosow zdobedzie malina na ktorej nie ma danych?

Ja chcesz tylko 2 maszyny uyj heartbeat-a zamiast quorum

Ale tam przecież z tego co kojarzę ustawiasz jaka maszyna ma jakie role...

Styczeń 17, 2016

Ale tam przecież z tego co kojarzę ustawiasz jaka maszyna ma jakie role...

Oczywiście. Można zablokować uruchomienie wszystkich usług na tej malince i taki pacemaker będzie działał wyłącznie jako "wyborca"

Kszysiu · Styczeń 17, 2016

Oczywiście. Można zablokować uruchomienie wszystkich usług na tej malince i taki pacemaker będzie działał wyłącznie jako "wyborca"

No właśnie i zastanawia mnie to, czy dzięki temu można w 100% obronić się przed splitbrainem (nie mówię, o padzie więcej niż 1 urządzenia, bo wiadomo, że do tego... trzeba więcej malinek ) i czy można wtedy spokojnie ustawić drbd w dual primary - teoretycznie drbd w dual primary śmiga w protokole C (czyli zwróć że zapisane dopiero jak druga maszyna powie ci że zapisane), więc czy node drbd zrozumie "że jest sam" i zacznie pisać tylko u siebie w momencie kiedy "sam sobie to wymyśli", czy w momencie, gdy klaster pacemakera mu tak powie.

Styczeń 17, 2016

No właśnie i zastanawia mnie to, czy dzięki temu można w 100% obronić się przed splitbrainem (nie mówię, o padzie więcej niż 1 urządzenia, bo wiadomo, że do tego... trzeba więcej malinek ) i czy można wtedy spokojnie ustawić drbd w dual primary - teoretycznie drbd w dual primary śmiga w protokole C (czyli zwróć że zapisane dopiero jak druga maszyna powie ci że zapisane), więc czy node drbd zrozumie "że jest sam" i zacznie pisać tylko u siebie w momencie kiedy "sam sobie to wymyśli", czy w momencie, gdy klaster pacemakera mu tak powie.

Szczerze mówiąc - nie wiem, nie używałem nigdy DRBD w trybie primary-primary. Generalnie pacemaker ma możliwość i powinien maszynie, która "odleciała" odciąć prąd (dosłownie - bo potrafi to zrobić np. po IPMI - o ile oczywiście ma z nią kontakt:) Dlatego heartbeat tutaj przegrywa - bo jedna maszyna mogłaby odciąć zasilanie drugiej i wszystko by padło Przy trzech maszynach jest już quorum i jest to znacznie bezpieczniejsze

Maszyna, która została osierocona też sama powinna powyłączać wszystkie usługi i przestawić DRBD w jakiś bezpieczny tryb (nie wiem jak to jest przy primary-primary ale pewnie powinien to być jakiś tryb single, read only). Nie mam jednak z tym doświadczenia jak pisałem

Edytowano Styczeń 17, 2016 przez Adam Szendzielorz (zobacz historię edycji)

Kszysiu · Styczeń 18, 2016

myślę jeszczę nad tym zfs'em - rzeczywiście jest taki "niezabijalny"? nie tyle chodzi mi o przechowywanie plików, co udostępnianie urządzenia blokowego - co np przy padzie prądu?

Jak to jest z tym zlog'iem?

I jak z tym HA? Czy mogę bez problemu go "uruchomić" szybko na drugiej maszynie i będzie to trwało sekundy i zadziała? Pomijam to, że traci się pewnie l2arc (musi się zbierać od nowa)

Zaloguj się

Storage High Availability - Jaki mechanizm replikacji wybrac do sprzętu.

Polecane posty

ox1de 0

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

Kszysiu 136

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

ox1de 0

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

Gość Adam Szendzielorz

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

ox1de 0

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

Gość Adam Szendzielorz

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

ox1de 0

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

Kszysiu 136

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

ox1de 0

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

Gość Adam Szendzielorz

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

ox1de 0

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

Gość Adam Szendzielorz

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

ox1de 0

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

theONE 526

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

ox1de 0

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

theONE 526

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

mcbarlo 61

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

Kszysiu 136

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

ox1de 0

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

theONE 526