Replikacja to proces powielania danych na wiele serwerów. Dzięki niemu możemy między innymi obsłużyć większy ruch, bo już nie jedna, a wiele maszyn pisze i czyta dane. Konsekwencją tego zabiegu jest oczywiście duplikacja danych i szereg związanych z nią problemów jak synchronizacją czy obsługa konfliktu zapisu. Natomiast tsunami korzyści płynących z replikacji, o których przeczytasz w szczegółach, pokrywa duże i małe góry kłopotów nieodzownych utrzymywaniu spójnych kopii.

Replikacja bazy danych to również jeden ze sposobów rozproszenia. Inną formą distributed-data jest partycjonowanie, czyli podział bazy albo tabeli na wiele maszyn (węzłów). Więcej o partycjonowaniu możesz przeczytać tutaj

W tym cyklu artykułów będziemy analizować replikację pod kątem baz i brokerów danych.

Spis treści:

Dlaczego replikujemy dane?
Jakie są rodzaje replikacji?

Dlaczego replikujemy dane?

Dla wysokiej dostępności

Co się stanie, jeśli całe centrum danych pójdzie z dymem? Przecież taka sytuacja wydarzyła się w 2021 roku. Dane to jeden z największych kapitałów przedsiębiorstwa. Pożar, wojna, zawodność sprzętu to nie są abstrakcyjne scenariusze. Wprawdzie kopie zapasowe częściowo rozwiązują problem (jeśli będą trzymane w innym centrum danych) natomiast nie sprawią, że system będzie działał podczas awarii – w przeciwieństwie do maszyn danych rozsianych po całym świecie i serwujących te same dane.

Dla skrócenia czasu odpowiedzi

Tutaj przechodzimy do kolejnej zalety rozproszenia kopii wokół globu. Można długo optymalizować aplikację, aby odpowiadała coraz szybciej, zaś w następnej kolejności to sama fizyczna odległość od serwera będzie odpowiedzialna za latencję. Dla przykładu ping time Warszawa–Gdańsk to 7 ms, a Warszawa–Melbourne ponad 300 ms, a przecież na jednym zapytaniu się nie skończy, aby załadować jakąkolwiek stronę internetową. Dla globalnych usług rozproszenie kopii po świecie to po prostu must have. Oczywiście trzeba uwzględnić do tego odpowiedni routing.

Dla skalowania liczby zapytań

Kilka kopii tych samych danych na wielu serwerach zwiększa możliwości odczytu i zapisu. Już nie tylko jedna instancja może obsługiwać ruch. Replikację można również rozpatrywać jako skalowanie horyzontalne, czyli zwiększanie mocy przerobowych poprzez dokładanie kolejnych instancji (w przeciwieństwie do skalowania wertykalnego gdzie zwiększamy moc jednego serwera).

Jakie są rodzaje replikacji?

Aby skutecznie przeprowadzić replikację, kopie koniecznie muszą być identyczne pomiędzy serwerami, mimo że żądanie zapisu nie trafia do wszystkich replik i to w synchroniczny sposób. Gdyby zapis odbywał się synchronicznie i do wszystkich replik, stracimy większość dobrodziejstw replikacji, ponieważ w takim wypadku musimy czekać na odpowiedź od wszystkich serwerów, więc uzależniamy cały proces od najwolniejszego węzła. Co więcej, należałoby zwrócić odpowiedź błędu, kiedy tylko jeden węzeł odmówi współpracy – mnóstwo pracy poszłoby na marne jeśli 4 z 5 replik poprawnie obsłuży żądanie, a tylko jedna odmówi posłuszeństwa.

Mamy dużo lepsze strategie zapisu danych połączone z ich synchronizacją i omówimy trzy z nich. Jak to w życiu, każde rozwiązanie ma swoje wady i zalety.

Na koniec, dowiesz się o problemach asynchronicznej replikacji.

Źródła

Udostępnij ten wpis

Dobrnąłeś do końca. Jeśli ten artykuł był dla Ciebie wartościowy i chcesz otrzymywać informacje o kolejnych, to zapraszam Cię do zapisania się do listy mailingowej. Gwarantuję zero spamu.

Radek.

Czym jest replikacja bazy danych? [Replikacja 1/5]

Dlaczego replikujemy dane?

Dla wysokiej dostępności

Dla skrócenia czasu odpowiedzi

Dla skalowania liczby zapytań

Jakie są rodzaje replikacji?

Źródła

Inne artykuły

ML w AWS – Sagemaker Autopilot

ML w AWS – Sagemaker Studio – IDE w przeglądarce

ML w AWS – wstęp do usługi Sagemaker

FastAPI background task – nie przeciągaj czasu odpowiedzi

Rozwijasz czy produkujesz oprogramowanie?

Lean software development – eliminacja strat

2 thoughts on “Czym jest replikacja bazy danych? [Replikacja 1/5]”