Na czym polegają 3 fundamentalne poziomy deduplikacji plików?

8 marca, 2024
Proces deduplikacji plików komputerowych, to eliminowanie powtarzających się plików i może odbyć się na trzech najważniejszych poziomach: bajtów, bloków i plików. Każdy z tych poziomów przedstawia inny rodzaj fragmentu danych.

Są one później przy pomocy systemu sprawdzane pod kątem pojawienia się duplikacji. Do tworzenia unikatowych identyfikatorów służy algorytm funkcji skrótu. Dotyczy to każdej poddanej analizie części danych. Wspomniane identyfikatory składowane są w indeksie, a potem stosowane są w procesie deduplikacji. Naturalnie duplikujące się fragmenty posiadają takie same identyfikatory funkcji skrótu. Teoretycznie im dokładniejsza jest analiza, to tym wyższy jest parametr deduplikacji. W praktyce jednak wszystkie wymienione poziomy w każdym przypadku mają swoje plusy i minusy. Przykładowo deduplikacja na szczeblu plików okazuje się być w każdym przypadku najbardziej prosta do wdrożenia.
PIT
efekty
Co istotne, tego typu forma deduplikacji nie jest zbyt „męcząca” dla serwera, gdyż generowanie funkcji skrótu jest stosunkowo proste. Niestety wadą takiej formy jest to, że jeżeli jakiś plik będzie w dowolny sposób zmodyfikowany, to zmienia się też identyfikator funkcji skrótu. W rezultacie obie wersje plików będą na serwerze zapisane. Deduplikacja na szczeblu bloków polega oczywiście na porównaniu bloków danych.

Masz masę wolnego czasu i masz ochotę rozszerzyć wiedzę z powyższego tematu? W takim razie najedź na hiperłącze do źródła i tam delektuj się rzetelnymi wiadomościami.

Wymaga ona większej mocy obliczeniowej. Analogicznej mocy wymaga deduplikacja na szczeblu bajtów. Jest to w pewnej mierze w najwyższym stopniu prymitywny sposób na porównywanie danych.

Robi się to, jak jego nazwa sugeruje, bajt po bajcie. Wykonywana w taki sposób analiza jest naturalnie niezwykle dokładna. Jakimś mankamentem może być czas przeprowadzania takiego rodzaju deduplikacji.

Brak komentarzy

Możliwość komentowania jest wyłączona.