Википедия
Дедупликация (также дедубликация; от — устранение дубликатов) — специализированный метод сжатия массива данных , использующий в качестве алгоритма сжатия исключение дублирующих копий повторяющихся данных. Данный метод обычно используется для оптимизации использования дискового пространства систем хранения данных , однако может применяться и при сетевом обмене данных для сокращения объема передаваемой информации.
В процессе дедупликации во время анализа идентифицируются и запоминаются уникальные элементы информации фиксированного размера , а пространство, занимаемое дубликатом, высвобождается. Таких повторяющихся элементов может попадаться очень много, благодаря чему объём, необходимый для сохранения массива данных, может быть сильно сокращён.
Однако дедупликацию не стоит путать с более традиционными алгоритмами сжатия, например LZ77 или LZO . Эти алгоритмы производят поиск в пределах определённого буфера отдельного файла , тогда как алгоритм дедупликации производит поиск копий по огромному массиву данных.