Алгоритмы сжатия данных с использованием внешнего словаря и их реализация

Question

rPman @rPman

Алгоритмы сжатия данных с использованием внешнего словаря и их реализация

Практически все существующие алгоритмы сжатия данных без потерь (имеется в виду сжатие бинарных данных) работают по принципу — анализ данных с набором некой информации (таблицы частот блоков, словари перекодирования,..), в последствии эти данные помещаются по блочно в архив (возможны ситуации с их динамическим изменением).

Но если вместо того, чтобы хранить этот словарь в самом архиве, его можно было бы хранить отдельно (и передавать отдельно по сети, независимо от основного потока данных)… или например хранить в самом архиваторе для различных типов данных… вариант с передачей данных смотрится гораздо привлекательнее, то это могло бы значительно повысить коэффициент сжатия.

Зачастую сеанс связи по сети между приложениями основывается на небольшом количестве типов сообщений, форматы которых совпадают, отличаются только данные (значения полей). Практически бессмысленно упаковывать каждое сообщение по отдельности (с этим вполне справляются железные решения на уровне создания канала, или те же vpn-сети), но если сжимать весь сеанс связи, то это может позволить повысить степень сжатия на порядок.

Простейший пример (я его реализовывал в одном своем приложении, вполне полезно и удобно) с использованием алгоритма diff (а точнее bzdiff — это почти то же самое но результат сжимается bz).

Есть серия сообщений (для простоты предположим что они одного формата).
* выбираем первое/любое сообщение как шаблон (его отсылаем на другой узел как указание появления шаблона)
* каждое последующее сообщение сравниваем с текущим шаблоном с использованием алгоритма diff
* полученный патч отсылаем с указанием идентификатора шаблона
* на другом узле восстанавливаем сообщение с использованием указанного шаблона и присланного патча
* при отсутствии шаблона на удаленном узле высылать само сообщение с указанием нового идентификатора
При каждом сравнении сообщения с шаблоном можно использовать несколько шаблонов (хранить несколько, например последних использованных, или сортировать по частоте совпадений), т.е. выбирать, на основе какого шаблона делать патч (естественно использовать тот, у кого наименьший размер патча). Изменение списка сохраненных шаблонов можно ограничить, с целью минимизации рассылки новых/измененных шаблонов, тут большое пространство для экспериментов.

В данном алгоритме внешним словарем является этот набор шаблонов, понятно что это частный случай, в более универсальном виде словарь и алгоритмы сжатия могут быть боле сложными и между узлами может быть передана более подробная информация.

Конкретно этот алгоритм работал для сжатия текстовых данных с веб-сайтов (сообщения — новые версия страниц ограниченного набора веб-сайтов), я думаю бессмысленно сообщать что в этом случае размер передаваемого сообщения был предельно сокращен до размера изменений на страницах, степень сжатия — пара порядков, естественно ни один алгоритм сжатия самих сообщений не мог дать такого.

Алгоритмы почти наверняка хорошо распараллеливаются (т.е. может быть использованы более дешевые вычислительные мощности, например GPU), т.е. возможно создание комплекса для сжатия данных в канале связи (особенно если это вынужденно узкий канал).

Внимание вопрос… я делаю очередной велосипед или тут 'поле не пахано'? Есть ли готовые решения и библиотеки (в идеале opensource, так как возможны слишком узкие ниши применения с соответствующими требованиям к исправлениям, плюс гибкость выбора платформ)?

Вопрос номер два — есть ли те, кому требуется сократить нагрузку на каналы связи (если их мало или они дорогие, например спутниковая связь)?

Вопрос задан более трёх лет назад
5373 просмотра

Комментировать

Подписаться 2 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

rPman @rPman Автор вопроса

Я же не говорю о формате данных… нужны именно алгоритмы!
Чем мне поможет Apache Thrift? если именно его вызовы я собираюсь упаковывать, за счет повторяющихся данных в сообщениях, разнесенных во времени, а так же за счет 'лишней' информации в сообщениях, определенных их форматом (rpc — xml или json, если конечно не бинарный формат, который далеко не каждое приложение поддерживает, очень кушает трафик тупо за счет имен тегов и другой синтаксической обвязки).

У меня был пример где тупо на тегах и атрибутах уходило значительно больше половины трафика (я просто сравнил размер сообщения и объем данных в них, представленный в текстовом виде), особенно это заметно если параметры вызовов сложные структуры без текстовых данных, — таблицы и просто объекты с большим количеством полей.
Конечно в этом приложении мне не требовалось уменьшать трафик

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Алгоритмы

Простой
Как внедрить алгоритм Дейкстры для игры змейка на java?
- 1 подписчик
- 22 апр.
- 72 просмотра
0

ответов
C++

+1 ещё

Средний
Как найти кратчайший путь в лабиринте, двигаться в котором можно только вперед и направо?
- 1 подписчик
- 21 апр.
- 116 просмотров
1

ответ
Алгоритмы

+2 ещё

Средний
Какие существуют методы сравнения качества изображения?
- 1 подписчик
- 21 апр.
- 105 просмотров
2

ответа
Алгоритмы

Простой
Какой алгоритм использовать, чтобы: разбить массив чисел так, чтобы суммарная разница между максимальным и минимальным числом была максимальна?
- 1 подписчик
- 21 апр.
- 142 просмотра
1

ответ
Алгоритмы

Простой
Как устроен вывод в задаче?
- 1 подписчик
- 19 апр.
- 258 просмотров
1

ответ
Алгоритмы

Простой
Какую формулу использовать?
- 1 подписчик
- 18 апр.
- 111 просмотров
3

ответа
C++

+1 ещё

Простой
Рекурсивный ввод-вывод последовательности без использования массивов и списоков?
- 2 подписчика
- 18 апр.
- 457 просмотров
1

ответ
Алгоритмы

Средний
Справится ли алгоритм с задачей по поиск слов в словаре?
- 1 подписчик
- 17 апр.
- 82 просмотра
1

ответ
Алгоритмы

Простой
Как определить сложность алгоритма?
- 1 подписчик
- 16 апр.
- 113 просмотров
3

ответа
Алгоритмы

+2 ещё

Простой
Какая может быть формула для решения этой задачи?
- 3 подписчика
- 11 апр.
- 6699 просмотров
3

ответа
Показать ещё Загружается…

С developer (алгоритмист)

СберТех • Москва

от 350 000 ₽

Бэкенд программист

Grade Factor • Москва

от 80 000 ₽

С++ developer

TQB - хай-тек рекрутмент по-хардкору • Москва

от 300 000 ₽

Написать посты на игровую тематику (PlayStation) Telegram, VK

25 апр. 2024, в 16:21

15000 руб./за проект

DevOps настройка Gitlab CICD для проекта c CF Worker

25 апр. 2024, в 16:12

2000 руб./за проект

DevOps

25 апр. 2024, в 16:08

130000 руб./за проект

Answer 1 · 2012-04-13 08:37:57

egorinsk @egorinsk

Вы смотрели гугловский SPDY? Там вроде что-то сжимается как раз с заданным заранее словарем.

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2012-04-13 09:50:01

Эх, велосипеды-велосипедики.
Большинство алгоритмов сжатия как раз основывается на алгоритмах Хаффмана и Шеннона-Фано, просто их «словарь» (кодовое дерево) хранится вместе со сжатыми данными и в результате архив является самодостаточным.

Если говорить относительно передачи данных, то в прикладной разработке существуют такие библиотеки как Apache Thrift и Google Protobuf, которые заранее позволяют сгенерировать структуры, описывающие формат данных, а затем при пересылке использовать компактные бинарные форматы и передавать необходимый минимум данных.

Алгоритмы сжатия данных с использованием внешнего словаря и их реализация

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт