rusabakumov Dec 5 2011 at 21:42

И снова про сортировки: выбираем лучший алгоритм

9 min

143K

Algorithms*

From sandbox

+111

Comments 32

Pastafarianist Dec 5 2011 at 23:06

Я болел за Timsort.

+22

philpirj Dec 6 2011 at 00:19

Жаль, что mergesort не вошёл в сравнение, а аспект распараллеливания не был затронут.

tangro Dec 6 2011 at 00:30

Всё равно бы тимсорт победил — его суть в сортировке частей, а значит распараллеливание ему только на руку.

rusabakumov Dec 6 2011 at 00:48

Да, из рассмотренных алгоритмов только timsort хоть как-то использует подход «разделяй и властвуй»

B08AH Dec 6 2011 at 11:53

Почему же, quicksort параллелится очень просто. Каждая итерация делит массив на две части, знай только да создавай новые треды на них. Только самая долгая, самая первая итерация не параллелится.

Тоже хотелось бы посмотреть результаты в параллельной обработке. И конечный результат и прирост от параллелизма. На 4х-ядернике желательно, или более.

rusabakumov Dec 6 2011 at 11:55

Да, вы правы, про quicksort что-то я забыл

icc Dec 6 2011 at 02:44

Это зависит от того, какой процент общего времени занимает слияние массивов. Этот этап тяжело распараллелить.

rusabakumov Dec 6 2011 at 00:46

Из классических алгоритмов выбор пал только на heapsort и quicksort из-за того, что первый идейно близок к smoothsort, а второй является самым быстрым из них. Подозреваю, что «чистый» mergesort находился бы где-то в районе shellsort — heapsort на графиках, хотя точно сказать не могу, не проверял. А распараллеливание — это уже отдельная большая тема для рассмотрения, честно, даже не подумал об этом)

Mrrl Jan 13 2013 at 13:29

Обогнать «чистый» mergesort на случайных данных практически невозможно, особенно, если его аккуратно написать, минимизируя число ненужных копирований. Он не столь популярен, как quicksort, только потому, что требует слишком много дополнительной памяти.

david_mz Dec 6 2011 at 01:44

Как насчёт старой-доброй поразрядной сортировки? O(n) при ограниченном диапазоне значений (что на практике всегда выполняется). Было бы интересно погонять его вместе с прочими.

Mrrl Jan 13 2013 at 12:05

Для целых 32-битных чисел на длине массива 10^8 поразрядная сортировка по основанию 256 примерно в 3 раза быстрее, чем std::sort.

icc Dec 6 2011 at 02:38

И все таки, сортировка Хоара остается одной из лучших. Хотя Timsort, конечно, выглядит великолепно. Хотел спросить: а распараллеливать алгоритмы не пытались? После этого картина станет немного другой.

tenzink Dec 6 2011 at 04:16

Жаль, что на случайных данных Timsort уступает ~30% quicksort'у. Не будь этого, брал бы, не задумываясь.

susl Dec 6 2011 at 23:37

Зато он стабилен, я б его только за это брал, даже если б он на 100% медленнее был :) за 30% и думать не стоит

Eddy_Em Dec 6 2011 at 09:12

Еще интересно было бы сравнить алгоритмы неполного упорядочивания данных для поиска медианы (сам таким анализом полностью не занимался: просто сразу взял готовые алгоритмы из Numerical Recipies. Но интересно: вдруг что побыстрей есть).

Blurayman Dec 6 2011 at 11:12

> Было сгенерировано 10 наборов по 10^8 случайных натуральных чисел, для каждого алгоритма было замерено среднее время работы.

вопрос к автору: не сликом ли маленькая статистика? вроде для получение более или менее адекватных средних нужно прогонять каждый тест раз по 10^4 — 10^5. Или большая размерность входных данных позволяет делать нормальные выводы?

просто если мало прогонов, то в это время мог какой-нибудь бекграунд-таск операционки затесаться, например, — и время выполнения для какого-то алгоритма сильно ухудшится. я не прав?

rusabakumov Dec 6 2011 at 12:12

Статистика конечно не огромная, но в моем понимании для получения общей картины вполне достаточная. Как я уже писал, на каждом тестовом наборе все алгоритмы запускались по три раза, и выбиралось минимальное время из этих запусков. Собственно так я пытался избавиться от всяких непредусмотренных нагрузок. Плюс все это дело запускалось на ночь, систему я сам дополнительно никак не грузил.

Если бы была возможность, тестировал бы больше, но, к сожалению, чтобы прогнать все представленные тесты и так потребовалось несколько часов.

И вдобавок, на каждом наборе тестовых данных все алгоритмы запускались по очереди, так что долговременные бекграунды не должны были избирательно повлиять на некоторые алгоритмы)

Blurayman Dec 6 2011 at 12:23

ок, я понял, спасибо)

> И вдобавок, на каждом наборе тестовых данных все алгоритмы запускались по очереди

тут дело больше не в программах, а в окружении. мы не можем запустить тестирование в вакууме, а запускаем исполнение программы в некоторой операционной среде, которая вносит свои помехи в наблюдаемую производительность. (ну, например (сферический пример в вакууме), приспичило операционке во время выполнения теста оптимизировать файловую систему)) ) Поэтому для отсечения таких помех делают много прогонов и усредняют полученное время.

> Если бы была возможность, тестировал бы больше, но, к сожалению, чтобы прогнать все представленные тесты и так потребовалось несколько часов.

несколько часов — это еще хорошо, что не несколько дней
эх, вспоминаю, как мы тестировали МВГ. вот тут понимаешь, как ничтожны все эти мегагерцы и ядра в процессоре ))

rusabakumov Dec 6 2011 at 12:30

Ну в свою защиту еще могу сказать, что пока все это дело писалось, все алгоритмы запускались большое количество раз, и результаты на ненагруженной системе всегда были почти одинаковыми)

> несколько часов — это еще хорошо, что не несколько дней

Был бы второй комп, можно было бы и больше тестировать) А так, самый большой промежуток что я могу не трогать систему — это время сна)

MiXei4 Dec 6 2011 at 13:17

Посмотрев на графики я бы выбрал Quick. Даже не знаю почему абсолютным лидером стал Tim :)

rusabakumov Dec 6 2011 at 14:26

Лидером из трех алгоритмов, которые работают за O(n) при упорядоченных данных)

Rustam Dec 6 2011 at 18:00

потому что в отличие от быстрой сортировки, TimSort стабилен.

MiXei4 Dec 6 2011 at 18:41

Ну судя по графикам быстрая супер стабильна, стабильнее чем Tim, и очевидно быстра. :)

-2

Rustam Dec 6 2011 at 18:50

Посмотрите лучше на определение стабильной (или устойчивой) сортировки.

MiXei4 Dec 6 2011 at 19:07

Да шучу я. Я писал лишь про свое мнение, основывающееся на графиках из топика.

pxx Dec 6 2011 at 13:21

Первая диаграма меня несколько сконфузила. Называется она «Средняя скорость...», поэтому ожидаешь, что чем выше столбик, тем круче. А нет, на вертикальной оси оказывается отложено затраченное время. Было бы неплохо поправить несоответствие названия и данных.

rusabakumov Dec 6 2011 at 14:27

Учту, постараюсь вечером исправить)

alexeyrom Dec 11 2011 at 15:52

Ещё есть Dual-Pivot Quicksort.

B08AH Jan 24 2012 at 16:26

вопрос такой — я правильно понял, 100млн рандомных интов quicksort сортирует за 35 секунд?

Mrrl Feb 16 2012 at 11:29

Вообще-то, за 12-13 секунд. Если работать на одном ядре, и если пользоваться «родной» операцией <, а не передавать функцию. Но это на 3.8 ГГц.

mishamhoyan Apr 6 2015 at 01:04

Возможно я что то не понял, но почему на графиках на позициях где количество элементов массива равно 10^1 10^2 скорость сортировки 13 сек. и выше? Почему так много?

mishamhoyan Apr 6 2015 at 01:58

А все понятно, просто невнимательно прочитал

Show the best of all time