Pull to refresh

Сортировка петабайта данных заняла 6 часов 2 минуты.

Reading time1 min
Views3.7K
image

Компания Google провела эксперимент по сортировке 1 ПБ данных при помощи фреймворка MapReduce. Данные были представлены в виде 10 триллионов записей, каждая длиной 100 байт. Для сортировки были задействованы 4000 компьютеров. Этот беспрецедентный для такого типа задач объем данных удалось отсортировать за 6 часов 2 минуты.

В ходе эксперимента сотрудникам Google пришлось решать проблему с размещением 1 ПБ данных. Дело в том, что при каждом новом запуске сортировки, выходил из строя хотя бы один из 48 000 используемых жестких дисков. В итоге, было решено дать Google File System команду хранить по три копии каждого файла на разных жестких дисках.

Сортировка меньшего объема данных в 1 ТБ на 1000 компьютерах заняла 68 секунд. Этим самым в Google побили предыдущий рекорд по сортировке аналогичного объема данных, составляющий 209 секунд на 910 компьютерах.

Для сравнения, общий объем фотографий, хранимых в Facebook, составляет 1 ПБ, Большой Адронный Коллайдер будет производить 15 ПБ данных в год, а Google обрабатывает около 20 ПБ данных в день.
Tags:
Hubs:
+68
Comments63

Articles