Давным давно задался себе вопросом «На сколько эфективно работает MapReduce ?»
Появилась такая возможность и на кластере состоящим из 4 нодов в такой вот конфигурации я решил потестить:
— 3 ноды: Intel Xeon CPU W3530 @ 2.80GHz 12GB RAM
— 1 нода: Intel Xeon CPU X5450 @ 3.00GHz. 8GB RAM
Операционка debian, hadoop 1.2 (с офф.сайта), java 7 (От ORACLE).
Исходные данные:
— ХМЛ файл: dumps.wikimedia.org/enwiki/20130904/enwiki-20130904-stub-meta-current.xml.gz
— в распакованом состоянии файл занимает 18ГБ места.
— 31М записей о страничках в вики.
— Bzip2 сжимает этот файл в 2ГБ
— 593.045.627 строк в файле
Появилась такая возможность и на кластере состоящим из 4 нодов в такой вот конфигурации я решил потестить:
— 3 ноды: Intel Xeon CPU W3530 @ 2.80GHz 12GB RAM
— 1 нода: Intel Xeon CPU X5450 @ 3.00GHz. 8GB RAM
Операционка debian, hadoop 1.2 (с офф.сайта), java 7 (От ORACLE).
Исходные данные:
— ХМЛ файл: dumps.wikimedia.org/enwiki/20130904/enwiki-20130904-stub-meta-current.xml.gz
— в распакованом состоянии файл занимает 18ГБ места.
— 31М записей о страничках в вики.
— Bzip2 сжимает этот файл в 2ГБ
— 593.045.627 строк в файле