Pull to refresh
0
0
Konstantin Gerasimenko @KRED

User

Send message

Небольшой тест производительности Hadoop/Mapreduce

Reading time2 min
Views4.4K
Давным давно задался себе вопросом «На сколько эфективно работает MapReduce ?»

Появилась такая возможность и на кластере состоящим из 4 нодов в такой вот конфигурации я решил потестить:
— 3 ноды: Intel Xeon CPU W3530 @ 2.80GHz 12GB RAM
— 1 нода: Intel Xeon CPU X5450 @ 3.00GHz. 8GB RAM

Операционка debian, hadoop 1.2 (с офф.сайта), java 7 (От ORACLE).

Исходные данные:
— ХМЛ файл: dumps.wikimedia.org/enwiki/20130904/enwiki-20130904-stub-meta-current.xml.gz
— в распакованом состоянии файл занимает 18ГБ места.
— 31М записей о страничках в вики.
— Bzip2 сжимает этот файл в 2ГБ
— 593.045.627 строк в файле
Читать дальше →
Total votes 15: ↑5 and ↓10-5
Comments9

Information

Rating
Does not participate
Location
Bayern, Германия
Date of birth
Registered
Activity