xhumanoid, я не пытался тролить hadoop, а даже напротив.
Меня интересовало насколько он медленнее обычного
grep "<title>" |wc
, и насколько больше жрёт ресурсов.
Я опять сказал слово «медленнее»? Не обращай внимания на это… тут больше имеется введу что на посчитать «2+2» hadoop потребует больше ресурсов, но для пересчёта 1 миллиарда «2+2» сможет распаралелить это всё дело. Что кстати этот маленький и возможно не совсем правельный тест показал.
PS 1 snappy не позволяет «сплитить» файл и декодирвать отдельные его части. comphadoop.weebly.com/
PS 2 pbzip2 это паралельный bzip2… использует сразу несколько CPU
PS 3 там не только wc был а ещо и grep
PS 4 точно не помню… скорее всего было 4 маппера на каждую ноду
PS 4.1 вывода не было, я просто счотчик использовал (не было редюсеров)
PS 4.2 было включено ))
PS 4.3 да… наверное это было бы лудше
Да, наверное это было не правельно
Меня интересовало насколько он медленнее обычного , и насколько больше жрёт ресурсов.
Я опять сказал слово «медленнее»? Не обращай внимания на это… тут больше имеется введу что на посчитать «2+2» hadoop потребует больше ресурсов, но для пересчёта 1 миллиарда «2+2» сможет распаралелить это всё дело. Что кстати этот маленький и возможно не совсем правельный тест показал.
PS 1 snappy не позволяет «сплитить» файл и декодирвать отдельные его части. comphadoop.weebly.com/
PS 2 pbzip2 это паралельный bzip2… использует сразу несколько CPU
PS 3 там не только wc был а ещо и grep
PS 4 точно не помню… скорее всего было 4 маппера на каждую ноду
PS 4.1 вывода не было, я просто счотчик использовал (не было редюсеров)
PS 4.2 было включено ))
PS 4.3 да… наверное это было бы лудше