Pull to refresh
40
0
facha @facha

User

Send message
выбрали Hortonworks, потому что его дистрибутив не содерджит проприетарных компонентов.
CDH тоже не содержит. За пределами HDP и CDH у обеих компаний есть не-opensource продукты.
К тому же, у Hortonworks из коробки доступна 2-я версия Spark, а у Cloudera – только 1.6.
Spark2 в CDH тоже есть. Он устанавливается отдельным пакетом.
А вот когда нужно отсортировать петабайт, грубо говоря, то непонятно, чем тут Spark поможет.
Spark поможет отсортировать петабайт быстрее. Вы, наверное, путаете Spark и Spark Streaming.
Частенько этот вопрос задают, чтоб собеседуемый перестал нервничать, немного освоился, ну и, чтоб завязать разговор.
Чей это логотип с ласточкой в левом углу на картинке?
Думаю, автор не принял во внимание, что так оно все и работает. Т.е. нужно было оценивать вероятность выхода из строя двух оставшихся реплик в течение времени, пока авторепликация еще не завершена.
Лошадь была, есть и будет, а вот автомобиль – лишь новая мимолётная блажь.


Об этой цитате еще вспомнят, когда на Земле закончатся углеводороды))
Пожалуйста, расскажите, что произойдет, если одна из нод будет выключена. На ее запросы будет отвечать какая-то одна соседняя нода? Или все оставшиеся вместе? Как (и насколько быстро) кластер поймет, что одна из нод выключилась?
Кластеры Hadoop как правило используют локальные диски, расположенные на самих нодах. Внешнее хранилище не используется.
Проблема наверное в том, что менеджеры могут выбивать бюджеты под магические слова Big Data


Вы просто глядите со своей колокольни (data science). Если посмотреть на hadoop как решение для data warehouse, бюджеты не покажутся такими уж фантастическими (по сравнению с ценниками Teradata, Netezza,...).
Есть два нюанса:
— ТВ — бесплатное. За интернет нужно платить.
— У ТВ более низкий порог вхождения)) Овладеть двумя кнопками на пульте легче, чем компьютером.
Пожалуйста, расскажите, где теперь наша обученная модель. Как ее использовать. Например, мне друг Вася прислал картинку с циферкой. Нужно ее распознать. Как мне сохранить и впоследствии использовать модель, которую я обучил по Вашему туториалу?
Пусть C что мне очень захотелось вздремнуть и я забыл загадать какую дверь открывать. Что тогда?


Ведущий не просто должен открыть одну из дверей с козлом. Ведущий должин открыть дверь, которую НЕ выбрал конкурсант, и за которой козел. Если Вы уснули и не сделали выбор, ведущий не сможет открыть удовлетворяющую правилам дверь.
Вот, если интересно, бенчмарк Kudu vs Impala/Parquet (правда, старый)

http://www.slideshare.net/cloudera/kudu-new-hadoop-storage-for-fast-analytics-on-fast-data/40

Некоторые моменты очень устарели. В наши дни мало кому доводится порулить машиной с inetd, telnetd или fingerd.
Почему решили отказаться от хранения в бд? У Вас при каждом звонке читаются все данные. В бд был бы поиск по дереву, индекс, кеширование…
imho, конечно, но screen и tmux больше подходят для решения проблем с прерванными сеансами, чем mosh.
Столько неточностей и голословных утверждений в статье это специально чтоб было о чем похоливарить?

Google, а потом и Дуг сделали инструмент(и далеко не идеальный, как призналось Google, спустя несколько лет), для решения конкретного класса задач — построение поискового индекса.

Круг задач решаемых с помошью MapReduce довольно широк. Намного шире задачи построения поискового индекса. Например, весь SQL можно реализовать с помошью MapReduce. Уже немало.

Число «маперов» и «редьюсеров» постоянно во время выполнения, ресурсы делятся между этими группами процессов и если, например, маперы уже прекратили свою работу, то ресурсы редьюсерам уже не освободятся.

Неверно.

По факту инструмент для аналитики бесполезен

Это было про MapReduce. Какое-то голословное утверждение. Во времена, когда появился MapReduce, количество памяти в серверах было сравнительно небольшим, и для аналитики на недорогом железе не было ничего лучше.

Хардкод и усердный код на Java превращает простые запросы в месиво, которое невозможно будет читать в будущем.

Это точно про Spark?

Поддержка SQL пока слабая.

Достаточная. Смотря с чем сравнивать.

Spark не понимает, как данные лежат в HDFS.

Spark понимает, как данные лежат в HDFS.

Это хоть и MPP-система

Это не MPP-система

На самом деле, структура есть почти у всех данных, которые нам могут пригодиться

Текст, например, очень слабо структурирован.

Это такие же МРР-движки поверх HDFS как Spark и MR

Kudu — хранилище данных, а не МРР-движок

Kudu понимает, как лежат данные в HDFS

Неверно. Kudu вообще не использует HDFS.

Только SQL и никакого хардкода.

Неверно. В нативном API Kudu нет SQL.

Все эти 3 продукта плюс-минус примерно одинаковые

Это про Kudu, Impala и Drill. Нет. Kudu — хранилище данных, Impala и Drill МРР-движки

Apache HAWQ очень похож на Apache Kudu

Еще раз повторюсь. Kudu к MPP-движкам никакого отношения не имеет.

Cloudera Distributed Hadoop

Cloudera Hadoop Distribution

CDH можно оставить для хипстеров

Список хипстеров прилагается — http://www.cloudera.com/customers.html
Всё становится сложнее, если вам нужно выполнять запросы в интерактивном режиме по неагрегированным данным, поступающим в систему в реальном времени. Для решения этой задачи, открытых технологий подходящего качества до сих пор не существовало.


Kudu?
Интересно, на кого рассчитаны подобные новости, и с какой целью их распространяют. Ведь понятно же, что никто никуда никакие сервера запускать не собирается
Можете ссылку дать на какие-нибудь сайты с этой смс?

Information

Rating
Does not participate
Registered
Activity