Думаю, автор не принял во внимание, что так оно все и работает. Т.е. нужно было оценивать вероятность выхода из строя двух оставшихся реплик в течение времени, пока авторепликация еще не завершена.
Пожалуйста, расскажите, что произойдет, если одна из нод будет выключена. На ее запросы будет отвечать какая-то одна соседняя нода? Или все оставшиеся вместе? Как (и насколько быстро) кластер поймет, что одна из нод выключилась?
Проблема наверное в том, что менеджеры могут выбивать бюджеты под магические слова Big Data
Вы просто глядите со своей колокольни (data science). Если посмотреть на hadoop как решение для data warehouse, бюджеты не покажутся такими уж фантастическими (по сравнению с ценниками Teradata, Netezza,...).
Есть два нюанса:
— ТВ — бесплатное. За интернет нужно платить.
— У ТВ более низкий порог вхождения)) Овладеть двумя кнопками на пульте легче, чем компьютером.
Пожалуйста, расскажите, где теперь наша обученная модель. Как ее использовать. Например, мне друг Вася прислал картинку с циферкой. Нужно ее распознать. Как мне сохранить и впоследствии использовать модель, которую я обучил по Вашему туториалу?
Пусть C что мне очень захотелось вздремнуть и я забыл загадать какую дверь открывать. Что тогда?
Ведущий не просто должен открыть одну из дверей с козлом. Ведущий должин открыть дверь, которую НЕ выбрал конкурсант, и за которой козел. Если Вы уснули и не сделали выбор, ведущий не сможет открыть удовлетворяющую правилам дверь.
Столько неточностей и голословных утверждений в статье это специально чтоб было о чем похоливарить?
Google, а потом и Дуг сделали инструмент(и далеко не идеальный, как призналось Google, спустя несколько лет), для решения конкретного класса задач — построение поискового индекса.
Круг задач решаемых с помошью MapReduce довольно широк. Намного шире задачи построения поискового индекса. Например, весь SQL можно реализовать с помошью MapReduce. Уже немало.
Число «маперов» и «редьюсеров» постоянно во время выполнения, ресурсы делятся между этими группами процессов и если, например, маперы уже прекратили свою работу, то ресурсы редьюсерам уже не освободятся.
Неверно.
По факту инструмент для аналитики бесполезен
Это было про MapReduce. Какое-то голословное утверждение. Во времена, когда появился MapReduce, количество памяти в серверах было сравнительно небольшим, и для аналитики на недорогом железе не было ничего лучше.
Хардкод и усердный код на Java превращает простые запросы в месиво, которое невозможно будет читать в будущем.
Это точно про Spark?
Поддержка SQL пока слабая.
Достаточная. Смотря с чем сравнивать.
Spark не понимает, как данные лежат в HDFS.
Spark понимает, как данные лежат в HDFS.
Это хоть и MPP-система
Это не MPP-система
На самом деле, структура есть почти у всех данных, которые нам могут пригодиться
Текст, например, очень слабо структурирован.
Это такие же МРР-движки поверх HDFS как Spark и MR
Kudu — хранилище данных, а не МРР-движок
Kudu понимает, как лежат данные в HDFS
Неверно. Kudu вообще не использует HDFS.
Только SQL и никакого хардкода.
Неверно. В нативном API Kudu нет SQL.
Все эти 3 продукта плюс-минус примерно одинаковые
Это про Kudu, Impala и Drill. Нет. Kudu — хранилище данных, Impala и Drill МРР-движки
Apache HAWQ очень похож на Apache Kudu
Еще раз повторюсь. Kudu к MPP-движкам никакого отношения не имеет.
Всё становится сложнее, если вам нужно выполнять запросы в интерактивном режиме по неагрегированным данным, поступающим в систему в реальном времени. Для решения этой задачи, открытых технологий подходящего качества до сих пор не существовало.
Интересно, на кого рассчитаны подобные новости, и с какой целью их распространяют. Ведь понятно же, что никто никуда никакие сервера запускать не собирается
Spark2 в CDH тоже есть. Он устанавливается отдельным пакетом.
Об этой цитате еще вспомнят, когда на Земле закончатся углеводороды))
Вы просто глядите со своей колокольни (data science). Если посмотреть на hadoop как решение для data warehouse, бюджеты не покажутся такими уж фантастическими (по сравнению с ценниками Teradata, Netezza,...).
— ТВ — бесплатное. За интернет нужно платить.
— У ТВ более низкий порог вхождения)) Овладеть двумя кнопками на пульте легче, чем компьютером.
Ведущий не просто должен открыть одну из дверей с козлом. Ведущий должин открыть дверь, которую НЕ выбрал конкурсант, и за которой козел. Если Вы уснули и не сделали выбор, ведущий не сможет открыть удовлетворяющую правилам дверь.
http://www.slideshare.net/cloudera/kudu-new-hadoop-storage-for-fast-analytics-on-fast-data/40
Круг задач решаемых с помошью MapReduce довольно широк. Намного шире задачи построения поискового индекса. Например, весь SQL можно реализовать с помошью MapReduce. Уже немало.
Неверно.
Это было про MapReduce. Какое-то голословное утверждение. Во времена, когда появился MapReduce, количество памяти в серверах было сравнительно небольшим, и для аналитики на недорогом железе не было ничего лучше.
Это точно про Spark?
Достаточная. Смотря с чем сравнивать.
Spark понимает, как данные лежат в HDFS.
Это не MPP-система
Текст, например, очень слабо структурирован.
Kudu — хранилище данных, а не МРР-движок
Неверно. Kudu вообще не использует HDFS.
Неверно. В нативном API Kudu нет SQL.
Это про Kudu, Impala и Drill. Нет. Kudu — хранилище данных, Impala и Drill МРР-движки
Еще раз повторюсь. Kudu к MPP-движкам никакого отношения не имеет.
Cloudera Hadoop Distribution
Список хипстеров прилагается — http://www.cloudera.com/customers.html
Kudu?