Comments / Profile of facha / Habr

facha @facha

User

Profile Publications 10Comments 310Bookmarks 99

Big Data в Райффайзенбанке

facha Jul 6 2017 at 01:07

выбрали Hortonworks, потому что его дистрибутив не содерджит проприетарных компонентов.

CDH тоже не содержит. За пределами HDP и CDH у обеих компаний есть не-opensource продукты.

К тому же, у Hortonworks из коробки доступна 2-я версия Spark, а у Cloudera – только 1.6.

Spark2 в CDH тоже есть. Он устанавливается отдельным пакетом.

Look

YT: зачем Яндексу своя MapReduce-система и как она устроена

facha Jul 6 2017 at 00:11

А вот когда нужно отсортировать петабайт, грубо говоря, то непонятно, чем тут Spark поможет.

Spark поможет отсортировать петабайт быстрее. Вы, наверное, путаете Spark и Spark Streaming.

Look

Английский для собеседований в IT-компании: что нужно для старта карьеры?

facha May 5 2017 at 10:07

Частенько этот вопрос задают, чтоб собеседуемый перестал нервничать, немного освоился, ну и, чтоб завязать разговор.

Look

«Почему вы просто не перепишете это на язык X?»

facha Apr 25 2017 at 11:13

Чей это логотип с ласточкой в левом углу на картинке?

Look

Вероятность потери данных в больших кластерах

facha Mar 30 2017 at 12:44

Думаю, автор не принял во внимание, что так оно все и работает. Т.е. нужно было оценивать вероятность выхода из строя двух оставшихся реплик в течение времени, пока авторепликация еще не завершена.

Look

Самые худшие технологические прогнозы за последние 150 лет

facha Feb 20 2017 at 18:24

Лошадь была, есть и будет, а вот автомобиль – лишь новая мимолётная блажь.

Об этой цитате еще вспомнят, когда на Земле закончатся углеводороды))

Look

Балансировка нагрузки с Pacemaker и IPaddr (Active/Active cluster)

facha Jan 25 2017 at 10:29

Пожалуйста, расскажите, что произойдет, если одна из нод будет выключена. На ее запросы будет отвечать какая-то одна соседняя нода? Или все оставшиеся вместе? Как (и насколько быстро) кластер поймет, что одна из нод выключилась?

Look

С чего начать внедрение Hadoop в компании

facha Jan 9 2017 at 16:23

Кластеры Hadoop как правило используют локальные диски, расположенные на самих нодах. Внешнее хранилище не используется.

Look

Маленький код для больших данных или Apache Spark за 3 дня

facha Nov 25 2016 at 10:48

Проблема наверное в том, что менеджеры могут выбивать бюджеты под магические слова Big Data

Вы просто глядите со своей колокольни (data science). Если посмотреть на hadoop как решение для data warehouse, бюджеты не покажутся такими уж фантастическими (по сравнению с ценниками Teradata, Netezza,...).

Look

СМАРТ ТВ – будущее телевидения

facha Nov 14 2016 at 12:39

Есть два нюанса:
— ТВ — бесплатное. За интернет нужно платить.
— У ТВ более низкий порог вхождения)) Овладеть двумя кнопками на пульте легче, чем компьютером.

Look

Глубокое обучение для новичков: распознаем рукописные цифры

facha Nov 8 2016 at 13:52

Пожалуйста, расскажите, где теперь наша обученная модель. Как ее использовать. Например, мне друг Вася прислал картинку с циферкой. Нужно ее распознать. Как мне сохранить и впоследствии использовать модель, которую я обучил по Вашему туториалу?

Look

Голуби брутфорсят парадокс Монти Холла лучше людей

facha Oct 27 2016 at 13:34

Пусть C что мне очень захотелось вздремнуть и я забыл загадать какую дверь открывать. Что тогда?

Ведущий не просто должен открыть одну из дверей с козлом. Ведущий должин открыть дверь, которую НЕ выбрал конкурсант, и за которой козел. Если Вы уснули и не сделали выбор, ведущий не сможет открыть удовлетворяющую правилам дверь.

Look

Сравнение аналитических in-memory баз данных

facha Oct 12 2016 at 00:48

Вот, если интересно, бенчмарк Kudu vs Impala/Parquet (правда, старый)

http://www.slideshare.net/cloudera/kudu-new-hadoop-storage-for-fast-analytics-on-fast-data/40

Look

Как обезопасить Linux-систему: 10 советов

facha Sep 12 2016 at 15:38

Некоторые моменты очень устарели. В наши дни мало кому доводится порулить машиной с inetd, telnetd или fingerd.

Look

Определение региона по номеру телефона в Asterisk без использования БД

facha Aug 10 2016 at 09:46

Почему решили отказаться от хранения в бд? У Вас при каждом звонке читаются все данные. В бд был бы поиск по дереву, индекс, кеширование…

Look

Двадцать один бесплатный инструмент, о котором должен знать каждый системный администратор

facha Aug 3 2016 at 10:31

imho, конечно, но screen и tmux больше подходят для решения проблем с прерванными сеансами, чем mosh.

Look

Big Data головного мозга

facha Jun 22 2016 at 11:30

Столько неточностей и голословных утверждений в статье это специально чтоб было о чем похоливарить?

Google, а потом и Дуг сделали инструмент(и далеко не идеальный, как призналось Google, спустя несколько лет), для решения конкретного класса задач — построение поискового индекса.

Круг задач решаемых с помошью MapReduce довольно широк. Намного шире задачи построения поискового индекса. Например, весь SQL можно реализовать с помошью MapReduce. Уже немало.

Число «маперов» и «редьюсеров» постоянно во время выполнения, ресурсы делятся между этими группами процессов и если, например, маперы уже прекратили свою работу, то ресурсы редьюсерам уже не освободятся.

Неверно.

По факту инструмент для аналитики бесполезен

Это было про MapReduce. Какое-то голословное утверждение. Во времена, когда появился MapReduce, количество памяти в серверах было сравнительно небольшим, и для аналитики на недорогом железе не было ничего лучше.

Хардкод и усердный код на Java превращает простые запросы в месиво, которое невозможно будет читать в будущем.

Это точно про Spark?

Поддержка SQL пока слабая.

Достаточная. Смотря с чем сравнивать.

Spark не понимает, как данные лежат в HDFS.

Spark понимает, как данные лежат в HDFS.

Это хоть и MPP-система

Это не MPP-система

На самом деле, структура есть почти у всех данных, которые нам могут пригодиться

Текст, например, очень слабо структурирован.

Это такие же МРР-движки поверх HDFS как Spark и MR

Kudu — хранилище данных, а не МРР-движок

Kudu понимает, как лежат данные в HDFS

Неверно. Kudu вообще не использует HDFS.

Только SQL и никакого хардкода.

Неверно. В нативном API Kudu нет SQL.

Все эти 3 продукта плюс-минус примерно одинаковые

Это про Kudu, Impala и Drill. Нет. Kudu — хранилище данных, Impala и Drill МРР-движки

Apache HAWQ очень похож на Apache Kudu

Еще раз повторюсь. Kudu к MPP-движкам никакого отношения не имеет.

Cloudera Distributed Hadoop

Cloudera Hadoop Distribution

CDH можно оставить для хипстеров

Список хипстеров прилагается — http://www.cloudera.com/customers.html

Look

Яндекс открывает ClickHouse

facha Jun 15 2016 at 11:20

Всё становится сложнее, если вам нужно выполнять запросы в интерактивном режиме по неагрегированным данным, поступающим в систему в реальном времени. Для решения этой задачи, открытых технологий подходящего качества до сих пор не существовало.

Kudu?

Look

Космическая сеть ЦОД

facha Jun 1 2016 at 10:32

Интересно, на кого рассчитаны подобные новости, и с какой целью их распространяют. Ведь понятно же, что никто никуда никакие сервера запускать не собирается

Look

Самый простой способ создать сайт

facha May 10 2016 at 11:18

Можете ссылку дать на какие-нибудь сайты с этой смс?

Look

3 4 ...

15 16