войти зарегистрироваться

Подкасты«Разбор полетов» — episode 6 — Pirates of Silicon Valley


Представляю специальный праздничный выпуск популярного в узких кругах IT-тематического разговорного подкаста «Разбор Полетов». В этом выпуске много гостей, много разговоров про стартапы и просто за жизнь.
В этом выпуске:

Гости:
Константин
Илья
Дима
Наши контакты:
twitter: @gamussa
G+: gplus.to/gAmUssA
Подписаться по RSS
прослушан 202 раза

Высокая производительностьHadoop достиг версии 1.0

Известная платформа для массово-параллельной обработки данных Apache Hadoop вышла в версии 1.0.0 (release notes). Для другого проекта выпуск первой версии мог бы считаться знаменательным событием и вехой в развитии, но здесь ситуация совсем другая. На самом деле Hadoop был готов к использованию в самых серьёзных коммерческих проектах ещё с версии 0.20. В связке с MapReduce он уже давно работает на Facebook, Yahoo, Twitter и др. В марте 2011 года Hadoop удостоен ежегодной награды MediaGuardian Innovation Awards как самая инновационная технология, а на церемонии вручения Hadoop назвали «швейцарским армейским ножом 21 века».

Впрочем, некоторые компании могут принципиально не использовать продукты версии ниже 1.0, так что для них этот релиз важен. Это некая гарантия стабильности со стороны разработчиков.

Вообще, нумерация версий Hadoop может кого угодно запутать.

0.23.0: 11 ноября 2011
0.22.0: 10 декабря 2011
1.0.0: 29 декабря 2011, на самом деле это 0.20.205 после багфиксов

Подкасты«Разбор полетов» — episode 2 — НаScala-ная живопись

Я и коллега aib представляем вашему вниманию второй выпуск уже ставшего популярным в узких кругах, разговорного IT-тематического подкаста «Разбор Полетов».
В этом выпуске:
  • Полезняшка — Stanford Javascript Crypto Library 1
  • 2012-год Hadoop? А почему бы и нет 1 2
  • Куда катится этот мир 1
  • Scala уже не торт. Что-то быстро 1
  • Интересный игрок 1 2
  • Форкай правильно! 1

Наши контакты:
twitter: @a_abashev @gamussa
G+: gplus.to/gAmUssA http://gplus.to/aabashev
Подписаться по RSS
прослушан 243 раза

Персональные блоги Основные тезисы конференции HighLoad++ 2011

imageВ октябре 2011 года в Москве проходила ежегодная конференция разработчиков высоконагруженных проектов HighLoad++.
Решил поделиться с читателями основными тезисами с конференции. Поскольку вся информация открыта и доступна на странице конференции, решил что собрать все тезисы вместе будет не такой уж и плохой затеей. Сразу отмечу, что в отчёте не содержится детальной информации о каждом докладе — затронуты лишь ключевые моменты.
Итак, о чём говорилось на HighLoad++ 2011.

Высокая производительностьYac 2011: Технический отчёт

Эх, раз, да ещё раз,
Да ещё yet another раз…


Не так давно завершилась конференция Яндекс YaC 2011 и теперь, когда стали доступны записи выступлений, я хочу представить вам технический отчёт о её посещении. В отчете я сосредоточился на той информации, которую вы можете получить, посмотрев запись того или иного доклада, и решить стоит ли тратить на это время. Для некоторых тем добавил дополнительные ссылки на ключевые ресурсы, а так же, по мотивам общения с авторами, описал устройства двух NoSQL технологий Яндекса: Elliptics Network и хранилища писем в Яндекс почте.

Итак, Yac 2011, как это было.

Поисковые машины и технологииОбщедоступный индекс веба (5 миллиардов веб-страниц)

Организация Common Crawl сделала щедрый подарок разработчикам и компаниям, которые работают в области поиска и обработки информации. В открытый доступ на Amazon S3 выложен индекс из 5 миллиардов веб-страниц с метаданными, PageRank и графом гиперссылок.

Если вы видели в логах веб-сервера CCBot/1.0, то это их краулер. Некоммерческая организация Common Crawl выступает за свободу информации и поставила целью сделать общедоступный поисковый индекс, который будет доступен каждому разработчику или стартапу. Предполагается, что это приведёт к созданию целой плеяды инновационных веб-сервисов.

Data MiningИспользование Apache Mahout для кластеризации данных на Hadoop платформе из песочницы

Как мы все знаем у организации Apache очень много проектов. Apache Foundation — это настоящий инкубатор IT проектов. Все знают Apache прежде всего по их веб-серверу. Однако кроме веб-сервера Apache продвигает много других очень полезных проектов. Один из таких перспективных проектов это Apache Hadoop. Apache Hadoop позволяет делать распределенные вычисления. Зачем это нужно? В первую очередь для обработки больших объемов данных. Сейчас есть такой современный тренд — Big Data — это большие данные. Но насколько большие? На этот вопрос все отвечают по разному. Для одной организации петабайт может являться в принципе нормальным объемом данных, а для другой это уже проблема больших данных. Если копнуть глубже то тут возникает целый ряд проблем: хранение, поиск, аналитика, и визуализация. Проблема хранения решается в принципе просто посредством какой-нибудь распределенной СУБД. Более сложно дело обстоит с поиском нужной информации, аналитикой и визуализацией. Вот как раз таки Apache Mahout и поможет нам программировать аналитику.

ПодкастыGeekCast #2

image
Темы:
Google Dart Вейдер?;
Чините деплой, а не симптомы;
Тула недели: Apache CLI;
Hadoop будет в Azure;
Hyper-V, Citrix Xen, KVM, OpenVZ, личный опыт.

Ведущие:
Юрий Трухин (@trukhinyuri/attrukhinyuri),
Михаил Филиппов (@filippovma),
Сергей Гаврук (@gavruk);

прослушан 505 раз

Высокая производительностьMicrosoft поддерживает Hadoop

Компания Microsoft приняла решение поддержать пользователей, которые хотят делать кластеры Hadoop на Windows Server и Windows Azure. В рамках стратегического сотрудничества с Hortonworks будет разработан стек для Hadoop. Microsoft обещает публиковать код под открытой лицензией, делая коммиты в проект Apache по окончании разработки.

Вдобавок, Microsoft создаст «простые версии, которые можно скачать, инсталлировать и настроить» различных технологий, связанных с Hadoop, в том числе HDFS, Hive и Pig. Это должно стимулировать использование Hadoop корпоративными заказчиками.

NoSQLАНБ представило СУБД в инкубатор Apache

Агентство национальной безопасности США предоставило на рассмотрение фонда Apache Software Foundation свой проект Accumulo. Это распределённая СУБД, созданная на основе дизайна Google BigTable с использованием кода Hadoop, Zookeeper и Thrift. Дизайн BigTable обнародован в 2006 году, работа над Accumulo началась в 2008-м, причём он изначально задумывался как свободный проект с использованием открытых библиотек.

Главным улучшением Accumulo по сравнению с BigTable является продвинутая система разграничения прав доступа на уровне отдельных ячеек (cell-level access labels). Различные пользователи могут получать доступ только к определённым полям базы данных, которым присвоен соответствующий уровень доступа (labels).