company_banner
  • 10 лет Школе анализа данных Яндекса

      Сегодня исполняется 10 лет Школе анализа данных Яндекса. Девять лет назад я в неё поступил, семь лет назад выпустился и в том же 2010 году, 21 июля, я стал сотрудником ООО «Яндекс».

      С тех пор мы все сильно изменились: и я, и Яндекс, и ШАД. Но есть несколько уроков, которые я вынес из стен Школы, которые до сих пор оказываются для меня актуальными и вряд ли перестанут быть таковыми.


      Изначально я написал этот пост в личном канале медиума, но затем коллеги убедили меня, что имеет смысл поделиться им с Хабром. Возможно, текст получился слишком высокопарным, но такая уж штука юбилей, что без толики высокопарности не получается.

      Ограниченность знания


      Поступал я в Школу, только-только закончив третий курс кафедры прикладной математики МЭИ. Вообще-то тогда говорили, что создатели Школы рассчитывают на выпускников-бакалавров — то есть выпускников четвёртого курса. Так что я изрядно рисковал.
      Читать дальше →
      • +53
      • 9,7k
      • 2
    • Neural conversational models: как научить нейронную сеть светской беседе. Лекция в Яндексе

        Хороший виртуальный ассистент должен не только решать задачи пользователя, но и разумно отвечать на вопрос «Как дела?». Реплик без явной цели очень много, и заготовить ответ на каждую проблематично. Neural Conversational Models — сравнительно новый способ создания диалоговых систем для свободного общения. Его основа — сети, обученные на больших корпусах диалогов из интернета. Борис hr0nix Янгель рассказывает, чем хороши такие модели и как их нужно строить.


        Под катом — расшифровка и основная часть слайдов.

        Читать дальше →
        • +58
        • 10,8k
        • 6
      • Яндекс открывает технологию машинного обучения CatBoost

          Сегодня Яндекс выложил в open source собственную библиотеку CatBoost, разработанную с учетом многолетнего опыта компании в области машинного обучения. С ее помощью можно эффективно обучать модели на разнородных данных, в том числе таких, которые трудно представить в виде чисел (например, виды облаков или категории товаров). Исходный код, документация, бенчмарки и необходимые инструменты уже опубликованы на GitHub под лицензией Apache 2.0.



          CatBoost – это новый метод машинного обучения, основанный на градиентном бустинге. Он внедряется в Яндексе для решения задач ранжирования, предсказания и построения рекомендаций. Более того, он уже применяется в рамках сотрудничества с Европейской организацией по ядерным исследованиям (CERN) и промышленными клиентами Yandex Data Factory. Так чем же CatBoost отличается от других открытых аналогов? Почему бустинг, а не метод нейронных сетей? Как эта технология связана с уже известным Матрикснетом? И причем здесь котики? Сегодня мы ответим на все эти вопросы.

          Читать дальше →
        • Машинное обучение и поиск темной материи: соревнование от ЦЕРНа и Яндекса

            Яндекс уже несколько лет сотрудничает с ЦЕРНом. Он сделал для учёных-физиков поиск по событиям в БАК, предоставил свои вычислительные ресурсы и технологии обработки данных — в том числе Матрикснет и ClickHouse. В 2014 году Яндекс стал ассоциированным членом CERN openlab.


            Школа анализа данных Яндекса принимает участие в двух экспериментах ЦЕРНа — SHiP и LHCb. Машинное обучение в наши дни становится «микроскопом» для современных учёных, которым необходимо изучать большие объемы данных и находить в них различные закономерности. В этом году ШАД совместно с лабораторией Методов анализа больших данных Вышки и Имперским колледжем Лондона организует в Великобритании международную школу, которая посвящена способам применения современных технологий в научных исследованиях.



            Эксперимент OPERA — из Швейцарии в Италию (картинка взята с сайта коллаборации OPERA)


            Сегодня в рамках школы начинается открытое соревнование, участники которого будут ни много ни мало искать нейтрино. Принять участие в поисках мы приглашаем всех желающих. Им предстоит обрабатывать данные с международного эксперимента OPERA. Для этого будут предоставлены исходные данные — результаты сканирования слоев фотопленок одного «кирпича» эксперимента OPERA. Соревнование состоит из двух этапов. На первом этапе участники будут искать отдельный ливень в «кирпиче», первая вершина которого известна, на втором — несколько ливней, рассредоточенных по объему «кирпича» без дополнительной информации. Победители смогут рассказать о своих решениях ученым, работающим в ЦЕРНе.

            Читать дальше →
            • +41
            • 7,5k
            • 2
          • Рекомендация первого трека для стриминга. Лекция в Яндексе

              Сейчас проходит Data Science Game — международное студенческое соревнование по анализу данных. Ребята из МГУ выиграли отборочный этап, а затем рассказали о своём решении на одной из наших тренировок по машинному обучению.


              Под катом — расшифровка и большинство слайдов.

              Читать дальше →
            • А был ли взлом «Госуслуг»? Гипотеза Яндекса

                В четверг в сети появилась информация о том, что на сайте Госуслуг найден потенциально опасный код, и сегодня мы хотим поделиться с вами результатами собственного расследования и в очередной раз напомнить о важности применения Content Security Policy.



                В первых сообщениях об угрозе говорилось о внедрении на страницы сайта фрагментов с iframe, подгружающих данные с не менее 15 сомнительных доменов. Наши аналитики достаточно быстро приступили к изучению кода страниц сайта, чтобы защитить пользователей при помощи существующего у нас механизма предотвращающего подобные угрозы. О самом механизме расскажем чуть ниже, но главное здесь в другом – найденные фрагменты кода были нам хорошо знакомы.

                Читать дальше →
              • Яндекс.Такси и Uber поедут вместе

                  Друзья, хочу рассказать вам об очень важной новости. Мы, Яндекс.Такси и Uber, решили объединить наши сервисы и бизнесы в России, а также в Азербайджане, Армении, Беларуси, Грузии и Казахстане. Вместе мы будем строить «персональный общественный транспорт» – альтернативу личному автомобилю, автобусам или метро.

                  image

                  Вот как выглядит объединенная платформа в цифрах за июнь:

                  • 127 городов, 6 стран;
                  • 35 млн поездок в месяц;
                  • 7,9 млрд рублей суммарная стоимость поездок в месяц.

                  Эксперты оценивают совокупную стоимость поездок легальных перевозчиков в России в 501 млрд рублей в 2016 году (VTB Capital). При этом «теневой» сегмент был оценен Аналитическим центром при Правительстве РФ в 116 млрд рублей в 2015 году. Таким образом, доля объединенной компании в России в 2016 году была бы примерно 5-6% по этому показателю.

                  Потребление такси непрерывно растет, и мы являемся свидетелями этого процесса. Многим из нас кажется, что все уже давно пересели на такси, но на самом деле мы находимся только в самом начале пути. Наша цель создать платформу, удобство и доступность которой будут сравнимы как с личным автомобилем, так и с общественным транспортом. Теперь о том, как это будет выглядеть.
                  Читать дальше →
                • Лекция о двух библиотеках Яндекса для работы с большими данными

                    Пару недель назад в Яндексе прошла встреча PyData, посвящённая анализу больших данных с использованием Python. В том числе на этой встрече выступил Василий Агапитов — руководитель группы разработки инструментов аналитики Яндекса. Он рассказал о двух наших библиотеках: для описания и запуска расчетов на MapReduce и для извлечения информации из логов.


                    Под катом — расшифровка и часть слайдов.

                    Читать дальше →
                  • Как Яндекс создавал курс по C++, или Почему нам всё пришлось переписать

                      В Яндексе C++ — один из основных языков, на нём написан наш поиск. Его развитие нам настолько важно, что больше года назад по инициативе Яндекса была создана российская рабочая группа по стандартизации «плюсов». Через неё у всех разработчиков русскоязычного пространства есть возможность влиять на развитие языка.



                      Недавно Физтех, Яндекс и ШАД запустили ещё один курс на платформе Coursera — «Основы разработки на C++: белый пояс». Он посвящён знакомству с С++. Я расскажу, для кого этот курс, как мы его готовили, что получилось в итоге и каковы наши дальнейшие планы.

                      Как всё началось, было выброшено и началось снова


                      Онлайн-специализацию из пяти курсов по С++ мы задумали прошлым летом. Сначала сочиняли программу потихоньку, потом активнее, и в октябре начали снимать видео.

                      Читать дальше →
                    • Квантовый компьютер: большая игра на повышение. Лекция в Яндексе

                        Мы то и дело слышим, что не за горами эпоха активного использования квантовых вычислений, что такие системы уже скоро станут доступны специалистам, включая аналитиков данных. Но сколько осталось ждать на самом деле? Научный сотрудник Российского квантового центра Алексей Фёдоров вводит в курс дела и рассказывает, как идут дела с разработкой квантовых компьютеров.


                        Под катом — расшифровка и часть слайдов Алексея.

                        Читать дальше →
                      Самое читаемое