• 10 уроков рекомендательной системы Quora

    • Tutorial


    Привет, Хабр! Как директор по аналитике Retail Rocket, я периодически посещаю различные профильные мероприятия, и в сентябре 2016 года мне посчастливилось побывать на конференции RecSys, посвященной рекомендательным системам, в Бостоне. Было очень много интересных докладов, но мы решили сделать перевод одного из них Lessons Learned from Building Real­-Life Recommender Systems. Он очень интересен с позиции того, как Machine Learning применять в production системах. Про сам ML написано множество статей: алгоритмы, практика применения, конкурсы Kaggle. Но вывод алгоритмов в production — это отдельная и большая работа. Скажу по секрету, разработка алгоритма занимает всего 10%-20% времени, а вывод его в бой все 80-90%. Здесь появляется множество ограничений: какие данные где обрабатывать (в онлайне или оффлайне), время обучения модели, время применения модели на серверах в онлайне и т.д. Критически важным аспектом также является выбор оффлайн/онлайн метрик и их корреляция. На этой же конференции мы делали похожий доклад Hypothesis Testing: How to Eliminate Ideas as Soon as Possible, но выбрали вышеупомянутый учебный доклад от Quora, т.к. он менее специфичный и его можно применять за пределами рекомендательных систем.
    Читать дальше →
    • +20
    • 4,9k
    • 6
  • Power Query: стероиды для MS Excel и Power BI

      image

      В данной статье я хочу рассказать о некоторых возможностях бесплатной и крайне полезной, но пока еще мало известной надстройки над MS Excel под названием Power Query.

      Power Query позволяет забирать данные из самых разных источников (таких как csv, xls, json, текстовых файлов, папок с этими файлами, самых разных баз данных, различных api вроде Facebook opengraph, Google Analytics, Яндекс.Метрика, CallTouch и много чего еще), создавать повторяемые последовательности обработки этих данных и загружать их внутрь таблиц Excel или самого data model.

      И вот под катом вы можете найти подробности всего этого великолепия возможностей.
      Читать дальше →
    • Лемматизация в Excel, или «Робот-распознаватель 3.0»

        Кто работал с онлайн-рекламой, тот в цирке не смеётся знает, что поисковики порой выдают неожиданные ответы на запросы или подкидывают совершенно не те объявления, которые могут быть интересны. В последнем случае корень проблемы зачастую кроется в наборе ключевых слов, которые использует рекламодатель в своих кампаниях. Бездумная автоматизация подбора ключевиков приводит к печальным последствиям, среди которых самое удручающее — пустые показы и клики. Excel-изобретатель и рационализатор Realweb Дмитрий Тумайкин озадачился этой проблемой и создал очередной файл-робот, который рад раздать миру и Хабру. Вновь передаём слово автору.


        Читать дальше →
      • Веб-аналитика: анализируй это! Часть 1. Вступление

          Часть 1. Вступление.
          Часть 2. Сбор данных.
          Часть 3. Базовые метрики.
          Часть 4. От статистики к аналитике
          Часть 5. Разделяй и думай
          Часть 6. Action!
          Счетчики посещаемости знакомы всем пользователям интернета уже много лет. Многие владельцы сайтов ставят сразу несколько иконок разных счетчиков, и день за днём цифры на них растут и всё больше радуют хозяина.



          Далеко не все знают, какую информацию можно извлечь из статистики сайта, кроме цифр посещаемости и, иногда, источников посетителей. Однако, современные системы статистики предоставляют куда больше возможностей для подсчета, обработки и анализа данных посещаемости. Их даже стали по-другому называть: «инструменты веб-аналитики»!

          Сейчас большинство успешных коммерческих сайтов уделяет огромное внимание сбору и анализу статистических данных. В частности, крупнейший международный онлайн-магазин Amazon.com создал целый культ аналитики.
          Читать дальше →
        • Свободный WYSIWYG редактор для сайтов и CMS + файловый менеджер для него

            Хочу представить на суд общественности один наш продукт, выпущенный под open source лицензией.
            elRTE и elFinder — это свободный WYSIWYG редактор для сайтов и систем управления контентом (CMS) и файловый менеджер для него.

            Сайт проекта: elrte.ru | Проект на sourceforge: sourceforge.net/projects/elrte

            Расскажу, в общих чертах, почему мы за это взялись и, что у нас получилось. В нашей CMS мы пользовали FCKEditor. Почему же решили написать свой редактор? Сложно сказать. Решение вызревало довольно долго. Немаловажную роль оказала любовь разработчиков начинать проекты с нуля и изобретать велосипеды. Но это так — эмоции.
            Читать дальше →
          • Английский без дураков: Уроки онлайн бесплатно, вживую, для всех!

              image

              Сегодня у меня маленький праздник: первая годовщина второго рождения сайта «Английский без дураков». Давно собирался рассказать уважаемым хабравчанам об этом своем проекте, да все как-то не было повода, но сегодня не удержусь, уж не обессудьте.

              Если вы когда-нибудь интересовались возможностями изучения английского онлайн, вам должны быть известны основные фигуры Рунета в этой тематике, а вместе с этим — знакомо чувство досады от того, что все эти ресурсы представляют собой по сути одно и то же, а именно собрание статических материалов той или иной степени разнообразия и наполненности: учебники для скачивания, книги на английском, статьи по грамматике, изредка какие-то тесты и упражнения, плюс подборки идиом, пословиц, анекдотов, песен и прочей вспомогательной информации.

              И это все?! Сейчас, когда на календаре 21 век? А где же интерактив? Где мультимедиа? Где живое, вибрирующее сообщество? Ведь при сегодняшнем уровне интернет-технологий поставить все это на службу делу изучения языка более чем реально! Обнаружив когда-то на месте отечественных сервисов по изучению английского зияющую пустоту, я не стал разводить сантименты, а засел за комп, и через некоторое время на свет появился проект, в котором получило воплощение мое собственное представление о том, каким должен быть сайт в помощь изучающим язык. В двух словах: если традиционные вебсайты напоминают библиотеку, то «Английский без дураков» — учебное заведение.
              Читать дальше →
            • Как искать правильно?

                Предварительный дисклеймер. Возможно, ниже описан изобретенный велосипед и все всё давно уже знают. И не надо тут мудрствовать лукаво. Но ничего вменяемого на эту тему я не читал, поэтому начал думать.

                В рамках своего нового курса обучаю людей поиску в Сети. На первых порах большое подспорье оказал печищевский курс (низкий поклон автору) для объяснения принципов работы ПС. Рассказывал о структуре ПС, о запросах и ключевых словах, разных сервисах Яндекса и Гугла, их расширенный поиск и поисковые операторы, про Нигму и Квинтуру. Но это теория. А потом встал вопрос: как научить людей искать в Инете практически?

                Напоминаю ситуацию. Есть педколлектив школы, обучающийся Интернету — люди очень разные (по возрасту, воззрениям, опыту и отношению к И-нету). Нужно все четко, последовательно и понятно. Сказать им «через год научитесь» — не пойдет, нужно понятное обучение, т.к. самой аудитории понятие методики не чуждо:-))

                Ответ «это приходит с опытом» не подходит, так как неотрефлексированное знание есть магия, а не наука. Ответ «формулируйте правильно запрос» прекрасен, но тоже из области шаманства, потому как объяснить, что такое «правильно», невозможно. Отсюда родилась идея — попытаться сформулировать некоторые принципы («правилами» назвать было бы слишком самонадеянно), отталкиваясь от которых искать в Сети стало бы легче. Сформулировал. Даже на основе этих правил сделал «Поисковые игры» (тренинг по поиску) и через формы в Google Docs отправил людям.

                что придумалось...
              • Системный администратор или аутсорсинг?

                  Когда в Украине начался так называемый «кризис», он повлек за собой массовые сокращения рабочего персонала. Под сокращение попало много моих коллег-системных администраторов, которые сразу задались поиском работы если не на полный день, так хотя бы на частичную занятость по администрированию офисов компаний. В свою очередь компании, поувольняв системных администраторов, мотивировали свое решение экономией бюджета компании и, как выход, видели возможность ИТ-аутсорсинга со стороны других компаний, которые предоставляли такую услугу. Что в этом хорошего а что плохого попытаюсь рассказать на опыте моих коллег и частично своем опыте.
                  Читать дальше →
                • Грустная статистика или никогда не надейтесь на фрилансеров

                    Последние пять лет я активно занимаюсь фрилансом (это единственное место работы), года три из них так же веду свои проекты и, порой, выступаю в роли менеджера в проектах заказчиков. Так или иначе постоянно приходится нанимать людей «со стороны» для выполнения текущих задач. Этот пост я пишу не как фрилансер, а как работодаталь.

                    Присказка


                    Написать пост меня побудило вчерашнее осознание того, что нанятый мной флешер оказался таким же кретином, как и двое предыдущих. Задача состояла в том чтобы написать приложение для ВКонтакте на базе недавно анонсированного ЧатВдвоем. Казалось бы, простое дело, так как есть очень строгое ТЗ, детально описывающее все нюансы протокола. Тем не менее, первый нанятый флешер спустя четыре(!) недели сказал:
                    Нужна реальная причина? Сейчас я сбросил все проекты, т.к. переживаю кое-какой период

                    Второй флешер, спустя три недели:
                    я завтра уезжаю в другой город. ты извини, я не доделал немного. то что я сделал (послал тебе на ящик) это как раз на аванс поэтому возвращать не буду. найми кого нибудь другого, пусть доделает

                    С третьим «замечательным человеком» после какой-то части работы, договорились, что после выплаты остатка, я получаю окончательные небольшие правки и, соответственно, исходники. Примерно с тех пор мне уже надоело слать письма без ответов и кричать «ау» в глубь протокола ICQ.
                    Далее сказка
                  • Откуда действительно берутся посредственные сайты

                      Я не то что не согласен с предыдущим оратором, я просто долгое время принимал участие в создании посредственных сайтов. Не в рунете конечно, но здесь у нас происходит такая же фигня.

                      Сперва стоит определиться, и далее не путать посредственные сайты с откровенно идиотскими сайтами. Первые вроде как ничего сами по себе, но особого восторга не вызывают, юзабилити где-то на среднем уровне, косячки вылезают и прочие неудобства. В общем, клиенту нравится, а гордиться таким сайтом никто не будет. Другое дело идиотские сайты — это большинство поделки фрилансеров-недоучек, у которых единственный плюс, что они стоят 2 тыщи рублей штука. Последние я не рассматриваю.

                      Итак, процесс создания посредственного сайта…

                      Читать дальше →