Pull to refresh
14
0
Иван Лобов @IvanLobov

User

Send message
Часть результатов есть на info.deephack.me. Запрос на то, чтобы рассказать подробнее приняли, будем писать! :)
По поводу Билайна, не удержался: то есть биг дату сделают, но пытаться за счет этого больше зарабатывать на своей базе абонентов не будут, в ней десятки миллионов людей, а вот на данных, которые вообще не их профиль, зарабатывать будут?! И как? На рекламе, где сейчас денег в данных нет?
Pandas пробовал в Python, действительно, очень удобно. Я же отвечал про R, чем он хуже Python.
Конечно!

Основная проблема R — он супер медленный, быстро работают только сторонние библиотеки. Где это было критично:
  • Очень медленное чтение/запись csv по строкам. А это было мне необходимо, чтобы преобразовывать данные для алгоритмов.
  • При базовом функционале нет возможности feature hashing. А без этого работать с логистической регрессией в конкурсе было невозможно.

Конечно, я уверен, что в R есть специальные библиотеки, которые хотя бы частично решают эти задачи. Однако здесь возникает ряд преград: я не могу редактировать сторонние библиотеки, то есть если там что-то работает не так, как мне нужно (например, в процессе feature hashing нет удобного добавления полиномных характеристик 2-го уровня), то возникает задача что-то делать встроенными средствами R, которые, как я отвечал выше, чрезвычайно неспешны.
В этом смысле CPython не идеален, но гораздо лучше: там можно делать большие for-loop'ы встроенными инструментами и чтобы они работали быстро (Pypy / Numba).
Ни один алгоритм не может быть «защищён» от переобучения. Он может быть очень устойчив к переобучению на огромном кол-ве данных. То есть Яндекс кроме того, что использует довольно стабильный с точки зрения переобучения алгоритм, использует его на очень больших данных, что сводит риск переобучения к минимуму. Я думаю, имеется в виду это. Но тут точнее специалисты из Яндекса могут наверняка ответить.
Мне кажется, это было бы интересно. Возможно, в формате группы на ФБ или Гугле?
Полностью согласен. На самом деле Матрикснет — это ещё большая инженерная работа, чтобы эта махина быстро работала на огромных данных. Возможно, это даже круче, чем сам алгоритм.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity