По поводу Билайна, не удержался: то есть биг дату сделают, но пытаться за счет этого больше зарабатывать на своей базе абонентов не будут, в ней десятки миллионов людей, а вот на данных, которые вообще не их профиль, зарабатывать будут?! И как? На рекламе, где сейчас денег в данных нет?
Основная проблема R — он супер медленный, быстро работают только сторонние библиотеки. Где это было критично:
Очень медленное чтение/запись csv по строкам. А это было мне необходимо, чтобы преобразовывать данные для алгоритмов.
При базовом функционале нет возможности feature hashing. А без этого работать с логистической регрессией в конкурсе было невозможно.
Конечно, я уверен, что в R есть специальные библиотеки, которые хотя бы частично решают эти задачи. Однако здесь возникает ряд преград: я не могу редактировать сторонние библиотеки, то есть если там что-то работает не так, как мне нужно (например, в процессе feature hashing нет удобного добавления полиномных характеристик 2-го уровня), то возникает задача что-то делать встроенными средствами R, которые, как я отвечал выше, чрезвычайно неспешны.
В этом смысле CPython не идеален, но гораздо лучше: там можно делать большие for-loop'ы встроенными инструментами и чтобы они работали быстро (Pypy / Numba).
Ни один алгоритм не может быть «защищён» от переобучения. Он может быть очень устойчив к переобучению на огромном кол-ве данных. То есть Яндекс кроме того, что использует довольно стабильный с точки зрения переобучения алгоритм, использует его на очень больших данных, что сводит риск переобучения к минимуму. Я думаю, имеется в виду это. Но тут точнее специалисты из Яндекса могут наверняка ответить.
Полностью согласен. На самом деле Матрикснет — это ещё большая инженерная работа, чтобы эта махина быстро работала на огромных данных. Возможно, это даже круче, чем сам алгоритм.
Основная проблема R — он супер медленный, быстро работают только сторонние библиотеки. Где это было критично:
Конечно, я уверен, что в R есть специальные библиотеки, которые хотя бы частично решают эти задачи. Однако здесь возникает ряд преград: я не могу редактировать сторонние библиотеки, то есть если там что-то работает не так, как мне нужно (например, в процессе feature hashing нет удобного добавления полиномных характеристик 2-го уровня), то возникает задача что-то делать встроенными средствами R, которые, как я отвечал выше, чрезвычайно неспешны.
В этом смысле CPython не идеален, но гораздо лучше: там можно делать большие for-loop'ы встроенными инструментами и чтобы они работали быстро (Pypy / Numba).