Comments / Profile of nurumaik / Habr

@nurumaik

User

Profile Publications 1Comments 6Bookmarks

Когда данных действительно много: Vowpal Wabbit

nurumaik May 3 2016 at 17:27

Вы бы написали, что это перевод http://mlwave.com/tutorial-titanic-machine-learning-from-distaster/

Look

Как я победил в конкурсе BigData от Beeline

nurumaik Nov 12 2015 at 01:13

На самом деле про train+test я обманул, KMeans у меня обучается на train :) Вспомнил про то, что лучше обучать на train+test слишком поздно и в финальную версию это не попало

Look

Как я победил в конкурсе BigData от Beeline

nurumaik Nov 11 2015 at 19:18

XGBoost — это на самом деле самая быстрая реализация алгоритма GBDT (gradient boosted decision trees). В документации есть его описание — xgboost.readthedocs.org/en/latest/model.html

Look

Как я победил в конкурсе BigData от Beeline

nurumaik Nov 11 2015 at 19:08

Про SGDRegressor вы наверное правы, с таким подходом могло бы быть и лучше. Но с таким маленьким датасетом не хотелось разделять на части, т.к. маленький датасет сам по себе менее устойчив к переобучению. В KMeans все совсем немного по-другому. Он вообще запускается сразу на train+test, т.к. он unsupervised. Кластеры у него не очень соответствовали классам, и они были не самими важными(а некоторые вообще не вошли в топ100), то есть большого переобучения не могли дать.

Look

Как я победил в конкурсе BigData от Beeline

nurumaik Nov 8 2015 at 04:23

На деревья это не должно влиять, т.к. преобразование монотонное. Должно было быть влияние на k-means(результат используется, как дополнительные фичи) и k-neighbors, как и для любых методов, где есть понятие «расстояния». Насколько это эффективно я точно не знаю, т.к. преобразования были сделаны практически сразу. Ну и конечно на данные после таких преобразований смотреть намного приятнее :)

Look

Как я победил в конкурсе BigData от Beeline

nurumaik Nov 8 2015 at 03:54

Численную регрессию умеет, нужно указать в конструкторе objective=«reg:linear»

Look