User
Когда данных действительно много: Vowpal Wabbit
nurumaik
Вы бы написали, что это перевод http://mlwave.com/tutorial-titanic-machine-learning-from-distaster/
0
LookКак я победил в конкурсе BigData от Beeline
nurumaik
На самом деле про train+test я обманул, KMeans у меня обучается на train :) Вспомнил про то, что лучше обучать на train+test слишком поздно и в финальную версию это не попало
0
LookКак я победил в конкурсе BigData от Beeline
nurumaik
XGBoost — это на самом деле самая быстрая реализация алгоритма GBDT (gradient boosted decision trees). В документации есть его описание — xgboost.readthedocs.org/en/latest/model.html
+1
LookКак я победил в конкурсе BigData от Beeline
nurumaik
Про SGDRegressor вы наверное правы, с таким подходом могло бы быть и лучше. Но с таким маленьким датасетом не хотелось разделять на части, т.к. маленький датасет сам по себе менее устойчив к переобучению. В KMeans все совсем немного по-другому. Он вообще запускается сразу на train+test, т.к. он unsupervised. Кластеры у него не очень соответствовали классам, и они были не самими важными(а некоторые вообще не вошли в топ100), то есть большого переобучения не могли дать.
0
LookКак я победил в конкурсе BigData от Beeline
nurumaik
На деревья это не должно влиять, т.к. преобразование монотонное. Должно было быть влияние на k-means(результат используется, как дополнительные фичи) и k-neighbors, как и для любых методов, где есть понятие «расстояния». Насколько это эффективно я точно не знаю, т.к. преобразования были сделаны практически сразу. Ну и конечно на данные после таких преобразований смотреть намного приятнее :)
0
LookКак я победил в конкурсе BigData от Beeline
nurumaik
Численную регрессию умеет, нужно указать в конструкторе objective=«reg:linear»
0
LookInformation
- Rating
- Does not participate
- Registered
- Activity