Pull to refresh

Comments 6

Существует народная примета — если подгонка модели упирается в вычислительные ресурсы, скорее всего что-то не так с моделью. В данном случае не очень понятно, зачем надо использовать 10 миллионов наблюдений для подгонки регрессии с одной независимой переменной.
Парную регрессию я взял для простоты. 10 миллионов наблюдений можно спокойно получить, работая с большими данными. Например, если необходимо построить модель для классификации социально-демографических характеристик аудитории. Данные с пиплметров за небольшой промежуток времени генерируют и значительно большие объемы.
Понятно, что 10 миллионов наблюдений можно получить. Вопрос был в том, нужно ли. Не проще ли взять случайную выборку в 10 тысяч наблюдений и подогнать регрессию на ней? А потом взять другие 10 тысяч и на них проверить?
Ну, можно придумать много способов, согласен с Вами. Всё равно, может быть на несколько порядков больше наблюдений.
Непонятно про соотношение 75.8 в пользу Eviews по сравнению с R. Вы пишите, что доп. миллион увеличивает время оценивания в R на 1.39 сек., в Eviews — на 0.18. Получается ~ 7.7. Или не так понял?

Если хотите скорости в R для оценки линейной модели, то используйте RcppEigen. Тесты производительности здесь.

Для Вашего примера при n = 1e+6 на моей машине в R обычный lm (QR метод) выполняется 2 сек., fastLm (LLt метод) — 0.08 сек., fastLmPure (LLt метод) — 0.034 сек.

Необычный у вас вывод результатов R на снимках из поста. R скрипт запускается в Eviews?
Я ошибся, в Eviews 0.018 секунды (1.83E-08 * 1000000), если делить точные цифры, то получается 75.8 вместо 77.

Согласен с Вами, базовая функция для оценки в R скорее всего самая медленная.

R скрипт запускается из R. Просто я закинул результаты в Eviews, т.к. слишком ленивый и могу только на кнопочке в Евьюзе нажимать.
Sign up to leave a comment.

Articles