Pull to refresh
1
0
Send message
Мне тоже можно сборочку? Потестю, может предложу что-нибудь
ответил ниже
Уже пишу. Мне не хватает только какого нибудь эффектного теста. Подготовил новую модель. Сейчас делаю датасеты чтобы вам не приходилось обрабатывать весь огромный текст по новой.
попробовать научить компьютер сгенерировать читабельную статью для geektimes в стиле ализара?

Ну я хочу научить генерировать в стиле Толстого. Ну а так, да. С названием не подумал. Надо было по другому называть. Но все-таки надеюсь что хоть что-нибудь полезное вы для себя узнали. Потом еще есть идеи написать статьи по seq2seq. Может результат будет более близкий к цели
Неужели все так плохо?
В конце я привел один из примеров. Так же вы можете сами попытаться поискать в интернете, почитать документацию по gensim. Там есть примеры предсказывания слова на основе предыдущих
Вы правы. В моей новой модели, основанной на большом количестве книг Толстого, около 15000 слов. Для обучения и использования это очень неплохо. Хотя гугл предоставляет модели и на миллионы слов, правда и весят они парочку гигабайт. Хотя есть и отрицательная сторона — французский язык. Кстати в следующей статье приведу способ отличать французские предложения от русских с помощью nltk.
Подход верный. Но сразу публиковать готовый код не интересно. Этой статьей я только хотел разжечь читателя. Дать ему отправную точку для саморазвития. Ждите следующую статью, будет интереснее.

P.S. Зря вы в коде сомневаетесь. Во первых он рабочий, во вторых я не гуглил. Тему с машинным обучением и обработкой натурального языка я знаю отлично. Не первый год интересуюсь… Но ваши замечания постараюсь учесть.
Вообще-то не все так плохо. Получившийся словарь содержит около 5 тысяч слов с их зависимостями и отношениями. В следующей статье я приведу более совершенную модель (15000 слов). Побольше расскажу о подготовке текста. И наконец в третьей части опубликую финальную модель и расскажу как с помощью нейронных сетей написать программу генерирующую текст в стиле толстого
Ждем проверки. Статью написал. Раскрыл самые основы — обучение, до обучение подготовка данных. Начинающим должно быть интересно. В следующей статье постараюсь объяснить как можно больше сложных моментов. Надеюсь, что вам понравится
Да, seq2seq это интересная тема, но так уже становится не совсем интересна. Когда же ты пишешь сам хотя бы на основе word2vec есть над чем поработать и улучшить. Seq2seq же уже особо не перепишешь… Насчет статьи согласен — напишу обязательно
По-моему не очень хорошая идея генерировать по буквам, не эффективнее ли обучить на этом тексте word2vec и попытаться создать стилизатор текста? Если будет интересно могу написать хаб.

Information

Rating
Does not participate
Registered
Activity