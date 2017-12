Думаю, что эта часть не нуждается в объяснениях, так как в ней нет ничего нового.

# -*- coding: utf-8 -*- # imports import gensim import string from nltk.tokenize import sent_tokenize from nltk.corpus import stopwords from nltk.tokenize import word_tokenize # load text text = open('./war.txt', 'r', encoding='utf-8').read() def tokenize_ru(file_text): # firstly let's apply nltk tokenization tokens = word_tokenize(file_text) # let's delete punctuation symbols tokens = [i for i in tokens if (i not in string.punctuation)] # deleting stop_words stop_words = stopwords.words('russian') stop_words.extend(['что', 'это', 'так', 'вот', 'быть', 'как', 'в', '—', '–', 'к', 'на', '...']) tokens = [i for i in tokens if (i not in stop_words)] # cleaning words tokens = [i.replace("«", "").replace("»", "") for i in tokens] return tokens # tokenize sentences sentences = [tokenize_ru(sent) for sent in sent_tokenize(text, 'russian')] print(len(sentences)) # 30938 print(sentences[200:209]) # [['Он', 'нагнув', 'голову', 'расставив', 'большие', 'ноги', 'стал', 'доказывать', 'Анне', 'Павловне', 'почему', 'полагал', 'план', 'аббата', 'химера'],...]