Алгоритмы → Автоматический анализ текста без модераторов из песочницы
Недавно на Хабре появилась статья об автоматическом реферировании статей. Так случайно получилось, что я тоже занимаюсь автоматическим анализом текстов и добился в этом некоторых успехов.
Мне удалось добиться того, чтобы алгоритм находил повторяющиеся и близкие по содержанию тексты. Также он автоматически определяет близость текста к определенным тематикам и выделяет из общей массы те тексты, которые составляют некоторый мэйнстрим. То есть, читателю не придется просеивать всю информацию, чтобы понять главное. С увеличением объема анализируемых текстов автоматически будет отсеяно все некачественное, неинтересное, нецензурное, неактуальное, и т.п.
Мне удалось добиться того, чтобы алгоритм находил повторяющиеся и близкие по содержанию тексты. Также он автоматически определяет близость текста к определенным тематикам и выделяет из общей массы те тексты, которые составляют некоторый мэйнстрим. То есть, читателю не придется просеивать всю информацию, чтобы понять главное. С увеличением объема анализируемых текстов автоматически будет отсеяно все некачественное, неинтересное, нецензурное, неактуальное, и т.п.
Переводы → Применение количественного анализа к классической литературе

Если Гугл продолжит в том же духе, в один прекрасный день вся английская литература станет доступна для поиска в цифровом виде. Франко Моретти, профессор английского языка в Стэнфорде, хочет подготовиться к этому потопу, имея в запасе новые вопросы и новые способы ответа на них — такие, как вычислительная лингвистика, анализ данных, компьютерное моделирование и теория сетей. Моретти уже известен в книжных кругах своим аналитическим подходом к романам, которые он представляет в виде графов, карт и диаграм. Однако, до недавнего времени, он имел возможность обрабатывать только несколько романов за раз, делаю всю эту вычислительную работу собственными руками. Теперь он переходит к цифровой работе, создавая базы данных старых книг с поиском по ним и работая над созданием программ, которые позволят ему находить взаимосвязи. Вместо глубокого погружения в несколько любимых книг, Моретти хочет просканировать всю литературу с начала времен. Он называет это удаленным чтением, и если его новые методы сработают, они могут изменить наш взгляд на историю литературы.