Переводы

индекс
114,12

Применение количественного анализа к классической литературе

image

Если Гугл продолжит в том же духе, в один прекрасный день вся английская литература станет доступна для поиска в цифровом виде. Франко Моретти, профессор английского языка в Стэнфорде, хочет подготовиться к этому потопу, имея в запасе новые вопросы и новые способы ответа на них — такие, как вычислительная лингвистика, анализ данных, компьютерное моделирование и теория сетей. Моретти уже известен в книжных кругах своим аналитическим подходом к романам, которые он представляет в виде графов, карт и диаграм. Однако, до недавнего времени, он имел возможность обрабатывать только несколько романов за раз, делаю всю эту вычислительную работу собственными руками. Теперь он переходит к цифровой работе, создавая базы данных старых книг с поиском по ним и работая над созданием программ, которые позволят ему находить взаимосвязи. Вместо глубокого погружения в несколько любимых книг, Моретти хочет просканировать всю литературу с начала времен. Он называет это удаленным чтением, и если его новые методы сработают, они могут изменить наш взгляд на историю литературы.

Проведем эксперимент. Моретти решил проверить гипотезу о том, что выбор прилагательных викторианскими писателями может выявить их веру в то, что моральные качества были неотделимы от реальности как таковой и добродетели человека отражались в его внешнем виде. Итак, он собрал базу данных из 250 романов и послал файл ученым-компьютерщикам из Лаборатории визуальной коммуникации IBM, которые преобразовали тексты книг в облака слов. «Бинго! Всплыли именно те прилагательные, на которые я рассчитывал», — говорит он. «Прилагательные типа „сильный“, „яркий“, „чистый“, в которых физическое сочетается с моральным».

Для другого проекта он исследовал названия 7 000 английских книг XVIII и XIX веков и обнаружил взаимозависимость между более короткими названиями и ростом издательской индустрии. (Моретти предположил, что более краткие заголовки делают книгу легче продаваемой на насыщенном рынке). Он также работает с программистом над тестированием новой программы, которая может «читать» терабайты невразумительных и в большинстве своём нечитаемых художественных произведений и классифицировать книги по жанрам.

«В Британии XIX века, было издано порядка 30 000 романов», — говорит Моретти. Он намерен проанализировать их все. «Это будет похоже на использование первого телескопа, — говорит он, — за раз можно изучить больше книг, чем прочитать за всю жизнь». По его словам, — «это даст нам ощущение ещё более бескрайней вселенной».
+12
19 марта 2010, 13:53
3

комментарии (8)

–2
mrslang #
Ну не знаю…
0
vrmzar #
В конце концов напишется программа, которая на базе всех книг человечества напишет одну. Это будет книга книг и конец привычного на тот момент человечества)) В очередной раз.
+2
Nesp #
К этому моменту миллион мартышек закончат свой опус ;)
+2
Crazybot #
Они уже на полпути. Сейчас тренируются и издают книги под псевдонимом Дарья Донцова
–1
VovixLDR #
Ну и зачем обижать несчастных обезьянок таким сравнением?
+8
mariana123 #
За такими умными словами как «вычислительная лингвистика, анализ данных, компьютерное моделирование и теория сетей» скрывался лишь поиск самых частоиспользуемых слов. Слабоват анализ.
0
garrykillian #
Круто. Мне нравится подход к делу. Будем надеяться на развитие и успех.
Очень хочется чтобы можно было фильтровать огромный потом написанного по каким-то критериям — и автоматически отбирать то, что может быть полезно\приятно прочитать определенному человеку.
+6
lany #
> Для другого проекта он исследовал названия 7 000 английских книг XVIII и XIX веков и обнаружил взаимозависимость между более короткими названиями и ростом издательской индустрии. (Моретти предположил, что более краткие заголовки делают книгу легче продаваемой на насыщенном рынке).

Давно заметил, что ранние книги Лукьяненко содержали по три слова в названии («Звёзды холодные игрушки», «Рыцари сорока островов»), более поздние по два слова («Ночной дозор», «Холодные берега», «Осенние визиты»), а сейчас он называет книги в одно слово («Спектр», «Геном», «Черновик»). Индустрия выросла или маркетологи подсказали? :-)

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.