Если интересно, этот текст написан человеком перевод

«Висконсин явно вышел на победный путь, выигрывая 51-10 после третьей четверти матча. Команда увеличила своё преимущество, когда Рассел Вилсон нашёл пасом Якоба Петерсена, и тот совершил тачдаун после семиметрового рывка, сделав счёт 44-3».

Этими словами начинается фрагмент новостной заметки, опубликованный через 60 секунд после окончания третьей четверти футбольного матча между университетскими командами Висконсина и Невады. Хотя на первый взгляд трудно понять, но данная заметка полностью написана компьютерной программой.

Генератор журналистских текстов создан в компании Narrative Science, которая ведёт разработки в области искусственного интеллекта.

Программа берёт данные, такие как статистика спортивного матча, финансовые отчёты компаний или данные по продажам недвижимости, и превращает их в газетные статьи. Годами программисты пытались создать подобных роботов-журналистов для спортивного репортажа, но результат не блестящий: тексты получались сухими и было видно, что статья сгенерирована компьютером. Профессор журналистики Крис Хаммонд (Kris Hammond) и профессор компьютерных наук Ларри Бирнбаум (Larry Birnbaum) из лаборатории интеллектуальных систем Северо-западного университета в Иллинойсе работали в этой области десять лет и им удалось-таки добиться качественно лучшего результата. Так в прошлом году появился стартап Narrative Science.

«Мне показалось, это какое-то волшебство, — говорит Роджер Ли, партнёр инвестиционной компании Battery Ventures, которая собрала $6 млн инвестиций для стартапа. — Выглядит словно это написал человек».

Эксперты по системам искусственного интеллекта тоже впечатлены успехами Narrative Science. По их мнению, Narrative Science демонстрирует «увеличение сложности в автоматическом распознавании и, теперь, генерации синтаксических структур».

Инновационная работа Narrative Science поднимает широкий пласт вопросов относительно того, способны ли такие программы ИИ помогать профессиональным журналистам в их работе или заменить их. Высокие технологии уже повлияли на экономическую реальность СМИ, когда из-за онлайновой рекламы упали доходы печатной прессы. Станут ли роботы-журналисты очередным гвоздём в крышку гроба традиционной журналистики?

Руководители Narrative Science смотрят на вещи трезво и позиционируют свою программу исключительно в качестве инструмента для низкобюджетной работы в условиях дефицита времени. На данный момент у компании всего 20 клиентов, причём некоторые из них только экспериментируют с диковинной новинкой. Cреди клиентов традиционные СМИ, которые желают увеличить генерацию контента за счёт новостных заметок о финансовых результатах местных компаний и более полного покрытия спортивных матчей в юношеских лигах.

«Таким образом, мы помогаем писать статьи, которые в ином случае вообще не были бы написаны», — говорит директор Narrative Science, отвечая на вопрос о вытеснении людей-журналистов компьютерными конкурентами.

Например, вышеупомянутая компания The Big Ten Network (BTN) начала использовать генераторы текстов весной 2010 года для коротких заметок о бейсбольных и софтбольных матчах. Они появлялись на сайте через одну-две минуты после окончания игры. Для генерации текстов использовалась итоговая статистика матча и поминутная онлайн-расшифровка хода игры, которая ведётся в реальном времени во всех американских спортивных лигах. Программа со временем совершенствовалась благодаря помощи профессиональных редакторов BTN.

Разработка Narrative Science может делать логические заключения на основе исторических данных, а также последовательности и результатов предыдущих игр. Чтобы сгенерировать осмысленные конструкции, программа использует концепции «индивидуального вклада», «командных усилий», «волевой победы» (выигрыш после отставания в счёте), «растерянного преимущества», «рекордного результата в сезоне», «игроков на подъёме» (которые отличаются несколько матчей подряд), «положения команды» в разных разделах спортивной статистики. Потом программа решает, какой элемент наиболее важен в конкретном матче — и он выбирается для первого абзаца статьи. Собранные данные определяют и выбор слов. Например, в случае большого преимущества в счёте программа может выбрать слово «разгром» вместо «победа».

«Главное — композиция, построение текста, — говорит Крис Хаммонд. — Нельзя просто взять цифры и преобразовать их в слова».

Прошлой осенью BTN расширила использование программы также на футбольные и баскетбольные игры. Этот контент позволяет привлечь огромный трафик с Google по ключевым словам, ведь на этом сайте отчёты об игре появляются раньше, чем у конкурентов, а Google очень высоко ценит оперативный контент на горячие темы. В прошлом году трафик на футбольный раздел BTN вырос на 40% по сравнению с 2009 годом.

Ещё один клиент Narrative Science — издательская и риэлторская фирма Hanley Wood, которая с помощью робота ежемесячно публикует на своём сайте builderonline.com отчёты по состоянию рынков недвижимости в 350 близлежащих городках и районах. Сразу видно, где растут или падают цены, где отмечается изменение объёма сделок. Наём людей, чтобы отслеживать такие тенденции, обходится слишком дорого, а информация востребована.

Этот заказчик работал с Narrative Science несколько месяцев, чтобы настроить программу под специфическую структуру данных, но результат превзошёл все ожидания. Один из руководителей Hanley Wood, в прошлом — профессиональный журналист из агентства Thomson Reuters, признался, что был поражён качеством статей. «Они перешли через большой лингвистический барьер, — замечает он. — Статьи ни в коей мере не похожи друг на друга».

Хотя у них всего 20 клиентов, компания Narrative Science уже сейчас зарабатывает неплохую прибыль. Со своего заказчика Hanley Wood фирма берёт по $10 за каждую статью объёмом в 500 слов (для сравнения в данном тексте 881 слово), то есть около $3500 в месяц. В то же время для сайтов СМИ это очень выгодная сделка — даже дешевле, чем себестоимость статей с фабрик контента вроде Demand Media.

Без сомнения, в будущем качество текстов Narrative Science будет только улучшаться, а стоимость постепенно идёт вниз. В будущем любой желающий сможет использовать подобные программы. По мнению экспертов, это открывает новые горизонты перед журналистикой, поскольку профессиональные репортёры получают в свои руки мощнейший инструмент для дата-майнинга. Можно изучать тему со всех сторон и находить такие взаимосвязи, которые невозможно было даже представить.

Ну а сам Крис Хаммонд с усмешкой цитирует прессу, которая пишет, что через 20 лет компьютер сможет получить Пулитцеровскую премию по журналистике. Профессор считает, что это не так. Компьютер получит премию не через двадцать, а через пять лет, причём награду должны присудить авторам программы.
+52
12 сентября 2011, 22:48
20
alizar 2225,6 G+

комментарии (47)

+5
edogs #
Со своего заказчика Hanley Wood фирма берёт по $10 за каждую статью объёмом в 500 слов
500 слов это где-то 3000 знаков? Получается по 3 бакса за килобайт. «Статейщики» с фриланса все еще обходятся дешевле (учитывая «сложность» тематики — написание статьи по полному набору исходных данных).
+4
anarx #
Дело ведь в оперативности.
+6
ilyaplot #
Всегда дешевле нанять гастарбайтеров выкопать яму, чем вызвать трактор. Вопрос в надежности и скорости выполнения задачи. Вот только в текстах важен человеческий язык. Вряд ли робот может что то оригинальное выдать.
+1
CrazyViper #
Вы статью читали? В ней как раз и говорится что компания добилась «человечности» статей:

Один из руководителей Hanley Wood, в прошлом — профессиональный журналист из агентства Thomson Reuters, признался, что был поражён качеством статей. «Они перешли через большой лингвистический барьер, — замечает он. — Статьи ни в коей мере не похожи друг на друга».
+2
ilyaplot #
«Хули бьет по воротам! (пауза) Хули — это футболист такой.»
Роботы на такое не способны. Это могут только люди, в большинстве случаев наши земляки :)
+8
gvsmirnov #
Конечно, ведь только у наших земляков есть духовность. Не то что на этом убогом загнивающем западе!
+1
alexkolzov #
В историю такие статьи, конечно, не войдут. А вот как оперативное снабжение информацией — самое оно. Дешево и сердито.
+2
mihuil #
Уверяю вас, это не всегда так. На неделе выяснял расценки, выкопать кубометр ямы у гастарбайтеров стоит 1000 руб/кубометр. На мою яму вышло 18000 руб. Смена у эскаватора стоит 12000 руб.

Так что все зависит от масштаба задачи.
+1
pietrovich #
Офтоп: Кроме объемов следует учитывать еще транспортные расходы. У меня получается так, что припереть тяжелую технику и вернуть ее на место тупо удваивает стоимость работ (там как раз на один день рабочий возни). При этом попытка выполнить такой объем «джамшутами» если и получается дешевле, то незначительно и требует большего времени. А вот если бы мне всего 3-4 куба вынуть нужно было, то вопрос про «джамшут vs техника» бы не возникал.
0
anarx #
Хотя конечно было бы интересно взглянуть на то, насколько программа заточена под нужды каждого клиента и какие данные берёт и где хранит каждая такая инсталляция, как реализованы футбольные и баскетбольные термины (количество подборов, передач и пр). Т.е., я боюсь, что уж очень узкая у неё специализация, взглянуть бы на конкретику для подтверждения или опровержения.
0
sedrik #
Дороговизна программных решений — спасет человечество, и поставит крест на искусственном интеллекте! Даже капчу дешевле человеческим ресурсом обходить, нежили создавать техническое решение. Чего тут говорить о более творческих вещах?
+5
Ex3NDR #
А ведь показательно — одно из первых, что так автоматизировали — спортивные статьи.
+4
leviathan #
Вполнe логично. В данной области нe нужно высокохудожественных изысканий, достаточно более-менее живым языком изложить все факты об игре, и выложить текст в открытый доступ максимально быстро.
+5
Yeah #
Потому что проще всего. Думаю, что вполне реально написать генератор просто на шаблонах.
Набор данных всегда детерминирован:

Возьмем, к примеру, футбольный матч. Какие данные мы имеем:

1. Составы команд
2. Счет (если отчет составляется постфактум)
3. Отчет о событиях матча (удаления, карточки, травмы)
4. Статистика матча (процент владения мячом, кол-во стандартов и т.д.)

Далее набиваем кучу шаблонов в стиле:

В офсайд залез %player_name%. Незаметным он был на футбольном поле во %time_number% тайме.

или

Готовится выйти на футбольное поле %in_player_name%. Заменит он, похоже, %out_player_name%. На нём акцентируют внимания операторы.
Так и есть. %in_player_name% вместо %out_player_name%, которого проводили бурными аплодисментами.

В общем, имея такие данные и кучу шаблонов (которые можно набивать постепенно, отдавая на аутсорс копирайтерам), можно генерировать отчеты о матчах сколь угодно красивые.

Но и это еще не все. Все мы слышали о том, что на одном из ЧМ был применен мяч с датчиком гола. А теперь представьте, что такие датчики встроены не только в мячи, но и в бутсы игроков (например УЕФА/ФИФА обяжет). тогда вообще сказка. Можно выдавать фразы в динамике. Во-первых, в реальном времени можно отслеживать у кого мяч, кто с кем борется за него. Резкое ускорение мяча и игрока одновременно — обострение ситуации, атака, резкое ускорение мяча без игрока — удар по воротам. Я уж не говорю про отслеживание оффсайдов.
+18
dgudkov #
Т.е. профессор фигней занимался 10 лет? Надо было на хабр заглянуть, тут ему за 5 минут расскажут как и что надо было делать чтобы получить качественный результат, за который клиенты будут готовы платить деньги?
0
Yeah #
Перевирать вот только не нужно. Я лишь отвечал на вопрос о спортивных матчах. Его же программа пишет статьи на любые темы.
+2
vics001 #
Я считаю профессор не фигней занимался 10 лет, а преподавал и писал диссертации. А в действительности этот алгоритм достаточно простой, вот пример задачки из книжки 1987 года ( Клоксина У. и Меллиша К.)
«Написать программу психиатр, которая выдает ответы основываясь на ключевых словах, имеющихся во вводимой информации. Типичный диалог такой программы мог выглядеть следующим образом:
— What is your problem?
— This is too much work.
— What else do you regard as too much work?
— Writing letters.
— I see please continue.
— Also washing my mother's car.
— Tell me about your family.
— Why should I?
— Why should you what?

»

Мне тоже не видится в данной задаче ничего не разрешимого. В пример можно привести существующие довольно неплохие спортивные компьютерные комментаторы (в играх) и всякие программы разговорники. А если вливать приличные деньги в проект, то это позволит написать просто большую базу данных правил, благо для спортивных статей, она не должна быть такая уж и большая.
0
AmirL #
Да они могут преувеличивать. Систему мог сделать недавно, а для красного словца, сказать, что уже 10 лет над этим работает. А на самом деле допустим работал 10 лет над системами искусственного интеллекта, но например конкретно этот алгоритм отношения к нему не имеет.
Да и прибыль что-то не супер какая.
0
MikhailEdoshin #
Я несколько лет назад читал об аналогичной разработке — там компьютер писал советы для инвесторов. «Советуем также обратить внимание на акции такие-то» и т. д…

Ну и еще видел (самодельную, правда) систему для автодилеров, которая сравнивает две любые модели в заданном ключе — чтобы эта казалась лучше той или та лучше этой :)
+30
hazg #
alizar палит фишку?
–1
Robotex #
Походу у ализара тоже такая программа стоит.
+1
Noobster #
А вот и бета-тестер на хабре.
+17
Goder #
Остается открытым вопрос: «сотрудничает ли Narrative Science с Ализаром?» :)
+2
4NATIC #
Да он первый из 20)
+6
l2k #
Лет через 10 вместо «хотя бы в Ворде текст проверяй» будем говорить «Ну ты хотя бы вордом бы его сгенерил»
+7
kaasnake #
Похоже грядет новый виток СЕО белиберды в топе.
0
Usmekhaiouschiysia #
Не грядёт, там же типичные наборы слов — будет сильное пересечение.
–1
fleshy #
пожалуйста, различайте SEO и CEO, это разные вещи
+3
kaasnake #
Ага, а СЕО белиберда это Chief Executive Officer рассказывает сказки акционерам про светлое будущее?
0
vpupkin #
Очень многообещающий младший брад у Сергея Дацюка!

Этот ( rosd.vniz.net/datsuk.html#form ) славный проект бывало был самым вменяемым собеседником после пары-тройки ящиков пива в студенческие годы! :))
Хоть и старичок уже, но излагает ясно — как никогда:

— …
Если же этого нет, то непонятно, почему до сих пор вроде как не подвергалось сомнению. Знакомясь однако с нынешними технологиями манипулирования информацией средств массовой информации, и он теряет свою должность, теряет свой элитный статус. Также трудно объяснить следующий факт: неоднократно от власти официальные издания получают государственную финансовую поддержку в виде всяких привилегий и льгот, но это не значит, что такие посягательства отсутствуют.

+5
OdobenusRosmarus #
Макл Фрейн — Оловянные солдатики:

Научные сотрудники гнули спины над всеобщим экспериментом, демонстрирующим, что теоретически цифровую
вычислительную машину можно запрограммировать на выпуск абсолютно полноценной ежедневной газеты с заметками столь же разнообразными и содержательными, как и старинные, написанные от руки. Изнывая от скуки, сотрудники молча продирались сквозь пачки газетных вырезок — определяли жанр статей и выявляли в них стандартные переменные и постоянные.
За другими столами другие сотрудники переносили переменные и постоянные на карточки и составляли картотеку в такой логической последовательности, что теоретически вычислительная машина могла сама прокладывать себе путь от карточки к карточке и отбирать нужный материал. Как только Голдвассер с коллегами докажет истинность этой теории, из коммерческих соображений ее, без сомнения, поспешат внедрить в жизнь.
Тогда завершится стилизация современной газеты. Прервется последняя, остаточная связь прессы с рыхлым, бестолковым, склочным миром реальности.



Порой Голдвассер давал себе разрядку — притворялся вычислительной машиной и перебирал какой-нибудь готовый комплект карточек, соблюдая те же логические правила и делая тот же случайный отбор, что и вычислительная машина при составлении заметки.



Он выдвинул картотечный ящик и взял оттуда первую карточку комплекта. "По традиции", — стояло на ней. Теперь можно было осуществлять случайную выборку — тащить наугад "коронации", "помолвки", "похороны", "свадьбы", "совершеннолетия", "рождения", "смерти" и «венчания в церкви». Вчера он вытащил "похороны" и был отослан к карточке, где с гениальной простотой значилось "печальное событие". Сегодня он зажмурился, вытащил "свадьбы" и был направлен далее к карточке "событие радостное".
Далее в логической последовательности шли "свадьба мистера Икс" и "свадьба мистера Игрек", и Голдвассеру открылись на выбор варианты "не исключение" и "яркий пример". В обоих случаях напрашивалось слово "поистине". Однако, поистине, от какого варианта ни отталкивайся — от коронаций ли, рождений, смертей, — Голдвассер, явно наслаждаясь как математик, замечал, что при всей элегантности решения тут-то и попадаешь в тупик. Он помедлил на "поистине", затем почти без пауз выхватил "особенно радостное событие", "редкостный" и "видел ли кто-нибудь более прославленную молодую пару?"

Последующие выборки принесли Голдвассеру "Икс снискал (снискала) особую любовь всего народа", и пришлось к этому присоединить карточку "а Игрека английский народ явно принял уже в свое сердце".
Голдвассера удивляло и чуть-чуть тревожило, что не попалось еще слово «приятно». Однако он вытянул его со следующей карточкой: "особенно приятно, когда". Это дало ему "жених (невеста) должны..." И свободный выбор между "происходить из знатной и благородной семьи", «быть простолюдинами в наш демократический век», "быть выходцами из страны, с которой наша родина давно поддерживает самую тесную и сердечную дружбу" и "быть выходцами из страны, отношения с которой у нашей родины не всегда складывались удачно".

Сознавая, что в прошлый раз он на редкость талантливо распорядился словом «приятно», Голдвассер теперь нарочно вытянул его еще раз. "Приятно также", — стояло на карточке, а за ней без задержки последовало
"помнить" и "что Икс и Игрек — не только громкие имена, но жизнерадостный молодой человек и прелестная молодая женщина".
Голдвассер зажмурился, перед тем как тащить следующую карточку. На ней оказались слова "в наши дни, когда". Он призадумался, выбрать ли "вошло в моду глумиться над традиционной моралью брака и семейной жизни" или "вышло из моды глумиться над традиционной моралью брака и семейной жизни". Решил, что второй вариант по форме ближе к пышности, присущей стилю барокко. Вытащил еще одну "приятно", но сочтя, что три раза подряд — на один раз больше, чем нужно даже для прекрасного, непревзойденного слова «приятно», он смошенничал и обменял карточку на "полагается, чтобы" за которой так же верно, как ночь за днем, наступило "пожелаем им счастья", и развлечение закончилось.
0
Mario_Z #
Заголовок поста прикрывает суть автора.
–1
xiWera #
Набор шаблонов и правил их использования установленный аналитиком (редактор) уже считается выдающимся достижением… Куда катиться этот мир…
+3
grokinn #
Их купит яндекс и допилит сервис рефераты так, что его наконец можно будет использовать по назначению:)
0
yul #
А правильно, зомби пусть кормят компьютеры (читается в обе стороны, хе-хе), люди могут почитать нормальную статью (полностью не вытеснят, моё имхо), или покрутить реальные данные в аналитическом софте/сервисе и сделать выводы самостоятельно.
+1
mark_ablov #
Миниправ одобряе!
+1
fst #
С ужасом представил робота-журналиста с мицголовским словарем @_@
+1
alexander_fokin #
Лучше бы эти профессора попробовали научить новостников и редакторов большинства сайтов рунета делать то же самое (т.е. генерировать тексты, хотя бы отдаленно похожие на «человеческие»). Имхо, задачка то по труднее будет…
0
pratamishus #
Вспомнился 6-й день, где там ноутбук высчитывает и сообщает вероятность прорыва
0
pratamishus #
image
НЛО прилетело и опубликовало эту надпись здесь
0
Robotex #
Помню читал, что эта программа написала статью лучше, чем человек-журналист. Человек не заметил какой-то момент в игре, а программа построила вокруг этого момента статью.
0
kaasnake #
Нужно учесть что исходные данные для статьи всё таки человек вводит. И если журналист писал статью по просмотренной передаче и поленился ознакомиться с официальными результатами матча. То ничего удивительно что у него статья не получилась: во первых он бегал отлить пиво когда был ключевой момент, а во вторых ему было лень ознакомиться с инфой — потому что пиво. Вывод робот лучше, потому что не пьёт пиво. ;)
0
Robotex #
Не, там именно фишка какая-то бейсбольная. Идеальная игра называется или как-то так. Журналист знал об этом.
+2
code_monkey #
И Остап Бендер протянул Ухудшанскому лист, на котором было написано: ТОРЖЕСТВЕННЫЙ КОМПЛЕКТ. НЕЗАМЕНИМОЕ ПОСОБИЕ ДЛЯ СОЧИНЕНИЯ ЮБИЛЕЙНЫХ СТАТЕЙ, ТАБЕЛЬНЫХ ФЕЛЬЕТОНОВ, А ТАКЖЕ ПАРАДНЫХ СТИХОТВОРЕНИЙ, ОД И ТРОПАРЕЙ. («Золотой теленок», Ильф и Петров). 1928 г.
Так что для русского языка все формализовано уже более 80 лет.
0
AHTOH #
Теперь одни роботы будут из готовой информации генерировать статьи, а другие роботы из этих статей выжимать информацию для людей. Может, сократим цепочку? ;)
0
alexkolzov #
Ага. Уберем из цепочки людей ;)

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.