Работа службы Яндекс.Новости

Своеобразное обращение к работникам Яндекса.

Интересно, кто-нибудь из здесь присутствующих пользуется ресурсом Яндекс.Новости?
Возможно, найдутся те, кто время от времени щелкнет на интересную ссылку с главной страницы.
Мне кажется, что здесь мало таких людей, для которых Яндекс.Новости ассоциируется с новостным ресурсом. И я уверен, что нет подписчиков на новостную ленту RSS, потому что сам решил ей воспользоваться.

Количество новостей RSS за вчерашний день:
Яндекс.Новости: Экономика – 122
Яндекс.Новости: Политика – 114
Яндекс.Новости: Наука – 72
Яндекс новости: Общество – 111



Для сравнения
Lenta.ru – 147 (общее количество новостей на ресурсе)
РИА: Экономика – 73
РИА: Политика – 23

Возможно, Яндекс присылает так много новостей, потому что собирает их со всех ресурсов.
Захожу в раздел «Политика»: 21 новость (из 114) про КНДР. Открываю ссылки, каждую в новом окне. Оказывается, в рассылке всего 6 новостей, остальные – повтор (заголовки у всех разные – ведут на одну страницу). С прочими новостями ситуация аналогичная: общее количество за день стремится к 30. Еще 80 – дубликаты.
Надеюсь, эту ошибку скоро исправят.

Открываю первую попавшуюся страницу с новостями… но новостей там нет. Там есть выбор, представленный в виде ссылок с предпросмотром на 3 одинаковые статьи, и еще список из «новостей сюжета». Демократично :)



Осталось проверить, из чего предлагается выбор. Открываю все в новом окне. Половина статей со ссылками на ИТАР-ТАСС или РИА Новости. Чудесно, первоисточник в конце списка. Дубликаты медленно сдвигают его вниз, претендуя на «свежие новости». (Вопрос авторства до сих пор волнует и западные компании)

Кстати, было бы логично, если в сюжете располагалась вся хронология событий, вместо ссылок на одинаковые статьи.

Получаем
1) Избыточность RSS рассылки;
2) При переходе по интересующей ссылке, появляется список источников, вместо самой новости;
3) Ссылку на статью нужно искать внутри текста предпросмотра;
4) Первоисточник теряется среди дубликатов, которых много;
5) В сюжете, вместо развития событий, получаем набор одинаковых статей.

Может быть совпадение, но логотипа студии Лебедева на странице выбранной новости нет.

Если верить этому посту, число переходов на источник невелико (конечно зависит от темы).

А все от того, что Яндекс обрабатывает данные в автоматическом режиме.
И везде, где только можно, это указывается. Более того, создан FAQ для тех, у кого могут быть претензии. Из него можно узнать, что в новостях могут быть опечатки, и даже какая-нибудь «страшная новость N» может располагаться на главной странице.
Читая FAQ, возникает мысль, что отсутствие редактора – это что-то принципиальное. Возможно, это желание угодить всем издателям.

Не знаю как у остальных, но у меня сложилось впечатление о большой новостной свалке. Более того, на странице «О проекте» так и написано, только более приличными словами.

Яндекс – это не новостной ресурс. И сотрудники во всех интервью любят повторять, что Яндекс – это поисковик.
Возможно это и так, но вряд ли совет директоров и крупные акционеры считают также (скорей всего они мыслят шире).
Как пользователь, могу сделать вывод: Яндекс предоставляет самую неудобную обработку новостей среди конкурентов (Рамблер не в счет).
При попытке получения новостей от неновостного ресурса, возникает состояние когнитивного диссонанса.

Чтобы решить проблему «кучи» в новостях, нужно постоянно совершенствовать алгоритмы. А это, не считая огромных затрат ресурсов, время.
Одним из простых решений является включение редакторов в процесс обработки новостей.
Можно ужесточать правила работы с партнерами (вряд ли они будут рады). Разработать механизм и протокол получения новостей, где, в частности, будет указываться первоисточник, с целью устранения дублирования. А нарушителей штрафовать, вплоть до расторжения партнерской программы.
В этом случае, с главной страницы можно будет попадать на статью, или хотя бы на предпросмотр статьи, с ссылкой на первоисточник без информационного мусора.

На данном этапе своего развития, я не могу представить, чтобы система такого уровня могла идеально функционировать без участия человека.
(Интересно, сотрудники компании пользуются своими продуктами?)

В этом же топике (чтобы не заводить отдельную тему) хотелось бы обратить внимание на следующую ситуацию.
Это тепловая карта результатов поиска Google и Яндекс (UsabilityLab).



Есть несколько сомнений по поводу достоверности этой картинки. НО…

Получается, что в общем случае, если оба поисковика выдают одинаковые результаты (идеальный случай), то возникает чисто субъективное ощущение преимущества выдачи Google. Только потому, что на странице Яндекса полезная информация может содержаться в области пониженного внимания.

Я надеюсь, сотрудники компании оставят свой комментарий :)
И конечно же, хотелось бы получить развернутый ответ, почему в системе новостей отсутствует редакторская группа.
+23
26 мая 2009, 22:12
1
StrikeX 7,5

комментарии (36)

0
grokinn #
откуда такая уверенность, я, например, подписчик Яндекс новости: Общество, нормальная лента.
0
StrikeX #
В таком случае открою вам секрет: либо вы их не читаете, либо вы тратите относительно много времени из за дублирования рассылки.
–1
Ordenador #
Да вы, батенька, телепат!
0
StrikeX #
На вкус и цвет все фломастеры разные. Я лишь показал, что с моей точки зрения кажется неудобным в этом сервисе. Напишите, пожалуйста, что из 5 пунктов (мной указанных) вы считаете для себя удобным и почему, а я укажу это в update. Можете даже выписать все достоинства, которых нет у конкурентов. Обязательно размещу это наверху ветки.
–1
Ordenador #
Дело не в этом. Дело в том, что человек говрит, что сервисом прекрасно пользуется на что вы ему _открываете секрет_, что на самом деле он вообще его не читает или очень при этом мучается.
–10
Magnifico #
Отличная новость!
+4
max7 #
Идем на рекорд?
0
hooz #
я могу и ошибаться (все мы люди) но мне кажется что все же редакция новостных потоков присутствует, неоднократно замечал как ленты с ресурса с которым работаю по одной и той же тематике при 100% уникальности и первоисточнике не желает попадать в выдачу всех новостей из одной тематике

тематика: экономика и бизнес

возможно это система ротирование источников, либо коэффициент авторитетности ресурса в глазах самого поисковика, кто знает
–1
StrikeX #
Возможно, вам будет интересен чужой опыт работы с сервисом.
0
hooz #
не поверите ранее в закладки поставил
0
tsmar #
Со своей стороны готов подписаться под каждым минусом яндекс.новостей указанных в посте, крайне неудобный ресурс, похоже, что созданный машиной для машин, человеку в этой каше трудно понять, чем отличаются 5 одинаковых новостей размещенных в разных сми и выведенных как разные новости… лично для меня на яндексе новостей нет.
0
LDEV #
Нужно просто признать, что Яндекс не умеет классифицировать новости и просто не показывать дубликаты.
0
peterdemin #
Или определять «самый лучший источник»
0
StrikeX #
Повторюсь, что проблема определения источника не только у Яндекса. А если первоисточник с относительно низким рейтингом был проиндексирован далеко не в первую очередь (что логично), то я вообще не представляю как эту задачу можно решить. Может кто-нибудь подскажет. На ум приходит только система заявок. Опубликовал — отправил в сервис.
0
LDEV #
Есть первоисточники, которые умещаются на пальцах рук. Их индексировать в первую очередь и проверять ссылки на них. В случае указания ссылок (явных или неявных) — помещать в первую очередь. Остальным — небольшая приписка снизу в виде цитирующих сайтов.

Зачем тогда Яндекс в соседнем разделе (поиск по интернету) удаляет дубли сайтов? Это борьба за чистоту или нежелание показывать объективность?
0
StrikeX #
А можно ссылку на «поиск по интернету»?
–2
LDEV #
Она ближе, чем Вы думаете :)
–1
StrikeX #
Остроумность — это хорошо (:
Угадал?
0
StrikeX #
Если я правильно понял, то в этом соседнем разделе Яндекс ничего не скрывает. Служба работает аналогично обычному поиску, только среди новостей партнеров. Если для поиска вы ввели заголовок, а система нашла только 1 статью, значит ее заголовок уникальный для этого сюжета. Если заголовок (или текст) не уникальный, то соответственно ничего не скрывается.
0
BoltThrower #
Научится. Например при открытии новости с яндекса отображается краткое содержание, собранное из разных источников. Обычно это напоминало бессвязный бред, читать который не имело никакого смысла, поэтому сразу переходил по какой-нибудь ссылке. А где-то около месяца назад с удивлением заметил, что этот текст приобрёл куда-более осмысленный вид и уже вполне подходит для общего ознакомления. Если новость не особо интересная, то дальше и не читаю. Не всегда конечно, по-прежнему встречается чушь, но в куда меньших масштабах. Так что прогресс заметен и это радует.
0
sCrasher #
Нуу… там отличные новости в блоге разработчиков и новостях компании. :) Пишут люди. Советую.
А остальное… автомат и есть автомат.
–3
mariachi #
Лично меня новости на Яндексе устраивают на все 100%, и количество дублирующий ссылок как мне кажется не спроста столь велико, дабы у читающего сложилось объективное мнение (наверно) :)
0
StrikeX #
Об этом и указано на страничке «О проекте». Только на сколько повысится «объективность», если все статьи в сюжете одинаковые, и ссылаются на один источник (или вовсе не ссылаются)? Более того, из-за присутствия такого «мусора», достаточно быстро пропадает желание проверять все ссылки. И уже тогда, при наличии уникального контента, содержащего различные точки зрения, можно пропустить важную информацию.
+1
harm #
Сотрудники Яндекса пользуются сервисами Google
0
hooz #
без сомнения .)
0
goldeneye #
Складывается ощущение, что пользователям неприятно смотреть на слишком длинные строчки сниппетов Яндекса. Иначе трудно объяснить такие результаты по тепловым картам
0
StrikeX #
В общем случае, да. Такая картинка может получиться, если все «подопытные» пользователи в обычной жизни используют Google (или что то еще). В таком случае, страница поисковой выдачи Яндекса для них является непривычной, в результате внимание притупляеться. Но о любимой поисковой системе тестируемых история умалчивает.
НЛО прилетело и опубликовало эту надпись здесь
0
Infanty #
Думал на эту тему — ранжирование логически повторяющейся информации из разных источников на разные темы (самообучающийся алгоритм с искусственным интеллектом). Теоретически это возможно. Нужно только по каждой записи в RSS взять исходную новость (на сайте автора RSS), каждую новость разбить на простые предложения, простые предложения разбить на слова, между словами в новости установить логические цепочки, на основании логических цепочек получать математическое представление новости, после чего сравниваем все математические модели, подобные математические модели собираем в группу, в группе мат модели расставляем по популярности сайта (например по тиц или по определённой заданной (например разработчиками) таблице популярности сайтов), выводим пользователям новости в виде RSS где каждая новость — это первая новость из каждой группы (которая получена на основе анализа мат. модели). Получается хорошо — но подобный алгоритм нужно ещё научить правильно строить логические цепочки в предложении.

Вариант номер 2 — берём не повторяющиеся заголовки у RSS новостей, на основе анализа всех не повторяющихся заголовков — ищем наиболее встречающиеся слова (актуальная тема дня), на основе этих слов ранжируем выдачу всех RSS новостей.

Какой вариант проще? Конечно второй, хоть он и значительно ущербней первого, но в 100 менее трудоёмок. Первый вариант может заменить редактор, но редактор больше 10 новостей в день вряд ли отредактирует — иначе его работа превратится во второй вариант. Если новостей много, прибыль с них не очень велика — то может получится что редакторы нерентабельны или т.п.

По тепловой карте — у яндекса страница более графически-текстово перегружена (по сравнению с гуглом каша), взгляд на ней замыливается. У каждого конечно свои вкусы, но много лишних элементов в выдаче яндекса.
0
StrikeX #
Математики в алгоритмах обработки новостей и так предостаточно. Их работа в какой-то мере близка к описанному первому варианту.

Только по заголовкам обрабатывать новости никак нельзя. Во-первых, потому что с целью выделения в отдельные поток, заголовок можно придумать любой, а во-вторых, потому что статьи с различными точками зрения могут иметь одинаковый заголовок.

Никто не хочет, чтобы редактор обрабатывал новости вместо машины. Это все крайности. Есть ведь где-то золотая середина, где редакторская группа следит за тем, что есть на выходе аналитической машины.
–2
onix74 #
Мне кажется, что новости на Яндексе реализованы неудобно и они там вообще не нужны. Он неплохой поисковик, но просматривать новости в виде выдержек с других новостных сайтов, причём, в виде «куцых» полуфраз… Лучше уж совсем никак. И видя такие новости, мне совсем не хочется подписываться на RSS-рассылку
0
mpro #
Я пользуюсь Яндекс.Новостями. И честно сказать ими доволен. в новостях есть очень удобный сервис подписки (http://news.yandex.ru/podpiska/login.pl). Например мне приходят все новости где упоминается моя компания или наши продукты.
А то что там много глюков, это да. Из-за кризиса наверное ни как до ума довести не могут, но в целом сервис не плох.
0
Efor #
Полностью согласен с автором. Те ссылки которые ведут с Яндекс-новостей сегодня-завтра будут показывать порно-рекламу с всплывающими сообщениями типа «отправь СМС или не сможешь закрыть свой браузер».
Пусть уже наконец Яндекс дает ссылки на первоисточник и на полный текст новости!
+4
lgershenzon #
В посте очень много самых разнообразных утверждений и оценок, попробую ответить по пунктам:

1. Конечно, Яндекс.Новости — сервис для людей, а не для машин (статистика, сколько людей пользуются сервисом,
открыта).
Мы сами (разработчики сервиса), конечно, им пользуемся, хотя зная, что нерепрезентативны, ориентируемся не только и не столько на себя.

2. Яндекс.Новости — полностью автоматический сервис и это наша (включая упомянутых «крупных акционеров и членов совета директоров» :) принципиальная позиция, которая продиктована не желанием угодить всем издателям, а создать максимально объективное отражение новостного русскоязычного интернет-пространства, по возможности сведя к нулю человеческий фактор.

3. Основные задачи сервиса — 1) предоставить пользователю новостную картину дня (отранжировать новости) и 2) по каждой новости дать основные факты (аннотация сюжета) и 3) дать ссылки на наиболее интересные и важные (в том числе первоисточники) материалы новостных сайтов. Новостная картина дня — это не выбор редакции Яндекса, а коллективное представление всех новостных редакций — партнеров Яндекс.Новостей.

4. Проблема определения дубликатов сообщений и первоисточника — одна из наиболее актуальных и сложных в нашей работе. Действительно, нам еще много предстоит сделать в этой области, справедливую критику принимаем. Стоит заметить, что эта тема выходит за рамки исключительно технологических решений от Яндекса и касается распространенных в индустрии интернет-СМИ «правил игры». К сожалению, очень немногие издания ссылаются друг на друга при заимствовании информации, из-за чего задача автоматического определения первоисточника становится еще более сложной. Нам известно, что ряд информационных агентств и интернет-СМИ предпринимают инициативы для борьбы с «копипейстом», надеемся, что в результате ссылок при заимствовании будет больше, что позволит нам более качественно решить проблему дубликатов.

5. Яндекс.Новости — не идеальный продукт, и именно поэтому мы занимаемся его совершенствованием, рассказываем о том, как он устроен, и рады конструктивной критике, предложениям и объективной оценке. В частности, критика подписок на Новости абсолютно справедлива, в них действительно не хватает возможности получать ссылки на сюжеты, а не только на отдельные новостные сообщения.
Во фразе <Яндекс предоставляет самую неудобную обработку новостей среди конкурентов (Рамблер не в счет)> кто имеется в виду под конкурентами?

6. Для тех, кто хотел бы разобраться в устройстве сервиса подробнее, мы регулярно проводим семинары про «внутреннюю кухню» Яндекс.Новостей (а также Поиска по блогам), на которые может записаться любой желающий
–1
StrikeX #
1. Конечно им будут пользоваться: верхний блок главной страницы посвящен новостям.

2. У вас вполне получилось создать «отражение русскоязычного интернет-пространства». Но это уже не новости, это своеобразный каталог.
Работать полностью автоматически, либо полностью под редакцией это две крайности. Возможно, в политике и экономике есть смысл предоставлять ссылки на разные точки зрения. Но если предоставляется выбор среди 10-ти идентичных статей, например о выпуске нового браузера или телефона… Зачем? Почему бы не предоставить текст статьи (либо предпросмотр) со ссылкой на авторитетный первоисточник, как это делает Google?

3. Задачи правильные :)

4. А какие меры для борьбы с копипастом принимает Яндекс? Как на счет участия в разработке правил?

5. Не забудьте, что на один и тот же сюжет, в рассылке приходит несколько ссылок. Несколько дней назад было 5 ссылок о появлении новой версии Google Chrome. Я это понял с первого раза.
На счет конкурентов:
news.google.ru/ — работа с ссылками несколько удобнее
news.mail.ru/ — вообще показывает новость с одного источника (не соответствует вашей концепции, но моей маме пользоваться удобно).

6. На эти семинары скорей всего ходят журналисты, и люди, так или иначе связанные с вами и вашими партнерами.

Выбор, и объективность — это конечно хорошо. Но выбор нужен далеко не всем, и далеко не по каждому вопросу.
Присмотритесь к новостному сервису Google. Для тех, кто боится выбора, предоставляется предпросмотр с ссылкой в виде заголовка.
Для тех, кому выбор и объективность нужна, есть сюжет.

Возможно с этой задачей и можно справиться без редакторов. Но вы сами признали, что продукт неидеален и работы еще достаточно много. Следует выделять различные категории людей: те кто с помощью Яндекса хочет проводить мониторинг всех новостей рунета, и тех, кому просто интересна какая то новость/событие. А также учитывать тематику новостей, где вероятность содержания различных точек зрения мала.

Ну и конечно же постоянно совершенствовать свои алгоритмы — это вы делаете, спасибо.
0
msalomatin #
В дополнение к критике Яндекс.Новостей точка зрения владельца СМИ — habrahabr.ru/blogs/mass_media/50329/#comment_1324997

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.