Компания
692,41
рейтинг
27 июня 2013 в 13:36

Разное → Как Яндекс.Почта стала понимать, что вам нужно

Несколько минут назад Яндекс.Почта анонсировала новый подход к чтению и написанию писем. Мы считаем, что современная почта должна быть намного умнее, чем сейчас. Она должна понимать написанное и сразу помогать отреагировать на него. А также лучше позволять своим пользователям делать что-то совместно. Чуть подробнее о новых возможностях можно почитать в нашем пресс-релизе. В этом посте мы хотим рассказать, как работает одно из самых важных нововведений, объявленных сегодня.

Яндекс.Почта умеет напоминать о событиях

Что именно мы сделали


Что если почта начнёт делать за вас рутинную работу, связанную с содержанием письма? Например, поможет не забыть о важном мероприятии, напомнит о предстоящем вылете к морю, даст нужные ссылки и полезную информацию. Мы с коллегами из отдела лингвистики применили совершенно особенную технологию, которая, как мы надеемся, изменит представление о том, что такое электронная почта.

Эта технология позволяет автоматически применить к содержимому письма специальные алгоритмы и выделить из него определенные факты в виде понятной компьютеру структуры. Благодаря ей Яндекс.Почта теперь может сообщить вам больше контекстной информации, связанной с вашим письмом.

Например, если в письме есть приглашения на какое-либо событие и указано, где именно оно состоится, мы покажем это место на карте и поможем не заблудиться.

Напоминание о событии в Яндекс.Почте

Какие технологии стоят за кулисами


Итак, вы получили письмо от друга, где он зовет вас на интересную конференцию или в кино. С точки зрения компьютера, этот текст не более чем набор байтов. Но человек может выделить в тексте ключевые объекты и образы.

Обработка письма в Яндекс.Почте начинается еще в момент его получения и сохранения (мы этот процесс называем «покладка»). Спамооборона при проверке использует эвристические алгоритмы и определяет, к какому типу оно может относиться: электронный билет на самолет, письмо от социальной сети, письмо от человека или т.д.

В зависимости от того, к какому типу будет отнесено письмо, его текст в момент просмотра — в терминах извлечения фактов он называется документом, — отправляется на извлечение в тот или иной обработчик. Обработчики фактов бывают как простыми и быстрыми (например, простые регулярные выражения), так и довольно сложными.

Множество методов, позволяющих машине понимать текст на естественном языке, и реализующих эту возможность алгоритмов, являются частью более общей задачи извлечения информации. Яндекс.Почта извлекает приглашения на события с помощью парсера Tomita, в основе которого лежит алгоритм Масару Томиты. Доступ к нему был открыт в конце 2012 года.

Сам по себе парсер Томита — это инструмент для написания контекстно-свободных грамматик. С его помощью любой человек может описать набор шаблонов, по которым будет структурироваться текст. Парсер работает на основе словарей ключевых слов и правил, которые пишут лингвисты. Словари при этом могут быть довольно большими.

Как распознаются события в письме


Рассмотрим работу парсера на примере. Вы получаете письмо, содержащее следующий текст:

«21 ноября 2013 года в Институте лингвистических исследований РАН (Санкт-Петербург) пройдёт Десятая Конференция по типологии и грамматике для молодых исследователей».

В Томите есть данные о том, какие слова могут быть «вершинами» приглашения. Например глаголы «приглашать», «проходить», «состояться» — здесь есть форма глагола «пройти». У «вершины» есть набор составляющих, который должен быть заполнен. Чтобы получилось событие, в предложении, кроме собственно глагола, обязательно должно быть указано название события и его дата. В случае глагола «пройти» название события должно быть подлежащим, в других контекстах оно может быть выражено другими синтаксическими ролями. Например, глагол «приглашать» требует, чтобы событие было выражено дополнением (приглашать на конференцию, приглашать в гости).

Кроме даты и названия, событие может содержать место и время. Организации и адреса выделяются грамматиками по внутренней структуре и по словарям. Например, если в названии есть ключевое слово «институт, банк, гостиница», то эти ключевые слова с зависимыми словами будут извлечены в качестве компании. В примере выше извлечется «Институт лингвистических исследований РАН».

Блок с информацией о событии показывается в интерфейсе Яндекс.Почты в момент открытия письма в заметной верхней части страницы. При такой компоновке время извлечения фактов критично — нельзя заметно увеличивать время ожидания пользователя. Нужно признаться, у нас не с первой попытки получилось добиться достаточной производительности. Объем собственных знаний парсера о русском языке вместе со словарями занимает около 1 Гб. Каждую секунду в Яндекс.Почте показывается около 1000 писем, и для каждого из них необходимо выделить факты и передать их во фронтенд для отображения. Несмотря на активное использование кеширования на стороне клиента, число запросов на извлечение оставалось слишком большим, чтобы успеть уложиться в оговоренное время.

Алгоритмы Томиты обрабатывают текст последовательно. Следовательно, чем больше сам документ, тем больше времени нужно для его обработки. Поэтому для того чтобы её ускорить, мы разбиваем текст на несколько частей и каждую из них обрабатываем отдельно в параллельном потоке. Причем, разбиваем текст по границам предложений — так снижается вероятность потерять важную информацию. Скорость ответов выросла, но вычислительных ресурсов существующего кластера было недостаточно, чтобы справиться таким потоком данных.

Конечно, можно было увеличить количество машин, занимающихся извлечением фактов, но мы решили поставить перед Томитой предварительный фильтр, который по специальному регулярному выражению определяет, может ли быть в документе событие или нет. В последнем случае текст не нужно отправлять на полное извлечение. Причем, мы намеренно подобрали такой regexp, который дает скорее больше ложноположительных срабатываний. Число запросов в парсер уменьшилось вдвое, а мы смогли разгрузить машины и освободить ресурсы для других задач.

События содержатся в 3,5% писем и каждый день мы извлекаем информацию более чем из миллиона событий. Сейчас в нашем корпусе примерно 500 шаблонов, на подходе ещё 3500, которые помогут нам радикально повысить точность работы.

Как парсятся электронные билеты


Через некоторое время после того, как были запущены извлечения событий, мы задумались о том, что можем помочь пользователям Яндекс.Почты и особенным образом показать информацию, которая есть в каждом электронном билете. Например, можно сообщать о пунктах назначения не заходя в письмо, дополнительно выделять электронный билет в списке писем, или, например, показывать погоду в городе прибытия.

Для билетов, состоящих из простого текста, мы использовали тот же парсер Томита, однако большинство писем от систем бронирования и авиакомпаний содержат html-разметку и почти не содержат естественный язык. Томита в таких условиях работает плохо, поэтому мы взяли за основу технологию, которая замечательно показала себя в Яндекс.Маркете. Мы используем html-разметку документа как xml-дерево тегов и строим шаблоны для разных отправителей. Перед разбором дерева мы дополнительно обрабатываем документ и приводим его к корректному с точки зрения xml виду.

По этим шаблонам, которые в основном состоят из регулярных выражений и xpath, мы выделяем необходимую информацию и формируем ответ. Не всегда удается выделить элемент дерева так, чтобы в нем содержалась только нужная часть информации, — примерно в трети случаев в элементе находится предложение с ключевой информацией. Так мы снова вспомнили про Томиту и создали набор грамматик для разбора таких предложений.

После извлечения базовой информации о билете из письма мы уточняем ее в Яндекс.Расписаниях, которые всегда содержат самую актуальную информацию о перелетах. На основе этой информации мы дополняем билет данными от других сервисов: погодой, курсами валют, ссылками на аэропорт и электронную регистрацию на рейс.

А что с приватностью?


Аудитория Хабра как никакая другая знает, что в любой почте каждое письмо парсится десятками разных скриптов. Спамооборона так устроена — её работа сводится к автоматическому анализу писем и принятию решений о перемещении или не перемещении сообщения в спам.

Так же обстоят дела и с Томитой. Мы предусмотрели несколько уровней защиты, чтобы вы могли быть спокойны: текст анализируется только машиной — без какого-либо участия человека. В системных журналах сохраняется только статистическая информация о запросе: время выполнения, тип и количество найденных фактов, а также количество полей, которые удалось определить. Сам текст письма передается для извлечения фактов в обезличенной форме — без технических заголовков, без указания отправителя и получателя.

При первоначальном обучении системы и составлении грамматик без человеческого участия не обойтись — это кропотливый процесс, которым занимаются лингвисты. Для него мы используем тексты из открытых источников, например, комментарии в ЖЖ или социальных сетях. Если же примеров недостаточно, мы просим наших сотрудников прислать примеры подходящих писем для обучения и составления грамматик. Так мы поступили в случае с авиабилетами. Кроме того, мы составили топ-30 рассыльщиков авиабилетов и обучили Почту с ними работать. Посмотреть на то, как выглядят нововведения в Почте, можно здесь.
Автор: @vsadm
Яндекс
рейтинг 692,41

Комментарии (87)

  • +1
    Посмотрим. Надеюсь это будет правильно выделяться. А то будет очень печально если извлечется информация кусками: типа «дедлайн» + «дата, относящаяся к другому событию».

    А можно будет настроить так, чтобы даты не выводились, только событие?

    PS: сделали бы вы в легкой версии:
    1. галочку «важное» напротив каждого письма
    2. ссылку на я.диск
    Чертовски неудобно делать в 5 кликов то, что можно делать в 1.
    • 0
      PS: а потом, когда пользователи достаточно хорошо обучат фильтр, вы его к анализу новостей и блогов прилепите?

      PPS: кажется компании Seldon подобную штуку разрабатывали, для анализа новостей и форумов.
    • 0
      Для Яндекс.Диска нет лёгкой версии, поэтому и в лёгкой версии Почты нет ссылки на него. Какой смысл пользоваться лёгкой версии Почты, если Диск всё равно в полной?
      • 0
        Диском я пользуюсь существенно реже, чем почтой. Дизайн легкой версии, для меня, гораздо удобнее, чем дизайн полной: меньше всякой фигни по бокам, рабочего пространства больше (я работаю с ноута и экран у меня 14').
        • 0
          Для владельцев небольших экранов мы специально сделали более компактные режимы чтения писем: можно нажать на минус в левом верхнем углу, а также можно «отодвинуть» папки, нажав на стрелку слева от их списка.
          • 0
            Да, так лучше, но все равно легкая версия мне нравится больше, удобней.
          • 0
            Возможна ли в дальнейшем, сменить основной цвет интерфейса, а то серый градиент меня очень убивает, по этому только переключаюсь на полный, и так настроение бывает ни к черту, а тут серый, везде серый
  • +49
    Нужна галочка — «Мне ничего ненужно. Спасибо.»
    • +1
      Читали Эли Паризер, «За стеной фильтров»? :)
  • –1
    Очередной раз, когда я вижу про новый функционал в яндекс.почте, невольно возникает вопрос: вы точно в правильном направлении двигаетесь?
    • +14
      Функционал — это функция такая математическая, а вот функциональность…
      • +9
        У меня есть другие данные:
        Функционалы — это люди, которых «стёрли» из их привычной жизни и наделили определёнными сверхспособностями в пределах строго ограниченной площади, обычно не более 300—400 квадратных километров. Есть также функционалы (число их очень невелико) которые не имеют привязки к конкретной местности. Обычно все способности функционала связаны непосредственно с его функцией.
        • +6
          Вы хотя бы скажите, что это Лукьяненко, Черновик.
      • 0
      • +2
        Трудно жить не зная, что такое сленг. Когда вам приходит спам «горячие киски тут» вы наверное думаете, что речь о кошках.
        • +6
          Мне не приходят «горячие киски тут» :(
          • 0
            Когда говорят «клава» представляете женщину?)
            • +1
              О да, такая большая, пышная, сельская… брр )))
              • +9
                «залил клаву чаем» тогда принимает совсем жуткий вид)))
      • 0
    • +2
      В правильном. Мне нравится когда появляются новые возможности и прочие плюшки. Главное, чтобы можно было отключать не нужную мне функциональность
      • 0
        Я жду, что яндекс станет доступнее, чем сейчас. Сделает, например, двухфакторную авторизацию для ПДД, сделает нативный и удобный клиент для десктопа, для win8, модуль для оутлука. Как-либо каталогизировать, управлять почтой мне, например, неудобно. Я много лет использовал яндекс.почту, но так и не увидев серьезных, полезных изменений, все-таки ушел.
        • 0
          А еще когда наконец-то появятся push-уведомления, после Google Apps сильно заметна разница. Особенно заметно, когда автоматически переадресованное с Яндекса на Гмейл письмо показывается в Гмейле раньше, чем в Яндексе. Очень неудобно бывает. И если раньше можно было спокойно задать интервал проверки 15 минут, то теперь приходится устанавливать ежеминутную проверку, чтобы более-менее быстро почта приходила. В итоге, самому же Яндексу надо больше запросов обрабатывать.
        • +1
          Двухфакторная авторизация — это вовсе не повышение доступности, а скорее наоборот ;) Но мы думаем и об этом.
          Почему вы хотите настольный клиентб а не используете веб-интерфейс? У нас для любителей клиентов и активно работающих с почтой людей есть даже специальный трёхпанельный интерфейс.
          • +2
            Двухфакторная нужна. Почта — камень преткновения большинства систем авторизации ресурсов. По этому защищать ее нужно основательно. То же касается авторизации к системе управления dns.
            Почему я хочу настольный клиент? А вы у корпоративных пользователей не спрашивали, почему они используют оутлук или, прости господи, даже бат и тандерберд, а не веб интерфейс корпоративной почты? Я хоть использую свою почту не в корпоративных решениях, но задачи по сути те же. И дело, конечно, не в панелях. Веб-интерфейс можно использовать лишь как альтернативу и если нет ничего больше, то и он сойдет. Да и интерфейс, все же по сравнению с почтовым интерфейсом того же ексченджа, яндекс выглядит достаточно бледно.
            • +1
              И всё же хочется каких-то конкретных недостатков или преимуществ. Как правило, Outlook используются в корпоративном сегменте, потому что в компании почта поднята на своём сервере и не имеет веб-интерфейса. Да ещё, возможно, и на Exchange, который древний как мамонт, и такой же неповоротливый, а нормально работает только в Outlook :)

              Опыт хотя бы даже внутри Яндекса показывает, что многие вполне радостно воспринимают веб-интерфейс как замену почтовой программе. Но есть и те, кто совсем врос — тут сложнее, конечно.
              • 0
                Да нет, ексчендж, конечно, идеально работает по rpc, но прекрасно поддерживает и pop и imap.
                Плюс у него всегда был неплохой веб интерфейс. Но его глупо же считать основным интерфейсом к почте, когда есть оутлук.
                Выяснять конкретные недостатки также глупо. Есть обобщенное — неудобно. Это и привязка к закладкам браузера, скорость реакции на действия и отсутсвие кеша писем и полноценный wysiwyg с возможностью вставить картинку из буфера. В общем у приложения много разных преимуществ, вряд ли веб-интерфейс сможет когда-то полностью заменить клиент типа оутлука. Другой вопрос, что возможно многим подойдет все что угодно.
                • +2
                  Скажите ещё спасибо, что Яндекс по-человечески IMAP поддерживает, а не так, как Google.

                  А так — это тренд такой, всё переводить в веб. Нас с вами, считающих, что отдельное приложение для десктопа удобнее, чем веб-приложение, похоже меньшинство. Хотя интересно, для телефонов приложения клепают для каждой мелочи, а для десктопов — нет. Может потому, что монетизировать сложнее?
                  • 0
                    Уверен, что монетизировать сложнее. Сложно индексировать интересы, сложность с контекстной рекламой, отсутствие мультиплатформенности.
                    Но почему бы не взять на вооружение платную модель? Я честно плачу свои 130 рублей в месяц только за то, что бы использовать полноценно оутлук для своей почты и с ужасом вспоминаю как я пытался активно использовать яндекс почту и гугл мэйл. И ни капли не жалею этих денег.
          • 0
            Вопрос к этому самому трехпанельному интерфейсу. Вверху мы видим огроменной толщины полоску с единственной огроменной кнопкой «написать». При этом не менее часто используемые кнопки «удалить» и «ответить» находятся в малюсеньком тулбаре посреди экрана. Пытался пользоваться этим интерфейсом, но даже после пары месяцев все равно не могу с ходу найти нужные мне кнопки. Почему было принято такое решение?

            По поводу организации интерфейса рекомендую посмотреть перевод классической статьи, который не так давно проскакивал на хабре.
            • 0
              Дело в том, что в третьей части экрана показываются не просто письма, а группы писем в виде ленты. В списке писем тоже по умолчанию один из пунктов может быть не письмом, а группой, поэтому кнопки управления письмами перенесены в тот блок, где находится само письмо — так в ленте, в которой показывается сразу несколько писем, Вы сможете удалить именно одно определённое письмо, а не всю группу. Если бы кнопки управления были общими вверху, нужно было бы либо совершать дополнительные клики, разворачивая группу писем в списке, либо был бы слишком высокий шанс удалить несколько писем вместо одного.
  • +3
    есть ли возможность полностью отключить эту технологию? Благие намерения мне понятны, и про безопасность всё ясно, но ведь несложно представить себе пользователя, которому это просто не нужно?
    • +1
      Извлечение данных из авиабилетов можно отключить в настройках.
    • 0
      mail.yandex.ru/neo2/#setup/other — уберите галочку «выделять письма с авиабилетами».
  • НЛО прилетело и опубликовало эту надпись здесь
    • 0
      Обязательно добавим.
    • 0
      Отключить можно в настройках, сняв галочку про авиабилеты.
  • 0
    А к trinity это относится?
    • 0
      Пока нет, но мы над этим работаем.
  • 0
    Подскажите, а весь этот функционал в ЯПДД появляться будет?
    • 0
      Вся эта функциональность сразу доступна для ПДД.
      • 0
        Хм, а я что-то никак не найду, как в ПДД втыкается Trinity.
        • 0
          Нужно зайти в настройки оформления ящика и выбрать в верхней части странице пункт «Открывать письма справа от списка писем» или «Открывать письма под списком писем».
          • 0
            О, спасибо.
  • –3
    Это же недавно появилось в гмейл-е?
    • +1
      Есть примеры? По крайней мере покупку билетов на onetwotrip gmail у меня недавно не распознал.
    • 0
      Что-то не слышал. Буду рад подробностям.
      • +1
        Google Now умеет получать данные подобного рода(инвойсы, даты и номера рейсов и так далее) и отображать ее на телефоне. Одна из главных фишек 4.2 была
  • 0
    Очень интересно. Такого подхода давно не хватает. Наконец-то компьютер делает за человека работу компьютера.
  • –3
    Думаю, что выражу не только мое мнение, если выскажу пожелание сделать все ваши нововведения отключаемыми. Потому что есть люди, которым не нравится, когда «почта понимает что мне нужно», я бы предпочел, чтобы почта просто быстро и без особенных «инноваций» просто доставляла адресату письма.

    PS/ Да, Google+ я тоже не люблю.
    • 0
      Почта может одновременно быстро и просто доставлять письма, а также одновременно столь же быстро распознать в них полезную информацию :)
      • 0
        Даже если и может, и это пригодится _кому-то_ — замечательно. Главное, чтобы инновации не навязывались тем, кого сейчас все устраивает. Иначе это какой-то прогресс ради прогесса.
        Именно поэтому и хочется маленького крыжика в настройках «отключить мне нахер всю красоту и улучшайзинг, я хочу обычную почту, как было.»
        • 0
          К сожалению, это не всегда возможно. А чаще всего, это слишком затратно — поддерживать кучу версий почты. Отключить выделение авиабилетов можно в настройках, сняв галочку и сохранив изменения.
          • +1
            К сожалению, это очень печально. Вы видите сами, почему некоторые пользователи уходят с вашей инновационной почты.
            Зато большая экономия.
        • 0
          Безмерно поддерживаю. Большие дяди и тети нанимают себе личных ассистентов с тремя высшими образованиями, и те не вполне в состоянии отличить важное от неважного для их работодателя, а здесь какой-то скрипт, написанный неизвестным мне человеком, даже не подозревающий о моем существовании, разберется, что важно именно для меня. Ага, щазз!

          Я тоже хочу обычную почту. Почта должна ходить, а умным должен быть человек.
          • 0
            Ну ведь Вы пишете совсем о другом. Яндекс.Почта не отделяет одни письма от других, не заявляет пользователю, что вот это письмо важнее другого. Яндекс.Почта лишь делает более удобным работу с электронными билетами, а также находит в письмах информацию о событиях, после чего предлагает напомнить о них.
            Никто не сортирует и никак не меняет важность событий, писем и чего-либо другого. Лишь только делает интерфейс работы более удобным :)
            • +5
              Для планирования событий существуют календари и рассылаемые приглашения. Этого более чем достаточно.

              Title: Внедрение комплекса «Радость и Счастье». Рабочая встреча демиургов.
              When: Wed 2015-11-26 11:00 – 12:00 (FEST)
              Where: ул. Озерно-Лесная 4, Офис мегакорпорации «Дружба»
              Who: Петя, Вася, Коля, Оля more details »

              Going? Yes — Maybe — No


              Вероятность ложного толкования близка к нулю. Очень близка.

              Зачем мне инструмент, который понимает мой (и любой другой человеческий) язык заведомо хуже меня, и при этом «помогает» мне не забыть про встречу, которую, как ему кажется, он распознал в моем письме?

              Раз уж вы замахиваетесь на некую имитацию интеллекта со своей умной почтой — а сможет ли ваш скрипт разобрать тексты типа «Созвонимся в 15:00 и решим, пойдем ли мы через пару часов на встречу в Офис мегакорпорации „Дружба“? Или он мне ничтоже сумняшеся напишет „В 15:00 встреча в офисе мегакорпорации “Дружба»?

              Как насчет сарказма? После письма " — Вася приедет на Киевский вокзал в 21:00? Его встречать? — Ага, конечно же приедет, держи карман шире!" ваш скрипт будет слать мне смски с напоминанием, чтобы я был на Киевском вокзале к 21:00?

              Даже если он подведет меня 1 раз из 100, ущерб от 1 ошибки превзойдет сомнительную экономию усилий по запоминанию 99 предыдущих встреч.

              Вопрос ведь простой — буду ли я доверять системе или не буду. Если не буду — дайте мне чекбокс «нафиг с пляжа». А чтобы я выбрал «буду» — чем это лучше уже имеющихся, надежных, привычных и понятных мне и моему окружению инструментов? Проигрыш по каждому пункту без исключения.

              Неплохо бы разработчикам помнить, с чем хорошо справляется компьютер, а с чем — человек. Если полагаться на сильные стороны инструмента — получится красота. А наоборот — наоборот и получится.

              Если кто-то считает иначе — я не против, пусть такие фичи приносят ему пользу и удовольствие. Вопрос не в том, чтобы убедить кого-то в своей точке зрения. Вопрос в том, чтобы мне не навязывали чью-то. Дайте галку (как сказано выше) «отключить мне нахер всю красоту и улучшайзинг, я хочу обычную почту, как было» и радуйте остальных, кому кажется, что это гут, всяческий файн и мимими.

              И раз пошла такая пьянка — про приватность. Аргументы в статье прочитал, и в обсуждении тоже. Как человек, не чуждый технике, понимаю, что с вероятностью 99,999% никто из живых, кроме адресата, мои письма не читает. Но в то же время, той же вероятностью письма используются для составления моего профиля в целях, о которых я, как минимум, не просил.

              Но даже это я знал и понимал раньше, не в этом проблема. Проблема в том, что некая сущность лезет в мое рабочее или личное пространство и говорит буквально следующее: "Я тут почитало твое письмо и очень хочу тебе помочь. Я вообще очень доброе и незлобное, давай я тебе еще СМС-ку пришлю? Должна же от меня быть какая-то польза, раз я живу в твоем ящике!" И если раньше я понимал, что письма читает робот с целью защиты от спама и ищет в нем признаки этого самого спама и только их, то теперь мое письмо читает нечто и пытается его понять. Очень плохо сочетается с приватностью. На эмоциональном уровне. Может, в судах вы и выиграете, если кто-то против вас подаст. Но выиграете ли вы этот же спор в миллионах голов отдельных людей — вопрос открытый.

              Извините.
  • +4
    У вас в обоих примерах встреч (на скриншоте и в тексте статьи) формат места встречи очень формальный: «Город, ул. Улица, д. ДД», «Город, Полное Название Организации». Меня терзают смутные сомнения, что все места встреч указываются с такой компьютерной точностью. Например, кто в здравом уме и трезвой памяти будет указывать город, если он проживает в Городе По Умолчанию и мероприятие происходит в Городе По Умолчанию (конечно, если речь про все встречи, а не только формально сформированные уведомления)?

    В общем, насколько хорошо алгоритмы справляются с неполной, кривой или просто сокращённой информацией?
    • 0
      А Вы проверьте ;) Если вдруг заметите, что какие-то словоформы плохо распознаются, обязательно сообщайте!
    • +3
      В общем, насколько хорошо алгоритмы справляются с неполной, кривой или просто сокращённой информацией?

      Вы правильно догадались: справляются плохо.
      Тестовое письмо:
      «Привет.
      Приходи завтра на Станционную улицу, дом 56»
      Алгоритм не догадался, что это назначена встреча, ни про «завтра», ни про то, что дело будет по адресу в Москве.
      То есть, наверное, до алгоритма дело даже не дошло, регулярка его отбросила.
      • +3
        Ок, если явно сказать «Регулярка не отбрасывай меня, у меня ВСТРЕЧА», то до алгоритма доходит, но там тоже интересно)
        Текст
        «Назначаю вам встречу завтра на Станционой улице, дом 56 в 6 часов»
        Реакция почты
        В письме найдено событие «встреча»
        Завтра, 28 июня 2013 года, 00:00

        + карта Москвы
      • 0
        Взяли этот пример на анализ, спасибо за информацию!
  • +2
    А у меня до сих пор, Яндекс.Почта не помечает как Спам письма, которые ранее уже были так помечены — хоть фильтры делай
    • 0
      Аналогично.
      • 0
        Здравствуйте! Можете назвать свой логин? Как часто жалуетесь на спам? Как давно делали это в последний раз?
        • 0
          Не то, чтобы сильно жалуюсь, но вот постоянно приходят какие-то письма от vk.com. Я раньше там имел аккаунт, но потом забросил, а после того, как они ввели необходимость ввести телефон — у меня доступ к акку пропал. А письма приходят. Я их помечаю как спам, а они все равно приходят. Раз в 2 дня точно помечаю. Логин такой же как и тут.
          • 0
            Как выяснилось, от рассылки с сайта Вконтакте всё же легче отписаться или внести их обратный адрес в чёрный список. Восстановить доступ к аккаунту на Вк просто: ведь к нему привязана Ваша почта — этого достаточно, телефон — не единственный способ.

            Всё-таки рассылка от Вконтакте — честная, Вы на неё подписаны, так как зарегистрированы на сайте.
            • 0
              Тогда хотелось бы еще кнопку «черный список» в интерфейсе.
              Если уж говорить по честному, то я на нее не подписан, когда я регистровался там не было в ToS про рассылку ничего, и потом новые ToS мне не присылали на подпись. А восстановить доступ я не могу, т.к. не могу пройти страницу с вводом телефона. Я просто не могу поставить галочу, что «согласен». Вот такой вот замкнутый круг. Но это проблема со «спамом» незначительная.

              А кнопка «черный список» была бы очень кстати.
              • 0
                Про доступность чёрного списка подумаем.
    • 0
      Здравствуйте! Можете назвать свой логин? Как часто жалуетесь на спам? Как давно делали это в последний раз?
      • 0
        ivanicko ну, почти каждый раз как захожу (раз в день где-то), так и помечаю спамом рассылки со всяких сайтов знакомств — с одних и тех же
        • 0
          К сожалению, у нас нет данных о жалобах на спам с такого логина за последнюю неделю. Как давно Вы заходили в почту? Речь идёт точно о письмах, попадающих во «Входящие»?
  • 0
    • +1
      Почему-то мне кажется, что микрософт зато сам принесет все содержимое моего ящика по запросу от государства. В отличие от гугл, который хотя бы попытается этого не делать, потому что чем дольше я на сервисе — тем больше они смогут показывать мне рекламу.
      PS: Унижение конкурента в рекламе — моветон.
  • 0
    А я когда начал читать подумал там используется ABBYY Compreno. Интересно почему не выбрали его?
    • +1
      У Яндекса есть свои достаточно качественные технологии, которые во многом могут превзойти другие аналоги. Кроме того, эти технологие легче встраивать в сервисы Яндекса, ведь они разрабатываются его же собственными специалистами.
  • +5
    Ах вот как оказывается яндекс узнал, что я забыл прикрепить файл к письму.
    image
    • +1
      Меня эту штука пару раз спасала :)
  • 0
    Сделайте пожалуйста Яндекс.Почту на iPad.
    • 0
      В ближайшее время, к сожалению, порадовать клиентом для iPad мы Вас не сможем, но в будущем обязательно будет.
  • 0
    Ну все, теперь можно обвинить яндекс в том что он шпионит за пользователем. Они просматривают мои письма и знают что в них написано. Ужас. Если депутаты узнают — представьте что будет:?
    • 0
      Эти слова мы слышим довольно часто, но. Компьютеры всегда читали и продолжают читать ваши письма с самого первого отправленного письма, хотя бы для того, чтобы понять, куда и кому необходимо это письмо отправить. Защита от спама многие годы работает на эвристическом анализе текстов писем, мы лишь продвинулись дальше: при помощи компьютеров делаем вашу жизнь проще.
      • 0
        Я наверно курсивом выделить забыл:)
  • 0
    А в трёхпанельном интерфейсе планируется такие подсказки?
  • 0
    Ох как бы про Спамоборону хотелось отдельного рассказа!

    А заодно и возможности ее купить себе на сервер — раньше был отличный продукт, а потом из продажи убрали…
  • 0
    Летом 2009 мы с товарищем предлагали вложиться «Яндексу» в подобную технологию. Но только наш вариант технологии ещё мог сортировать письма по тематикам (не на основе вхождения слов, а смысла), искать по смысловому вхождению (письмо от Ивана про какую то машину (а в письме — мой зверь опять ест масло и недавно колёса поменял)) ну и до кучи смысловой спам фильтр предлагали.

    К концу 2010 плюшки были в почте, а стартап превратился в под-проект Яндекса. Но к сожалению Яндекс на тот момент только арендовал готовые технологии. А инвесторы в России вкладываются только в готовые проекты.

    Так, что есть что улучшать ещё в Яндекс.Почте, давно ей пользуюсь и жду дальнейшего её развития.

    Ребята мы ждём от Вас ещё больших прорывов, мы с Вами!!!
  • 0
    А подскажите, пожалуйста, за время пройденное с момента написания статьи как-то поменялась технология «Как парсятся электронные билеты»?
    Вы говорите, что во многом используете шаблоны разбора на основе Xpath, а как вы поступаете с PDF?

    Есть ли еще где-то более подробные публикации относительно этой технологии?

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое Разное