company_banner

Как Яндекс учит искусственный интеллект разговаривать с людьми

    В будущем, как нам кажется, люди будут взаимодействовать с устройствами с помощью голоса. Уже сейчас приложения распознают точные голосовые команды, заложенные в них разработчиками, но с развитием технологий искусственного интеллекта они научатся понимать смысл произвольных фраз и даже поддерживать разговор на любые темы. Сегодня мы расскажем читателям Хабра о том, как мы приближаем это будущее на примере Алисы – первого голосового помощника, который не ограничивается набором заранее заданных ответов и использует для общения нейронные сети.



    Несмотря на кажущуюся простоту, голосовой помощник – один из самых масштабных технологических проектов Яндекса. Из этого поста вы узнаете, с какими сложностями сталкиваются разработчики голосовых интерфейсов, кто на самом деле пишет ответы для виртуальных помощников, и что общего у Алисы с искусственным интеллектом из фильма «Она».

    На заре своего существования компьютеры в основном применялись на крупных научных или оборонных предприятиях. Про голосовое управление тогда размышляли лишь фантасты, а в реальности операторы загружали программы и данные с помощью куска картона. Не самый удобный способ: одна ошибка, и все нужно начинать сначала.

    С годами компьютеры становятся доступнее и начинают применяться в компаниях поменьше. Специалисты управляют ими с помощью текстовых команд, вводимых в терминале. Хороший, надежный способ – он применяется в профессиональной среде и по сей день, но требует подготовки. Поэтому когда компьютеры стали появляться в домах обычных пользователей, инженеры принялись искать более простые способы взаимодействия машины и человека.

    В лаборатории компании Xerox зарождается концепция графического интерфейса WIMP (Windows, Icons, Menus, Point-n-Click) – массовое применение она нашла в продуктах уже других компаний. Заучивать текстовые команды для управления домашним компьютером больше не требовалось — им на смену пришли жесты и клики мышью. Для своего времени это было настоящей революцией. И теперь мир приближается к следующей.

    Теперь почти у каждого в кармане лежит смартфон, вычислительных мощностей которого достаточно, чтобы посадить корабль на Луну. Мышь и клавиатуру заменили пальцы, но ими мы совершаем все те же жесты и клики. Это удобно делать, сидя на диване, но не в дороге или на ходу. В прошлом для взаимодействия с компьютерными интерфейсами человеку приходилось осваивать язык машин. Мы верим, что сейчас пришло время научить устройства и приложения общаться на языке людей. Именно эта идея легла в основу голосового помощника Алиса.

    У Алисы можно спросить [Где поблизости выпить кофе?], а не диктовать что-то вроде [кофейня улица космонавтов]. Алиса заглянет в Яндекс и предложит подходящее место, а на вопрос [Отлично, а как туда пройти?] — даст ссылку на уже построенный маршрут в Яндекс.Картах. Она умеет отличать точные фактовые вопросы от желания увидеть классическую поисковую выдачу, хамство – от вежливой просьбы, команду открыть сайт – от желания просто поболтать.



    Может даже показаться, что где-то в облаке работает нейронная чудо-сеть, которая в одиночку решает любые задачи. Но в реальности за любым ответом Алисы скрывается целая цепочка технологических задач, решать которые мы учимся уже 5 лет. И начнем мы свой экскурс с самого первого звена – со способности слушать.

    Привет, Алиса

    Искусственный интеллект из научной фантастики умеет слушать – людям не приходится нажимать на специальные кнопки, чтобы включить «режим записи». А для этого нужна голосовая активация – приложение должно понимать, что человек к нему обращается. Сделать это не так легко, как может показаться.

    Если вы просто начнете записывать и обрабатывать на сервере весь входящий звуковой поток, то очень быстро разрядите батарейку устройства и потратите весь мобильный трафик. В нашем случае это решается с помощью специальной нейронной сети, которая обучена исключительно на распознавание ключевых фраз («Привет, Алиса», «Слушай, Яндекс» и некоторых других). Поддержка ограниченного числа таких фраз позволяет выполнять эту работу локально и без обращения к серверу.

    Если сеть обучается понимать лишь несколько фраз, вы могли бы подумать, что сделать это достаточно просто и быстро. Но нет. Люди произносят фразы далеко не в идеальных условиях, а в окружении совершенно непредсказуемого шума. Да и голоса у всех разные. Поэтому для понимания лишь одной фразы необходимы тысячи обучающих записей.

    Даже небольшая локальная нейронная сеть потребляет ресурсы: нельзя просто взять и начать обрабатывать весь поток с микрофона. Поэтому на передовой применяется менее тяжеловесный алгоритм, который дешево и быстро распознает событие «началась речь». Именно он включает нейросетевой движок распознавания ключевых фраз, который в свою очередь запускает самую тяжелую часть – распознавание речи.

    Если для обучения лишь одной фразе необходимы тысячи примеров, то вы можете себе представить, насколько трудоемко обучить нейросеть распознаванию любых слов и фраз. По этой же причине распознавание выполняется в облаке, куда передается звуковой поток, и откуда возвращаются уже готовые ответы. Точность ответов напрямую зависит от качества распознавания. Именно поэтому главный вызов – научиться распознавать речь настолько же качественно, насколько это делает человек. Кстати, люди тоже совершают ошибки. Считается, что человек распознает 96-98% речи (метрика WER). Нам удалось добиться точности в 89-95%, что уже не только сопоставимо с уровнем живого собеседника, но и уникально для русского языка.

    Но даже идеально преобразованная в текст речь ничего не будет значить, если мы не сможем понять смысл сказанного.

    Какая погода завтра в Питере?

    Если вы хотите, чтобы ваше приложение выводило прогноз погоды в ответ на голосовой запрос [погода], то здесь все просто – сравниваете распознанный текст со словом «погода» и если получаете совпадение, выводите ответ. И это очень примитивный способ взаимодействия, потому что в реальной жизни люди задают вопросы иначе. Человек может спросить у помощника [Какая погода завтра в Питере?], и тот не должен растеряться.

    Первое, что делает Алиса при получении вопроса, это распознает сценарий. Отправить запрос в поиск и показать классическую выдачу с 10 результатами? Поискать один точный ответ и сразу выдать его пользователю? Совершить действие, например открыть сайт? А, может, просто поговорить? Невероятно сложно научить машину безошибочно распознавать сценарии поведения. И любая ошибка здесь малоприятна. К счастью, у нас есть вся мощь поисковой машины Яндекса, которая каждый день сталкивается с миллионами запросов, ищет миллионы ответов и учится понимать, какие из них хорошие, а какие – нет. Это огромная база знаний, на основе которых можно обучить еще одну нейронную сеть – такую, которая бы с высокой вероятностью «понимала», чего именно хочет человек. Ошибки, конечно же, неизбежны, но их совершают и люди.

    С помощью машинного обучения Алиса «понимает», что фраза [Какая погода завтра в Питере?] – это запрос погоды (кстати, это заведомо простой пример для наглядности). Но о каком городе идет речь? На какую дату? Здесь начинается этап извлечения из пользовательских реплик именованных объектов (Named Entity Recognition). В нашем случае важную информацию несут два таких объекта: «Питер» и «завтра». И Алиса, у которой за плечами стоят поисковые технологии, «понимает», что «Питер» – синоним «Санкт-Петербурга», а «завтра» – «текущая дата + 1».



    Естественный язык – не только внешняя форма наших реплик, но и их связность. В жизни мы не обмениваемся короткими фразами, а ведем диалог – он невозможен, если не помнить контекст. Алиса его помнит – это помогает ей разбираться со сложными лингвистическими явлениями: например, справляться с эллипсисом (восстанавливать пропущенные слова) или разрешать кореференции (определять объект по местоимению). Так, если спросить [Где находится Эльбрус?], а потом уточнить [А какая у него высота?], то помощник в обоих случаях найдет верные ответы. А если после запроса [Какая погода сегодня?] спросить [А завтра?], Алиса поймет, что это продолжение диалога про погоду.



    И кое-что еще. Помощник должен не только понимать естественный язык, но и уметь говорить на нем – как человек, а не как робот. Для Алисы мы синтезируем голос, в оригинале принадлежащий актрисе дубляжа Татьяне Шитовой (официальный голос Скарлетт Йоханссон в России). Она озвучивала искусственный интеллект в фильме «Она», хотя вы могли запомнить ее и по озвучке чародейки Йеннифэр в «Ведьмаке». Причем речь идет о достаточно глубоком синтезе с применением нейронных сетей, а не о нарезке готовых фраз – записать все их многообразие заранее невозможно.

    Выше мы описали особенности естественного общения (непредсказуемая форма реплик, отсутствующие слова, местоимения, ошибки, шум, голос), с которыми нужно уметь работать. Но у живого общения есть еще одно свойство – мы далеко не всегда требуем от собеседника конкретного ответа или действия, иногда нам просто хочется поговорить. Если приложение будет отправлять такие запросы в поиск, то вся магия разрушится. Именно поэтому популярные голосовые ассистенты используют базу редакторских ответов на популярные фразы и вопросы. Но мы пошли еще дальше.

    А поболтать?

    Мы научили машину отвечать на наши вопросы, вести диалог в контексте определённых сценариев и решать задачи пользователя. Это хорошо, но можно ли сделать ее менее бездушной и наделить человеческими свойствами: дать ей имя, научить рассказывать о себе, поддерживать разговор на свободные темы?



    В индустрии голосовых помощников эта задача решается с помощью редакторских ответов. Специальная команда авторов берет сотни наиболее популярных у пользователей вопросов и пишет по несколько вариантов ответов на каждый. В идеале это нужно делать в едином стиле, чтобы из всех ответов складывалась цельная личность помощника. Для Алисы мы тоже пишем ответы – но у нас есть кое-что еще. Кое-что особенное.

    Помимо топа популярных вопросов существует длинный хвост из низкочастотных или даже уникальных фраз, на которые заранее подготовить ответ невозможно. Вы уже догадались, с помощью чего мы решаем эту проблему, не так ли? С помощью еще одной нейросетевой модели. Для ответов на неизвестные ей вопросы и реплики Алиса использует нейросеть, обученную на огромной базе текстов из интернета, книг и фильмов. Знатоков машинного обучения, возможно, заинтересует то, что начинали мы с 3-слойной нейронной сети, а теперь экспериментируем с огромной 120-слойной. Детали прибережем для специализированных постов, а здесь скажем, что уже текущая версия Алисы старается отвечать на произвольные фразы с помощью «нейросетевой болталки» – так мы ее называем внутри.



    Алиса учится на огромном количестве самых разных текстов, в которых люди и персонажи далеко не всегда ведут себя вежливо. Нейросеть может научиться совсем не тому, чему мы хотим ее научить.

    – Закажи мне сэндвич.
    – Обойдетесь.

    Как и любого ребенка, Алису нельзя научить не хамить, ограждая ее от всех проявлений хамства и агрессии – то есть обучая нейросеть на «чистой» базе, где нет грубостей, провокаций и прочих неприятных вещей, часто встречающихся в реальном мире. Если Алиса не будет знать о существовании подобных выражений, она будет отвечать на них бездумно, случайными фразами – для неё они останутся неизвестными словами. Пусть лучше она знает, что это такое – и выработает определённую позицию по этим вопросам. Если ты знаешь, что такое мат, ты можешь либо ругнуться в ответ, либо сказать, что не станешь разговаривать с ругающимся. И мы моделируем поведение Алисы так, чтобы она выбирала второй вариант.

    Бывает так, что сама по себе реплика Алисы вполне нейтральна, но вот в контексте, заданном пользователем, ответ перестаёт быть безобидным. Однажды, еще во время закрытого тестирования, мы попросили пользователя найти какие-то заведения – кафе или что-то подобное. Он сказал: «Найди другое такое же». И в этот момент в Алисе случился баг, и она вместо запуска сценария поиска организации дала довольно дерзкий ответ – что-то вроде «на карте поищи». И не стала ничего искать. Пользователь сначала удивился, а потом удивил и нас, похвалив поведение Алисы.

    Когда Алиса использует «нейросетевую болталку», в ней может проявиться миллион разных личностей, так как нейросеть вобрала в себя немного от автора каждой реплики из обучающей выборки. В зависимости от контекста Алиса может быть вежливой или грубой, жизнерадостной или депрессивной. Мы же хотим, чтобы персональный помощник представлял собой целостную личность со вполне определенным набором качеств. Здесь на помощь приходят наши редакторские тексты. Их особенность в том, что они изначально написаны от лица той личности, которую мы хотим воссоздать в Алисе. Получается, что можно продолжать обучать Алису на миллионах строк случайных текстов, но отвечать она будет с оглядкой на эталон поведения, заложенный в редакторских ответах. И это то, над чем мы уже работаем.

    Алиса стала первым известным нам голосовым помощником, который старается поддерживать общение не только с помощью редакторских ответов, но и используя обученную нейронную сеть. Конечно же, мы еще очень далеки от того, что изображают в современной фантастике. Алиса не всегда точно распознает суть реплики, что влияет на точность ответа. Поэтому работы у нас еще много.

    Мы планируем сделать Алису самым человекоподобным помощником в мире. Привить ей эмпатию и любознательность. Сделать её проактивной – научить ставить цели в диалоге, проявлять инициативу и вовлекать собеседника в разговор. Сейчас мы одновременно и в самом начале пути, и на переднем крае наук, изучающих эту область. Чтобы двигаться дальше, придется этот край подвинуть.

    Поговорить с Алисой можно в приложении Яндекс для Android и iOS, в бета-версии для Windows, а скоро и в Яндекс.Браузере. Нам было бы интересно обсудить, каким вы видите будущее голосовых интерфейсов и сценарии его использования.
    Яндекс 560,11
    Как мы делаем Яндекс
    Поделиться публикацией
    Комментарии 286
    • +4
      Надо тестить! Осталось накатить Алису на физические устройства, как у амазона и гугл. И успех
      • –3
        А оно надо вообще? Без полноценного ИИ на борту это игрушка на пару раз. К тому же у них и текстовый-то поиск работает так, что без слез не взглянешь, а тут еще и ошибки распознавания голоса будут накладываться. Да и голос как интерфейс, наверно, худшее, что можно предложить пользователю.
        • +2

          Можно использовать в картах, кассах и еще много где. Где ручной ввод можно заменить. В моноблоках посреди города точно.

        • +7
          Надо тестить!

          Потестили, отлично!


          image
          • +2

            Ну кстати еще довольно слаба на передок ваша Алиса...


            image
            • 0
              Подумал ФШ, попытался воспроизвести
              image
              • 0
                Не понял, она считает людей после 25 большими чтоли? =(
                image
                • 0
                  оно ничего не считает. оно просто статистически правильный ответ выдвинуло. причем случайным образом выбрало из таблички с несколькими.
                  • 0
                    Оно явно подразумевало вопрос «у меня большой IQ». Вот только я как человек это быстро выкупил, а автор вопроса — нет.
            • –2
              Давно пора выходить на свою дорогу а не плестись в хвосте у всякой иноземной швали..image
            • +18
              про сэндвич — это была отсылка к xkcd 149
              image
              • +6
                А будет ли SDK? Хотелось бы запустить это добро на raspberry для своего iot
                • +6
                  Да, мы собираемся сильно переработать наш уже слегка устаревший Yandex SpeechKit SDK, добавив туда много нового добра:)
                  • +1
                    Поправьте меня если я не прав, но SpeechKit вроде бы предназначался только для распознавания и синтеза (могу ошибаться, смотрел в эту сторону несколько лет назад, но тогда не очень зашло). А в Алисе я вижу ещё возможность беседы. Не надо самому вставлять костыли и писать своего «чат бота».
                    • +2
                      Именно в этом направление и работаем.
                      • 0
                        Добрый день!

                        Голос у Алисы получился очень приятным — особенно меня радуют человеческие интонации в нём))

                        Признаться, даже сил нет ждать финального релиза SDK, чтобы получить доступ к интеллектуальным возможностям вашей голосовой помощницы… Нет ли у вас отдельных планов на раннем этапе предоставить разработчикам доступ к голосу Алисы для озвучивания произвольных текстов в рамках SpeechKit? Ведь при желании это можно реализовать намного скорее, чем полноценный SDK!)

                        И, если да, то можете ли Вы озвучить хоть какие-нибудь ориентировочные сроки?
                        • +3

                          А скоро ли ждать возможности интегрировать приложение в ответы Алисы? Мы тут все аж чешемся как хотим.

                  • –2
                    А может яндекс вначале научит свой поиск искать то, что его просит пользователь?
                    А то какой нафиг голосовой поиск естественными командами, если текстовый по ключевым словам нормально ни черта не ищет?
                    • +4
                      Вы меня аж напугали. Полез проверять, вдруг сломалось что. Но нет, всё ок. Ищет хорошо, находит что надо.
                      • +10
                        Правда? А как тогда можно заставить его искать ровно то, что в запросе, а не одно совпадение из 5 слов уже на первой страничке результатов?
                        Кавычки — не работают. Настройка «как в запросе» — не работает. Зато знаете, как функционал хорошо работает? Кнопочка «Google» внизу странички с результатами. За последний год постоянно приходится искать именно в гугле, хотя только яндексом с 2002 года пользовался.
                        • –1
                          У меня гугл давно кавычки игнорирует чуть больше, чем полностью… Яндекс реже, хотя тенденция и там налицо(((
                          • +1
                            Перестал пользоваться Яндексом как поиском лет 10 назад, хотя вполне лоялен к компании.

                            Раз в год провожу тест, транслируя несколько запросов и Яндексу и Гуглу, и смотрю кто выдаст нужную мне информацию выше. Яндекс пока ни разу не победил.
                            • 0
                              А вы учитываете персонализацию?
                              • 0
                                Да. Гугл без персонализации теряет в точности ответа, но всё равно ищет на голову выше Яндекса
                                • –1
                                  Сегодня гугл мощнее яндекса… Ведь на сервера и программное обеспечение у нас идут весьма условные деньги… Надеюсь что когда падет ФРБ, а это должно случиться непременно, многое изменится в лучшую сторону… Однако, яндекс пока еще немножечко тупит, одновременно обрабатывая наши запросы и чужие для нас и ненужные нам задачи!!!
                                  • +1
                                    Фсемирный Рептилоидный Банк?
                                    • –1
                                      -:))) Так точно!!! -:)))
                                • 0
                                  Персонализация — это когда яндекс.директ выдает дичь в рекламе основываясь на запросах всех пользователей с одного IP?

                                  Скажите, как должна работать кнопка «точно так как в запросе»?
                                  • 0
                                    Вы не в курсе почему только у Google можно в пару кликов отфильтровать выдачу по диапазону «за год», а у вас и в Bing дальше прошлого месяца вариантов нет? (Кроме как заполнять календарь.)

                                    Пользуюсь диапазоном «за год» чаще, чем всеми другими, например когда нужно найти актуальную информацию по какой-либо IT-шной тематике. В этом случае фильтр за прошедший месяц это слишком мало, а для фильтрации за год в поисковиках помимо Google приходится совершать слишком много телодвижений.
                                    • 0
                                      Надо покопаться в истории – так не помню.
                                      • 0
                                        Так как-то этот вопрос может быть решён?
                                        • 0
                                          Пока причин не знаю, сказать не могу.
                              • +1

                                Находит что надо или что искали? :)

                                • 0
                                  Да он даже меня найти с трудом может, а ведь я-то вот он, реален… Вот Гугл с его голосовым помощником точно знает, что я человек и ничего лишнего. Ну как, точно ничего не сломалось в Яндексе? ;)
                                  • +1
                                    Так нашел же все профили.
                                    • +1
                                      Почему с трудом? Какой-то из профилей не нашёл?
                                      Так то поиск яндекса полнее и лучше. Вполне логичное предположение об описке. Предположение гугла менее осмысленное.
                                      • +2
                                        Предположение Гугла ПРАВИЛЬНОЕ. Яндекса — нет.
                                        • +2
                                          Предположение гугла никак не может быть правильным: слова «бутылкус» нет.

                                          В то время как яндекс, если я правильно понял, предположил, что
                                          1. использована латиница для запроса на русском языке
                                          2. пропущен пробел между словами

                                          Лично я в предположении яндекса вижу логику, а в предположении гугла нет. Результаты поиска по конкретному запросу (количество ссылок) тоже не в пользу гугла.

                                          Я не топлю за яндекс, вовсе нет. Я сам часто использую гугл. На рабочем месте так точно чаще, чем яндекс.
                                          Но утверждения, что поиск яндекса «нормально не ищет», или что он что-то находит «с трудом», явно не соответствуют действительности.
                                          • –1
                                            Слово Бутылкус правильное. И уж тем более написанное транслитом не стоит обратно переводить и совать пробел. Слова «вылысыпыдысты» тоже не существует, но Яшка что-то не стремится исправить опечатку. Бро, расслабься, алгоритмы Яшки ущербны, это факт, с которым даже не надо жить, надо просто забить болт на его существование.
                                          • 0
                                            Может быть это имя у вас в гугловском профиле?
                                    • 0
                                      А можете дать пример того, что яндекс не ищет? Может, этого действительно нет.
                                      • 0

                                        Ну загуглите resnet, например. В гугле первая ссылка на оригинальную статью, в яндексе — какая-то херня. И так постоянно, работы на архиве иногда даже по полному названию не ищет.

                                        • +1
                                          У меня и в Яндексе, и в Гугле первая ссылка – это пост на Хабре. Думаю, в вашем случае персонализация дала о себе знать.

                                          скрин

                                          • 0
                                            И это, кстати, верх дури. Персонализация может быть полезна для домохозяйки, которая забыла тот сайтик с рецептами, который она случайно нашла вчера (предполагается, что 95% пользователей не пользуются историей браузера). Или предположение по местности — «как пройти к кремлю» имеет разный ответ в контексте городов с кремлями.
                                            Но никак не поиск новой информации, статей на IT-тематику, интернет-магазинов и прочих безличностных данных. Да, есть фильтры по датам появления/обновления, но…
                                            Короче, персонализация не нужна и должна умереть.
                                            • 0
                                              devpony в сообщении выше говорит о том, что персонализация помогает найти ему техническую информацию, которую без персонализации найти невозможно. Чем это плохо?
                                          • +1
                                            В Яндексе первые две ссылки на хабр, третья на английскую Вики, далее гитхаб, sof, resnet.us и т.п.
                                            А у Вас как?
                                          • 0
                                            В следующий раз как только яндекс будет игнорировать то, что его просят — я скину.
                                            Если ещё смогу сюда писать, а то обиженные за яндекс (как в свое время за гугл) могут слить окончательно карму.
                                            • 0
                                              Хотя пример из обсуждений тут: 13:9
                                              Что в кавычках, что без, что с опцией «точно так как в запросе» — ПДД сплошное.
                                              Тыкаем внизу переход на гугл и опа, 13:9 в первых двух строчках…
                                              Но в основном, конечно, какие-то ошибки специфических программ искать приходится.
                                              • 0
                                                Если вы про этот комментарий, habrahabr.ru/company/yandex/blog/339638/#comment_10465562
                                                то ни яндекс, ни гугл не понимают о чем тут на самом деле. Я сейчас сломаю своим комментом всю статистику @cadmi, но это не про Библию и не про ПДД. Это формула обращения к бытавтомату в «Мягких зеркалах».
                                                Иными словами, мысль такая: «окей, гугл»; «привет, сири»; «слушай, Алиса» могут быть не всегда приемлемыми обращениями к голосовому помощнику — труднопроизносимы, глупо звучат на языке носителя и т.п. Можно было бы сделать таким образом: вновь установленный голосовой помощник отзывается на какую-то фиксированную, закладываемую разработчиком фразу, а затем предоставляет пользователю возможность ее сменить. Это же позволит и выполнять идентификацию пользователя, если их несколько обращается к одному устройству.
                                                Кстати, в «Мягких зеркалах» довольно много примеров общения с голосовыми помощниками.
                                                • 0

                                                  Это сложно реализовать. Нейросеть обучена искать определенные фразы, например "Привет, Алиса". Иначе пришлось бы распознавать всю речь круглые сутки. В статье, кстати, об этом написано

                                                  • 0
                                                    Но пример, что найти подобные «13:9» вообще не реально. И в яндексе все хуже, потому что он произвольно меняет на 13.9 и убедить его в обратном — невозможно.
                                            • +1
                                              теперь у меня мечта, чтобы это завелось на часах на tizen)
                                              • +1

                                                осталось добавить личностные параметры для самоидентификации и вуаля — готовый ИИ.)

                                                • +3
                                                  К сожалению, до полноценного ИИ человечеству пока как до Китая пешком.
                                                  Пока это всего лишь чат-бот на нейросетках.
                                                  • 0
                                                    До Китая пешком, это вы оптимистично. Я почему-то склоняюсь к тому, что для создания полноценного ИИ, человеку необходимо понять, как работает его собственный мозг. Делаю ставку на 100-500 лет. :)
                                                    • 0

                                                      Нейронка нейронок, обязательно глаза, моторика, слух и нюх. Без этого ИИ не будет человеко-подобным. Есть причина, по которой наиболее развитым биологическим объектам нужны внешние раздражители.


                                                      Человеку, особенно в детстве, нужно очень много раздражителей.

                                                      • 0
                                                        нужны внешние раздражители
                                                        Еще проворные манипуляторы — руки-крюки.
                                                        • 0

                                                          Это включено в моторике.

                                                      • +2
                                                        Чтобы летать в самолете, не обязательно строить самолет, который машет крыльями как птица.
                                                        • 0
                                                          Зато надо строить самолет, который использует те же законы аэродинамики, которые действуют на птицу.
                                                          • 0
                                                            Я как раз про это и пытаюсь и обьяснить. Без нейронок и прочего бреда. и уже есть рабочая модель. тут
                                                            • 0
                                                              очень трудно читать такой текст
                                                  • +5
                                                    На вопрос Алисе, умеет ли она варить борщ, она ответила «Охапка дров — и плов готов!».
                                                    Хорошо ещё, что предыдущую часть рецепта не процитировала…
                                                    • +2
                                                      К сожалению, приложение иногда вылетает на iPhone. Так же, по запросу «Открой Яндекс Транспорт» (установлен на смартфоне) Алиса ищет этот запрос в поиске. Хотя в подсказке написано — Алиса умеет открывать приложения
                                                      • 0

                                                        Гугл уже перестал активно пиарить свой голосовой поиск. Кнопка голосового ввода на клавиатуре была и пропала. Вывод? Не нужно это никому. Что уж про какой-то Яндекс говорить… Лучше бы доброе дело бы сделали, а не насиловали труп хорошей, но ненужной идеи.

                                                        • +1
                                                          Почему же ненужной? Очень удобная технология для управления домом и просто поболтать когда скучно. Идея хорошая и если не видите перспектив, то мне жаль: С
                                                          • 0

                                                            Голосовое управление очень плохая идея для дома. Вырубился интернет — в толкан со свечкой?

                                                            • 0
                                                              Никто не отменял возможность механически воздействовать на объекты.
                                                              P.S. У меня свет чаще отключали, чем интернет
                                                              • 0
                                                                *закатив глаза, нараспев читаю* Если вероятность факапа отлична от нуля, то сколь бы мала она ни была…
                                                                Как только ты внедришь голосовое управление, апи начнёт меняться каждый день, вместо «как пройти в зоопарк» тебе ответят «да забей, тут ресторан недалеко (не является публичной офертой, ЕГРЮЛ 123...)», а вместо включения лампочки «Яндекс рекомендует: люстры в наличии и на заказ». Это яяяяндекс, бро, яяяяяяндеееекс… Я с ними шесть лет работал, знаю, о чём говорю.
                                                              • 0
                                                                «Толкан — прожаренный и истолченный в муку ячмень, употребляемый в Сибири на промыслах вместе с чаем» — свечу-то куда ещё?
                                                                • 0
                                                                  Пхах, зачётно шутканул =) Я дедушка современный, с детства толканом зовётся то, что мой батя звал нужником.
                                                                  А что там у Ожегова — то дела давно минувших дней и теперь мы вынуждены мириться с ёгуртами под чёрное кофе.
                                                            • 0
                                                              Мне кажется, вы не смотрели их последнии презентации.
                                                              • +6

                                                                Нет. Зачем? Я говорю о технологии интересной, но ненужной. Я не слышал нигде, кроме рекламы, фраз "окей Гугл" и "эй сири". Ну нет спроса и всё. Поиграться забавно, но не более.

                                                                • –4
                                                                  Какой же вы зануда)))
                                                                  • +2
                                                                    Хохо, я зануда? Ник заааа… таки лучше загуглить, да![*] На самом деле так и есть, вот ни разу не шучу. Аккурат совсем недавно в Южном парке отлично простебали тему с умными домами на голосовом управлении и чётко обозначили пользу от голосового управления. Детей посмешить — ну хотя бы так.
                                                                    *КСТАТИ! Реально — поищи мой ник в Яндексе и Гугле. Увидишь, насколько велика разница в качестве поиска. Гугл точно знает, что Butylkus это человек, а Яндекс упёрто рекомендует наливать вискарь в бутылку с дозатором. И кто-то из этой компании тут серьёзно пытается доказать, что поиск Яндекса работает
                                                                    • +3
                                                                      одинаково ищет.
                                                                      • 0
                                                                        Да одинаково оно ищет.
                                                                        Никогда не пользовался яндексом.
                                                                        • 0
                                                                          Ну да, у меня тоже Яндекс не предлагает вискаря. вполне нормальные ссылки. большая разница только в картинках. это да )
                                                                      • 0
                                                                        Все верно. Но для людей с ограниченными возможностями очень пригодится. А их немало.
                                                                        • 0
                                                                          Пользуюсь. Реально пользуюсь голосовым поиском дома, когда заняты руки, в автомобиле, и, было бы совсем не плохо поговорить к примеру в дороге «с кем нибудь о чем нибудь»
                                                                          • 0
                                                                            Я слышал. От мамы и от тестя. И оба по несколько раз повторяли одно и тоже, а потом делали все вручную :)

                                                                            Еще постоянно приходится решать проблему типа «Навигатор ведет меня не туда, куда я сказал». На предложение о ручном вводе адреса смотрят с недоверием :)
                                                                        • 0
                                                                          Идея очень даже нужная, и ее надо развивать и совершенствовать.
                                                                          Как пример — для водителей. Начиная ввод маршрута голосом, не отвлекаясь от руля и заканчивая просто разговором ни о чем, чтобы не заснуть в ночной поездке.
                                                                          • 0
                                                                            В автомобиле можно настроить компьютер на свой набор команд. ИИ для этого ни к чему.
                                                                            • 0
                                                                              Да, но:
                                                                              1) не у всех авто с таким компьютером, который можно настраивать
                                                                              2) если несколько авто (например, своя и рабочая, особенно если рабочая часто меняется), то уже неудобно каждую настраивать
                                                                        • 0
                                                                          Поставил на iOS Алису, приложение решится после каждого (буквально каждого) голосового ответа. Это только мне так повезло или у всех такие проблемы?
                                                                          • 0
                                                                            У меня ios 11.02 — полет нормальный ни одного краша.
                                                                          • 0

                                                                            Интересно, насколько намеренно было выбрано имя, созвучное с Элизой?

                                                                            • +1
                                                                              Если уж говорить о созвучии, то есть Alexa. Ну или то, что первым приходит в голову:
                                                                              image
                                                                              • 0
                                                                                помню я в нее был влюблен
                                                                                • 0

                                                                                  Не, яндексовская про миелофон не знает, я проверил.

                                                                                  • 0
                                                                                    А я вот попробовал — дала совет по миелофону.
                                                                                    Миелофон
                                                                                    image
                                                                            • +1
                                                                              А при заблокированном экране она умеет слушать? И да, тоже столкнулся с проблемами с открытием установленных приложений, особенно тех, что называются не по-русски.
                                                                              • 0
                                                                                Сейчас работает при запущенном мобильном приложении.
                                                                              • –2
                                                                                «Как Яндекс научил искусственный интеллект разговаривать с людьми?» — «Мы использовали нейронные сети.»
                                                                                Да вы что! Ну теперь-то все понятно. Нейронные сети, значит. Аж трехслойные. Надо будет самому попробовать.
                                                                                [/sarcasm] Опять одна вода.
                                                                                • 0
                                                                                  Это обзорный пост, который показывает всю технологическую цепочку. Про каждый из блоков можно написать отдельный большой материал. Про какой из них Вам было бы интереснее прочитать детальнее?
                                                                                  • 0
                                                                                    Распознавание голоса :) Что насчет детского голоса? Подавления шума? Речи с определенным акцентом? Ещё было бы интересно узнать по поводу перспектив. Есть ли в планах работать с камерой? Аля распознавание владельца, его друзей, или просто объкта, на который укажешь?
                                                                                    • +2
                                                                                      Мы очень хорошо справляемся с распознаванием акцентов и речи в шуме (Яндекс.Навигатор и водители такси тут нам очень сильно помогают); Голосовым поиском пользуется достаточно много детей, кроме того, мы отдельно собирали записи детской речи, поэтому речь детей мы распознаем достаточно хорошо.

                                                                                      Да, использование камеры может расширить сценарии использования Алисы.
                                                                                      • +1

                                                                                        Использование камеры со стороны пользователя или со стороны Алисы…?


                                                                                        image

                                                                                        • 0
                                                                                          К слову, удивило как точно определяет речь когда на ноуте играет музыка.
                                                                                        • 0

                                                                                          А что там распознавать то? Даже ардуина справляется с распознаванием. Вот вам для примера. http://arjo129.github.io/uSpeech/
                                                                                          Пишем голос. Считаем фонемы.
                                                                                          И у них ровно тоже самое.
                                                                                          Только фонемы потом суют в нейросетку которая статистически проверяет совпадения с размечеными образцами. И возращает текст максимально совпавший с тем что вы подали на вход.
                                                                                          Никакой магии. Ардуина вам сделает тоже самое только без статистического анализа в виде нейросети.

                                                                                          • 0
                                                                                            30% — 40% accuracy if based on phonemes, up to 80% if based on words.


                                                                                            Вся соль в точности.
                                                                                            • 0
                                                                                              А уж если фразы будете анализировать то точность еще выше поднимется. :)
                                                                                              Соль в том что нейросетка это аппарата для статистического анализа. Тоесть сначала вы пишите какой то алгоритм который будет выделять признаки, фонемы, растояние между глаз и прочее. А потом, при помощи нейросетки ( если вы суровый извращенец) или словарика, проверяете на близость к заранее размеченым признакам. Логично что у ардуины просто памяти не хватает для проверки по фразам.
                                                                                        • +1
                                                                                          NER, использование контекста при формировании ответа, само формирование ответа
                                                                                          • –1

                                                                                            Вообще интересно, что на вход сети распознования голоса подается. Просто амплитуды с микрофона? Спектр за какой-то промежуток? Прогоняется ли сигнал через какой-то шумодав? Что сеть выдает: букву, слово, фразу или что-то другое?

                                                                                        • +6
                                                                                          Сколько не пытаюсь использовать помощников, пока ничего полезного не получается, просто игрушка.
                                                                                          Если я помощнику один раз скажу, что если я говорю звонить Сереге — это значит, надо набрать Серегу — одноклассника, хотя в контакте данные Сергей Фамилия, он запомнит?
                                                                                          Можно ли обучить помощника собственному контексту?
                                                                                          • 0
                                                                                            Я присоединюсь к вопросу. Полагаю, что важно (интересно) вести диалог именно со «своей» Алисой. Здесь выше шла речь о том, что у Алисы множество личностей:
                                                                                            Когда Алиса использует «нейросетевую болталку», в ней может проявиться миллион разных личностей, так как нейросеть вобрала в себя немного от автора каждой реплики из обучающей выборки. В зависимости от контекста Алиса может быть вежливой или грубой, жизнерадостной или депрессивной. Мы же хотим, чтобы персональный помощник представлял собой целостную личность со вполне определенным набором качеств.

                                                                                            Вы пишете, что та или иная личность в разговоре появляется в зависимости от контекста. Это происходит детерминировано или случайно?

                                                                                            Если сейчас существует одна Алиса с личностями под контекст, то что делает эту Алису персональным помощником?

                                                                                            Если будет все-таки реализована «своя» Алиса, то какие способы связи с ней предполагается предусмотреть? Например, у меня нет под рукой телефона, браузера и т.д. с «моей» Алисой. Могу я позвонить ей? А написать смс? Или сообщение в мессенджере?
                                                                                          • +7
                                                                                            Не знает время полёта на самолёте, не знает, сколько километров в 60 милях, не считает логарифмы, за рецептами и текстами песен шлёт в Яндекс, не умеет играть в шахматы (было бы вдвойне интересней играть голосом с ботом), но любит Queen и Depeche Mode.
                                                                                            В остальном всё здорово! Надеюсь на дальнейшее постоянное развитие Алисы.
                                                                                            • +1
                                                                                              А можете, пожалуйста, мне прислать точный запрос для логарифма. Конвертер с милями и правда не сработал, поищем причину.

                                                                                              P.S. Про шахматы отличная идея.
                                                                                              • +1
                                                                                                «Логарифм 5 по основанию 2».
                                                                                                Ещё было бы здорово, если бы стихи читала, да ещё и сгенерированные вашим автопоэтом. Уже записанные стишки замечательны.
                                                                                            • +2
                                                                                              А напоминалкой Алиса сможет быть?
                                                                                              • +5

                                                                                                Мне кажется, пока что эти помощники заслуживают такого применения:


                                                                                                • +2
                                                                                                  Очень нужна работа с внешними контактами и календарями по WebDAV, и в перспективе хотелось бы поддержку управления IoT на уровне Google Home и Amazon Echo.
                                                                                                  • +2
                                                                                                    Может подскажите, есть ли у яндекса API для распознования семантики слов?
                                                                                                    У меня есть робот, хочу привзать к нему более вменяемое управление голосом.
                                                                                                    • 0
                                                                                                      Возможно, зашла бы комбинация speechkit + api.ai (или, возможно, связка из какого-либо классификатора текстов и NER-а).

                                                                                                      Это если взаимодействие укладывается в рамки вида «сработал на какое-то триггер — начал распознавать речь с этого момента — классифицировал фразу — обработал в соответствии с текущим состоянием (грубо говоря — контекстом)»
                                                                                                      • 0
                                                                                                        Думаю, такая модель мне более чем подходит, спасибо.
                                                                                                        • 0
                                                                                                          Кстати, если не секрет — то что именно пилите?
                                                                                                    • +3
                                                                                                      Раньше, когда я говорил, что Яндекс старается делать то же, что и Гугл, меня постоянно поправляли: они идут своей дорогой, только дорога эта в мире одна, и все компании на ней оказываются рано или поздно, и это не подражательство, ни в коем случае…
                                                                                                      • +3
                                                                                                        Про дорогу очень правильная аналогия. Первые голосовые «помощники» появились достаточно давно. Но именно сейчас они становятся актуальны. И лично я вижу несколько причин. 1. мобильный веб все популярнее, что делает неудобным ввод с клавиатуры; 2. развитие технологий ИИ; 3. умные устройства теперь не только у «гиков», но и у простых пользователей.

                                                                                                        Поэтому конечное значение имеет уже не идея, а реализация. Все браузеры – это вкладки и окна, но возможности у них разные. Так и ассистенты у всех внешне могут быть похожи, но у кого-то есть поддержка русского языка и «нейросетевой болталки».
                                                                                                        • +1
                                                                                                          Некоторое значение имеет и совпадение выхода технологий у разных компаний, не находите? Карты, Вебмастер, голосовой вот помощник — сложно сказать, что Яндекс срочно бросается делать то, что есть у других, но выглядит оно так.
                                                                                                          Как у Самсунга с его ни разу не слизанным с iPhone дизайном: шутку про двух дизайнеров, один из которых держит новое устройство Apple, а другой обводит, знают, кажется, все.
                                                                                                          И еще: Яндекс с выпуском своего телефона (читай — своей платформы, и своей экосистемы) так и не подружился (не будут бросаться словами «не осилил»), но, в результате, на мобильных платформах по умолчанию вызываются, сами понимаете, Siri, гуглопомошник, Кортана. Я не очень в курсе, стоит ли усилие по запуску приложения от Яндекса радости получить помощь от Алисы, но мне думается, что популярности это приложение не сыщет.
                                                                                                          Как полигон для обкатки рекламной математики (для Яндекса) — да, как помощник — нет.

                                                                                                          Но вот вопрос: Гугл шел по пути, когда берется все, что человек сказал, и пихается в строку поиска браузера. У них поиск довольно хороший, и, на мой взгляд, получше почищен от дублей информации (рунет, все же, славится логиков «стырю-ка у другого сайта»), чем ваш, но это, конечно, дело наживное. Но дойти до уровня, когда машина поймет, о чем я её спросил, и сообщит не «есть 7389643 страниц с текстом, похожий на ваш запрос», а один, но внятный ответ — здесь и настольному поиску далеко, и голосовой помощник будет бесполезен.
                                                                                                          • +3
                                                                                                            Сравнивать сроки выхода идей я бы не стал. Иначе можно заметить, что Дзен в Яндекс.Браузере появляется минимум на год раньше, чем похожая лента в Chrome. Или даже сам Яндекс начинает работать на год раньше. На самом деле сложные технологические проекты за полгода не создаются. К ним идут годами.

                                                                                                            Кстати, Алиса – это не какое-то новое самостоятельное приложение. Она пришла в уже популярные приложения: мобильный Яндекс, десктопная Строка, скоро в Яндекс.Браузере появится. Это уже миллионы пользователей.

                                                                                                            Ответы вместо страницы с результатами – тоже хорошее наблюдение. Только этот процесс уже идет. Яндекс уже на многие вопросы вытаскивает прямой ответ. И Алиса использует эту информацию, чтобы отвечать прямо в диалоге. Этим и отличается современный голосовой помощник от ботов из прошлого.
                                                                                                            • +12
                                                                                                              Да яндекс старый известный подражатель гугла:
                                                                                                              Яндекс.Почта — 26 июня 2000
                                                                                                              Gmail — 1 апреля 2004
                                                                                                              Яндекс.Карты — 27 августа 2004
                                                                                                              Google maps — 8 февраля 2005
                                                                                                              Яндекс.Диск — 5 апреля 2012
                                                                                                              Google Drive — 24 апреля 2012
                                                                                                          • +3
                                                                                                            Раньше, когда я говорил, что Яндекс старается делать то же, что и Гугл, меня постоянно поправляли

                                                                                                            И верно поправляли. Мало кто знает что к примеру яндекс поиск появился раньше, яндекс карты появились раньше, яндекс почта появилась раньше… Стало быть, гугл копирует яндекс.
                                                                                                            А в целом да, куда двигаться и что развивать сейчас куда более понятнее, нежели в конце в нулевых. Поэтому в таких новостях ничего удивительного.
                                                                                                            • 0
                                                                                                              Вероятно, от того и растут ноги, что «мало кто знает». Лично мне почта Яндекса стала известна уже после выхода Gmail из тени беты.
                                                                                                          • +6
                                                                                                            Очень крутой синтезатор! Предыдущий был значительно хуже. Не планируете ли предоставить возможность использовать его offline и с другими приложениями?
                                                                                                            • 0
                                                                                                              1. Добавьте голос Алисы (Селезневой)
                                                                                                              2. Добавьте чатбот (что бы писать вопросы)
                                                                                                              3. Добавьте возможность корпоративного использования чатбота.
                                                                                                              • 0
                                                                                                                Чатбот? Сейчас же тоже можно писать вопросы с помощью клавиатуры.
                                                                                                                • 0
                                                                                                                  А ссылку дайте?
                                                                                                                  • 0
                                                                                                                    Так я говорю про приложение Яндекс. Там можно не только голосом, но и клавиатуру использовать.
                                                                                                                    • 0
                                                                                                                      А почему не сделать чатбот? Можно протестировать, привязать к yandex акаунту
                                                                                                              • 0
                                                                                                                А возможность подключать сторонние сервисы, например сервисы умного дома, планируется?
                                                                                                                • +1
                                                                                                                  Да, мы сейчас работаем над такой возможностью. Будет.
                                                                                                                  • +1
                                                                                                                    Тогда вам нужно поддерживать множество микрофонов и как вы будете решать проблему с личной информацией, например с разговорами дома, передавать их все в яндекс?
                                                                                                                    • 0
                                                                                                                      Реакция на «Алиса», пока не позвали — спим.
                                                                                                                      • 0
                                                                                                                        в умном доме реакция должна быть на «тринадцать-девять» :)

                                                                                                                        ЗЫ. сейчас по лайкам и дислайкам пересчитаем тех, кто понял и не понял ;-)
                                                                                                                        • 0
                                                                                                                          +лайк (по-другому мне нельзя)
                                                                                                                          • 0
                                                                                                                            Если вы про Мф, то Яндекс — не понял, а Гугл — понял…
                                                                                                                  • +1
                                                                                                                    Приветствую! В свое время выпускали такое приложение, как Яндекс. Диктовка. В этом направлении будет что-то? А то пока не получается создавать заметки или диктовать ответы на различные сообщения вне приложения Яндекса.
                                                                                                                    • +1
                                                                                                                      Мы очень хотим дать вторую жизнь Яндекс.Диктовке. Сейчас решаем в рамках какого приложения это лучше сделать.
                                                                                                                      • 0
                                                                                                                        Например, в рамках собственного движка для голосового ввода, который после установки появится в «Настройки — Язык и ввод — Голосовой ввод»? Сторонние движки разрешены, у Самсунга свой, например.

                                                                                                                        Можно обойти гугл, сделав упор на редактирование длинных текстов, добавить команды отмены/исправления, продублировать пунктуацию и перемещение курсора экранными кнопками и т.д. (у гугла кнопка всего одна, стереть)
                                                                                                                        • 0

                                                                                                                          Яндекс.Клавиатура, конечно!
                                                                                                                          Свайп добавили — это супер.
                                                                                                                          Теперь на форму голословно ввода добавьте кнопки знаков препинания (,.!?:;) и кнопку перевода строки.
                                                                                                                          Ну еще немного если-тогда в код напишите, для обработки конца предложения. Автоматом там ставится точка, чтобы её можно было одним тапом заменять на восклицательный или вопросительный знак.
                                                                                                                          Все. И это будет в разы удобней, чем сейчас.

                                                                                                                      • +1
                                                                                                                        На DUMP-2017 был доклад на эту тему. Есть запись разговоров. Там другой робот, Вика, но общается тоже неплохо.
                                                                                                                        Скрытый текст

                                                                                                                        • 0
                                                                                                                          Вика — это личный проект Георгия Бакунова
                                                                                                                          • 0
                                                                                                                            Круто мужик объясняет, и весело. Спасибо, что прикрепили видео.
                                                                                                                          • +3
                                                                                                                            Отлично, а можно её переучить (локально, для себя), чтобы она, например, искала по умолчанию в google, владела ключевыми словами из моей предметной области и на какой-то класс запросов открывала, например, нужные и видимые только мной url-ы?
                                                                                                                            А можно расшарить такое предобученное состояние внутри корпоративного домена, например?
                                                                                                                            • 0
                                                                                                                              Самая первая мысль.
                                                                                                                              • 0
                                                                                                                                Такой же вопрос. Очень нужна персонализация. Прямо очень.
                                                                                                                              • +8
                                                                                                                                Как побороть ощущение, что я кретин, беседующий с телефоном?
                                                                                                                                Кстати, ИМХО, «Слушай, Яндекс» намного комфортнее, чем «Привет, Алиса». Как-то императивнее что ли. Робот — помощник человека, а не равноправный партнёр.
                                                                                                                                • 0
                                                                                                                                  У всех разное отношение.
                                                                                                                              • +1
                                                                                                                                Может ли Алиса постепенно подстраиваться под конкретного пользователя. Запоминать какую манеру речи он использует, например если человек говорит с ней языком программиста, используя всякий профессиональный жаргон, то и она подстраивается и отвечает таким же образом?
                                                                                                                                Может ли конкретный пользователь обучать её под себя, допустим объяснив ей какую-то команду и что она именно она должна делать по этой команде, например: «Алиса, покажи ка мне список оставшихся дел на сегодня», и она открывает trello.com, где ты ведёшь список дел. Либо она настроена на глобальную базу и со всеми ведёт себя одинаково опираясь на обученную нейронную сеть под среднестатистического пользователя?