Action information
527,13
рейтинг
6 июля 2012 в 03:07

Разное → ABBYY открывает две кафедры компьютерной лингвистики

Как знают наши постоянные читатели, ABBYY не только выпускает программные продукты, но и много лет занимается научными исследованиями в области компьютерной лингвистики, без которых эти продукты не могли бы появиться. Мы также ежегодно проводим международную конференцию «Диалог» (подробно о ней – здесь). А недавно наша компания открыла кафедры компьютерной лингвистики в двух московских вузах – в Институте лингвистики РГГУ (совместно с IBM) и на факультете инноваций и высоких технологий МФТИ.

У ABBYY уже есть позитивный опыт обучения студентов: на базе МФТИ шесть лет работает наша кафедра распознавания изображений и обработки текста, а многие из ее выпускников успели сделать неплохую карьеру в компании. Поэтому мы надеемся, что с подготовкой компьютерных лингвистов у нас тоже получится.

Как и в случае физтеховской кафедры обработки изображений, кафедры компьютерной лингвистики будут тесно взаимодействовать с компанией. Студенты уже во время учебы будут участвовать в реальных коммерческих проектах, а магистранты при желании смогут устроиться к нам на работу.

Зачем понадобились кафедры компьютерной лингвистики? Во-первых, конечно, чтобы готовить специалистов нового профиля, поскольку до недавнего времени в России такой вузовской специальности просто не было. В последние лет десять компьютерная лингвистика развивается очень бурно, и наши учебные заведения тоже поняли необходимость идти в ногу со временем: в этом году открылись магистратуры по компьютерной лингвистике в ГУ ВШЭ и Санкт-Петербургском госуниверситете.

Во-вторых, кроме подготовки кадров для компаний, у кафедр компьютерной лингвистики в вузах есть и другая важная цель – способствовать развитию соответствующей науки в России. Ведь ситуация тут не очень радостная. С одной стороны, у нас есть традиции в области машинной обработки текстов, есть компании, которые делают реальные и успешные на мировом рынке языковых технологий проекты. С другой стороны, поскольку специалистов этого профиля в России долго не готовили, мы практически не участвуем сегодня в мировой научной жизни, и, что еще печальнее, наши специалисты часто не умеет проводить исследования по мировым стандартам. А русский язык не входит даже в двадцатку языков, на материале которых проводятся исследования.

Получается, что коммерческие проекты по компьютерной лингвистике у нас есть, а на международных конференциях российские участники не представлены (или представлены как магистранты и аспиранты зарубежных вузов). Почему так выходит? Дело в том, что компании чаще всего не могут сделать результаты своих научных разработок открытыми: они ограничены корпоративной политикой, патентными троллями, конкуренцией. Не удивительно, что в мире научными исследованиями по компьютерной лингвистике занимаются, прежде всего, в университетах, а не в корпорациях.

Резонный вопрос – почему кафедра по лингвистике, пусть и компьютерной, открывается не только в гуманитарном, но и в техническом вузе? Дело в том, что вряд ли можно создать универсального специалиста – лингвиста и программиста «в одном флаконе», имеющего одинаково глубокие познания в обеих областях. В реальных проектах должны участвовать и те, и другие. Только для успеха дела инженер, который будет разрабатывать технологии для обработки языка, должен иметь ясные представления о его устройстве и тех результатах лингвистики, которыми можно воспользоваться. А лингвист должен понимать, какие требования накладывает на лингвистические модели необходимость их применения в современных технологиях компьютерного анализа. Поэтому на фундаментальное базовое образование (лингвиста или инженера) будет накладываться дополнительное знание, которое поможет гуманитариям и «технарям» найти общий язык взаимодействия при решении прикладных задач.



Так, лингвисты получат знания о статистике, формальных грамматиках, методах машинного обучения, эвристических методах искусственного интеллекта, экспертных системах и системах представления знаний. Их будут учить работе со специализированными языками и средами разработки для лингвистов (типа Natural Languge Toolkit, R т.п.), специализированными лингвистическими базами данных, открытыми лингвистическими ресурсами (от грамматик и парсеров до онтологий).

Инженеры прослушают курсы по грамматической системе естественного языка (морфологии и синтаксису), семантике и дискурсу, общей и компьютерной лексикографии, корпусной лингвистике (методам создания и использования текстовых корпусов).

Мы планируем с самого начала обучения объединять усилия магистров МФТИ и РГГУ в работе над серьезными проектами. Так, уже осенью начнется работа над амбициозным проектом Генерального Корпуса Русского Языка (большой PDF про это), в котором кроме наших студентов будут принимать участие известные специалисты-лингвисты.

Что касается преподавательского состава, то помимо профессоров и преподавателей РГГУ и МФТИ, специальные учебные курсы для студентов и магистрантов кафедр будут читать и лучшие специалисты ABBYY – как лингвисты, так и программисты. Конечно, нам трудно и жалко отрывать их от основной работы, но учить кафедрантов тоже важно. Во-первых, только мы сами можем научить студентов тому подходу к решению задач компьютерной лингвистики, который принят у нас, так что потом выпускникам (если они захотят) будет просто включиться в работу компании. А во-вторых, преподавание полезно и для самих преподающих: чтобы разработать учебный курс, нужно «разложить по полочкам» свои знания, быть в курсе последних мировых достижений в этой области.

Мы также будем приглашать для чтения лекций известных российских и международных специалистов по компьютерной лингвистике (как уже делаем в рамках ABBYY Open).

Организация учебного процесса на кафедрах в МФТИ и РГГУ будет немного отличаться. Если кафедра в МФТИ – это кафедра ABBYY и она физически находится у нас в офисе, то кафедра РГГУ – это кафедра при нашем участии и расположена она в самом университете. В РГГУ кафедра читает курсы всем студентам Института Лингвистики, а не только «своим» бакалаврам и магистрам. Обе кафедры впервые проводят набор в этом году.

Приглашаем на наши кафедры тех, кому интересен компьютерный анализ естественного языка!

Татьяна Панферова
при участии департамента исследований и разработок
Автор: @MKrivosheev
ABBYY
рейтинг 527,13
Action information

Комментарии (20)

  • +11
    Хоть бросай всё и иди учись…
  • +2
    Ой какая крутотенюшка! Работаю где-то год еще, может полтора, а дальше если все сложится — я б прям к вам пошел. Заодно как раз до такого polished состояния дойдете)

    Так классно, когда компании понимаю дефицит специалистов в узких областях сами продвигают область в образовании) Что у Я. есть школа анализа данных, что вы тут решили комрьютерную лингвистику) Спасибо.
    • 0
      Другая сторона медали, что, когда человек решит сменить место работы, то может возникнуть ситуация, когда специальность не востребована и вакансий за пределами компании совсем нет.
      • 0
        это обратная сторона любой узкой специализации. Да и в широкую тебе все равно дорога относительно открыта) потому что базовое образование все равно есть.
        • 0
          Несомненно, но какой ценой?

          Года два тому назад интервьюировал женщину, которая в информатике уже около 30 лет. Работала с ЭВМ, потом писала на Lisp много лет. Но на тот момент она не могла найти работу по специфике и технологиям, в которых она бог.

          В мире геолокации и С++ компания, на которую тогда работал сам, ей могла предложить только роль младшего разработчика. Её бы пришлось учить практически с нуля, хотя, несомненно, это и было бы быстрее, чем тренировать выпускника.
  • +3
    А расширяться за Мск не планируете?
    • +1
      Поддержку вопрос. Как же мне будет нехватать этого в КГУ им. К.Э. Циолковского :(
    • +2
      Пока нет, но год назад мы и РГГУ не планировали :)
      • 0
        Ну что же, значит есть, на что надеяться.
  • +2
    Ох, очень правильное начинание и очень радостная весть:)

    Касательно корпуса русского языка — собираетесь с нуля копить информацию или будете базироваться на чём-то уже готовом, вроде Национального корпуса русского языка — www.ruscorpora.ru/?

    Какие ещё задачи планируете решать в рамках данных программ? Имеется ввиду, практические, научные задачи.
    • 0
      Корпус будет собираться с помощью специально разработанных автоматических методов из Интернета.
      По объему будет раз в 100 больше Нацкорпуса.
      Размечаться тексты (характеристики автора, текстовый жанр, внутренняя структура), также будут автоматически (в том числе – с помощью технологий ABBYY и других участников проекта).

      На таком корпусе можно будет решать задачи, которые не решаются на небольших корпусах. Во-первых исследовательские (инструмент для лингвиста), во-вторых – задачи компьютерной лингвистики (разработка методов информационного анализа документов). Подробнее — в статье по ссылке
  • +1
    И да, образование там какого типа будет? Специалитет/бакалавриат/магистратура? Лично мне, как технарю по жизни и лингвисту по образованию данная тема очень близка и интересна:)
    • +1
      На ФИВТ МФТИ это точно будет бакалавриат-магистратура.
    • +1
      В РГГУ пока есть только магистратура, про физтех выше правильно написали
  • +1
    В РГГУ в 1996-7 году я учился у Барулина на ФТиПЛ, отделение ИИ.
    Ровно те же идеи продвигались — лингвисты-программисты. По-моему, из этой затеи ничего не вышло — Барулина уволили, программистов разогнали. Я и сам там не задержался, после 2го курса ушел вебсайты делать за деньги.
    С точки зрения программирования там было слабо, математику нашему «программистскому» отделению давали в большем объёме, чем чистым лингвистам, но до МехМата конечно же не дотягивали. Но атмосфера там была очень классная для тех, кто хотел учиться. Помню обоих Старостиных, Крейдлина, и конечно Кронгауза, который сейчас возглавляет Институт Лингвистики РГГУ. Но идея выпускать лингвистов с программистским уклоном (или наоборот, программистов с лингвистической подготовкой) там не прижилась.
    Впрочем, сама идея «сильного» ИИ в те годы уже выглядела бесперспективной, а сидеть 20 лет составлять словари для морфемного анализатора очень не хотелось.
    • +1
      Сколько пессимизма, аж зарыдать хочется!
  • 0
    О, мой комикс! Немного даже приятно.
    • 0
      Раньше ни разу эту серию не встречал, а при публикации статьи как-то быстро наткнулся на комикс по запросу типа «технари vs гуманитарии». Забавно, что в ленте стал видеть перепосты Ваших комиксов — видимо, пара друзей подписалась после поста :)
      И да, если уж такая возможность выдалась. Расскажите пожалуйста про белые клавиатуры: кто, где, когда?
      • 0
        в московском офисе вот этой вот конторы: www.kone.com
        Инспекция по охране труда. Видимо, пекутся о здоровье сотрудников и собственных кошельках — белые клавиатуры найти не так-то просто.
        • 0
          А как они смогли это мотивировать? В других компаниях ведь тоже бывает эта самая инспекция. И ничего — клавиатуры чёрные :)

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое Разное