Comments / Profile of buriy / Habr

How to become an author

Юрий Бабуров @buriy

Web, AI, Deep Learning, Python

Profile Publications 1Comments 835Bookmarks 223

Исследователи выяснили, что системы ИИ не различают предложения с перемешанными словами

buriy Jan 21 2021 at 21:27

потому что нейросети тренируются только на корректных предложениях.
это нормально для нейросети заниматься классификацией без отделения сигнала от фона.
эмбеддинги тогда обладают указанном в топике недостатком.
и придуманы специальные лоссы, чтобы эту проблему починить. если в этих нейросетях они не использовались, проблема будет. ну и что?
от ученого же никто не требует, чтобы он хорошо играл на трубе и читал на ходу придуманный рэп?
так объясните, почему они брали модели для одной задачи (предсказание MLM) и тестировали их на другой задаче: выдавать эмбеддинги и сравнивать их близость?
а тут по сути изнасилованный журналист выдал: «учёные плохо играют на трубе и из рук вон плохо читают рэп»

0

Исследователи выяснили, что системы ИИ не различают предложения с перемешанными словами

buriy Jan 20 2021 at 19:03

А зачем спрашивать у моделей, которые тренируются только на корректных предложениях, как они воспринимают некорректные предложения?
Никто вам не обещал генерализацию на уровне экстраполяции с таким алгоритмами обучения. Но легко можно изменить эти алгоритмы обучения, чтобы некорректные предложения тоже правильно обрабатывались.

0

Как преобразовать аудиоданные в изображения

buriy Jan 18 2021 at 18:26

Только у человека в этом мел масштабе грубо говоря 1000 отсчётов на всю шкалу (т.е. на частотах около 100 гц они идут с разницей по 1-2 герца), а у компьютера обычно всего штук 40.
Давно хочу попробовать получить подробное человеческому разбиение и показать, как оно выглядит на картинке.

0

4 месяца борьбы за место DS джуна (перекатиться в 37 лет)

buriy Jan 5 2021 at 12:53

Ну, «у всех» проблемы с программированием обычно следующие:
1. не умеют разбираться с проблемами и новой информацией. если что-то пошло не по сценарию — всё, целый день потерян, так как навыка отладки нет.
2. не умеют нормально объединять куски кода.
3. не умеют проверять код на наличие ошибок, проверять на крайние случаи.
4. не умеют планировать работу длиннее часа, программируют «наудачу».
5. не умеют получать хороший результирующий код из экспериментального.
6. очень медленно всё делают (потому что постоянно гуглят?)

+1

4 месяца борьбы за место DS джуна (перекатиться в 37 лет)

buriy Jan 3 2021 at 20:49

А как у вас с общим навыком программирования?
У большинства Junior, которых я собеседовал на DS позиции, проблемы именно с программированием, а не со знаниями Data Science, которых не очень-то и много нужно уметь для успешной работы.

+5

Можно всё: решение NLP задач при помощи spacy

buriy Dec 18 2020 at 19:45

Они не «в разработке», они выложены два месяца назад. Пользоваться уже можно.
Но да, будет ещё небольшое увеличение качества перед финальным релизом, поэтому они в бете и поэтому сейчас на главной странице релиз для 2.1.

0

Можно всё: решение NLP задач при помощи spacy

buriy Dec 15 2020 at 15:59

И какие же возможности она не покрывает?

0

Можно всё: решение NLP задач при помощи spacy

buriy Dec 14 2020 at 12:01

Укажите уж тогда сразу и русские модели для Spacy: github.com/buriy/spacy-ru/releases/tag/v2.3_beta
Да и примеры могли тогда сразу русские взять и продемонстрировать работу…

0

Тестируем ruGPT-3 на новых задачах

buriy Nov 22 2020 at 15:43

Кстати, какие у вас ожидания по времени обучения моделей покрупнее? Сколько учились Small, Medium и Large?
И вам нужны ещё текстовые датасеты или уже всего хватает?

0

Искусственный интеллект в области юриспруденции

buriy Nov 15 2020 at 11:58

Я чуть выше уже в этой статье комментировал: habr.com/ru/post/506086/#comment_21727492

Относительно наилучшего качества для русского языка:
Пожалуй, мы ждём spacy 3.0, в котором будут и классические модели, оптимизированные для CPU, и русские модели на основе RoBERTa, оптимальные для GPU (и запуска батчами).
Собственно, классические модели из 2.3 для 3.0 я уже натренировал:
github.com/buriy/spacy-ru/releases/tag/v2.3_beta, а, как время будет, натренирую и более качественные, но более медленные.
И я обязательно напишу об этом статью на Хабре, только это будет наверное уже в декабре.

А именно для Legal была ещё идея сделать отдельный LegalBERT.
Вот ребята рассказывают про их подход к этой задаче и их NER: www.youtube.com/watch?v=lTM1tgYW72o

0

Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ

buriy Oct 24 2020 at 18:13

Тут варианта всего два:
1) нейросеть будет распознавать и убирать нейро-спам
2) действительно будет подтверждение «написано человеком» (на основе проверки по IP, по паспорту, по капче...). И на основании отсутствии такого подтверждения будет чиститься нейро-спам.
И так же как с обычным спамом, те сайты, что не будут принимать меры для борьбы со спамом, быстро растеряют посетителей.

0

Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ

buriy Oct 24 2020 at 17:37

для коротких текстов — не смогу, о чём и написал выше, а для длинных текстов — смогу.
но, в любом случае, вы как раз отлично проиллюстрировали сейчас мою мысль: Greenback жалуется на то, что именно на основе таких отзывов возможно строить качественные модели языка, но вот придёт GPT-3 и обязательно всё испортит!!!

0

Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ

buriy Oct 24 2020 at 17:29

Здесь мы обсуждаем конкретную модель, а по номеру 900 — целая другая система. Если у вас претензии к системе, то данная модель здесь ни при чём. В системе 900 она вообще не используется.
У вас претензия к DL в целом? Или претензия к инженерам, которые нейросети суют везде для практического использования? Или к маркетологам, которые продают системы с нейросетями как ИИ?
В любом случае, вам не сюда. Мир в интернете деградирует именно из-за того, что люди всё подряд обкладывают руганью, не желая ни в чём разбираться и правильно формулировать свои мысли.

+5

Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ

buriy Oct 23 2020 at 20:34

Вы заблуждаетесь принципиально. Как там, «может ли робот написать симфонию?»

Заголовок спойлера

Пока вы будете пребывать в парадигме «робот не производит новых смыслов», ваши выводы будут казаться логичными. Хотя доказательств того, что робот эти смыслы не производит, у вас нет. Более того, роботы уже давно производят эти новые смыслы, Николай Иронов подтвердит. Да, не все смыслы, и не всегда. Но лиха беда начало!
Давайте рассмотрим такую аналогию. Предположим, есть какой-то более общий способ измерить IQ, «калорийность», в задачах написания текстов. Хотели бы мы, чтобы тексты писали только существа с IQ<50? Неважно, люди или роботы. Да нет, нам их будет неинтересно читать! А хотели ли бы вы почитать умные полезные для вас мысли от существа с IQ>150? Да, хотели бы! Понимаете? Ответ на этот вопрос не зависит от того, человек написал текст или робот. А значит, вы просто роботошовинист и зря ругаете роботов. Запрограммируйте тест на IQ, работающий по тексту, фильтруйте — и вуаля, получите только интересные тексты.
Теперь второй связанный с этим вопрос. «Правдоподобность — не единственный критерий качества.» Я нигде не говорил про правдоподобность. Я говорил про «отличить». Если работы роботов будут ниже качеством, то эти тексты можно будет отличить по качеству. Это я имел в виду. Отличить по правильному или неправильному использованию фактов, по уровню логики, по наличию новых интересных выводов, по тому, заставил ли вас текст задуматься — в общем, берите любую нужную вам характеристику хороших текстов. Щит улучшается быстрее меча в более крупных текстах (начиная с текстов новостей), и нет никаких причин, что будет наоборот — до появления настоящего AGI (Общего ИИ), конечно.
Авторы GPT-2 писали, что испугались публикации самой крупной модели именно потому, что полученные тексты невозможно было отличить существовавшими на тот момент методами, и тем более человеком. Но быстро были найдены способы автоматически отличать такие тексты, так же как современными технологиями легко отличить тексты, сгенерированные марковскими цепочками (которых боялся мой оппонент в 2011м году примерно по тем же основаниям, что и вы: он утверждал, что борьба со спамом станет намного сложнее). Cейчас, в конце 2020го года, ограничения на публикацию моделей GPT-2 и GPT-3 уже не выдерживают никакой критики.
Но это всё не относится к коротким текстам, типа отзывов о ресторанах и продуктах, там человеку уже недостаточно данных для отличения робота и человека. Потому что люди ленятся и часто пишут шаблонные тексты, да и спамят, кстати, тоже сейчас люди. Половина прочитанных вами отзывов наверняка была спамом, созданным человеком за копейки. И половина прочитанных вами статей в интернете кстати тоже реврайтинг, сделанный людьми. А уж сколько почтового спама, сделанного по шаблонам, написанными людьми, вы прочитали… Теперь будут спамить ещё и роботы, но что от этого принципиально поменяется в этих коротких текстах?

+3

Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ

buriy Oct 23 2020 at 15:10

вы предполагаете, что если сейчас нельзя отличить сгенерированный текст от реального, то так будет и впредь. а ведь в будущем может быть два варианта: 1) их действительно нельзя будет отличить — но это значит, что искусственные тексты будут очень хорошими, и на них тоже можно тренироваться, и 2) их можно будет отличить — тогда их можно будет просто распознать и выкинуть.

-1

Инструмент AI распознает изображения жестокого обращения с детьми с точностью в 99%

buriy Sep 28 2020 at 22:34

Это что, значит, дашь ей 100 фоток котяток, и система скажет, что на одной из фоток котёнок жестоко относится к детям?

+1

ANYKS Spell-checker

buriy Sep 21 2020 at 22:56

прям хорошо получилось!
а у вас есть идеи, почему он не исправляет (и как исправлять) следующие сочетания слов:
сколько сутки идет дождь
получилась посчитать
он снул на диване (уснул)
он снул руку в реку (сунул)
онснулрукувреку (он сунул руку в реку)

0

Нейросетевой визуальный поиск

buriy Aug 28 2020 at 10:32

Алгоритмам поиска по ключевым словам наподобие TextRank — сто лет в обед, они в научных статьях переизобретаются каждые несколько лет.
Поэтому ваша часть поста про технологии — это какой-то шаманизм. Вы говорите: «мы (… пообщались с духами и...) нашли секретную теорию из прошлого, на основе которой построили технологию, которая перевернёт мир». А на деле получается — «мы называем всё подряд нейронами, потому что очень хорошо видим аналогии», и ничего нового и коммерчески крутого. (Хотя «крутость» обычно идёт от нахождения успешной модели получения денег, а не успешно проделанной домашней работы по реализации поиска… но что ожидать от стартапа 2005 года? все такими были в 2000х).
Мне кажется, в закрытых коммерческих областях люди часто переоценивают значимость собственных идей — ведь они не знают, что все конкуренты уже давно этими технологиями пользуются (или же даже конкуренты давно отбросили эти технологии как неподходящие по какому-то из параметров: скорость, цена, качество работы, время настройки).

+1

Технология распознавания лиц: тайная история

buriy Aug 24 2020 at 13:37

А вам тогда спасибо, что поделились своей точкой зрения, что оказывается 2+2=7…

0

Обзор методов создания эмбедингов предложений, Часть2

buriy Aug 24 2020 at 13:11

Я знаю модели, которые учатся по 900 эпох. И вопрос правильного выбора гиперпараметров ещё есть.

0

4

5 6 ...