Pull to refresh
40
0.1
Юрий Бабуров @buriy

Web, AI, Deep Learning, Python

Send message
потому что нейросети тренируются только на корректных предложениях.
это нормально для нейросети заниматься классификацией без отделения сигнала от фона.
эмбеддинги тогда обладают указанном в топике недостатком.
и придуманы специальные лоссы, чтобы эту проблему починить. если в этих нейросетях они не использовались, проблема будет. ну и что?
от ученого же никто не требует, чтобы он хорошо играл на трубе и читал на ходу придуманный рэп?
так объясните, почему они брали модели для одной задачи (предсказание MLM) и тестировали их на другой задаче: выдавать эмбеддинги и сравнивать их близость?
а тут по сути изнасилованный журналист выдал: «учёные плохо играют на трубе и из рук вон плохо читают рэп»
А зачем спрашивать у моделей, которые тренируются только на корректных предложениях, как они воспринимают некорректные предложения?
Никто вам не обещал генерализацию на уровне экстраполяции с таким алгоритмами обучения. Но легко можно изменить эти алгоритмы обучения, чтобы некорректные предложения тоже правильно обрабатывались.
Только у человека в этом мел масштабе грубо говоря 1000 отсчётов на всю шкалу (т.е. на частотах около 100 гц они идут с разницей по 1-2 герца), а у компьютера обычно всего штук 40.
Давно хочу попробовать получить подробное человеческому разбиение и показать, как оно выглядит на картинке.
Ну, «у всех» проблемы с программированием обычно следующие:
1. не умеют разбираться с проблемами и новой информацией. если что-то пошло не по сценарию — всё, целый день потерян, так как навыка отладки нет.
2. не умеют нормально объединять куски кода.
3. не умеют проверять код на наличие ошибок, проверять на крайние случаи.
4. не умеют планировать работу длиннее часа, программируют «наудачу».
5. не умеют получать хороший результирующий код из экспериментального.
6. очень медленно всё делают (потому что постоянно гуглят?)
А как у вас с общим навыком программирования?
У большинства Junior, которых я собеседовал на DS позиции, проблемы именно с программированием, а не со знаниями Data Science, которых не очень-то и много нужно уметь для успешной работы.
Они не «в разработке», они выложены два месяца назад. Пользоваться уже можно.
Но да, будет ещё небольшое увеличение качества перед финальным релизом, поэтому они в бете и поэтому сейчас на главной странице релиз для 2.1.
И какие же возможности она не покрывает?
Укажите уж тогда сразу и русские модели для Spacy: github.com/buriy/spacy-ru/releases/tag/v2.3_beta
Да и примеры могли тогда сразу русские взять и продемонстрировать работу…
Кстати, какие у вас ожидания по времени обучения моделей покрупнее? Сколько учились Small, Medium и Large?
И вам нужны ещё текстовые датасеты или уже всего хватает?
Я чуть выше уже в этой статье комментировал: habr.com/ru/post/506086/#comment_21727492

Относительно наилучшего качества для русского языка:
Пожалуй, мы ждём spacy 3.0, в котором будут и классические модели, оптимизированные для CPU, и русские модели на основе RoBERTa, оптимальные для GPU (и запуска батчами).
Собственно, классические модели из 2.3 для 3.0 я уже натренировал:
github.com/buriy/spacy-ru/releases/tag/v2.3_beta, а, как время будет, натренирую и более качественные, но более медленные.
И я обязательно напишу об этом статью на Хабре, только это будет наверное уже в декабре.

А именно для Legal была ещё идея сделать отдельный LegalBERT.
Вот ребята рассказывают про их подход к этой задаче и их NER: www.youtube.com/watch?v=lTM1tgYW72o
Тут варианта всего два:
1) нейросеть будет распознавать и убирать нейро-спам
2) действительно будет подтверждение «написано человеком» (на основе проверки по IP, по паспорту, по капче...). И на основании отсутствии такого подтверждения будет чиститься нейро-спам.
И так же как с обычным спамом, те сайты, что не будут принимать меры для борьбы со спамом, быстро растеряют посетителей.
для коротких текстов — не смогу, о чём и написал выше, а для длинных текстов — смогу.
но, в любом случае, вы как раз отлично проиллюстрировали сейчас мою мысль: Greenback жалуется на то, что именно на основе таких отзывов возможно строить качественные модели языка, но вот придёт GPT-3 и обязательно всё испортит!!!
Здесь мы обсуждаем конкретную модель, а по номеру 900 — целая другая система. Если у вас претензии к системе, то данная модель здесь ни при чём. В системе 900 она вообще не используется.
У вас претензия к DL в целом? Или претензия к инженерам, которые нейросети суют везде для практического использования? Или к маркетологам, которые продают системы с нейросетями как ИИ?
В любом случае, вам не сюда. Мир в интернете деградирует именно из-за того, что люди всё подряд обкладывают руганью, не желая ни в чём разбираться и правильно формулировать свои мысли.
Вы заблуждаетесь принципиально. Как там, «может ли робот написать симфонию?»
Заголовок спойлера
image

Пока вы будете пребывать в парадигме «робот не производит новых смыслов», ваши выводы будут казаться логичными. Хотя доказательств того, что робот эти смыслы не производит, у вас нет. Более того, роботы уже давно производят эти новые смыслы, Николай Иронов подтвердит. Да, не все смыслы, и не всегда. Но лиха беда начало!
Давайте рассмотрим такую аналогию. Предположим, есть какой-то более общий способ измерить IQ, «калорийность», в задачах написания текстов. Хотели бы мы, чтобы тексты писали только существа с IQ<50? Неважно, люди или роботы. Да нет, нам их будет неинтересно читать! А хотели ли бы вы почитать умные полезные для вас мысли от существа с IQ>150? Да, хотели бы! Понимаете? Ответ на этот вопрос не зависит от того, человек написал текст или робот. А значит, вы просто роботошовинист и зря ругаете роботов. Запрограммируйте тест на IQ, работающий по тексту, фильтруйте — и вуаля, получите только интересные тексты.
Теперь второй связанный с этим вопрос. «Правдоподобность — не единственный критерий качества.» Я нигде не говорил про правдоподобность. Я говорил про «отличить». Если работы роботов будут ниже качеством, то эти тексты можно будет отличить по качеству. Это я имел в виду. Отличить по правильному или неправильному использованию фактов, по уровню логики, по наличию новых интересных выводов, по тому, заставил ли вас текст задуматься — в общем, берите любую нужную вам характеристику хороших текстов. Щит улучшается быстрее меча в более крупных текстах (начиная с текстов новостей), и нет никаких причин, что будет наоборот — до появления настоящего AGI (Общего ИИ), конечно.
Авторы GPT-2 писали, что испугались публикации самой крупной модели именно потому, что полученные тексты невозможно было отличить существовавшими на тот момент методами, и тем более человеком. Но быстро были найдены способы автоматически отличать такие тексты, так же как современными технологиями легко отличить тексты, сгенерированные марковскими цепочками (которых боялся мой оппонент в 2011м году примерно по тем же основаниям, что и вы: он утверждал, что борьба со спамом станет намного сложнее). Cейчас, в конце 2020го года, ограничения на публикацию моделей GPT-2 и GPT-3 уже не выдерживают никакой критики.
Но это всё не относится к коротким текстам, типа отзывов о ресторанах и продуктах, там человеку уже недостаточно данных для отличения робота и человека. Потому что люди ленятся и часто пишут шаблонные тексты, да и спамят, кстати, тоже сейчас люди. Половина прочитанных вами отзывов наверняка была спамом, созданным человеком за копейки. И половина прочитанных вами статей в интернете кстати тоже реврайтинг, сделанный людьми. А уж сколько почтового спама, сделанного по шаблонам, написанными людьми, вы прочитали… Теперь будут спамить ещё и роботы, но что от этого принципиально поменяется в этих коротких текстах?
вы предполагаете, что если сейчас нельзя отличить сгенерированный текст от реального, то так будет и впредь. а ведь в будущем может быть два варианта: 1) их действительно нельзя будет отличить — но это значит, что искусственные тексты будут очень хорошими, и на них тоже можно тренироваться, и 2) их можно будет отличить — тогда их можно будет просто распознать и выкинуть.
Это что, значит, дашь ей 100 фоток котяток, и система скажет, что на одной из фоток котёнок жестоко относится к детям?
прям хорошо получилось!
а у вас есть идеи, почему он не исправляет (и как исправлять) следующие сочетания слов:
сколько сутки идет дождь
получилась посчитать
он снул на диване (уснул)
он снул руку в реку (сунул)
онснулрукувреку (он сунул руку в реку)
Алгоритмам поиска по ключевым словам наподобие TextRank — сто лет в обед, они в научных статьях переизобретаются каждые несколько лет.
Поэтому ваша часть поста про технологии — это какой-то шаманизм. Вы говорите: «мы (… пообщались с духами и...) нашли секретную теорию из прошлого, на основе которой построили технологию, которая перевернёт мир». А на деле получается — «мы называем всё подряд нейронами, потому что очень хорошо видим аналогии», и ничего нового и коммерчески крутого. (Хотя «крутость» обычно идёт от нахождения успешной модели получения денег, а не успешно проделанной домашней работы по реализации поиска… но что ожидать от стартапа 2005 года? все такими были в 2000х).
Мне кажется, в закрытых коммерческих областях люди часто переоценивают значимость собственных идей — ведь они не знают, что все конкуренты уже давно этими технологиями пользуются (или же даже конкуренты давно отбросили эти технологии как неподходящие по какому-то из параметров: скорость, цена, качество работы, время настройки).
А вам тогда спасибо, что поделились своей точкой зрения, что оказывается 2+2=7…
Я знаю модели, которые учатся по 900 эпох. И вопрос правильного выбора гиперпараметров ещё есть.

Information

Rating
3,332-nd
Location
Новосибирск, Новосибирская обл., Россия
Date of birth
Registered
Activity

Specialization

Backend Developer, Chief Technology Officer (CTO)
Lead