Pull to refresh

Comments 60

Если я правильно прочитал статью, то столь далеко идущие выводы о превосходстве AI были сделаны на результатах опроса трех ( трех, Карл! ) британцев, про которых даже не было сказано - являются ли они экспертами или хотя бы образованными и были ли они хоть как-то мотивированы на результат. Результаты опроса автор статьи даже постеснялся сюда выложить.

Да, русскоязычных авторов опросили больше, но то что они не смогли различить тексты здесь как раз неудивительно и абсолютно ожидаемо. Если и есть разница между 'native' и 'learned' уровнями владения языка, то очень странно предлагать ее увидеть именно 'learned' людям. Если бы они могли ее увидеть, то для них не составляло бы и проблемы и писать тексты так, чтобы она не ощущалась. Это как дальтоникам предлагать определять - какие из написанных картин написаны дальтониками, очевидно что предлагать нужно другой стороне.

Добавлю еще что мне не понравился фрагмент 'с уровнем английского С1-С2 '. Между C1 и С2 настоящая пропасть, разница в несколько лет интенсивного обучения, смешивать их в одну кучу - просто странно. Например, я сдал экзамен на C1 вообще без какой-либо подготовки или дополнительного обучения, просто потому что несколько лет работал в иностранной компании, но на уровень C2 таким образом сдать совершенно невозможно.

неудивительно и абсолютно ожидаемо
для них не составляло бы и проблемы и писать тексты так, чтобы она не ощущалась.

Вот этот вывод не обоснован. В качестве простого примера — я прекрасно вижу разницу между, например моим текстом, и текстом профессионального писателя, который зачастую еще и умеет стилизовать текст под кого-то другого (и эту стилизацию я вижу тоже). Из этого совершенно не следует, что я могу писать сам на таком уровне.


Ну то есть да, 'learned' возможно реально не видят этой разницы, но даже если бы они ее видели — это не означало бы, что они сами вдруг стали писать как native.

Ладно, соглашусь что конкретно это предложение возможно требует доказательства.

Но это никак не опровергает мое предложение о том, что если есть некая разница между native-уровнем и learned-уровнем, то ее в первую очередь нужно предлагать искать именно native-уровню. То что learned-уровень ее не видит - не означает в данном случае вообще ничего.

ее в первую очередь нужно предлагать искать именно native-уровню

Так я против самого предложения в общем и не возражаю. Я скорее о том, что некие доказательства у нас есть для чуть другого утверждения.


почему бы и нет?
Ну, просто потому, что по времени это будет настолько долго, как бы если бы я пошел учиться на писателя (или повышать свой английский до C2). Ну то есть, теоретически да, смогу наверное, а практически и прямо сейчас — нет. А различить я могу сейчас. Детектор в мозгу мне ничего не говорит то том, в какую сторону надо практически изменить текст, чтобы он был таким, как хочется.

Детектор в мозгу мне ничего не говорит то том, в какую сторону надо практически изменить текст, чтобы он был таким, как хочется.

Извините, пожалуйста, я удалил абзац на который вы ответили. Удалил его именно потому что предположил что развернется дискуссия вокруг него, а не собственно вокруг исходного моего утверждения.

Вы правы в том, что для полноты исследования вопроса требуется включить группу носителей. Я планирую это сделать. Как считаете, достаточно ли включать в эту группу любых образованных носителей или же только носителей-преподавателей английского? Уровень образования предполагает определенную начитанность, или иначе "насмотренность". Возможно, этого было бы достаточно для задачи классификации.

"То что learned-уровень ее не видит - не означает в данном случае вообще ничего." Мне кажется, это слишком сильное негативное утверждение. На самом деле, это многое означает с точки зрения перспектив тестирования языковых навыков. И вообще преподавания иностранного языка.

Кажется размер выборки важнее качества, иначе это уже будет похоже на p-hacking.

Спасибо! Согласна с вашими доводами, это разные компетенции.

"Если я правильно прочитал статью"... Возможно, не совсем. Выводы о превосходстве AI сделаны на результате сравнения результатов прохождения опроса моделью и 17-ю квалифицированными специалистами - русскоязычными преподавателями английского языка. Про трех носителей, также ответивших на этот опрос, я просто упомянула как направление дальнейшего исследования и написала, что это предварительный результат, продолжение следует. С носителями я еще поработаю. Возможно, не нужно про них вообще говорить в этой статье, чтобы не сбивать никого с толку. В любом случае, автор не "постеснялся выложить", это просто не тема исследования. На данном этапе я работала с русскоговорящими экспертами.

Не могу согласиться, что это "неудивительно и абсолютно ожидаемо", что эксперты справились хуже AI. Может быть, вам это "неудивительно", но это бездоказательное утверждение, таких исследований не было. Как и то, что "Если бы они могли ее увидеть, то для них не составляло бы и проблемы и писать тексты так, чтобы она не ощущалась". Не ощущалась кем? Дело в том, что под экспертами мы подразумеваем обладателей международных сертификатов, подтверждающих, в частности, что они могут это делать (писать тексты, соответствующие т.н. уровню "образованного носителя"). Действительно, я не спрашивала у каждого эксперта наличие такого сертификата (вот тут действительно постеснялась), ориентировалась на то, что знаю их лично как специалистов высокого уровня. В будущем можно требования к отбору экспертной группы усилить. Спасибо, что обратили внимание.

Я собирала письменные работы уровней C1 и С2 для датасета, чтобы AI научился видеть разницу между ними и письменными текстами нейтивов. Видимо, он научился и классифицирует даже очень качественные тексты С2 как non-native. Возможно, ему вполне подошел датасет, где были собраны работы как уровня С1, так и уровня С2. Да, я изначально думала брать только тексты уровня С2, но решила попробовать взять шире, так как 1) 160 текстов С2 найти сложно, 2) "а судьи кто?". Поскольку все тексты я прочитывала сама, то старалась, чтобы это был крепкий С1. Но, как вы понимаете, в данном случае мы имеем дело с отбором текстов на основе собственной компетенции. Ситуация Catch-22. В связи с этим я пишу, что тексты уровней С1-С2, с запасом.

Спасибо за прочтение и ваш комментарий!

Моя логика заключается в следующем, попробую написать ее чуть более подробно.

Возьмем вашего русскоговорящего эксперта. Я предполагаю, что если он действительно 'чувствует' что какие-то проблемы есть с текстом которые выдают не-носителя, то как правило он может и объяснить - в чем дело ( в отличие от нейросетки, как раз). Т.е. он видит какие-то обороты несвойственные носителю, нехарактерные для носителей фразы, построение предложений, риторические и стилистические приемы или даже конкретные слова. А если он это действительно видит - то соответственно и при написании своих текстов он может избегать этого чтобы 'сойти' за носителя. Способность распознавать плохие тексты идет рядом со способностью не писать их.

Есть, конечно, и альтернативная гипотеза, которую здесь в комментариях некоторые продвигают ( опять же без доказательств). Что, мол, это разные способности - способность 'чувствовать' что что-то не так ( причем правильно чувствовать, так чтобы проверяемые тесты показавали что чутье действительно работает) и способность 'понимать' что конкретно не так ( и соответственно избегать в своих сочинениях ). Это допущение мне кажется ни на чем не обоснованным и лишним. У вас есть хоть какое-то доказательство подобной двойственной природы?

Ну а дальше, смотрите. Если мы опрашиваем 'native' экспертов то неважно какая из двух гипотез верна. А если опрашивать русскоговорящих экспертов, то в случае если верна моя гипотеза ( и способность 'чувствовать' и способность 'понимать' идут вместе ) - то весь ваш опрос просто бесмысленнен, его результаты были предсказумы заранее. Какие они собственно и получились. Если они не могут писать сочинения 'правильно', то и распознать их, конечно, же не смогут. Таким образом, опрос русскоговорящих экспертов дает примерно ничего кроме косвенного свидетельства о том, что моя гипотеза верна.

Если же вы бы опрашивали 'native' экспертов, то вы бы не зависели от результатов этой гипотезы. Но их вы почему-то опросили только троих.

Спасибо, интересное мнение. Про двойственную природу - надо изучить вопрос, есть ли работы по теме именно письменной речи. Могу поделиться личным опытом. Однажды я участвовала в конференции по лингвистике в Германии, выступала на фонетической сессии. Там собрались известные фонетисты - специалисты по звучащей речи. Мероприятие проходило на английском языке. И вот тогда для меня было открытием, что фонетисты могут иметь акцент. Что можно изучать фонетику английского языка и при этом говорить по-английски со своим локальным акцентом. Удивительно, но с акцентом, иногда очень сильным, говорило большинство специалистов секции. Из этого я сделала вывод, что слышать разницу, разбираться в звучащей речи и ее воспроизводить - это разные компетенции. Хоть и связанные в какой-то мере, наверняка.

"Если мы опрашиваем 'native' экспертов то неважно какая из двух гипотез верна." Не поняла, почему? Ведь может быть ситуация, когда носитель пишет аутентичные тексты, но определить аутентичность текстов не в состоянии. Я еще не занималась нейтивами (набрать контрольную группу требует времени - все контакты через переписку), но меня удивил такой факт, опять же из личного опыта. Одна клиентка, которой я помогала с произношением, замужем за британцем. Кстати, заметьте, британец слышит у нее акцент, но поставить, то есть объяснить, как он это сам делает, не может (поэтому она обратилась ко мне). Так вот, я попросила ее предложить мужу опрос (тот, о котором у нас сейчас речь). Она сказала, что он согласился и сказал, что всегда чувствует разницу! А потом мне приходит результат 13/20. Другой, учитель английского с огромным опытом чтения и исправления сочинений - результат 15/20. По его словам, он был слишком строг к носителям (набраковал лишнего). В любом случае, по носителям выводы буду делать, когда наберу и опрошу контрольную группу. Но не всегда, когда человек утверждает, что "чувствует разницу", он ее действительно может разглядеть. И тем более, объяснить.

Риторический вопрос: почему каждый раз, когда на хабре подаются псевдонаучные размышления в виде исследования, это всегда лингвистика?

Вы несколько раз во вступлении делаете акцент на уровне С2, упоминая, что международный уровень С2 часто позиционируется как уровень образованного носителя, и подводите к вопросу "Так есть разница или нет?" 

Хорошо, давайте возьмём за цель исследования опровержение или подтверждение гипотезы: "С2 – это действительно уровень образованного носителя". Или её же, но развёрнутой на 180: "Между уровнем носителя и уровнем С2 – бездна".

1) Обобщив тексты С1 и С2, вы со старта стреляете исследованию в колено, потому как тексты С1 совершенно не относятся к вашим размышлениям. Уже многократно доказана даже разница между уровнями С1 и С2 сама по себе, поэтому доказывать наличие или отсутствие различия между С1 и уровнем носителя нет совершенно никакого смысла. Таким образом, внедрение текстов С1 в ваш челлендж существенно искажает результаты, подсчитанные вами в метриках, что, в свою очередь, делает невозможным их дальнейшее сравнение с результатами AI.

2) Отсутствует статзначимость. 17 преподавателей, 20 текстов, 24 эссе в валидационной выборке - это подходящие цифры для качественного, но не количественного исследования. "Accuracy = 0.66" и "Accuracy = 0.95" выглядят солидно, но это некорректно. Нельзя просто спросить двух человек с разным мнением, и сделать вывод об Accuracy = 0.5

3) Черри-пикинг. Не устроили результаты датасета Кембриджа, и вы взяли статьи из британских изданий "The Independent, The Guardian, Reader’s Digest UK, The Vogue UK, The Evening Standard". Если бы и они не устроили, можно было продолжать менять статьи в датасете вручную до тех пор, пока не попадётся ожидаемый результат. Почему бы просто не сравнивать эссе и эссе? Ведь в сухом остатке получилось, что вы сравниваете скромные эссе русскоязычных обладателей С1 с профессиональными статьями на Queen's English, и почему-то удивляетесь, что AI безошибочно определяет разницу. Это более чем ожидаемо, удивляет лишь то, что ваши эксперты не смогли это сделать.

4) Квалификация экспертов не подтверждена и основывается на вашем мнении о них. Есть общепринятые экзамены вроде IELTS, который, по статистике, на уровень С2 сдаёт не более 2% испытуемых. Могут ли ваши эксперты выделять разницу между текстами С2 и Native, если этого уровня они сами ещё не достигли? Сколько из 17 имеют реальный С2? Приблизительно представляя коллективный портрет 17 случайных экспертов, выведенных в аудиториях постсоветских лингвистических факультетов, я был бы очень осторожен в оценке, особенно учитывая, что международные сертификаты бывают совершенно разными, как и методы их получения. Например, ваши знакомые могут подготовить других учителей на классический В2, даже обладая таким же В2 или слабым С1, и при этом плохо справиться с вашим заданием. Вы получили бы другие показатели, если бы тексты сравнивались сертифицированными экспертами IELTS или TOEFL.

Мой ответ может показаться недружелюбным, но это просто реакция на позиционирование проведённой вами работы как исследования. Она имеет очень мало общего с исследованиями, и совсем ничего - с заголовком. Однако ваши размышления дают интересную пищу для обмена мнениями и идеями.

Например, для меня ваш эксперимент с AI интересен в разрезе возможности дифференциации диалектов. Можно было бы сравнивать разные датасеты и делать интересную инфографику родства диалектов по мнению AI. Или сравнивать разницу между эссе всех уровней от А2 до С2 среди русскоязычных, определяя, между какими уровнями наблюдается наибольший скачок.

Здравствуйте. Да, тон вашего ответа мне показался не только недружелюбным, а откровенно токсичным. Однако, в самом ответе присутствует конструктив, за что вам и спасибо.

Я пишу С1-С2, потому что для датасета тексты отбирала я сама, на основании своей компетенции (у меня IELTS 8.5 из 9, что соответствует С2, по аспекту чтения 9, письмо 8.5). Старалась, чтобы тексты были С1+ минимум. Но ведь неизвестно, получили бы они на экзамене (также субъективном!) метку С1 или С2. Отсюда обобщение "С1-С2".

Какие цифры вы сочли бы стат. значимыми? Учитывая то, что сеть я обучаю не с нуля, а на основе большой языковой модели, которая уже повидала много текстов.

"вы сравниваете скромные эссе русскоязычных обладателей С1 с профессиональными статьями на Queen's English" Поясню, почему я взяла тексты британских изданий. Как преподаватель, я знаю "кухню" подготовки к международным экзаменам. Те, кто правильно готовятся сдавать на высокие уровни, не вылезают из британских изданий и ориентируются на них, чтобы писать похожие тексты. Стиль, жанр, лексика и т.п. в них абсолютно соответствуют требованиям экзамена. А насчет того, что эссе "скромные" - так вы же их не видели. И не знаю, вправе ли оценить.

Опуская тональность вашего высказывания про "экспертов, выведенных в аудиториях постсоветских лингвистических факультетов"... Согласна, теперь, когда результат оказался неожиданно низким, можно задаться целью и создать контрольную группу экспертов исключительно с сертификатами С2. Это непросто, если верить вашему утверждению, что "по статистике" это 2% сдающих (может, и 2, не знаю). Но опять же, наберешь 15-20 человек по всей стране, а подтянется комментатор, который скажет "маловато будет!"

Предложения ваши, в целом, небезынтересны. Насчет скачков между уровнями, - уже определено, сколько часов обучения требуется для прохождения по этой лестнице CEFR, есть рекомендации Кембриджа. Насчет диалектов мне показалось чуть интереснее. В письменных текстах, однако, дифференциация диалектов не так выражена, как в устных. Мне как фонетисту любопытно было бы с использованием AI изучить влияние русскоязычных говоров на произносительный акцент в английском языке. Правда, это непростая тема, требует коллективной работы.

Здравствуйте. Интересная тема. Интересно, правда ли нейронки могут определять носителей или нет. После прочтения осталось неудовлетворенное любопытство и желание покритиковать методическую сторону.

  1. 20 и 17 и даже 160 это очень маленькие цифры. Если оперируете датасетами такого размера, очень важно аккуратно тестировать статзначимость проверяемых гипотез. На датасетах такого размера большие метрики могут получиться чисто случайно.

  2. У всех приведенных метрик (precision, recall, f1, accuracy) baseline в виде рандомного классификатора с ходу не ясен. Он зависит от баланса классов в выборке, а recall у рандома вообще произволен. Для беглого чтения неплохо было бы привести ROC AUC

  3. Для ответа на вопрос, может или нет ИИ делать такую классификацию в принципе, можно не смотреть на величину эффекта, важна лишь стат значимость. И очень важна методическая сторона сбора датасета. Важно, чтобы датасеты собирались единообразно. Например, если в native части будут новости, а в second language -- сочинения на тему как я провел лето, остается сомнение, может оно научилось отличать сочинения от газетных статей, а не то, что от него хотели. Во втором эксперименте вы явно говорите, что источники разные. В эксперименте с google forms вообще не говорите как собирался датасет.

Без прояснения методологии ваши выводы вызывают недоверие. Лично для меня Ваша статья на вопрос, может ли ии распознавать носителя, не отвечает. К сожалению. Вопрос очень интересны.

может ли ии распознавать носителя, не отвечает

По-моему тут все достаточно обычно для применения ML. Оно видит какие-то различия, но не может нам сказать, какие именно. Вполне возможно, что это именно различия уровня "новости vs сочинения". Ну или какие-то другие.

Да, он видит какие-то различия. Мне бы очень хотелось посмотреть, какие именно. Заглянуть в этот "черный" (или "серый"?) ящик. Ведь в этом и есть ключ к разгадке.

"Вполне возможно, что это именно различия уровня "новости vs сочинения"." Думаю, что нет, так как я собирала датасет "с пристрастием". Жанрово-стилистические особенности и тематика текстов очень похожи.  

Думаю, что нет, так как я собирала датасет "с пристрастием".
Ну, поэтому и "какие-то другие" добавлено. Вы же при отборе тоже можете не обратить внимание на какие-то различия, которые нейросеть в состоянии обнаружить. Или просто у вас нет данных. Ну так, условно — возраст очевидно влияет как-то на используемый словарный запас, причем не факт, что не сильнее, чем образование. Ну и другие факторы очевидно могут найтись.

У вас случайно Ваше сообщение в цитату тоже добавилось, исправьте пожалуйста)

кабы это можно было редактировать произвольное время...

Здравствуйте. Спасибо за интерес к теме и полезный комментарий.

  1. Мне казалось, при работе с трансформерами датасет в 320 текстов считается достаточным (160 - это только часть носителей, столько же текстов не-носителей). Возможно, это не совсем достоверная информация, но модель обучилась и работает. Опрос в 20 текстов мне кажется тоже достаточным для языкового исследования. Может быть, вы считаете его не достаточным для проверки работы модели? Но ее эффективность изначально проверялась на тестовом наборе. Опрос делался, в первую очередь, для определения эффективности решения задачи человеком. И для чистоты эксперимента необходимо, чтобы один и тот же опрос прошел AI и контрольная группа. Довольно сложно замотивировать людей пройти опрос длиннее, чем в 20 текстов. Возможно, этим объясняется эта цифра. Тексты в опросе подбирались так же, как и для датасета (возможно, следовало это подробнее отметить в статье). Насчет 17 экспертов в контрольной группе - почему вы считаете, что этого мало? В любом случае, это улучшаемо. На данный момент я собрала данные от 30 человек.

  2. Принимаю вашу рекомендацию относительно тестирования стат.значимости и ROC-кривой. Изучу этот вопрос, спасибо за рекомендацию.

  3. Методика сбора текстов для датасета предполагала их стилистическое и жанровое единообразие. То, что источник сбора текстов носителей - журналы, а источник сбора текстов не-носителей - сочинения, не говорит о том, что они не могли быть написаны в одном стиле. Более того, я старалась подбирать темы журнальных статей в соответствии с темами сочинений, которые у меня были. То есть, не только стиль, но и тематика текстов подбиралась похожая. Мне самой очень интересно, чтобы AI "вник в суть" построения письменных текстов, а не схватил лишь какие-то поверхностные различия, поэтому этот методический момент я старалась отслеживать при сборе базы.

UFO just landed and posted this here

Спасибо за отклик! Почему вы отдаете предпочтение поиску выбросов, а не бинарной классификации? Вы думаете при постановке задачи на поиск выбросов будет лучше эффективность модели?

Перевод - это все-таки другое. Там влияет исходный текст - тематика, логическое построение текста. Ведь мы не знаем, на что реагирует AI. А вдруг он проник в уровень ментальности, национальной идентичности в ее лингвистическом аспекте (ключевое слово - "вдруг")? Можно предположить, что русский и британец думают по-разному, отсюда по-разному строят тексты. В общем, переводные тексты собираются в отдельные датасеты. Мне, кажется, попадался один такой.

Газетный стиль и стиль художественной литературы это разные вещи. Для сравнения с сочинениями студентов (на экзамене пишут эссе и письмо) лучше подходит именно газетный стиль, так как к нему относятся такие жанры, как эссе, очерк, статья, письмо, интервью и т.п. Поэтому для сбора датасета я обращалась к британской прессе.

UFO just landed and posted this here

320 для finetuning'а трансформера может быть достаточно. При малом величине эффекта их может оказаться недостаточно для стат значимых выводов.

Для проверки статзначимости можно сделать stratified k fold валидацию и U-test Манна Уитни. Разбить датасет на 10 фолдов. Поочередно вынимать каждый из них для теста, обучать модель на оставшихся 9-ти (разбив на train и validate) и генерить тестовые предикты. После 10-ти итераций каждый элемент датасета побудет один раз в тесте и предикты будут для каждого элемента. Дальше их можно разбить по ground truth группам и проверить гипотезу, что скор в одной группе больше чем в другой против односторонней альтернативы.

Параллельно можно усреднить предикты этих 10 моделей для датасета из google forms, в котором 20 примеров и посчитать Манна Уитни на них. Возможно там будет статзначимость. Хотя, если процедура сбора датасета одна и та же, это вроде бы не принесет дополнительной информации.

Для проверки стат значимости оценки людей, можно усреднить показания этих 17(уже 30) человек на этих 20-ти текстах и посчитать критерий Манна Уитни. Для 17 человек скор можно считать непрерывным.

UFO just landed and posted this here

Да. Мой комент чисто про простые DS'овские вещи, которые можно сделать быстро. На все остальное надо уже какие-то предположения про предметную область делать;

Какой полезный комментарий! Теперь понятно, что изучить. Спасибо вам большое!

я старалась подбирать

Собственно, вы главный подозревамый и есть.

Нулевая гипотеза - что сетка как-то научилась отличать ваши вкусы от вкусов другого составителя другого корпуса текстов.

Поняла вас) Тем не менее, считаю, что это не вкусовщина, а оправданный отбор текстов, соответствующих определенным критериям. Действительно, тексты в обоих частях датасета (носитель/не носитель) должны максимально совпадать по тем характеристикам, по которым мы не хотим, чтобы сеть научилась их различать. То есть, по тематике, по стилю. Поэтому мы не просто пылесосим интернет, а вдумчиво собираем датасет. Я убеждена, что только такой подход приводит к результату.

 а оправданный отбор текстов,

Перемешано же. Если бы тут был чисто объективный подход, то человека-эксперта можно бы было исключить.

вдумчиво собираем датасет. Я убеждена, что только такой подход приводит к результату.

Да, для синтеза иначе (пока?) невозможно.

Но как только анализ начал "чушь нести" - то надо было по возможности "выносить переменные за скобки", хотя это и затратная работа.

то есть в вашем случае в идеале надо было как-то исхитриться, и провести отбор в ОБА корпуса самолично. Хотя мне конечно легко с дивана советовать :-D

большинство моих коллег-преподавателей английского в глубине души все-таки считают, что «между уровнем носителя и уровнем С2 – бездна»

У коллег-преподавателей, вероятно, есть предубеждение, поскольку и они, и их собеседники, скорее всего, более чем высокообразованны, существует некий отбор по языковым способностям, и должно быть стремление к определенной доле педагогического перфекционизма. Ну, общий уровень образования в целом сложно оценить, сравните какой-нибудь захолустный городок среди лесов и дефолт-сити. Предположим, что коллеги-преподаватели считают свой уровень равным уровню образованного носителя языка, и тогда, для сравнения, среднестатистический образованный носитель русского языка мало чем с ними сравнится. При этом среднестатистический носитель русского языка из глубинки, вполне может не считать рафинированных преподавателей сведущими в тонкостях реального использования родного языка.

Да, я согласна, что разница между уровнем носителя и С2 - это очень чувствительная тема для многих педагогов. Это почва для дискриминации и разного рода предубеждений. Поэтому мне и захотелось выяснить научно, есть ли эта разница, а не опираться на чьи-то субъективные ощущения.

Хочу заметить, что классификация носитель/нет в данном исследовании подразумевает уровень образованного человека. Тексты рассматриваются полуофициального стиля, без сленга, сниженной лексики и других примет. Необразованные носители (или, как вы пишете, "из глубинки" - видимо, несколько опрометчиво приравнивая место жительства к уровню образования) предметом изучения не являлись.

Благодарю вас за комментарий.

Необразованные носители (или, как вы пишете, "из глубинки"

"Из глубинки", имелись в ввиду именно образованные носители. И приравнивание места жительства к уровню образования, в среднем, абсолютно справедливо в нашем случае. Имхо, уровень среднего образованного носителя языка на момент окончания вуза и 10 лет спустя тоже не слишком хорошо соотносятся, поэтому мне лично неясно, насколько С2 хуже среднего носителя.

Поняла. Да, носитель носителю рознь. Именно поэтому я ввожу определенные ограничения: британский английский (британские издания), носители, связанные по роду деятельности с написанием качественных текстов. Это соответствует русскоязычным авторам сочинений: они также ориентированы на британский английский и преимущественно являются учителями английского, выпускниками лингвистических факультетов, то есть также связаны с написанием текстов.

А сколько статей для The Independent, The Guardian, Reader’s Digest UK, The Vogue UK, The Evening Standard и других были написаны людьми, для которых английский язык не является родным?

А сколько статей русскоязычных авторов было написано для The Independent, The Guardian, Reader’s Digest UK, The Vogue UK, The Evening Standard и других?

Может быть, дело в этом?

Очень разумный довод, спасибо! Я думала об этом. Конечно, не всегда в журналах пишут автора статьи, но в большинстве случаев, когда я подбирала тексты носителей для датасета, то обращала внимание на имя автора с тем, чтобы оно выглядело по-английски. Понимаю все недостатки этого подхода (этот критерий не прошел бы нынешний премьер-министр Великобритании... facepalm), но это единственное, что мне пришло в голову, чтобы максимально исключить возможных не-носителей среди британских авторов текстов.

Плюс, думаю, даже если русскоязычный автор пишет текст для The Independent, etc., его обязательно проверяет британский редактор.

Также, если русскоязычный автор пишет текст для The Independent, etc., то он точно не вчера ступил на Туманный остров. Как минимум, получил там высшее образование в области журналистики, а то и родился.

Так может быть, что вы научились классифицировать тексты по признаку того, пройдут ли они в британский журнал? А кто писал - дело десятое?

А в чем ящик Пандоры? Какие мерзости из него лезут? Я спустился в статью, думая, что там как минимум разоблачили популяцию англоязычных рептилоидов, претворяющихся носителями языка.

Что же касается исследования, то интересно было бы, я думаю просто провести классификацию статей на английском. Итак, шотландец, американец, австралиец - все носители с детства. Добавим выучивших язык немцев, испано-говорящих, китайцев, японцев.

Все уровня C2 и получится ли разбить достоверно на группы? Какой объем текстов нужен от одного человека, чтобы однозначно классифицировать?

англоязычных рептилоидов, претворяющихся носителями языка.
Не волнуйтесь, рептилоиды, вас пока не разоблачили :)

А в чем ящик Пандоры?

Ещё один инструмент для дискриминации мигрантов или нанимающихся на работу, например. Это как те же приколы с "запишите краткое видео о себе и прикрепите к резюме" или языковыми тестами со всякой дичью в секции "Use of English", которую знают только носители, для которых это родной язык.

Спасибо за ваш комментарий. Увы, почти любое исследование может быть использовано как во благо, так и наоборот...

Тем более, когда на данном этапе результат показывает меньший уровень компетентности экспертов-неносителей по сравнению с AI... Поэтому надо еще сравнить эффективность экспертов-носителей. А то даже по комментариям здесь видна предвзятость к русскоговорящим экспертам.

Мне больше всего хотелось бы изучить основания, по которым AI классифицирует тексты. Это имело бы практическую ценность, как мне кажется.

"интересно было бы, я думаю просто провести классификацию статей на английском "

Здесь кажется лишним слово "просто", ибо то, что вы предлагаете, совсем не просто. Я считаю, что родной язык автора является определяющим в тех системных характеристиках, которые будут отличать его текст от носителя. Как и диалекты носителей, разумеется, не позволяют все сваливать в одну кучу, а потом как-то пытаться классифицировать.

Кстати, я изучила датасеты по теме, и мне кажется, исследователи допускают именно эту ошибку - смешивают изучающих английский с разными родными языками, а также смешивают уровни их владения английским. Отсюда - мой подход в данной работе, где я беру исключительно неносителей с одним общим родным языком одного уровня. И только британский английский. Считаю, что именно благодаря этим ограничениям обучение модели состоялось.

"Просто" в данном конкретном случае относится не к простоте проведения исследования.

и собственноручно собрать базу текстов, написанных носителями. Что я и сделала, использовав онлайн сайты известных британских изданий, таких, как The Independent, The Guardian, Reader’s Digest UK, The Vogue UK, The Evening Standard и других.

Вы взяли тексты не просто носителей, а профессиональных публицистов, которые пишут статьи так, как средний носитель языка без специальной подготовки и опыта писать не сможет.
Для интереса, возьмите выборку из проф. изданий на русском языке и сравните с выборкой текстов от простых носителей русского языка. И там точно также будет разница, хотя язык родной в обеих случаях.
Родной язык и способность писать тексты уровня топовых газетных публикаций — это совсем не одно и тоже!

Да, а еще очень большой вопрос в том, что нативность атрибутирована с Великобританией, где язык, конечно, возник, но остается в определенном меньшинстве по сравнению с количеством носителей по всему миру. А теперь зададимся вопросом - какая доля изучающих язык изучает его именно в британской специфике. И при этом в исследовании берут ненативных преподавателей некоего среднего "английского" (ведь в статье не прозвучало, что русскоязычные были специалистами именно по британскому варианту) и сравнивают с эталоном британского языкового меньшинства? Bollocks! Bloody hell!

Мне кажется, исследование проиграло бы в точности или вообще бы не состоялось, если бы я попыталась сделать его всеобъемлющим - включить и англичан, и американцев, и австралийцев, а потом мне бы сказали, что я забыла шотландцев, валлийцев и ирландцев, да и мало ли еще разновидностей английского. Нет, эксперимент ограничивается британским английским - образованными носителями-британцами и теми, кто изучает именно этот вариант. Откуда я знаю? Потому что они готовятся сдавать CPE, а это кембриджский экзамен. Если бы я исследовала американский вариант, взяла бы эссе у тех, кто готовится к TOEFL. Так что, тут все просто.

Про преподавателей это вы хорошо заметили, что в статье не прозвучало, какой вариант английского они преподают. Исправлю это в будущем. А сейчас отвечу, что преподаватели тоже ориентированы на британский вариант, поскольку, так уж сложилось, большинство факультетов английского языка в нашей стране "заточены" именно под британский английский. Об этом можно судить, хотя бы, по практической фонетике - предмету, который я достаточно долго преподавала в вузе. На специализированных факультетах ставят именно британское произношение. В общем, эксперты в данном эксперименте были также ориентированы на британский английский.

А вот носители, которые используют слова, которыми вы закончили свой пост, не включались в исследование - не проходили по стилю!

Вы верно заметили, я брала преимущественно тексты журналистов, но не только их. В перечисленных изданиях есть рубрики типа "читатели пишут" и "письма в редакцию" - оттуда я тоже брала много текстов. Там пишут не публицисты (но и не самые "простые" носители). Также было несколько текстов из рассылок и постов британских блоггеров, соответствующих по жанру. В любом случае, исследование ограничивается образованными носителями языка и их текстами, на которые и ориентируются те, кто готовится к экзамену на уровень С2.

Интересно было бы попробовать на более простых моделях. Будут ли различия если гонять логистическую регрессию на bag of words с tf-idf? Возможно, разница между носителями и не-носителями именно в частотности употребления отдельных слов. Возможно, какие-то слова кажутся русскоязычным более подходящими, чем британцам. Тогда можно было бы давать полезные рекомендации, типа "Чаще используйте get и вас примут за native speaker".

Возможно, разница между носителями и не-носителями именно в частотности употребления отдельных слов.

Мысль хорошая, но тут есть важный нюанс: при сравнении учитывать надо дополнительные параметры:
1) Тип текста — тексты диалога на улице, газетной публикации, научной конференции и юридических документов будут очень сильно отличаться по особенностям используемых слов для выражения одной и той же мысли.
2) Уровень образования пишущего этот текст.

Оба эти пункта как раз учитываются в эксперименте. Берутся публицистические тексты (возможно, здесь даже стоит сузить выборку до одного жанра - эссе или статьи, исключив остальные) и тексты образованных носителей (и неносителей, соответственно).

Спасибо за рекомендацию. Действительно, надо попробовать! Мне кажется очень вероятным, что у наших авторов есть "любимые" конструкции и фразы, которые каким-то образом стали популярны (может быть, рекомендуются для написания эссе), но, на самом деле, довольно редко встречаются в текстах носителей.

А что если это не одно (носитель) превосходит другое (уровень C1-C2), а параллельные "ветки развития"? То есть отличия есть, но возможности одинаковы.

Ещё, как верно отметили выше, английский делится на множество версий - британский, американский, австралийский и т. д. Возможно, классификатор ловит отличия в месте жительства автора текста, а не сам уровень владения. То есть человек с уровнем C1-C2 пожив несколько лет в Британии потеряет это детектируемое отличие.

Не совсем поняла здесь: "То есть отличия есть, но возможности одинаковы". Что значит "возможности одинаковы"? Говоря "параллельные ветки развития", вы имеете в виду, что их нельзя сравнивать? Почему нет? В разной среде, разными способами, в разном возрасте и т.п., но люди учили один и тот же язык, стремясь постичь его во всем его многообразии.

Если классификатор ловит отличия, связанные с местом жительства автора текста, то это тоже отличия, связанные с уровнем владения. Высокий уровень владения подразумевает "чрезвычайно развитую межкультурную компетенцию" (здесь можно сослаться на официальную документацию по уровням CEFR, которую мне порекомендовали в одном из комментариев). И если бы удалось это проследить, сравнив, допустим, как реагирует классификатор на тексты, написанные эмигрантами с неким опытом проживания в Великобритании, - это был бы очень интересный вывод и важный результат. Это бы означало, что разницу между уровнем С2 и уровнем носителя можно преодолеть, прожив какое-то время в среде.

Благодарю за ваши мысли )

Если я правильно понял, то вы отбирали тексты для датасета вречную. Для данной постановки задачи это методологическая ошибка, так как выборки становятся неслучайными.

Возможно, стоило попросить случайно выбранных носителей и случайно выбранных обладателей C2 написать эссе на одну и ту же тему. Но такой эксперимент уже в домашних условиях не организуешь. :)

(Тут ещё возникает вопрос, а что такое C2 с объективной точки зрения, и как мы определяем уровень.)

Да и у вас выборки с самого начала отличаются — газетные статьи и эссе. Вы исходите из гипотезы, что это не влияет на результат, но эту гипотезу, вообще говоря, тоже нужно доказать.

Модель вполне могла отличать тексты по пунктуации (которую обладатели C2 могут знать хуже редакторов). Или по уточнениям вроде "Emily, 33", которые тоже в эссе встречаются реже, чем в газетах. :)

В общем, поднятая проблема интересна, но методология вызывает много вопросов.

Да, я отбирала тексты вручную, чтобы они максимально совпадали по стилю и, по возможности, не выделялись какими-то явными особенностями. Следила за общей тематикой. То есть, если я вижу, что у меня много эссе про путешествия, - я открываю соответствующую рубрику британского журнала и беру оттуда статьи (которые и есть, по сути, эссе). Мне кажется, это более оправдано методически, чем просто брать все подряд без разбора. Тогда бы у нас сравнивались эссе, которые традиционно пишутся на ограниченный ряд тем (путешествия, книги, обзор фильма, "за и против" чего-то, технологии и т.п.), и тексты из британских изданий, куда, помимо вышеперечисленного, также входят специфические спортивные комментарии, экономические разборы и прочее, что обычно в экзамен не включается. Тогда бы сеть "научилась" отличать тематику и все.

"Модель вполне могла отличать тексты по пунктуации (которую обладатели C2 могут знать хуже редакторов)." - тут палка о двух концах. С одной стороны, если неносители не знают пунктуационных тонкостей, значит, пусть учат матчасть)) Это входит в понятие высокого уровня владения языком, так что все справедливо. Но, с другой стороны, изредка бывает, что образованные носители забывают про запятые, даже в журнальных статьях (особенно если они из рубрики "читатели пишут", а не из колонки редактора). Были случаи, когда эксперт из-за этого относил текст к неносителям (и пытался этим аргументировать свой выбор). Классификатор тоже ошибся с одним текстом в опроснике, и в том тексте я увидела пунктуационную ошибку (конечно же, мы не можем знать, из-за нее ли классификатор отнес текст носителя в ранг ненативных текстов или нет).

Попросить носителей написать эссе - это из области фантастики, конечно:) Мне бы их замотивировать просто опрос пройти (чтобы не ограничиваться контрольной группой неносителей-экспертов).

У меня была мысль, отчасти связанная с вашим предложением попросить носителей написать эссе на ту же тему. Я хотела взять эссе и нормализовать их через ChatGPT. И брать их как "отполированный вариант". Все бы идеально совпадало (тема, стиль), за отсутствием ошибок (включая пунктуационные) и неверных оборотов. Уж очень приятные получаются тексты таким образом. Но сначала я решила провести эксперимент традиционным способом. И не пожалела. Потому что теперь мой классификатор определяет нативность текстов, нормализованных ChatGPT. И это я еще планирую изучить. Но, забегая вперед, скажу, что если я нормализую эссе неносителя, он определяет его как Non-Native. А когда я взяла аудио скрипт американского спикера, перевела его в текст автоматически, нормализовала его в ChatGPT, - и что же? - классификатор выдал "Native". Это удивительно и наталкивает на кучу размышлений :)

Спасибо, что сочли тему интересной и написали комментарий!

Мне кажется, это более оправдано методически, чем просто брать все подряд без разбора.

Речь не о том, чтобы брать всё без разбора. Если хотите ограничиться эссе о путешествиях — пожалуйста. Но чтобы избежать смещения выборки это нужно делать случайно.

Но и выводы потом вы вправе делать только об эссе о путешествиях.

Базовые принципы построения выборки: повторность и рандомизация. Нужно хорошо представить себе генеральную совокупность, тех людей, которых вы изучаете.

Повторность означает, что вы исследуете свойство несколько раз. То есть, эссе должны быть от разных людей (хотя бы 30, чтоб можно было какую-то статистику считать).

Рандомизация означает, что выборка из генеральной совокупности (всех людей, которых вы изучаете), должна быть случайной, чтобы не было смещения. Каждый объект генеральной совокупности должен иметь равную возможность попасть в выборку. Если это не получается сделать (выбрать среди всех носителей), то тогда надо сузить генеральную совокупность.

Это не значит, что вы зря собрали данные. Просто некорректно делать выводы, которые вы делаете. Но можно сделать другие, менее амбициозные.

Ещё один принцип — это принцип воспроизводимости. Если другой исследователь захочет повторить ваше исследование, но у него нет данных, только методика, получит ли он те же самые результаты? Разумеется с некоторой допустимой погрешностью.

В принципе, на тех данных, что есть, тоже можно что-то сделать, но нужно очень аккуратно подойти к этому вопросу.

Попросить носителей написать эссе - это из области фантастики, конечно:) Мне бы их замотивировать просто опрос пройти (чтобы не ограничиваться контрольной группой неносителей-экспертов).

Я прекрасно понимаю, какие у вас были сложности. Просто у вас был выбор: хорошее исследование, которое почти невозможно провести, и методологически сомнительное, которое более реально. Вы провели второе, но почему-то выводы делаете так, как будто это первое.

То, что хорошие данные собрать трудно, не означает, что можно делать далеко идущие выводы. Статистика — беспощадная наука, оправданий не принимает.

Я хотела взять эссе и нормализовать их через ChatGPT.

Тогда бы вы вообще никаких выводов сделать не смогли. Это как попросить одного художника написать репродукции разных эпох в одном стиле, а потом сравнивать стили этих эпох. :)

Хм... Подскажите, а много ли носителей владеют языком на уровне С2? Если брать статьи в крупных изданиях, то там их сначала пишет автор с профильным образованием, потом они проходят проверку. Если же взять какой-нибудь "чятик" школьного класса или подъезда в доме - глаза вытекают от количества грамматических, стилистических и смысловых ошибок.

P.S. К размышлению. Учебник по радиоэлектронике, написанный "нативным" англичанином, по восприятию при чтении отличается от учебника, написанного иностранцем (пусть даже прожившим лет 15 в Англии), как небо и земля.

Рискну предположить, что вы нашли результат того, что ученики, которые сдают экзамены, тренируются сдавать эти экзамены, которые, в свою очередь, весьма шаблонны. Соответственно, классификатор научился определять, учился ли ученик сдавать экзамены. Нейтивы не учились сдавать экзамены, и, поэтому, не могут найти этот шаблон и им кажется, что все нормально с сочинением.

Я, конечно, понимаю, что вы тут о своем, машиннообучаемом, но все же... зачем городить огород, если в определении уровней CEFR изначально заложено, что это уровни неносителя?

"a guideline used to describe achievements of learners of foreign languages" (https://en.wikipedia.org/wiki/Common_European_Framework_of_Reference_for_Languages)

"It should be emphasised that the top level in the CEFR scheme, C2, has no relation whatsoever with what is sometimes referred to as the performance of an idealised “native speaker”, or a “well-educated native speaker” or a “near native speaker”" (https://rm.coe.int/common-european-framework-of-reference-for-languages-learning-teaching/16809ea0d4)

Можно сказать, "нейросеть" любого иностранца, достигшего высокого уровня владения английским, обучалась на гораздо меньшем количестве данных, чем "нейросеть" человека, который впитал этот английский с молоком матери, первыми мультиками и сказками, перепалками в школе, лекциями в универе и т. д., и так или иначе это будет заметно.

Спасибо за вторую ссылку, это ценное дополнение. Далее по тексту там видим: "Such concepts were not taken as a point of reference during the development of the levels or the descriptors"... "What is intended is to characterise the degree of precision, appropriateness and ease with the language which typifies the speech of those who have been highly successful learners". То есть, при разработке уровней они отталкивались не от компетенций носителей, а от навыков, демонстрируемых успешными неносителями, изучающими язык. Они просто не сравнивали неносителей с носителями, намеренно или за отсутствием данных/критериев. Но ведь это не запрещает сравнить компетенции носителя и неносителя высокого уровня. Тем более, что в реальной жизни это сравнение вольно или невольно происходит очень часто. Или носитель и неноситель - параллельные прямые и им не суждено пересечься? Разве неноситель может добраться только до ступеньки С2 и его текст с высокой вероятностью "раскусит" если не эксперт, то AI? А если он, как здесь кто-то предложил выше, поживет сколько-то лет в среде и "дообучит свою нейросеть" на большем количестве данных? Каких данных там не хватает? А, может быть, дообучить можно и вне среды? Или тут уже без "молока матери" никак не обойтись?

Интересно же! Вот поэтому и "городим огород"))

Sign up to leave a comment.

Articles