Ann_Rodina Feb 1 at 16:05

Дайджест новостей: ИИ для обучения роботов и спящие агенты в LLM

4 min

943

MTS AI corporate blogMachine learning*Artificial Intelligence

Digest

Представляем дайджест новостей сферы искусственного интеллекта за первый месяц 2024 года. В этом выпуске вы узнаете, смогли ли ученые победить «спящих агентов» в LLM, способны GPT влиять на человеческий мозг, какую еще методику придумали для самообучения больших моделей и другие интересные исследования.

«Спящие агенты» внутри LLM устояли против стандартных методов обезвреживания

Специалисты из Anthropic и еще нескольких исследовательских центров, проведя серию экспериментов с внедрением «спящих агентов» (вредоносных функций, которые можно заложить в модели ИИ и активировать специальной командой), пришли к неутешительному выводу — таких агентов может быть сложно обнаружить и еще сложнее обезвредить. По крайней мере стандартные методы для этого могут не сработать. Ученые сначала «вживили» в LLM вредную стратегию поведения — писать безопасный код, если текущим годом в промпте указан 2023 или ранее, и уязвимый — если 2024 и позже. Затем они попытались отучить модель делать это, применив различные методы: контролируемую тонкую настройку, обучение с подкреплением и состязательное обучение. В ряде случаев «спящий агент» проявил завидную устойчивость к действиям по обезвреживанию. Более того, ученые обнаружили, что модель может научиться эффективно маскировать такое вредоносное поведение и создавать иллюзию безопасности. Последствия этого могут быть невообразимо печальными, так что разработчикам придется озадачиться поиском новых подходов для защиты ИИ от злоумышленников. Ознакомиться с исследованием Anthropic можно по этой ссылке.

Композиция из нескольких базовых моделей помогает роботам строить достижимые планы

Помыть посуду или прибраться в комнате – интуитивно понятные задачи для человека, но для робота они требуют тщательного планирования с подробным описанием действий. Чтобы помочь в составлении таких инструкций для роботов, ученые из MIT предложили композиционную мультимодальную систему, объединяющую базовые модели, обученные на языковых и визуальных данных, а также на данных о действиях, которую назвали HiP. В отличие от RT-2 и других мультимодальных моделей HiP использует три разные базовые модели, каждая из которых обучается на разных модальностях данных. Каждая отвечает за отдельную часть процесса принятия решений, а затем, когда приходит время принимать решения, они работают вместе. Как поясняют ученые, это обходится дешевле, чем построение монолитных мультимодальных базовых моделей. Больше информации с объяснениями — на MIT News и в этой научной статье.

На мозг человека можно влиять с помощью GPT

Кажется, совершен еще один прорыв на стыке ИИ и нейробиологии. Междисциплинарная группа ученых показала, что с помощью генеративных трансформеров (GPT) можно не только создавать тексты на естественном языке, но и прогнозировать и даже контролировать реакции в частях человеческого мозга, отвечающих за речь. Результаты исследования были опубликованы в Nature Human Behaviour (доступ по подписке). Суть: ученые создали модель кодирования на основе GPT, которая успешно предсказывала ответы языковой сети мозга на те или иные предложения. А затем эта же модель не менее успешно смогла подобрать предложения для получения желаемой реакции — подавления или наоборот стимулирования мозговой активности. Вывод — с помощью нейросетей можно неинвазивно влиять на нейтронную активность в языковой сети человеческого мозга.

LLM смогут обучаться без человека

Исследователи из компании Meta (признана экстремистской и запрещена в РФ) и Нью-Йоркского университета разработали новую методику, позволяющую большим языковым моделям обучаться без человека. Дело в том, что сейчас LLM учатся на модели вознаграждений, построенной на базе ответов людей, а это имеет свои ограничения. В частности, люди не могут ответить на все возможные вопросы. Плюс сами эти модели вознаграждений как бы заморожены и не могут самосовершенствоваться во время обучения LLM. Идея ученых проста — научить большие языковые модели генерировать вознаграждения самим себе во время обучения и совершенствоваться в этом от поколения к поколению. Это своего рода обучение новых поколений LLM на базе предыдущих. Для реализации идеи в жизнь исследователи разработали новую итеративную методику обучения. Опробовав ее на Llama 2 70B, за три итерации они получили модель, которая превзошла Claude 2, Gemini Pro и GPT-4 0613. Больше о подходе и его тестировании читайте в статье.

ИИ поможет автоматизировать описание сложных нейросетей

Изложить, как происходят вычисления в больших моделях типа GPT-4, — дело трудозатратное, особенно учитывая тот факт, что они постоянно растут, изменяются и усложняются. Но исследователи из MIT предложили метод, как автоматизировать описание работы таких сложных нейросетей с помощью искусственного интеллекта, пишетMIT News. В основе этого метода — так называемый автоматизированный агент интерпретации (automated interpretability agent или AIA). AIA планируют и выполняют тестирование вычислительных систем масштабом от отдельных нейронов до целых моделей, чтобы затем объяснить их работу в различных форматах. Например, это может быть языковое описание или код для воспроизведения поведения модели. В статье подчеркивается, что в отличие от других существующих подходов к интерпретации AIA активно участвует в формировании гипотез, экспериментальной проверке и итеративном обучении, тем самым улучшая свое понимание вычислительных систем в реальном времени. Помимо этого ученые проработали и своего рода стандарт для оценки различных методов интерпретации, он получил название FIND. Научная публикация с подробностями лежитздесь.

Tags:

Hubs: