Cloud4Y Mar 7 at 11:03

Cloudflare разрабатывает Firewall для ИИ

Easy

10 min

1.6K

Cloud4Y corporate blogInformation Security*Artificial Intelligence

Roadmap

Translation

Original author: Daniele Molteni

Cloudflare объявил о разработке межсетевого экрана для защиты больших языковых моделей.

LLM и другие модели искусственного интеллекта растут, и компании всё больше обеспокоены безопасностью своих собственных нейросетей. Использование LLM в качестве части подключенных к интернету приложений создаёт новые уязвимости, которыми могут воспользоваться злоумышленники.

Некоторые уязвимости, затрагивающие традиционные веб- и API-приложения, свойственны и языковым моделям. Сюда входят инъекции и кража данных. Однако существует и новый набор угроз, которые сейчас актуальны из-за особенностей работы программ LLM. Например, исследователи недавно обнаружили уязвимость в платформе для совместной работы с искусственным интеллектом, которая позволяет захватывать модели и выполнять несанкционированные действия.

Firewall for AI (межсетевой экран для ИИ) — это усовершенствованный брандмауэр веб-приложений (WAF), специально разработанный для приложений, использующих большие языковые модели. Он включает в себя набор инструментов, которые можно будет развернуть для мониторинга и обнаружения уязвимостей, а также другие продукты, которые уже являются частью WAF: ограничение скорости, обнаружение конфиденциальных данных. Добавится и новый уровень защиты, который пока находится в стадии разработки. Эта новая проверка анализирует запрос, отправленный конечным пользователем, для выявления попыток извлечения данных через языковые модели и других попыток злоупотреблений.

Межсетевой экран для ИИ использует сеть Cloudflare и работает максимально близко к пользователю, что позволяет выявлять атаки на ранней стадии и защищать как конечного пользователя, так и модели от злоупотреблений и атак.

Почему приложения LLM отличаются от традиционных

Прежде чем говорить о принципах работы межсетевого экрана для ИИ и перечислять полный набор его функций, рассмотрим, что делает LLM уникальными, а также каковы возможности потенциальных атак на приложения с ИИ. В качестве справочного материала взяли Топ-10 OWASP для программ LLM.

Одно из отличий LLM от традиционных приложений состоит в том, как пользователи взаимодействуют с продуктом. Традиционные приложения детерминированы по своей природе. Например, какое-нибудь банковское приложение определяется набором операций (проверить баланс, сделать перевод и т. д.). Безопасность бизнес-операций (и данных) может быть достигнута путём контроля тонкого набора операций, принимаемых этими конечными точками: «GET/баланс» или «POST/перевод».

Операции LLM недетерминированы по своей конструкции. Взаимодействие LLM основано на естественном языке, что усложняет выявление проблемных запросов, в отличие от сопоставления сигнатур атак. Кроме того, если ответ не кэшируется, LLM обычно каждый раз выдаёт разные ответы, даже если на вводе было одно и то же. Это значительно усложняет ограничение способа взаимодействия пользователя с приложением, а также представляет угрозу для пользователя, поскольку тот может стать жертвой дезинформации и потерять доверие к модели.

Ещё одно отличие заключается в том, что в традиционных приложениях код хорошо отделен от базы данных. Определённые операции являются единственным способом взаимодействия с базовыми данными (например, запрос показать историю платёжных транзакций). Это позволяет специалистам по безопасности сосредоточиться на добавлении проверок и ограждений в плоскость управления и, таким образом, косвенно защитить базу данных.

В LLM данные обучения становятся частью самой модели в процессе обучения, что чрезвычайно затрудняет контроль над тем, как эти данные передаются в результате запроса пользователя. В настоящее время изучаются некоторые архитектурные решения вроде дробления LLM на разные уровни и разделение данных. Однако идеального решения пока не найдено.

С точки зрения безопасности эти различия позволяют злоумышленникам создавать новые векторы атак, которые могут быть нацелены на LLM и оставаться вне поля зрения существующих инструментов безопасности, разработанных для традиционных веб-приложений.

Уязвимости OWASP LLM

Фонд OWASP опубликовал список из 10 основных классов уязвимостей для LLM, предоставив основу для организации защиты языковых моделей. Некоторые угрозы совпадают с теми, что входят в топ-10 OWASP для веб-приложений, а другие специфичны для языковых моделей.

Как и в случае с веб-приложениями, некоторые из этих уязвимостей лучше всего устранять при проектировании, разработке и обучении приложений LLM. Например, отравление обучающих данных может осуществляться путём введения уязвимостей в набор обучающих данных, используемый для обучения новых моделей. Отравленная информация затем предоставляется пользователю, когда модель работает. Уязвимости цепочки поставок и небезопасный дизайн плагинов — это уязвимости, появившиеся в компонентах, добавленных в модель, например, в сторонних пакетах программного обеспечения. Наконец, управление авторизацией и разрешениями имеет решающее значение при работе с Excessive Agency, где любые модели могут выполнять несанкционированные действия в рамках более широкого приложения или инфраструктуры.

И наоборот, быстрое внедрение, отказ в обслуживании модели и раскрытие конфиденциальной информации можно смягчить, приняв решение по обеспечению безопасности прокси, такое как Cloudflare Firewall для AI.

Развертывание LLM

Риски безопасности LLM также зависят от модели развертывания. Сейчас есть три основных подхода к развёртыванию: внутренний, публичный и продуктовый LLM. Во всех трёх сценариях необходимо защитить модели от злоупотреблений, защитить любые конфиденциальные данные, хранящиеся в модели, и защитить конечного пользователя от дезинформации или воздействия нежелательного контента.

Внутренние LLM: компании разрабатывают LLM для поддержки сотрудников в их повседневных задачах. Они считаются корпоративными активами и не должны быть доступны для лиц, не являющихся сотрудниками. Примером может стать ИИ в роли помощника, обученный работе с данными о продажах и взаимодействии с клиентами, используемый для создания индивидуальных предложений, или LLM, обученная внутренней базе знаний, к которой инженеры могут обращаться с запросами.

Публичные LLM: это LLM, доступ к которым может получить пользователь за пределами корпорации. Часто эти решения имеют бесплатные версии, которые может использовать каждый, и они часто обучаются на основе общих или общедоступных знаний. Примеры: GPT от OpenAI или Claude от Anthropic.

Продуктовый LLM: LLM может быть частью продукта или услуги, предлагаемой клиентам. Обычно это автономные специализированные решения, которые можно использовать в качестве инструмента для взаимодействия с ресурсами компании. Например, чат‑боты поддержки клиентов или Cloudflare AI Assistant.

С точки зрения риска, разница между продуктовыми и публичными LLM заключается в том, кто несёт ответственность за прохождение успешных атак. Публичные LLM несут угрозу для данных, поскольку данные, попадающие в модель, могут быть доступны практически любому. Это одна из причин, по которой многие корпорации советуют своим сотрудникам не использовать конфиденциальную информацию в подсказках об общедоступных услугах. Продуктовые LLM угрожают компаниям и их интеллектуальной собственности, если модели имели доступ к служебной информации во время обучения (преднамеренно или случайно).

Брандмауэр для ИИ

Cloudflare Firewall для AI будет разворачиваться как традиционный WAF, где каждый запрос API с приглашением LLM сканируется на предмет шаблонов и сигнатур возможных атак.

Брандмауэр для ИИ можно развернуть перед моделями, размещёнными на платформе ИИ Cloudflare Workers, или в любой сторонней инфраструктуре. Его также можно использовать вместе с Cloudflare AI Gateway . Клиенты смогут контролировать и настраивать межсетевой экран для ИИ с помощью плоскости управления WAF.

Брандмауэр для ИИ работает как традиционный брандмауэр веб-приложений. Он развёртывается перед приложением LLM и сканирует каждый запрос на предмет выявления сигнатур атак

Предотвращение объёмных атак

Одной из угроз, перечисленных OWASP, является отказ в обслуживании модели. Как и в случае с традиционными приложениями, DoS‑атака осуществляется с использованием большого количества ресурсов, что приводит к снижению качества обслуживания или потенциальному увеличению затрат на эксплуатацию модели. Учитывая количество ресурсов, необходимых для запуска LLM и непредсказуемость пользовательского ввода, этот тип атаки может быть опасным.

Риск можно снизить, приняв политики ограничения скорости, которые контролируют скорость запросов от отдельных сеансов, тем самым ограничивая контекстное окно. Проксировав свою модель через Cloudflare, пользователи получают защиту от DDoS «из коробки». Также можно использовать ограничение скорости и расширенное ограничение скорости , чтобы управлять скоростью запросов, разрешённых для конкретной модели, путём установки максимальной скорости запросов, выполняемых отдельным IP-адресом или ключом API во время сеанса.

Функция обнаружения конфиденциальных данных

Существует два варианта использования конфиденциальных данных в зависимости от того, является ли пользователь владельцем модели и данных или хочет запретить пользователям отправлять данные в общедоступные LLM.

Согласно определению OWASP, раскрытие конфиденциальной информации происходит, когда LLM непреднамеренно раскрывает конфиденциальные данные в ответах, что приводит к несанкционированному доступу к данным, нарушениям конфиденциальности и безопасности. Один из способов предотвратить это — добавить строгие проверки подсказок. Другой подход заключается в том, чтобы определить, когда личная информация (ПДн) покидает модель. Это актуально, например, когда модель обучалась с использованием базы знаний компании, которая может включать конфиденциальную информацию (например, номера социального страхования), собственный код или алгоритмы.

Клиенты, использующие модели LLM на основе Cloudflare WAF, могут использовать управляемый набор правил обнаружения конфиденциальных данных WAF для идентификации определённых ПДн, возвращаемых моделью в ответе. Клиенты могут просматривать совпадения конфиденциальных данных в событиях безопасности WAF. Сегодня обнаружение конфиденциальных данных предлагается как набор управляемых правил, предназначенных для сканирования финансовой информации (например, номеров банковских карт), а также секретной информации (ключей API). В рамках дорожной карты Cloudflare планирует предоставить клиентам возможность создавать свои собственные отпечатки пальцев.

Другой вариант использования предназначен для предотвращения обмена пользователями ПДн или другой конфиденциальной информацией с внешними поставщиками LLM, такими как OpenAI или Anthropic. Чтобы защититься от этого сценария, Cloudflare планирует расширить правила обнаружения конфиденциальных данных для сканирования запроса и интеграции его вывода с AI Gateway, где наряду с историей запроса определяется, были ли в запрос включены определенные конфиденциальные данные.

Cloudflare начнет с использования существующих правил обнаружения конфиденциальных данных и планирует разрешить клиентам делать свои собственные подписи. Кроме того, запутывание — это еще одна особенность, о которой говорят многие клиенты. Когда расширенные правила обнаружения ПДн станут доступными, они позволят клиентам скрывать определенные конфиденциальные данные в командной строке до того, как они достигнут модели. Данная опция находится в стадии разработки.

Предотвращение злоупотреблений моделями

Злоупотребление моделями — это более широкая категория вредоносных действий. Сюда входят такие подходы, как «Prompt Injection» или отправка запросов, которые вызывают глюки или приводят к неточным, оскорбительным, неуместным или просто неуместным ответам.

Prompt Injection — это попытка манипулировать языковой моделью с помощью специально созданных входных данных, вызывающая непредвиденные реакции LLM. Результаты инъекций могут различаться: от извлечения конфиденциальной информации до влияния на принятие решений путём имитации обычного взаимодействия с моделью. Классическим примером такой инъекции является манипулирование резюме с целью повлиять на результаты инструментов проверки резюме.

Распространённая проблема, с которой сталкиваются клиенты AI Gateway, создание х оскорбительных или других неприятных ответов ИИ. Риски отсутствия контроля над результатами модели включают репутационный ущерб и вред конечному пользователю из‑за предоставления ненадёжного ответа.

С этими видами злоупотреблений можно справиться, добавив дополнительный уровень защиты перед моделью. Этот уровень можно обучить блокировать попытки внедрения или блокировать запросы, которые попадают в неподходящие категории.

Проверка подсказок и ответов

Файрвол для ИИ будет запускать серию обнаружений, предназначенных для выявления попыток быстрого внедрения и других злоупотреблений, например, для обеспечения того, чтобы тема оставалась в границах, определенных владельцем модели. Как и другие существующие функции WAF, файрвол автоматически ищет подсказки, встроенные в HTTP-запросы, или позволяет клиентам создавать правила в зависимости от того, где в теле JSON запроса можно найти подсказку.

После включения брандмауэр будет анализировать все входные данные и выставлять оценку в зависимости от их потенциальной вредоносности. Он также будет помечать подсказки на основе предопределённых категорий. Оценка варьируется от 1 до 99, что указывает на вероятность инъекции, где число 1 характеризуется как наивысшая вероятность.

Клиенты смогут создавать правила WAF для блокировки или обработки запросов с определенной оценкой в одном или обоих этих измерениях. Можно объединить эту оценку с другими существующими сигналами (например, оценкой бота или оценкой атаки), чтобы определить, должен ли запрос достичь модели или его следует заблокировать. Например, его можно объединить с оценкой бота, чтобы определить, был ли запрос вредоносным и сгенерирован автоматическим источником.

Обнаружение оперативных внедрений и оперативных злоупотреблений входит в задачу Firewall for AI. Ранняя версия дизайна продукта

Помимо оценки, каждой подсказке будут назначены теги, которые можно будет использовать при создании правил. Они будут предотвращать попадание подсказок с определённым тегом в модель. Например, клиенты смогут создавать правила для блокировки определённых тем или слов, отнесённых к категории оскорбительных или связанных с религией, сексуальным содержанием или политикой.

Как использовать брандмауэр для ИИ? Кто сможет им пользоваться

Корпоративные клиенты, использующие предложение Application Security Advanced, могут сразу же начать использовать расширенное ограничение скорости и обнаружение конфиденциальных данных (на этапе ответа). Оба продукта можно найти в разделе WAF панели управления Cloudflare. Функция быстрой проверки Firewall for AI в настоящее время находится в стадии разработки, а бета-версия будет выпущена в ближайшие месяцы для всех пользователей Workers AI.

Спасибо за внимание.

Tags:

Hubs: