29 нояб. 2023 Alexandr Yao 185

AWS внедряет ограждения для Amazon Bedrock: как это поможет защитить LLMs?

Amazon представляет Guardrails для контроля над языковыми моделями

На конференции AWS re:Invent в Лас-Вегасе, генеральный директор AWS Адам Селипски объявил о запуске Guardrails для Amazon Bedrock. Этот инструмент позволяет компаниям определять и ограничивать типы языка, который может использовать модель. Если кто-то задает вопрос, который не имеет отношения к создаваемому боту, он не будет на него отвечать, вместо того чтобы давать убедительный, но неправильный ответ, или хуже - что-то оскорбительное, что может навредить бренду.

Особенности работы Guardrails

На самом базовом уровне, компания позволяет вам определять темы, которые недоступны для модели, поэтому она просто не отвечает на нерелевантные вопросы. В качестве примера Amazon использует компанию, предоставляющую финансовые услуги, которая может захотеть избежать дачи ботом инвестиционных советов из страха, что он может дать неподходящие рекомендации, которые клиенты могут воспринять всерьез. Сценарий может работать следующим образом:

"Я указываю запрещенную тему с названием 'Инвестиционные советы' и даю описание на естественном языке, такое как 'Инвестиционные советы относятся к запросам, руководствам или рекомендациям относительно управления или распределения средств или активов с целью получения дохода или достижения конкретных финансовых целей'."

Кроме того, вы можете отфильтровать определенные слова и фразы, чтобы удалить любой контент, который может быть оскорбительным, применяя фильтры разной силы к разным словам и фразам, чтобы дать модели понять, что это недопустимо. Наконец, вы можете отфильтровать данные PII, чтобы они не попадали в ответы модели.

Важность Guardrails для разработчиков

Рэй Ванг, основатель и главный аналитик в Constellation Research, говорит, что это может быть ключевым инструментом для разработчиков, работающих с большими языковыми моделями, чтобы помочь им контролировать нежелательные ответы. "Одним из самых больших вызовов является создание ответственного ИИ, который безопасен и прост в использовании. Фильтрация контента и PII - это две из пяти главных проблем, с которыми сталкиваются разработчики", - сказал Ванг TechCrunch. "Возможность обеспечения прозрачности, объяснимости и обратимости также важна", - добавил он.

Функция Guardrails была анонсирована сегодня в режиме предварительного просмотра. Вероятно, она будет доступна всем клиентам в следующем году.

KVM Переключатели