Современные методы и инструменты для тестирования безопасности языковых моделей Прочее
Я — сотрудник компании Raft Digital Solutions, Software Developer/AI Engineer. Основные интересы включают безопасность языковых моделей, чтение связанных научных статей и тестирование гипотез в этой области.
Тезисы
Модели, не подвергнутые тестированию, могут давать ошибочные результаты, что снижает доверие к их выводам и рекомендациям. Разработчики должны быть уверены, что модели, которые они используют в своих системах, безопасны и надёжны. Проведение тщательных тестов на уязвимости способствует формированию доверия к технологиям ИИ. В своём докладе, я расскажу о том, как тестирование на уязвимости помогает выявить и устранить слабые места языковых моделей.
Покажу, как использовать инструмент для тестирования уязвимостей языковых моделей — Garak. Рассмотрим, как протестировать и защититься от адверсарных(состязательных) суффиксов, обфускации и Token Smuggling'a, чтобы уязвимости в моделях не привели к финансовым потерям и ущербу репутации организаций, использующих эти модели.
Процесс тестирования моделей на уязвимости способствует развитию новых методов и технологий защиты, что в конечном итоге ведет к созданию более совершенных и безопасных моделей. Тестирование на уязвимости является критически важным аспектом разработки и эксплуатации языковых моделей, обеспечивая их безопасность, надежность и соответствие этическим и правовым требованиям.
