Рынок искусственного интеллекта в России по итогам 2025 года может составить 600-800 млрд рублей, а к 2030 году достигнуть 1,2 трлн. Однако использование ИИ все еще сопряжено с некоторыми рисками. С чем может столкнуться бизнес при использовании ИИ-решений без тестирования? В чем специфика тестирования ИИ, и какие инструменты для этого нужны? Об этом и многом другом рассказывает директор отделения автоматизированного тестирования группы компаний IBS Денис Воденеев.
Уровень внедрения ИИ среди российских компаний вырос с 20% в 2021 году до 43-74% в 2024 году в зависимости от сегмента и методики подсчета. Среди крупнейших игроков 54% уже внедрили ИИ-решения хотя бы в одну бизнес-функцию.
Между тем глобальная статистика показывает, что более 80% ИИ-проектов терпят неудачу из-за системных проблем. Основные из них:
Классическая разработка ПО включает обязательный блок тестирования. В рамках него проводится проверка на соответствие фактического результата ожидаемому. Это позволяет выводить в продуктивную среду решения, которые полностью удовлетворяют предъявляемым к ним требованиям.
Однако при разработке систем с ИИ-аугментациями процент выделения функции тестирования пока критически мал. Как показывают наблюдения, чаще всего проводится A/B-тестирование потенциальными пользователями. Там же, где все-таки привлекаются отдельные специалисты, им приходится оперативно обучаться специфике ИИ-систем, на ходу разрабатывать метрики для оценки качества, а результат тестирования не всегда учитывает все показатели системы, которые могут повлиять на ее бизнес-эффект. Например, процент правильных ответов от общего количества или время отклика при массовом использовании.
Наиболее распространенный подход — субъективная оценка со стороны фокус-группы, в состав которой входят эксперты по тематике системы. Причем в подавляющем количестве случаев группа включает всего трех специалистов.
Можно выделить несколько трудностей в обеспечении качества систем с использованием ИИ:
Основной риск от внедрения непроверенного решения в том, что фактические результаты проекта могут не соответствовать запланированным, несмотря на большие затраты. Завышенные ожидания от технологии — одна из главных проблем, затем идут классические риски: финансовые, репутационные и прочие, только помноженные на ИИ. Вот только несколько примеров за 2024 год.
McDonald's завершил эксперимент с ИИ-решением в точках drive-through. Система, разработанная IBM, неконтролируемо увеличивала размер заказов. В одном вирусном видео ИИ предложил клиенту 260 наггетсов вместо стандартной порции. Проект был свернут более чем на 100 локациях из-за неспособности решения корректно функционировать.
Google приостановил функцию генерации изображений людей в Gemini после скандала с «чрезмерной инклюзивностью». Система создавала исторически неточные изображения, например, чернокожих викингов.
В том же году канадский суд обязал Air Canada компенсировать ущерб клиенту, которому чат-бот предоставил неверную информацию о льготных тарифах. Авиакомпания утверждала, что чат-бот является «отдельной юридической единицей», но суд отклонил этот аргумент. Дело установило прецедент: компании несут полную ответственность за действия своих ИИ-систем.
Важно понимать, что у генеративных ИИ-моделей в отличие от обычных программ нет жесткого алгоритма выполнения тех или иных задач. Даже если ограничить образ выдаваемого результата системными промптами, у пользователей останутся возможности для намеренного или случайного обхода запретов.
В то же время у ИИ есть ограничения, которые не до конца понятны. Как пример, недавний кейс с генератором «случайных чисел» в ИИ, когда разные модели при просьбе назвать любое число от 1 до 50 снова и снова выдавали 27.
Такие аспекты, как некоторая «вольность» при реализации задачи со стороны ИИ и вариативность взаимодействия пользователя с самой системой, нельзя оставлять без внимания при тестировании ИИ-решений, но и классические направления остаются актуальными.
Функциональное тестирование позволяет проверить, работает ли система, как ожидается, и не делает ли того, что не должна. Нагрузочное тестирование ответит на вопросы: сколько пользователей могут работать с этим решением, насколько быстро оно дает отклик, какое требуются оборудование для его эффективной работы. Учитывая скорость появления новых ИИ-архитектур и моделей, особенно важным становится регрессионное тестирование. Недостаточно просто подтвердить, что ИИ-инструмент успешно встроился в ИТ-ландшафт, надо убедиться, что он продолжает выполнять функции после выхода новой модели. Проблема деградации после обновлений встречается даже у известных чат-ботов.
Есть и более специфичные подходы к проверке ИИ-решений. Например, метаморфное тестирование помогает находить ошибки в работе ИИ за счет сравнения результатов программы на исходных и модифицированных входных данных. Хотя тестировщик не может знать фиксированный итоговый результат, он понимает, что должно произойти с входной информацией в процессе обработки. Его задача — найти инварианты (свойства, которые должны сохраняться при трансформациях входных данных), определить метаморфозы для разных инвариантов и провести проверку.
ИИ-модели принимают решения на основе данных. Если данные, на которых проходило обучение или дообучение, содержат искажения, итоговые результаты могут быть некорректными, как в случае с Google. С помощью биас-тестирования (Bias Testing) можно выявить и измерить систематические смещения в алгоритмах и данных.
При тестировании ИИ-решений, кроме классического стека инструментов, используются дополнительные. Например, фреймворк LangTest позволяет выявлять смещения (bias), оценивать справедливость модели и отсутствие дискриминаций по расе, полу, возрасту и т. д. (fairness) и проверять ее устойчивость к неблагоприятным условиям (robustness). Среди других специализированных решений можно выделить Deepchecks — Python-библиотеку с открытым исходным кодом для комплексного тестирования моделей и данных, а также Inspect-AI — библиотеку для анализа результатов генерации, в рамках которой для верификации можно использовать другие модели.
Тестирование ИИ-решений проводится на разных этапах проекта в зависимости от контекста. В одних случаях уместнее подход Shift Left (тестирование в начале процесса разработки), в других — Shift Right (тестирование после внедрения). Первый подход обычно применяется при подготовке и обучении моделей, второй рекомендуется для динамических и адаптивных ИИ-систем.
При разработке корпоративных решений с интеграцией больших языковых моделей наша команда сталкивалась со сложностями, связанными с обеспечением качества систем искусственного интеллекта.
Кейс 1. ИИ-ассистент для разработчиков
Первоначально при выборе оптимальной модели для генерации и автодополнения программного кода использовался экспертный подход. Была разработана методология бенчмаркинга с тестовым набором задач. Специалисты IBS оценивали эффективность системы по пятибалльной шкале. Однако при каждой смене модели приходилось проводить полное регрессионное тестирование. К тому же экспертные суждения не были лишены субъективности.
Команда IBS создала специализированный инструмент для автоматизированного бенчмаркинга моделей с готовыми тестовыми заданиями и наборами данных. Он позволяет значительно экономить время и ресурсы, обеспечивая при этом уверенность в надежности системы.
Кейс 2. Интеллектуальный поиск по корпоративной регламентной документации
В этом проекте ИИ-модель применялась для обработки свободного пользовательского ввода и последующего поиска в масштабируемом и динамически изменяющемся информационном массиве.
Ключевым требованием к системе была гарантированная точность результатов. Помимо базового поиска нужно было валидировать дополнительные характеристики решения: проверить его на информационное смещение (bias testing), оценить справедливость (fairness assessment), протестировать производительность при высоких пользовательских нагрузках, а также исключить генерацию ложной информации при невозможности найти релевантные данные.
Команда по обеспечению качества разработала комплексную методологию, которая включает:
Полученный опыт, а также обратная связь от бизнеса показали востребованность таких решений. В начале 2024 года IBS начала разработку новых услуг, направленных на повышение качества внедрения ИИ-систем через их тестирование.
Наша команда собрала стек инструментов для подготовки тестовых данных, автоматизированных проверок поведения системы, проведения нагрузочных испытаний, а также формирования регрессионных тестов, которые особенно важны в условиях стремительной технологической эволюции.
Кроме того, вносятся существенные изменения в требования к специалистам по тестированию. Для успешной работы тестировщики искусственного интеллекта должны иметь обязательный навык промптинга и базовое понимание ИИ-моделей.
Успех проекта во многом зависит от четко поставленных целей, организации процесса и слаженной работы на всех этапах.
Мы подготовили чек-лист ключевых практик, направленных на синхронизацию команды разработки, специалистов по качеству и бизнеса:
Следование этим пунктам минимизирует риски, повысит прозрачность и гарантирует, что создаваемая система действительно будет решать необходимые бизнес-задачи.
В случае сложных комплексных проектов внутренней экспертизы может оказаться недостаточно. В этой ситуации стоит задуматься о привлечении внешнего ИТ-партнера.