Какими преимуществами она обладает? Как грамотно внедрить ее в банковскую инфраструктуру? И почему применение трансформера повышает коэффициент Gini моделей кредитного риска? Рассказывает Максим Чайка, руководитель направления «Кредитные риски» компании IBS.
Одной из ключевых задач в сфере моделирования кредитных рисков является построение алгоритма с наивысшей разделяющей (или дискриминирующей) способностью. Это свойство алгоритма измеряется коэффициентом Gini: чем выше Gini — тем лучше дискриминирующая способность.
Недавно проведенное IBS небольшое исследование показало, что, во-первых, у среднего-статистического российского банка должно быть не менее сотни различных моделей по оценке кредитного риска, во-вторых, наиболее распространенными видами моделей являются PD- (модели оценки вероятности дефолта) и LGD-модели (модели оценки потерь при дефолте), основной метрикой качества которых традиционно является коэффициент Gini.
Таким образом, для того чтобы проанализировать эффективность нейросетевых алгоритмов в моделировании кредитных рисков, мы сфокусировались на PD/LGD-моделях и их значениях Gini.
Традиционно выделяются три основных инструмента моделирования: логистическая регрессия, ансамблевые методы и нейросетевые алгоритмы.
Вплоть до 2010 годов активно использовалась логистическая регрессия, построенная с помощью метода наименьших квадратов (МНК). К слову, LogReg и сейчас все еще активно применяют, но уже с использованием метода градиентного спуска.
Однако уже в 2010 годах (в результате бурного роста объемов больших данных и увеличения разнообразия их источников) популярность стали набирать так называемые ансамблевые методы: бэггинг, бустинг, стэкинг.
Модели, построенные с использованием этих методов, обладают более высокой дискриминационной способностью по сравнению с построенными на классических методах.
Также следует отметить, что ансамблевые методы более ориентированы на выявление платежеспособных заемщиков и, с точки зрения «отсечения» будущих дефолтников, однозначного преимущества перед классическими методами у них нет.
Методы, основанные на нейронных сетях, стали приобретать популярность среди российских моделистов только в последние 10 лет. При их практическом использовании стало понятно, что они обладают максимальной дискриминационной способностью среди всех ранее использовавшихся подходов.
При этом, как правило, ошибка II рода нейросетевых алгоритмов меньше, чем у других — такие алгоритмы весьма успешно выявляют максимально высокую долю потенциально проблемных заемщиков.
Эффективность нейросетевых алгоритмов постоянно растет. Например, показатель точности некоторых современных нейросетевых моделей компьютерного зрения уже превышает отметку 90–95%. Очевидно, что прогресс продолжится, и в будущем нейросети будут использоваться в кредитном риск-менеджменте еще более активно.
Несколько слов о трансформере: трансформер (TNN) — это архитектура нейронной сети, отличительной особенностью которой является наличие механизма внимания, позволяющего алгоритму фокусироваться на наиболее важных частях данных и игнорировать наименее важные. Трансформеры способны эффективно обрабатывать неструктурированные данные и данные очень большого объема. Это делает их незаменимым инструментом для решения задач моделирования кредитного риска.
Результаты исследований, проведенных на данных внутренней синтетической песочницы IBS, а также ряд проектов с нашими клиентами — финансовыми институтами — показывают, что TNN — лучший в деле предсказания дефолтов.
Показатели CIR и COR у наших клиентов-банков, полностью его внедривших, существенно снизились, как результат — повышение точности оценки риска новых и уже существующих заемщиков.
При этом по производительности и функциональным характеристикам TNN стал наилучшим решением среди всего множества подходов к моделированию кредитного риска, предлагаемых нашей компанией. Проведенное IBS тестирование (на основе системы из 25 тестов) показало отличный результат. Все TNN-модели отвечают требованиям не только с точки зрения их дискриминационной способности, но также по точности и стабильности.
Еще одним открытием стало то, что к практической жизни трансформер не приспособлен — необходима его комплексная интеграция во все системы и процессы, без которой эффект от внедрения будет значительно слабее.
Помимо трансформера необходимо технологическое обновление системы управления рисками финансового института: формирование инфраструктуры сбора и агрегации данных, нормализации и восстановления их качества, параллельно с формированием новых хранилищ данных и получением доступа к новым данным.
У тех проектов, для которых IBS реализовала весь цикл соответствующих работ, наблюдалась миграция новых технологий в традиционно не-рисковые области, а сами системы управления рисками переходили на новую (более качественную) стадию своего развития. Качественные системы и процессы стали производить более качественные модели. Возникал так называемый «синергетический эффект».