Оценка эффективности классификации заемщиков с помощью Data Mining
Если оценка кредитоспособности выше 1, но ниже 2,5, то следующие заемщики будут иметь название как «Сомнительный заемщик банка» — физическое лицо, которое обладает кредитоспособностью, частично подходящей банку. В этом случае банк может одобрить кредит, рискуя его возвратом. Если оценка кредитоспособности ниже 1, то данным заемщикам присваивается название «Не клиент банка» — результаты… Читать ещё >
Оценка эффективности классификации заемщиков с помощью Data Mining (реферат, курсовая, диплом, контрольная)
Оценка эффективности классификации заемщиков с помощью Data Mining
Бандюк Алена Валерьевна, Шалова Евгения Александровна Поволжский государственный университет телекоммуникаций и информатики, студент факультета информационных систем и технологий Данная статья посвящена оценке кредитоспособности заемщиков. С этой задачей сталкиваются банки каждый раз при одобрении кредита определенному лицу. Так как количество потенциальных заемщиков растет изо дня в день, то очень остро встала задача автоматизации данного процесса.
Ключевые слова: банк, заемщики, кредитоспособность, оценка эффективности классификации заемщиков, сбор данных, скоринг Введение. Данные состоят из массы фактов и цифр. Они должны быть тщательно организованы и классифицированы, чтобы мы могли извлечь из них нужную полезную информацию.
Классификацией данных является процесс сортировки и категоризации данных в различные типы, формы или любой другой отдельный класс. Классификация данных обеспечивает разделение и классификацию данных в соответствии с требованиями набора данных для различного бизнеса или личных целей. Это в основном и является процессом управления данными.
Он представляет собой разнообразные процессы, которые включают в себя различные методы и критерии для сортировки данных в базе данных или хранилище. Как правило, это делается с помощью программного обеспечения баз данных или бизнеса, который обеспечивает возможность сканирования и выявления отдельных данных. Некоторые примеры в области применения классификации данных включают в себя: Разделение данных о клиентах по половому признаку Выявление и хранение часто используемых данных в кэш-памяти диска / памяти Сортировку данных на основе содержимого по типу файла, размеру и времени данных Сортировку по соображениям безопасности путем классификации данных в ограниченных государственных или частных типах данных.
Постановка задачи. Целью исследования является задача по рассмотрению оценки кредитоспособности заёмщиков. Данная задача затрагивается банками каждый раз при выдаче кредита определённому лицу. Существует ряд проблем в этой сфере, решение которых заключается в автоматизации процесса выдачи кредитов. К таким проблемам относятся: проблема документооборота. Клиент вынужден тратить драгоценное время, бегая с документами, простаивая в очередях. Сотрудники банка, работники кредитного комитета и страховой компании обмениваются документами в бумажной форме;
недостаточно оперативный обмен информацией между банком, клиентом и страховой компанией;
сложность получения вышестоящими руководителями банка информации о выданных кредитах;
долгая процедура андеррайтинга (сопоставление рисков выдаваемым кредитам) и реструктуризации (изменение условий кредитования);
сложность контроля за соблюдением своевременных выплат по кредиту.
Так как количество потенциальных заемщиков растет изо дня в день, то очень остро встала задача автоматизации данного процесса. В данном случае объектами являются юридические или физические лица, которые претендуют на получение кредита. В случае с физическими лицами описание признаков состоит из анкеты, которая заполняется заёмщиком, и, возможно, информации, которую банк собирает о заёмщике из своих источников. Существуют несколько типов признаков скоринга: порядковые, количественные, бинарные и номинальные. Пример бинарных признаков: наличие телефона, пол. Номинальные признаки — работодатель, профессия, место проживания. Пример порядковых признаков: занимаемая должность, образование. Пример количественных признаков: возраст, сумма кредита, доход семьи, стаж работы, задолжности в других банках. Выборка составляется из заёмщиков, у которых известна кредитная история. В простейших случаях принятие решений сводится к классификации заёмщиков на два типа: «хороший» и «плохой». Кредиты выдаются только заёмщикам с пометкой «хороший». В более сложном случае суммируется число баллов или «score» заёмщика, которые набираются по совокупности информативных признаков. (Информативными признаками — является полезная для данной цели информацией, полученная из исходной информации) Чем больше оценка, тем более благонадёжным считается данный заёмщик. Отсюда и происходит название — кредитный скоринг. Сначала производится отбор и синтез информативных признаков, затем определяется, сколько баллов нужно назначать за каждый признак так, чтобы риск принимаемых решений был наименьшим. Последующая задача — решить, на каких же условиях стоит выдавать кредит. А именно: определить срок погашения, процентную ставку и другие параметры кредитного договора.
Техническое решение задачи скоринга в Data Mining dm-Score.
Data Mining (нахождение данных, интеллектуальный или глубинный анализ данных) — это собирательное название, которое используется для обозначения комплекса методов обнаружения в данных ранее неизвестных, оригинальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах деятельности человека.
Система dm-Score (data mining score) кредитного скоринга является решением, которое полностью интегрируется с используемым в банке программным обеспечением: СУБД, АБС и др. Она внедряется в информационное пространство конкретного банка и взаимодействует с ним как единое целое. Этот подход позволяет пользователю избежать ненужного повторения функций и, вследствие, приводит к эффективному использованию ресурсов банка.
Данная система состоит из двух аналитических блоков — блока принятия решений и блока анализа данных. В блоке анализа системы реализуется анализ данных о заемщиках банка, о выданных кредитах, истории их погашения на основе аналитической технологии Data Mining. Из-за тесного слияния с автоматизированной банковской системой, блок анализа может получать данные напрямую из нее.
Система dm-Score делает свои выводы на основе тех данных, которые уже накоплены банком в процессе работы на рынке розничного кредитования. В процессе введения системы она настраивается на тот набор данных, на который, собственно, и ориентирован конкретный банк. Другими словами, система dm-Score готова работать с теми данными, которые имеются в наличии, и программа не требует фиксирования на какой-либо из конкретных жестко заданных анкет.
Во время процесса анализа данных о заемщиках и кредитах используются разнообразные математические методы, например методы линейной регрессии, логистической регрессии, дискриминантного анализа, деревьев решений, нейронных сетей и т. д. которые выявляют в них факторы и их комбинации, влияющие на кредитоспособность заемщиков, и силу их влияния. Найденные зависимости и составляют основу для принятия решений в соответствующем блоке. Блок анализа должен периодически применяться для анализа вновь поступающих данных банка (текущие заемщики производят выплаты, также приходят новые заемщики), для поддержания актуальности системы dmScore и соответствия принимаемых ею решений.
Блок принятия решений (клиентская часть). Блок принятия решений используется напрямую для получения заключения системы dm-Score (data mining score) о кредитоспособности заемщика, о возможности выдачи ему кредита, о максимально допустимом размере кредита и т. п. С данным блоком работает служащий банка, который или вводит в него анкету нового заемщика, или получает ее из торговой точки, где банк реализует программу потребительского кредитования.
Из-за тесного слияния системы dm-Score (data mining score) с информационным пространством банка, результаты работы этого блока передаются напрямую в АБС (автоматизированная банковская система) и систему автоматизации ритейла, которые уже формируют все требуемые документы, ведут кредитную историю и т. д. Следовательно, и система dm-Score, и все банковские системы работают как единое целое, повышая продуктивность деятельности сотрудников банка.
При реализации данного метода применялась таблица клиентов базы данных Сбербанка. Содержание и состав данных этой таблицы следуют из понятия кредитоспособности, т. е. данные должны отражать финансово-хозяйственное состояние физических лиц с точки зрения размещения и эффективности использования заёмных средств и всех средств вцелом, оценить готовность и способность заёмщика погашать кредиты и совершать платежи в заранее определённые сроки. Особо значимую роль в определении кредитоспособности физического лица играет не только его способность возвратить долг, но и готовность лица возвращать кредит, а так же своевременно уплачивать проценты. Данная готовность различна у каждого заемщика и она зависит от личных характеристик человека. Этими характеристиками могут быть: стаж работы, образование, семейное положение, социальный класс и т. д.
Таблица с клиентской базой содержит в себе следующие сведения:
1. Дата — дата внесения данных о клиенте для анализа кредитоспособности.
- 2. Фамилия заёмщика.
- 3. Имя заёмщика.
- 4. Отчество заёмщика.
- 5. Сумма кредита — размер желаемой ссуды.
- 6. Размер ежемесячных выплат.
- 7. Количество лет проживания в данноом регионе.
- 8. Социальный статус
- 9. Социальный статус супруга (имеется ли постоянная работа).
- 10. Образование — высшее/неоконченное высшее/среднее.
- 11. Стаж работы — количество проработанных лет.
- 12. Личный ежемесячный доход после налогообложения (или размер
пенсии-для пенсионеров).
- 13. Рыночная стоимость автомобиля
- 14. Рыночная стоимость недвижимости.
- 15. Наличие хорошей кредитной истории — своевременное погашение
долга с процентами.
- 16.
Заключение
из психои наркодиспансера.
- 17. Наличие судимости.
- 18. Размер алиментных обязанностей.
- 19. Количество детей.
- 20. Присутствие освобождения от воинской службы.
В предложенном методе используются такие функции как:
«замена данных», необходимая для определения оценки кредитоспособности лица, к числовому формату (например, значение «среднее» в поле «образование» заменить на 2, а «высшее» на значение 3);
«калькулятор», предназначенный для математического определения оценки кредитоспособности заемщика;
«фильтрация», позволяющая оставлять в наборе данных только информацию, удовлетворяющую заданным условиям.
Подробное описание каждой из вышеперечисленных функций рассмотрено ниже.
Замена данных. Для применения операции «замена данных», которая будет использоваться для реализации данного метода, требуется создать таблицу подстановки. По этой таблице происходит замена значений, она содержит пары, которые состоят из выходного и исходного значения. Например, 2 — «среднее образование», 3 — «высшее образование», Для получения достоверного и точного результата работы метода следует воспользоваться таблицей подстановки (табл. 1).
Таблица 1 — Таблица подстановки для клиентской базы банка.
кредитоспособность заемщик data mining.
Сначала для каждого значения исходного набора данных подбирается соответствие среди значений таблицы подстановки, которые являются исходными. Если было найдено соответствие, то значение меняется на соответствующее ей выходное значение из таблицы подстановки. В том случае, если искомое значение найдено не было, в таблице оно либо заменяется значением, которое указано для замены «по умолчанию «, либо остается неизменым (если оно не указано). Помимо этого, можно указывать значения, которые требуется вставить вместо пустующих ячеек.
Вычисление оценки кредитоспособности. Подсчет оценки кредитоспособности состоит из двух частей:
- 1) подсчет коэффициента, который связан с денежными показателямиCI (Cash indicators);
- 2) подсчет коэффициента, который не связан с денежными показателями — QI (Qualitative indicators).
Оценку кредитоспособности можно найти путем сложения данных коэффициентов. Первый коэффициент (CI) рассчитывается по формуле (1) :
Формула 1.
где TR — это ежемесячный личный доход после налогообложения (или размер пенсии для пенсионеров), MF (Monthly fee) — размер ежемесячной выплаты. AP (Alimony payment) — размер выплативаемых лицом алиментов, PV (Property value) — рыночная стоимость недвижимости, CV (Car value) — рыночная стоимость автомобиля, DS (Duty of Service) — присутствие освобождения от воинской службы, LA (Loan amount) — сумма кредита.
Второй коэффициент QI считается по формуле (2) :
Формула 2.
где: RT (Resident time) — количество прожитых в регионе лет, EH (Employment history) — рабочий стаж, EL (Education level) — образование, PS (Partner status) — социальный статус супруга (и), CH (Credit history) — наличие хорошей кредитной истории, CN (Children number) — количество детей, RC (Record of convictions) — наличие судимости, MN (Medical note) — заключение из психои наркодиспансера.
ПРИМЕР ВЫЧИСЛЕНИЯ ОЦЕНКИ КРЕДИТОСПОСОБНОСТИ Предположим, что кредит требуется гражданину РФ пенсионного возраста с размером пенсии 8000 руб., размером ежемесячной выплаты 506 руб. и рыночной стоимостью недвижимости 1 000 000 руб. Сумма кредита 40 000 руб. Заемщик прожил в данном регионе 50 лет. Стаж работы 25 лет. Имеется высшее образование. Заемщик имеет хорошую кредитную историю. Известно, что у пенсионера трое детей, супруг работает, судимостей нет, не состоит на учете в психои наркодиспансере.
Составим таблицу 2 нечисловых характеристик и присвоим балллы:
Таблица 2 — Нечисловые характеристики и присвоенные баллы.
Рассчитаем коэффициент, связанный с денежными показателями:
Теперь вычислим коэффициент, который не связан с денежными показателями:
Сложим данные коэффициенты:
Из-за того, что оценка кредитоспособности больше 2.5, то данное физическое лицо обладает кредитоспособностью, которая подходит банку.
Нахождение выходных данных — категории заемщика. Отнесение заемщиков к определенной категории является последним пунктом в анализе кредитоспособности. В данном методе для определения категории заемщика по вычисленной оценке его кредитоспособности применяется такой инструмент как.
«Фильтрация». Это инструмент, который позволяет оставлять в наборе данных только такие данные, удовлетворяющие заданным условиям. Структура условия является простой: поле, по значению которого будет осуществляться фильтрация; само условие (знак сравнения и значения с которым сравнивать); логическая операция в случае сложных условий («ИЛИ» или «И») .
Для выявления категории заемщика, следует разбить его оценку кредитоспособности на некоторые интервалы (группы) при помощи инструмента «Фильтрация».
В рассматриваемом методе применяется три категории в силу удобства использования такой классификации. Иными словами, некоторые потенциальные заемщики будут отнесены к категории «удовлетворительны», некоторые к «неудовлетворительны», а остальные к «рискованные». Так же применяется следующая шкала для определения категории кредитоспособности потенциальных клиентов:
Если оценка кредитоспособности выше показателя 2,5, то данные заемщики будут иметь название «Клиент банка» — физическое лицо, которое обладает кредитоспособностью, подходящей банку.
Если оценка кредитоспособности выше 1, но ниже 2,5, то следующие заемщики будут иметь название как «Сомнительный заемщик банка» — физическое лицо, которое обладает кредитоспособностью, частично подходящей банку. В этом случае банк может одобрить кредит, рискуя его возвратом. Если оценка кредитоспособности ниже 1, то данным заемщикам присваивается название «Не клиент банка» — результаты исследования крайне не рекомендуют одобрять кредит такому заемщику. Рассмотренная шкала является гибкой. Так, если банк не готов идти на риск при выдаче потребительского кредита, то он может повысить коэффициент изменения категории кредитоспособности заемщика. В ином случае, если целью банка является повышение количества одобренных кредитов, — на низкий уровень.
Плюсы использования Data Mining в процессе скоринга В ходе решения изложенной выше задачи с применением технологии Data Mining банк получает следующие преимущества:
Объективность. Data Mining способна находить объективные закономерности между различными факторами, тем самым позволяя сократить влияние субъективного человеческого фактора в процессе принятия решений.
Автоматизация. Методика на основе Data Mining, в отличие от экспертных методик, способна быть эффективно автоматизирована и может обрабатывать значительные потоки заявок в режиме реального времени. Сначала на вход поступает анкета потенциального заемщика, а затем система незамедлительно выдает решение — лимит кредита, кредитный рейтинг и т. п.
Точность. По сравнению со статистическими методами анализа данных, технология Data Mining способна на более глубокий анализ, выявляя даже неочевидные зависимости. Следовательно, данная методика учитывает больше важных факторов и тем самым дает более точные рекомендации. Конкретно, это подтверждается успешным опытом использования технологии Data Mining ведущими банками запада.
Адаптируемость. Кредитная ситуация может меняться с течением времени, поэтому требуется постоянное отслеживание изменений в поведении заемщиков. Методика, которая основана на технологии Data Mining, способна учитывать все эти изменения, потому что периодически анализирует новые данные. Таким образом, она самостоятельно адаптируется под изменяющиеся условия. Это также помогает принимать более точные и обоснованные кредитные решения.
Гибкость. В случае, если необходимо изменить анкету заемщика, который хотел бы взять кредит, — например, включить или убрать дополнительные пункты,, поменять варианты ответа на вопросы и т. п. Хорошая методика при этом не должна нуждаться в привлечении квалифицированных экспертов для приспособления ее под иную структуру данных.
Объяснимость. Является так же важной характеристикой хорошей методики: способность объяснить, почему конкретный заемщик получил данный кредитный рейтинг (например, причину того, почему не следует одобрять кредит данному лицу) или почему ему необходимо установить определенный лимит по карточке и т. п.
Заключение
В процессе исследования был проведен анализ предметной области, было рассмотрено взаимодействие банка с заёмщиками, и то, какие данные банки требуют от клиента и анализируют для принятия верного решения о его платёжеспособности.
Также был рассмотрен один из методов оценки кредитоспособности клиентов, использующийся на практике, и проанализировали его недостатки и преимущества по некоторым критериям.
Предложенный в данной статье метод определения кредитоспособности клиента банка основывается на использовании системы бизнес-аналитики и объединенного использования средств Data Mining. Этот метод является не только действенным, но и гибким, так как его несложно настроить на конкретные требования, условия, которые предъявляются к клиентам банка для выявления необходимого результата.
Библиографический список
- 1. Буздалин А. В. Экспресс-оценка работы Гамидов Г. Н. Банковское и кредитное дело. — М.: ЮНИТИ «Банки и биржи», 2006.-365 с. банка // Банковское дело. — 2008. — № 8. — с. 33−37.
- 2. Киселев М. Определение платежеспособности предприятий-заемщиков // Банковский аудитор.- 2008. — № 2. — с. 19−22.
- 3. Новикова Е. В. Об оценке кредитоспособности заемщиков//Деньги и кредит.-2007.-№ 10.-с.31−35.
- 4. Худякова Е. В. Об оценке кредитоспособности заемщиков // Деньги и кредит. — 2005. — № 10. — с.31−35.