Kurumsal kredi risk değerlendirmesi: Bir Türk finans kurumu örneği
No Thumbnail Available
Date
2023
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Open Access Color
OpenAIRE Downloads
OpenAIRE Views
Abstract
Bu tez iki bölümden oluşmaktadır. İlk bölümde, bir müşterinin ödeme yapıp yapmayacağını tahmin etmeye çalışıyoruz. İkinci bölümde, kredi başvurusunun onaylanıp onaylanmayacağına karar vermek için bir kredi skoru modeli oluşturma üzerine çalışıyoruz. Bu amaçla kullanılan veri kümesi, finans sektöründeki önde gelen kurumlardan birinden elde edilmiştir. Veri kümesi, başvuru sahibinin verilerine, kurumsal verilere, hissedar verilerine ve kredi geçmişine genel olarak atıfta bulunan 401 değişkeni içerir. Bu değişkenler içerisinden, giriş değişkenlerini ayırt ederek ve ardından bu girişleri inceleyerek kuvvetli ilişkili değişkenleri ve neredeyse tamamı eksik değerlerden oluşan değişkenleri kullanmaktan kaçınarak azaltıyoruz. Veri kümesindeki değişkenlerin büyük bir kısmında haklı sebeplerle eksik giriş bulunmaktadır. Bu sorunu çözmek için, hangi değişken grubunun hangi müşteriyle ilgili olduğunu yansıtmak adına yedi alt küme oluşturduk. Onaylanan krediler arasında yaklaşık %96 oranında ödeme yapan örnekler ve %4 oranında ödeme yapmayan örnekler bulunmaktadır. Bu tezde, eğitim kümelerindeki örnekleri dengelemek için üç örnekleme tekniği kullanıyoruz: alt örnekleme, aşırı örnekleme ve sentetik azınlık aşırı örnekleme tekniği. Ayrıca altı sınıflandırıcı uyguluyoruz: Rastgele Orman, Naif Bayes, Lojistik Regresyon, Destek Vektör Makinesi, Karar Ağacı ve K-En Yakın Komşu. Bu tekniklerin performansını ölçmek adına, çoğunluk sınıfının ve azınlık sınıfının sırasıyla ne kadar iyi tahmin edildiğini ölçmek için duyarlılık ve özgüllük kullanıyoruz. Hesaplamalar sonucunda, %50'den fazla duyarlılık ve özgüllük elde ettik, burada alt örnekleme tekniğinin azınlık sınıfı için en iyi örnekleme tekniği olduğu ve SMOTE ve aşırı örneklemenin, çoğunluk sınıfı için daha iyi performans gösterdiği gözlemlenmiştir. Seçilen değişkenlerin analizinde, neredeyse tüm değişkenlerin onaylanan ve reddedilen krediler arasında ayrım yapamadığı gözlemlendiği için lojistik regresyon kullanılarak tahmin edilen kredi puanları güvenilmez olarak değerlendirildi.
This thesis is mainly divided into two parts. In the first part, we try to predict whether a customer defaulted. In the second part, we work on creating a credit scoring model that is supposed to help decide whether to approve or reject a credit application. The dataset used for this purpose is obtained from one of the leading institutions in the finance sector. It consists of 401 variables generally referring to the applicant's data, corporate data, shareholder data, and credit history. We reduce this large number of variables by identifying the input variables from the others and then studying those inputs to avoid using strongly correlated variables and variables consisting almost entirely of missing values. Many variables in the dataset have too many missing entries, but for justifiable reasons. To solve this issue, we created seven subsets to reflect which group of variables relates to which customer. The dataset is imbalanced, consisting of about 96% non-default instances and only around 4% default instances among approved loans. In this thesis, we use three sampling techniques to balance the instances in the training sets: under-sampling, oversampling, and synthetic minority oversampling technique, and we apply six classifiers: Random Forest, Naïve Bayes, Logistic Regression, Support Vector Machine, Decision Tree, and K-Nearest Neighbor. To measure the performance of these techniques, we use sensitivity and specificity to measure how well the majority class and minority class were respectively predicted. As a result, we simultaneously achieved greater than 50% sensitivity and specificity, where the under-sampling technique was the best sampling technique for the minority class, and SMOTE and oversampling performed better for the majority class. Credit scores predicted using logistic regression were inferred as unreliable because, in our analysis of selected variables, we found that almost all variables failed to discriminate between approved and rejected loans.
This thesis is mainly divided into two parts. In the first part, we try to predict whether a customer defaulted. In the second part, we work on creating a credit scoring model that is supposed to help decide whether to approve or reject a credit application. The dataset used for this purpose is obtained from one of the leading institutions in the finance sector. It consists of 401 variables generally referring to the applicant's data, corporate data, shareholder data, and credit history. We reduce this large number of variables by identifying the input variables from the others and then studying those inputs to avoid using strongly correlated variables and variables consisting almost entirely of missing values. Many variables in the dataset have too many missing entries, but for justifiable reasons. To solve this issue, we created seven subsets to reflect which group of variables relates to which customer. The dataset is imbalanced, consisting of about 96% non-default instances and only around 4% default instances among approved loans. In this thesis, we use three sampling techniques to balance the instances in the training sets: under-sampling, oversampling, and synthetic minority oversampling technique, and we apply six classifiers: Random Forest, Naïve Bayes, Logistic Regression, Support Vector Machine, Decision Tree, and K-Nearest Neighbor. To measure the performance of these techniques, we use sensitivity and specificity to measure how well the majority class and minority class were respectively predicted. As a result, we simultaneously achieved greater than 50% sensitivity and specificity, where the under-sampling technique was the best sampling technique for the minority class, and SMOTE and oversampling performed better for the majority class. Credit scores predicted using logistic regression were inferred as unreliable because, in our analysis of selected variables, we found that almost all variables failed to discriminate between approved and rejected loans.
Description
Keywords
Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
Turkish CoHE Thesis Center URL
Fields of Science
Citation
WoS Q
Scopus Q
Source
Volume
Issue
Start Page
End Page
98