Real time prediction of delivery delay with machine learning
Loading...
Files
Date
2023
Authors
Küp, Büşra Ülkü
Journal Title
Journal ISSN
Volume Title
Publisher
Kadir Has Üniversitesi
Abstract
İnternetin yaygınlaşması, e-ticaret ve lojistik endüstrilerinde önemli bir dönüşüme yol açmıştır. Bu dönüşüm, çevrimiçi alışverişte önemli bir artışa öncülük etmiş ve rekabetçi ortamda kargo şirketlerinin operasyonel verimliliğini arttırma ihtiyacını ortaya çıkarmıştır. Teslimat süreçlerini optimize etmek ve müşteri memnuniyetini artırmak amacıyla, makine öğrenimi kullanılarak teslimat gecikmelerinin tahmin edilmesi, lojistik şirketlerine önemli katkılar sağlayacaktır. Ayrıca, gerçek dünya verilerinin bu çalışmada kullanılması, elde edilen sonuçların güvenilirliğini artırmakta ve makine öğreniminin lojistik endüstrisi odaklı akademik araştırmalarda kullanılmasının avantajlarını vurgulamaktadır. Bu çalışmada, Logistic Regression, XGBoost, CatBoost ve Random Forest gibi en yaygın kullanılan dört denetimli sınıflandırma algoritması, bir e-ticaret lojistik şirketinde gerçek zamanlı veriler kullanılarak teslimat gecikmelerinin tahmin edilmesi amacıyla uygulanmıştır. Tüm süreç boyunca sürekli gecikme tahmini yapabilmek için, tüm teslimat süreci farklı gönderi türleri için sırasıyla 11 ve 15 adım şeklinde ayrıştırılmış ve her adım için ayrı tahmin modelleri oluşturulmuştur. Bu modellerin performansını artırmak için optimal parametre ve öznitelik seçimi yöntemleri kullanılmıştır. Kullanılan bu optimizasyon teknikleri, modellerin performansları üzerinde önemli bir olumlu etki sağlamıştır. Elde edilen sonuçlara göre, dört farklı sınıflandırıcı kullanılarak oluşturulan modellerin nihai ROC-AUC skoru ile değerlendirildi. XGBoost için ROC-AUC puanları \%71,5 ile \%99,9 arasında değişmekteyken, CatBoost için ROC-AUC puanları \%72,4 ile \%99,9 arasında değişim gösterdi. Bu iki sınıflandırıcı farklı adımlarda çok yakın performans göstermiş olsalar da, CatBoost genel olarak XGBoost'a kıyasla biraz daha iyi bir sonuç ortaya koymuştur. Gelecekteki çalışmalarda, daha doğru sonuçlar elde edebilmek için derin öğrenme bazlı sınıflandırma methodlarının denenmesi ve ek özniteliklerin entegre edilmesi üzerine çalışmalar yapılacaktır. Daha büyük veri kümeleri kullanılması önerilen gecikme tahmini yaklaşımının, daha etkin çıktılar ve performans iyileştirmeleri sağlayacaktır. Ancak, daha büyük veri kümeleri elde edilmesi, işlenmesi ve derin öğrenme modellerinin denenmesi için daha yüksek performanslı donanımsal, işlemci ve hafıza, kaynaklara ihtiyaç duyulacaktır. Bu zorlukların üstesinden gelmek ve daha yüksek performanslı çözümler sunmak için çeşitli stratejiler ve teknikler geliştirilmeye devam edilecektir.
The growth of the Internet has led to a considerable transformation in the e-commerce and logistics industries, resulting in a surge in online shopping and an increased need for efficient delivery operations. This study's impact is significant as its findings offer valuable insights into predicting delivery delays using machine learning, allowing logistics companies to optimize their processes and enhance customer satisfaction. Moreover, the use of real-world data in this study lends credibility to the findings and highlights the advantages of integrating real-time and machine learning in academic research. Four of the most commonly used supervised classification algorithms in the literature - Logistic Regression, XGBoost, CatBoost, and Random Forest - were employed in this study to predict early delivery delays in a e-commerce logistics company using real-world data. To enable continuous prediction throughout the entire process, the delivery process was split into 11 and 15 steps for different delivery types. Prediction models were optimized separately for each step's unique model during the process, using parameter tuning and feature selection. When evaluating final ROC-AUC scores for models created using four classifiers, it was found that the ROC-AUC scores for XGBoost ranged from 71.5\% to 99.9\%, while the ROC-AUC scores for CatBoost ranged from 72.4\% to 99.9\%. Although the results of the two classifiers were adjacent in the different steps, CatBoost had slightly better performance metrics overall compared to XGBoost.In future work, a comprehensive range of algorithms will be explored, additional features will be integrated, and deep learning models will be investigated to achieve greater accuracy and robustness. By utilizing larger datasets, even at a big-data scale, proposed models can uncover more advanced insights and improved performance. However, this method does require high computational hardware and power. The challenges associated with model interpretability and computational requirements will be addressed in next steps.
The growth of the Internet has led to a considerable transformation in the e-commerce and logistics industries, resulting in a surge in online shopping and an increased need for efficient delivery operations. This study's impact is significant as its findings offer valuable insights into predicting delivery delays using machine learning, allowing logistics companies to optimize their processes and enhance customer satisfaction. Moreover, the use of real-world data in this study lends credibility to the findings and highlights the advantages of integrating real-time and machine learning in academic research. Four of the most commonly used supervised classification algorithms in the literature - Logistic Regression, XGBoost, CatBoost, and Random Forest - were employed in this study to predict early delivery delays in a e-commerce logistics company using real-world data. To enable continuous prediction throughout the entire process, the delivery process was split into 11 and 15 steps for different delivery types. Prediction models were optimized separately for each step's unique model during the process, using parameter tuning and feature selection. When evaluating final ROC-AUC scores for models created using four classifiers, it was found that the ROC-AUC scores for XGBoost ranged from 71.5\% to 99.9\%, while the ROC-AUC scores for CatBoost ranged from 72.4\% to 99.9\%. Although the results of the two classifiers were adjacent in the different steps, CatBoost had slightly better performance metrics overall compared to XGBoost.In future work, a comprehensive range of algorithms will be explored, additional features will be integrated, and deep learning models will be investigated to achieve greater accuracy and robustness. By utilizing larger datasets, even at a big-data scale, proposed models can uncover more advanced insights and improved performance. However, this method does require high computational hardware and power. The challenges associated with model interpretability and computational requirements will be addressed in next steps.
Description
Keywords
Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
Turkish CoHE Thesis Center URL
Citation
WoS Q
Scopus Q
Source
Volume
Issue
Start Page
1
End Page
107