Performance Comparison of Locality Sensitive Hashing and Random Forest Algorithms for Handwritten Digits Recognition

dc.contributor.advisor Arsan, Taner en_US
dc.contributor.author Cayir, Aykut
dc.contributor.author Arsan, Taner
dc.contributor.other Computer Engineering
dc.date.accessioned 2019-07-12T08:36:09Z en_US
dc.date.available 2019-07-12T08:36:09Z en_US
dc.date.issued 2014 en_US
dc.department Enstitüler, Lisansüstü Eğitim Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalı en_US
dc.department-temp Kadir Has University : Graduate School of Science and Engineering: Computer Engineering en_US
dc.description.abstract The significant increase in data created has caused to come out a new concept which is called big data. in addition to that multidimensional data instances in big data sets have many new features. Therefore some problems become much more critical for data analysis in big data sets. One of these very important problems is classification of multidimensional data instances in big data sets in a reasonable time. Classification is also related to K-Nearest Neighbors problem in machine learning and data mining areas. A perfect example of the classification problem is object or pattern recognition for images in real world applications. Pattern or object recognition can be reduced to similarity search problem. in this work we focused on the similarity search problem in large scale databases. Firstly we implemented two popular machine learning algorithms: Locality Sensitive Hashing (LSH) and Random Forest (RF) with the Python programming language. Then we compared these two parameter-dependent algorithms in two different handwritten digits-characters datasets: MNiST and NOTMNiST. in the experiments we examined the algorithms performance in terms of recognition accuracy CPU time for various algorithm specific parameters. Finally we observed that LSH and RF exhibit positive and negative features according to their parameters and we reached the conclusion that LSH is more useful for time critical applications and RF is more favorable for accuracy critical applications. -- Abstract'tan. en_US
dc.description.abstract Data üretimindeki önemli artış büyük veri denilen yeni bir kavramın ortaya çıkmasına sebep olmuştur. Buna ilaveten büyük veri kümelerindeki birçok veri örneği çok boyutlu özelliklere sahiptir. Bu sebeple, büyük veri kümelerindeki veri analizinde bir takım sorunlar çok daha kritik bir hale gelmektedir. Bu önemli sorunlardan bir tanesi çok boyutlu veri örneklerinin bulunduğu büyük veri kümelerinde makul bir zamanda sınıflandırma yapılması işlemidir. Sınıflandırma işlemi makine öğrenimi ve veri madenciliği alanlarındaki K-Nearest Neighbors problemiyle ilişkilidir. Sınıflandırma probleminin gerçek dünya uygulamalarındaki güzel bir örneği resimlerde nesne ya da örüntü tanımlamadır. Örüntü ya da nesne tanımlama ise benzerlik araması problemine indirgenebilir. Bu çalışmada, biz büyük ölçekli veritabanlarında benzerlik araması problemine odaklandık. Öncelikle, iki popüler makine öğrenimi algoritmasını gerçekledik: Yerelliğe Duyarlı Adresleme (YDA) ve Rastsal Karar Ormanları (RKO) Python programlama dili ile. Sonra bu iki parametre bağımlı algoritmayı iki farklı el yazısı rakam ve karakter veri kümesinde karşılaştırdık: MNIST ve NOTMNIST. Bu deneyde, algoritmaların performanslarını tanımlama isabeti, merkezi işlemci birimi süresi cinsinden algoritmaya özgü parametreleri değiştirerek inceledik. Son olarak, YDA ve RKO algoritmalarının parametrelerine göre pozitif ve negatif davranışları olduğunu gözlemledik ve YDA algoritmasının zaman kritik uygulamalarda daha kullanışlı olduğu, RKO algortimasının ise kesinlik kritik durumlarda daha avantajlı olduğu sonucuna vardık. en_US
dc.identifier.uri https://hdl.handle.net/20.500.12469/1993
dc.identifier.yoktezid 352257 en_US
dc.language.iso en en_US
dc.publisher Kadir Has Üniversitesi en_US
dc.relation.publicationcategory Tez en_US
dc.rights info:eu-repo/semantics/openAccess en_US
dc.subject Big Data en_US
dc.subject Classification en_US
dc.subject K-Nearest Neighbors en_US
dc.subject Performance en_US
dc.subject LSH en_US
dc.subject RF en_US
dc.subject Büyük Veri en_US
dc.subject Sınıflandırma en_US
dc.subject Performans en_US
dc.subject YDA en_US
dc.subject RKO en_US
dc.title Performance Comparison of Locality Sensitive Hashing and Random Forest Algorithms for Handwritten Digits Recognition en_US
dc.type Master Thesis en_US
dspace.entity.type Publication
relation.isAuthorOfPublication 7959ea6c-1b30-4fa0-9c40-6311259c0914
relation.isAuthorOfPublication.latestForDiscovery 7959ea6c-1b30-4fa0-9c40-6311259c0914
relation.isOrgUnitOfPublication fd8e65fe-c3b3-4435-9682-6cccb638779c
relation.isOrgUnitOfPublication.latestForDiscovery fd8e65fe-c3b3-4435-9682-6cccb638779c

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
AykutCayir.pdf
Size:
736.93 KB
Format:
Adobe Portable Document Format

Collections