Capturing the data similarity among organizations of same nature
Loading...
Files
Date
2021
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Kadir Has Üniversitesi
Open Access Color
OpenAIRE Downloads
OpenAIRE Views
Abstract
The vertical collaborative clustering aims to unravel the hidden structure of data (similarity) among different sites, which will help data owners to make a smart decision without sharing actual data. For example, various hospitals located in different regions want to investigate the structure of common disease among people of different populations to identify latent causes without sharing actual data with other hospitals. Similarly, a chain of regional educational institutions wants to evaluate their students' performance belonging to different regions based on common latent constructs. The available methods used for finding hidden structures are complicated and biased to perform collaboration in measuring similarity among multiple sites. In this dissertation, the author proposed two approaches of vertical collaborative clustering, namely (1) Vertical Collaborative Clustering Model (2) Vertical Collaborative Clustering based on Bit-Plane Slicing, with superior accuracy over the state of the art approaches. The Vertical Collaborative Clustering Model (V CCM) manages the collaboration among multiple data sites using Self-Organizing Map (SOM). It includes standard procedure and tuning of the exchanged information in specific proportionality to augment the learning process of the clustering via collaboration. Moreover, the VCCM unravels hidden information without compromising the data confidentiality. The aim of the model is to set an ideal environment for the collaboration process among multiple sites. The VCCM is evaluated by purity measurement, using four datasets (Iris, Geyser, Cancer and Waveform). The findings of this study show the significance of the VCCM by comparing the collaborative results with the local results using purity measurement. The VCCM unlocks possible reasons determining impact of collaboration based on related and unrelated patterns. The results demonstrate that the proposed VCCM improves local learning by collaboration and also helps the data owner to make better decisions on the clustering. Additionally, the results obtained have better accuracy than the existing approaches. The proposed Vertical Collaborative Clustering based on Bit-Plane Slicing (VCCBPS) is simple and unique approach with improved accuracy, manages collaboration among various data sites. The VCC-BPS transforms data from input space to code space, capturing maximum similarity locally and collaboratively at a particular bit plane. The findings of this study highlight the significance of those particular bits which fit the model in correctly classifying clusters locally and collaboratively. Thenceforth, the data owner appraises local and collaborative results to reach a better decision. The VCC-BPS is validated by Geyser, Skin and Iris datasets and its results are compared with the composite dataset. It is found that the VCCBPS outperforms existing solutions with improved accuracy in term of purity and Davies-Bouldin index to manage collaboration among different data sites. It also performs data compression by representing a large number of observations with a small number of data symbols. Keywords: Collaborative clustering, Collaboration, Vertical collaborative clustering, Cluster combination, Purity measurement, Similarity measurement
Dikey işbirlikçi kümeleme, farklı siteler arasındaki gizli veri yapısını (benzerliği) ortaya ¸çıkarmayı amaçlayarak, veri sahiplerinin gerçek verileri paylaşmadan akıllıca bir karar vermelerine yardımcı olacaktır. Örneğin, farklı bölgelerde bulunan ¸çeşitli ¨ hastaneler, gerçek verileri diğer hastanelerle paylaşmadan gizli nedenleri belirlemek için farklı popülasyonlardan insanlar arasındaki ortak hastalık yapısını araştırmak ister. Benzer ¸şekilde, bir bölgesel eğitim kurumları zinciri, ¨öğrencilerinin farklı bölgelere ait performanslarını ortak ¨örtük yapılara göre değerlendirmek ister. Gizli yapıları bulmak için kullanılan mevcut yöntemler karmaşıktır ve birden ¸çok site arasındaki benzerliği ¨ölçmede iş birliği yapmak için ¨önyargılıdır. Bu tezde, yazar iki dikey işbirlikçi kümeleme yaklaşımı ¨önerdi, yani (1) Dikey İşbirlikçi Kümeleme Modeli (2) Bit Düzlemi Dilimlemeye dayalı Dikey İşbirliğine Dayalı Kümeleme, son teknoloji yaklaşımlarına göre ¨üstün doğrulukla. Dikey İşbirlikçi Kümeleme Modeli (VCCM), Kendi Kendini Düzenleyen Harita (SOM) kullanarak birden ¸çok veri sitesi arasındaki iş birliğini yönetir. İş birliği yoluyla kümelemenin ¨öğrenme sürecini artırmak için, belirli orantılı olarak değiş tokuş edilen bilginin standart prosedürü ve ayarlanmasını içerir. Dahası, VCCM gizli bilgileri veri gizliliğinden ¨ödün vermeden ¸çözer. Modelin amacı, birden ¸çok site arasında iş birliği süreci için ideal bir ortam oluşturmaktır. VCCM, dört veri seti (Iris, Geyser, Cancer ve Waveform) kullanılarak saflık ölçümüyle değerlendirilir. Bu ¸çalışmanın bulguları, işbirlikçi sonuçları saflık ölçümü kullanarak yerel sonuçlarla karşılaştırarak VCCM'nin önemini göstermektedir. VCCM, ilişkili ve ilgisiz modellere dayalı olarak iş birliğinin etkisini belirleyen olası nedenleri ortaya ¸çıkarır. Sonuçlar, önerilen VCCM, nin iş birliği yoluyla yerel öğrenmeyi geliştirdiğini ve ayrıca veri sahibinin kümeleme konusunda daha iyi kararlar almasına yardımcı olduğunu göstermektedir. Ek olarak, elde edilen sonuçlar mevcut yaklaşımlardan daha iyi doğruluğa sahiptir. Bit Düzlemi Dilimlemeye (VCC-BPS) dayalı önerilen Dikey İşbirliğine Dayalı Kümeleme, gelişmiş doğrulukla basit ve benzersiz bir yaklaşımdır ve çeşitli veri siteleri arasındaki işbirliğini yönetir. VCC-BPS, verileri giriş alanından kod alanına dönüştürerek, belirli bir bit düzleminde yerel olarak ve işbirliği içinde maksimum benzerliği yakalar. Bu ¸çalışmanın bulguları, modele uyan belirli bitlerin, sınıf etiketlerini yerel olarak ve iş birliği içinde doğru bir ¸şekilde sınıflandırmadaki önemini vurgulamaktadır. Bundan sonra, veri sahibi daha iyi bir karara varmak için yerel ve iş birliğine dayalı sonuçları değerlendirir. VCC-BPS, Gayzer, Skin ve Iris veri kümeleri tarafından doğrulanır ve sonuçları bileşik veri kümesiyle karşılaştırılır. VCC-BPS'nin, farklı veri siteleri arasındaki iş birliğini yönetmek için saflık ve Davies-Bouldin indeksi açısından iyileştirilmiş doğrulukla mevcut ¸çözümlerden daha iyi performans gösterdiği bulunmuştur. Ayrıca, ¸çok sayıda gözlemi az sayıda veri sembolü ile temsil ederek veri sıkıştırması gerçekleştirir. Anahtar Sözcükler: İşbirlikçi kümeleme, İşbirliği, Dikey işbirlikçi kümeleme, Küme kombinasyonu, Saflık ölçümü, Benzerlik ölçümü
Dikey işbirlikçi kümeleme, farklı siteler arasındaki gizli veri yapısını (benzerliği) ortaya ¸çıkarmayı amaçlayarak, veri sahiplerinin gerçek verileri paylaşmadan akıllıca bir karar vermelerine yardımcı olacaktır. Örneğin, farklı bölgelerde bulunan ¸çeşitli ¨ hastaneler, gerçek verileri diğer hastanelerle paylaşmadan gizli nedenleri belirlemek için farklı popülasyonlardan insanlar arasındaki ortak hastalık yapısını araştırmak ister. Benzer ¸şekilde, bir bölgesel eğitim kurumları zinciri, ¨öğrencilerinin farklı bölgelere ait performanslarını ortak ¨örtük yapılara göre değerlendirmek ister. Gizli yapıları bulmak için kullanılan mevcut yöntemler karmaşıktır ve birden ¸çok site arasındaki benzerliği ¨ölçmede iş birliği yapmak için ¨önyargılıdır. Bu tezde, yazar iki dikey işbirlikçi kümeleme yaklaşımı ¨önerdi, yani (1) Dikey İşbirlikçi Kümeleme Modeli (2) Bit Düzlemi Dilimlemeye dayalı Dikey İşbirliğine Dayalı Kümeleme, son teknoloji yaklaşımlarına göre ¨üstün doğrulukla. Dikey İşbirlikçi Kümeleme Modeli (VCCM), Kendi Kendini Düzenleyen Harita (SOM) kullanarak birden ¸çok veri sitesi arasındaki iş birliğini yönetir. İş birliği yoluyla kümelemenin ¨öğrenme sürecini artırmak için, belirli orantılı olarak değiş tokuş edilen bilginin standart prosedürü ve ayarlanmasını içerir. Dahası, VCCM gizli bilgileri veri gizliliğinden ¨ödün vermeden ¸çözer. Modelin amacı, birden ¸çok site arasında iş birliği süreci için ideal bir ortam oluşturmaktır. VCCM, dört veri seti (Iris, Geyser, Cancer ve Waveform) kullanılarak saflık ölçümüyle değerlendirilir. Bu ¸çalışmanın bulguları, işbirlikçi sonuçları saflık ölçümü kullanarak yerel sonuçlarla karşılaştırarak VCCM'nin önemini göstermektedir. VCCM, ilişkili ve ilgisiz modellere dayalı olarak iş birliğinin etkisini belirleyen olası nedenleri ortaya ¸çıkarır. Sonuçlar, önerilen VCCM, nin iş birliği yoluyla yerel öğrenmeyi geliştirdiğini ve ayrıca veri sahibinin kümeleme konusunda daha iyi kararlar almasına yardımcı olduğunu göstermektedir. Ek olarak, elde edilen sonuçlar mevcut yaklaşımlardan daha iyi doğruluğa sahiptir. Bit Düzlemi Dilimlemeye (VCC-BPS) dayalı önerilen Dikey İşbirliğine Dayalı Kümeleme, gelişmiş doğrulukla basit ve benzersiz bir yaklaşımdır ve çeşitli veri siteleri arasındaki işbirliğini yönetir. VCC-BPS, verileri giriş alanından kod alanına dönüştürerek, belirli bir bit düzleminde yerel olarak ve işbirliği içinde maksimum benzerliği yakalar. Bu ¸çalışmanın bulguları, modele uyan belirli bitlerin, sınıf etiketlerini yerel olarak ve iş birliği içinde doğru bir ¸şekilde sınıflandırmadaki önemini vurgulamaktadır. Bundan sonra, veri sahibi daha iyi bir karara varmak için yerel ve iş birliğine dayalı sonuçları değerlendirir. VCC-BPS, Gayzer, Skin ve Iris veri kümeleri tarafından doğrulanır ve sonuçları bileşik veri kümesiyle karşılaştırılır. VCC-BPS'nin, farklı veri siteleri arasındaki iş birliğini yönetmek için saflık ve Davies-Bouldin indeksi açısından iyileştirilmiş doğrulukla mevcut ¸çözümlerden daha iyi performans gösterdiği bulunmuştur. Ayrıca, ¸çok sayıda gözlemi az sayıda veri sembolü ile temsil ederek veri sıkıştırması gerçekleştirir. Anahtar Sözcükler: İşbirlikçi kümeleme, İşbirliği, Dikey işbirlikçi kümeleme, Küme kombinasyonu, Saflık ölçümü, Benzerlik ölçümü