Comparison of cluster validation indices with missing data
Julkaisuvuosi
2018
Tekijät
Niemelä, Marko; Äyrämö, Sami; Kärkkäinen, Tommi
Tiivistelmä
Clustering is an unsupervised machine learning technique, which aims to divide a given set of data into subsets. The number of hidden groups in cluster analysis is not always obvious and, for this purpose, various cluster validation indices have been suggested. Recently some studies reviewing validation indices have been provided, but any experiments against missing data are not yet available. In this paper, performance of ten well-known indices on ten synthetic data sets with various ratios of missing values is measured using squared euclidean and city block distances based clustering. The original indices are modified for a city block distance in a novel way. Experiments illustrate the different degree of stability for the indices with respect to the missing data.
Näytä enemmänOrganisaatiot ja tekijät
Julkaisutyyppi
Julkaisumuoto
Artikkeli
Emojulkaisun tyyppi
Konferenssi
Artikkelin tyyppi
Muu artikkeli
Yleisö
TieteellinenVertaisarvioitu
VertaisarvioituOKM:n julkaisutyyppiluokitus
A4 Artikkeli konferenssijulkaisussaJulkaisukanavan tiedot
Emojulkaisun nimi
Konferenssi
European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning
Kustantaja
Sivut
461-466
ISBN
Julkaisufoorumi
Julkaisufoorumitaso
1
Avoin saatavuus
Avoin saatavuus kustantajan palvelussa
Ei
Rinnakkaistallennettu
Kyllä
Muut tiedot
Tieteenalat
Tietojenkäsittely ja informaatiotieteet
Avainsanat
[object Object],[object Object]
Julkaisumaa
Belgia
Kustantajan kansainvälisyys
Kansainvälinen
Kieli
englanti
Kansainvälinen yhteisjulkaisu
Ei
Yhteisjulkaisu yrityksen kanssa
Ei
Julkaisu kuuluu opetus- ja kulttuuriministeriön tiedonkeruuseen
Kyllä