Comparison of cluster validation indices with missing data

Julkaisuvuosi

2018

Tekijät

Niemelä, Marko; Äyrämö, Sami; Kärkkäinen, Tommi

Abstrakti:

Clustering is an unsupervised machine learning technique, which aims to divide a given set of data into subsets. The number of hidden groups in cluster analysis is not always obvious and, for this purpose, various cluster validation indices have been suggested. Recently some studies reviewing validation indices have been provided, but any experiments against missing data are not yet available. In this paper, performance of ten well-known indices on ten synthetic data sets with various ratios of missing values is measured using squared euclidean and city block distances based clustering. The original indices are modified for a city block distance in a novel way. Experiments illustrate the different degree of stability for the indices with respect to the missing data.

Näytä enemmän

Organisaatiot ja tekijät

Jyväskylän yliopisto

Niemelä Marko

Äyrämö Sami

Kärkkäinen Tommi

Julkaisutyyppi

Julkaisumuoto

Artikkeli

Emojulkaisun tyyppi

Konferenssi

Artikkelin tyyppi

Muu artikkeli:

Yleisö

Tieteellinen

Vertaisarvioitu

OKM:n julkaisutyyppiluokitus

A4 Artikkeli konferenssijulkaisussa

Julkaisukanavan tiedot

Sivut

461-466

ISBN

978-2-87587-047-6

Julkaisufoorumi

55877

Julkaisufoorumitaso

Avoin saatavuus

Avoin saatavuus kustantajan palvelussa

Rinnakkaistallennettu

Kyllä

Muut tiedot

Tieteenalat

Tietojenkäsittely ja informaatiotieteet

Avainsanat

[object Object],[object Object]

Julkaisumaa

Belgia

Kustantajan kansainvälisyys

Kansainvälinen

Kieli

englanti

Kansainvälinen yhteisjulkaisu

Yhteisjulkaisu yrityksen kanssa

Julkaisu kuuluu opetus- ja kulttuuriministeriön tiedonkeruuseen