undefined

Tandem clustering with invariant coordinate selection

Julkaisuvuosi

2024

Tekijät

Alfons, Andreas; Archimbaud, Aurore; Nordhausen, Klaus; Ruiz-Gazen, Anne

Tiivistelmä

For multivariate data, tandem clustering is a well-known technique aiming to improve cluster identification through initial dimension reduction. Nevertheless, the usual approach using principal component analysis (PCA) has been criticized for focusing solely on inertia so that the first components do not necessarily retain the structure of interest for clustering. To address this limitation, a new tandem clustering approach based on invariant coordinate selection (ICS) is proposed. By jointly diagonalizing two scatter matrices, ICS is designed to find structure in the data while providing affine invariant components. Certain theoretical results have been previously derived and guarantee that under some elliptical mixture models, the group structure can be highlighted on a subset of the first and/or last components. However, ICS has garnered minimal attention within the context of clustering. Two challenges associated with ICS include choosing the pair of scatter matrices and selecting the components to retain. For effective clustering purposes, it is demonstrated that the best scatter pairs consist of one scatter matrix capturing the within-cluster structure and another capturing the global structure. For the former, local shape or pairwise scatters are of great interest, as is the minimum covariance determinant (MCD) estimator based on a carefully chosen subset size that is smaller than usual. The performance of ICS as a dimension reduction method is evaluated in terms of preserving the cluster structure in the data. In an extensive simulation study and empirical applications with benchmark data sets, various combinations of scatter matrices as well as component selection criteria are compared in situations with and without outliers. Overall, the new approach of tandem clustering with ICS shows promising results and clearly outperforms the PCA-based approach.
Näytä enemmän

Organisaatiot ja tekijät

Jyväskylän yliopisto

Nordhausen Klaus Orcid -palvelun logo

Julkaisutyyppi

Julkaisumuoto

Artikkeli

Emojulkaisun tyyppi

Lehti

Artikkelin tyyppi

Alkuperäisartikkeli

Yleisö

Tieteellinen

Vertaisarvioitu

Vertaisarvioitu

OKM:n julkaisutyyppiluokitus

A1 Alkuperäisartikkeli tieteellisessä aikakauslehdessä

Julkaisukanavan tiedot

Kustantaja

Elsevier

Volyymi

In Press

Julkaisu­foorumi

84814

Julkaisufoorumitaso

1

Avoin saatavuus

Avoin saatavuus kustantajan palvelussa

Kyllä

Julkaisukanavan avoin saatavuus

Osittain avoin julkaisukanava

Rinnakkaistallennettu

Ei

Muut tiedot

Tieteenalat

Tilastotiede

Avainsanat

[object Object],[object Object],[object Object]

Julkaisumaa

Alankomaat

Kustantajan kansainvälisyys

Kansainvälinen

Kieli

englanti

Kansainvälinen yhteisjulkaisu

Kyllä

Yhteisjulkaisu yrityksen kanssa

Ei

DOI

10.1016/j.ecosta.2024.03.002

Julkaisu kuuluu opetus- ja kulttuuriministeriön tiedonkeruuseen

Kyllä