Een efficiënte manier om patronen in gegevens te identificeren is clusteranalyse. Clusteren is het proces van het categoriseren van vergelijkbare objecten of waarnemingen op basis van hun kenmerken of eigenschappen. Verborgen relaties in gegevens kunnen worden ontdekt door clusters in de gegevens te identificeren en inzicht te krijgen in hun onderliggende structuur. Van marketing tot biologie tot sociale wetenschappen, clusteranalyse heeft een breed scala aan toepassingen. Klanten kunnen worden gesegmenteerd op basis van hun koopgedrag, genen kunnen worden gegroepeerd op basis van hun expressiepatronen of individuen kunnen worden gecategoriseerd op basis van hun persoonlijkheidskenmerken.
In deze blog verkennen we de basisprincipes van clusteranalyse, zoals hoe je het juiste type clustering voor je gegevens herkent, hoe je een geschikte clustermethode kiest en hoe je de resultaten interpreteert. Er worden ook enkele valkuilen en uitdagingen van clusteranalyse besproken, evenals tips om deze te overwinnen. Een clusteranalyse kan het volledige potentieel van je gegevens ontsluiten, of je nu een datawetenschapper, een bedrijfsanalist of een onderzoeker bent.
Clusteranalyse: Wat is het?
Statistische clusteranalyse gebruikt kenmerken van vergelijkbare waarnemingen of datasets om ze te groeperen in clusters. Bij clusteranalyse worden homogeniteit en heterogeniteit gedefinieerd als interne en externe eigenschappen van clusters. Met andere woorden, clusterobjecten moeten onderling gelijkaardig zijn, maar verschillend van objecten in andere clusters. Er moet een geschikt clusteralgoritme worden geselecteerd, een similariteitsmaat worden gedefinieerd en de resultaten moeten worden geïnterpreteerd. Verschillende gebieden, waaronder marketing, biologie en sociale wetenschappen, maken gebruik van clusteranalyse. Om inzicht te krijgen in de structuur van je gegevens, moet je de basisprincipes van clusteranalyse begrijpen. Op deze manier kun je onderliggende patronen ontdekken die voor het ongetrainde oog niet direct zichtbaar zijn.
Er zijn verschillende soorten clusteralgoritmen
Een clusteranalyse kan worden uitgevoerd met behulp van verschillende clusteralgoritmen. Enkele van de meest gebruikte clustermethoden zijn hiërarchische clustering, partitioneringsclustering, dichtheidsgebaseerde clustering en modelgebaseerde clustering. In termen van gegevenstype en clusterdoelstellingen heeft elk algoritme zijn sterke en zwakke punten. Om te bepalen welk algoritme het meest geschikt is voor uw behoeften op het gebied van gegevensanalyse, moet u de verschillen tussen deze algoritmen begrijpen.
Op connectiviteit gebaseerd clusteren (hiërarchisch clusteren)
Bij op connectiviteit gebaseerd clusteren, ook wel hiërarchisch clusteren genoemd, worden gelijksoortige objecten gegroepeerd in geneste clusters. Via deze methode worden kleinere clusters iteratief samengevoegd tot grotere clusters op basis van hun gelijkenis of nabijheid. Een dendrogram toont de relaties tussen objecten in de dataset door een boomachtige structuur te bieden die op een boom lijkt. De clustermethode van op connectiviteit gebaseerde clustering kan agglomeratief zijn, waarbij objecten achtereenvolgens worden samengevoegd met hun naaste verwanten, of verdeelbaar, waarbij objecten in dezelfde cluster beginnen en recursief worden verdeeld in kleinere clusters. Met deze aanpak kan een natuurlijke groepering worden geïdentificeerd in complexe gegevenssets.
Centroïde-gebaseerd clusteren
Clusteren op basis van centroïdes is een populair type clusteralgoritme waarbij gegevenspunten worden toegewezen aan clusters op basis van hun nabijheid tot de clustermiddelen. Bij clusteren op basis van centroïden worden gegevenspunten geclusterd rond de centroïde, waarbij de afstand tussen de gegevenspunten en de centroïde wordt geminimaliseerd. Het iteratief bijwerken van de centroïdeposities tot convergentie is het kenmerk van K-means clusteren, het meest gebruikte op centroïden gebaseerde clusteralgoritme. Clusteren op basis van centroïde posities en varianties is een efficiënte en snelle methode, maar heeft enkele beperkingen, waaronder de gevoeligheid voor initiële centroïde posities.
Op distributie gebaseerd clusteren
Bij distributiegebaseerd clusteren worden clusters geïdentificeerd door uit te gaan van de gegevensverdeling. Elk cluster komt overeen met een van de verschillende kansverdelingen die zijn gebruikt om de gegevenspunten te genereren. Datapunten worden toegewezen aan clusters die overeenkomen met de verdelingen met de hoogste waarschijnlijkheid volgens distributiegebaseerd clusteren, dat de parameters van de verdelingen schat. Clusteringalgoritmen op basis van verdelingen zijn onder andere Gaussian Mixture Models (GMM's) en Expectation-Maximization-algoritmen (EM's). Naast het verschaffen van informatie over clusterdichtheid en overlap, kan op distributies gebaseerd clusteren worden toegepast op gegevens met goed gedefinieerde en afzonderlijke clusters.
Clusteren op basis van dichtheid
Objecten worden gegroepeerd op basis van hun nabijheid en dichtheid in op dichtheid gebaseerde clustering. Clusters worden gevormd door de dichtheden van gegevenspunten binnen een straal of buurt te vergelijken. Met deze methode kunnen clusters met willekeurige vormen worden geïdentificeerd en wordt effectief omgegaan met ruis en uitschieters. In verschillende toepassingen, waaronder beeldsegmentatie, patroonherkenning en detectie van anomalieën, hebben dichtheidsgebaseerde clusteralgoritmen hun nut bewezen. Eén zo'n algoritme is DBSCAN (Density-Based Spatial Clustering of Applications with Noise). Datadichtheid en parameterkeuze spelen echter beide een rol in de beperkingen van clusteren op basis van dichtheid.
Clusteren op basis van rasters
Grote datasets met hoogdimensionale kenmerken worden vaak geclusterd met behulp van rastergebaseerde clustering. De gegevenspunten worden toegewezen aan de cellen die ze bevatten nadat de kenmerkruimte is verdeeld in een raster van cellen. Er wordt een hiërarchische clusterstructuur gecreëerd door cellen samen te voegen op basis van nabijheid en overeenkomst. Door zich te richten op de relevante cellen in plaats van op alle gegevenspunten, is rastergebaseerd clusteren efficiënt en schaalbaar. Bovendien is het mogelijk om verschillende celgroottes en -vormen te gebruiken voor verschillende gegevensdistributies. Door de vaste rasterstructuur is rastergebaseerd clusteren mogelijk niet effectief voor datasets met verschillende dichtheden of onregelmatige vormen.
Evaluaties en beoordeling van cluster
Het uitvoeren van een clusteranalyse vereist het evalueren en beoordelen van de kwaliteit van de clusteringresultaten. Om te bepalen of de clusters zinvol en bruikbaar zijn voor de beoogde toepassing, moeten deze gegevenspunten worden gescheiden door clusters. De kwaliteit van een cluster kan worden geëvalueerd met behulp van verschillende metrieken, waaronder variatie binnen of tussen clusters, silhouetscores en clustervaliditeitsindices. De kwaliteit van clusters kan ook visueel worden vastgesteld door de resultaten van clustering te inspecteren. Voor een succesvolle clusterevaluatie kan het nodig zijn de clusteringparameters aan te passen of verschillende clustermethoden uit te proberen. Een nauwkeurige en betrouwbare clusteranalyse kan worden vergemakkelijkt door clusters goed te evalueren en te beoordelen.
Interne evaluatie
De interne evaluatie van de clusters die worden geproduceerd door het gekozen clusteralgoritme is een cruciale stap in het clusteranalyseproces. Om het optimale aantal clusters te selecteren en te bepalen of de clusters zinvol en robuust zijn, wordt een interne evaluatie uitgevoerd. Calinski-Harabasz-index, Davies-Bouldin-index en silhouetcoëfficiënt behoren tot de metrieken die worden gebruikt voor interne evaluatie. Als gevolg van deze metrieken kunnen we de clusteralgoritmen en parameterinstellingen vergelijken en kiezen welke clusteringoplossing het beste is voor onze gegevens op basis van deze metrieken. Om de geldigheid en betrouwbaarheid van onze clusteringresultaten te garanderen en om op basis daarvan datagestuurde beslissingen te nemen, moeten we interne evaluaties uitvoeren.
Externe evaluatie
Als onderdeel van het clusteranalyseproces is externe evaluatie cruciaal. Het identificeren van clusters en het beoordelen van hun geldigheid en bruikbaarheid maakt deel uit van dit proces. Door clusters te vergelijken met een externe maatstaf, zoals een classificatie of een reeks expertoordelen, wordt externe evaluatie uitgevoerd. Een belangrijk doel van externe evaluatie is om te bepalen of clusters zinvol zijn en of ze kunnen worden gebruikt om uitkomsten te voorspellen en beslissingen te nemen. Externe evaluatie kan worden uitgevoerd met behulp van verschillende metrieken, zoals nauwkeurigheid, precisie, recall en F1-score. Wanneer clusteranalyseresultaten extern worden geëvalueerd, kan worden vastgesteld of ze betrouwbaar zijn en realistische toepassingen hebben.
Clusterneiging
Er is een inherente neiging voor een dataset om clusters te vormen, die clustertendens wordt genoemd. Met deze methode kun je bepalen of je gegevens van nature geclusterd zijn of niet, welk clusteralgoritme je moet gebruiken en hoeveel clusters je moet gebruiken. Visuele inspectie, statistische tests en technieken voor dimensionaliteitsreductie kunnen allemaal worden gebruikt om de clustertendens van een dataset te bepalen. Er worden een aantal technieken gebruikt om clustertendensen te identificeren, waaronder elleboogmethoden, silhouetanalyses en Hopkins-statistieken. Inzicht in de clustertendens van een dataset stelt ons in staat om de beste clustermethode te kiezen en over- en underfitting te voorkomen.
Toepassing van clusteranalyse
Op bijna elk gebied waar gegevens worden geanalyseerd, kan clusteranalyse worden toegepast. Door clusteranalyse te gebruiken in marketing kun je klantsegmenten identificeren op basis van hun koopgedrag of demografische gegevens. In de biologie kan een gen worden gegroepeerd op basis van zijn functie of expressiepatroon. In de sociale wetenschappen worden attitudes en overtuigingen gebruikt om subgroepen van individuen te identificeren. Naast anomaliedetectie en fraudedetectie is clusteranalyse nuttig voor het detecteren van uitschieters en fraude. Het geeft niet alleen inzicht in de structuur van de gegevens, maar kan ook worden gebruikt om toekomstige analyses te sturen. Er zijn talloze toepassingen voor clusteranalyse op verschillende gebieden, waardoor het een waardevol hulpmiddel is voor gegevensanalyse.
Biologie, computationele biologie en bio-informatica
Bio-informatica, computationele biologie en biologie maken steeds meer gebruik van clusteranalyse. Nu genomische en proteomische gegevens steeds meer beschikbaar komen, is de behoefte om patronen en relaties te identificeren toegenomen. Genexpressiepatronen kunnen worden gegroepeerd, eiwitten kunnen worden gegroepeerd op basis van structurele overeenkomsten of klinische gegevens kunnen worden gebruikt om subgroepen van patiënten te identificeren. Deze informatie kan vervolgens worden gebruikt om doelgerichte therapieën te ontwikkelen, potentiële doelwitten voor medicijnen te identificeren en de onderliggende mechanismen van ziekten beter te begrijpen. Clusteranalyse kan een revolutie teweegbrengen in ons begrip van complexe biologische systemen door het toe te passen op biologie, computationele biologie en bio-informatica.
Bedrijf en marketing
Zakelijke en marketingtoepassingen van clusteranalyse zijn talrijk. Marktsegmentatie is een veelgebruikte toepassing van clusteranalyse in het bedrijfsleven. Bedrijven kunnen gerichte marketingstrategieën ontwikkelen voor elk segment door afzonderlijke marktsegmenten te identificeren op basis van klantgedrag, demografie en andere factoren. Daarnaast kan clusteranalyse bedrijven helpen bij het identificeren van patronen in feedback en klachten van klanten. Supply chain management kan ook profiteren van clusteranalyse, die gebruikt kan worden om leveranciers te groeperen op basis van hun prestaties en om mogelijkheden voor kostenbesparing te identificeren. Bedrijfsorganisaties kunnen waardevol inzicht krijgen in hun klanten, producten en activiteiten door clusteranalyse te gebruiken.
Informatica
In de informatica wordt veel gebruik gemaakt van clusteranalyse. Data mining en machine learning maken er vaak gebruik van om patronen te identificeren in grote datasets. Met behulp van clusteralgoritmen kun je bijvoorbeeld afbeeldingen groeperen op basis van vergelijkbare visuele kenmerken of netwerkverkeer verdelen in segmenten op basis van het gedrag. Gelijksoortige documenten of woorden kunnen ook worden gegroepeerd met behulp van clusteranalyse in natuurlijke taalverwerking. Bio-informatica gebruikt clusteranalyse om genen en eiwitten te groeperen op basis van hun functies en expressiepatronen. Onderzoekers en praktijkmensen kunnen inzicht krijgen in de onderliggende structuur van hun gegevens door clusteranalyse te gebruiken als een krachtig hulpmiddel in de informatica.
Een stap-voor-stap handleiding voor clusteranalyse
Het uitvoeren van clusteranalyse omvat verschillende stappen die helpen bij het identificeren en groeperen van vergelijkbare objecten of waarnemingen op basis van hun kenmerken of eigenschappen. De betrokken stappen zijn:
- Definieer het probleem: De eerste stap is het identificeren van de gegevens die gebruikt zullen worden voor de analyse en het definiëren van het probleem. Om dit te doen, moet je de variabelen of kenmerken kiezen die zullen worden gebruikt om clusters te maken.
- Gegevens voorbewerken: Verwijder vervolgens uitschieters en ontbrekende waarden uit de gegevens en standaardiseer ze indien nodig. Het is dan waarschijnlijker dat het clusteralgoritme nauwkeurige en betrouwbare resultaten oplevert.
- Kies een clustermethode: Hiërarchisch clusteren, k-means clusteren en clusteren op basis van dichtheid zijn enkele beschikbare clustermethoden. Afhankelijk van het gegevenstype en het probleem dat wordt aangepakt, moet de clustermethode worden gekozen.
- Bepaal het aantal clusters: Vervolgens moeten we bepalen hoeveel clusters er moeten worden gemaakt. Hiervoor kunnen verschillende methoden worden gebruikt, waaronder de elleboogmethode, de silhouetmethode en de gap-statistiek.
- Clustervorming: Clusters worden gemaakt door het clusteralgoritme toe te passen op de gegevens nadat het aantal clusters is bepaald.
- Evalueer en analyseer de resultaten: Tot slot worden de resultaten van de clusteringanalyse geanalyseerd en geïnterpreteerd om patronen en relaties te identificeren die voorheen niet duidelijk waren en om inzicht te krijgen in de onderliggende structuur.
Om zinvolle en bruikbare resultaten van clusteranalyse te krijgen, moet statistische expertise worden gecombineerd met domeinkennis. De hier beschreven stappen helpen je om clusters te maken die de structuur van je gegevens nauwkeurig weergeven en waardevol inzicht bieden in het onderwerp.
Clusteranalyse: Voordelen en nadelen
Het is belangrijk om in gedachten te houden dat clusteranalyse zowel voor- als nadelen heeft, die belangrijk zijn om rekening mee te houden als je deze techniek gebruikt bij het analyseren van gegevens.
De voordelen
- Ontdekken van patronen en relaties in gegevens: Met clusteranalyse kunnen we meer te weten komen over de onderliggende structuur van gegevens door patronen en correlaties in de gegevens te identificeren die voorheen moeilijk te onderscheiden waren.
- Gegevens stroomlijnen: Clusteren maakt gegevens beter beheersbaar en gemakkelijker te analyseren door de omvang en complexiteit te verkleinen.
- Informatie verzamelen: Clusteranalyse gebruikt gelijksoortige objecten om ze te groeperen en zo waardevolle inzichten te verschaffen die kunnen worden toegepast op veel verschillende studiegebieden, van marketing tot gezondheidszorg, om de besluitvorming te helpen verbeteren.
- Flexibiliteit van gegevens: Clusteranalyse kan worden gebruikt met een verscheidenheid aan gegevenstypen en -formaten, omdat het geen beperking oplegt aan het gegevenstype of formaat dat wordt geanalyseerd.
De nadelen
- Intensiteit van clusteranalyse: Gegeven de keuze van de beginvoorwaarden, zoals het clusternummer en de afstandsmaat, kunnen de resultaten van clusteranalyse gevoelig zijn.
- Interpretatie: De interpretatie van de clusteringresultaten kan van persoon tot persoon verschillen en hangt af van welke clusteringmethode en parameters worden gebruikt.
- Overfitting: Het gebruik van clustering kan leiden tot overfitting, wat resulteert in slechte generalisatie naar nieuwe gegevens omdat de clusters te nauw zijn afgestemd op de oorspronkelijke gegevens.
- Schaalbaarheid van gegevens: Het kan kostbaar en tijdrovend zijn om grote datasets te clusteren, en er kan gespecialiseerde hardware of software nodig zijn om deze taak uit te voeren.
Voordat we clusteranalyse gebruiken om gegevens te analyseren, is het belangrijk om de voor- en nadelen ervan zorgvuldig te overwegen. Het verkrijgen van zinvolle inzichten uit onze gegevens is mogelijk als we de sterke en zwakke punten van clusteranalyse begrijpen.
Verbeter de visuele presentatie van uw clusteranalyse met behulp van illustraties!
Als het aankomt op clusteranalyse, is visuele presentatie essentieel. Het vergemakkelijkt de communicatie van inzichten naar belanghebbenden en helpt om de onderliggende structuur van gegevens beter te begrijpen. Resultaten van clusteranalyse kunnen intuïtiever worden gevisualiseerd met behulp van scatterplots, dendrogrammen en heatmaps, die de resultaten visueel aantrekkelijker maken. Met Mind the Graphvind je alle tools onder één dak! Communiceer je wetenschap effectiever met Mind the Graph. Neem een kijkje in onze illustratiegalerij en je zult niet teleurgesteld zijn!
Abonneer u op onze nieuwsbrief
Exclusieve inhoud van hoge kwaliteit over effectieve visuele
communicatie in de wetenschap.