Wir arbeiten daran, die Unionpedia-App im Google Play Store wiederherzustellen
AusgehendeEingehende
🌟Wir haben unser Design für eine bessere Navigation vereinfacht!
Instagram Facebook X LinkedIn
Ihre eigene Unionpedia mit Ihrem Logo und Ihrer Domain, ab 9,99 USD/Monat
Mein Unionpedia erstellen

Hierarchische Clusteranalyse

Index Hierarchische Clusteranalyse

Als hierarchische Clusteranalyse bezeichnet man eine bestimmte Familie von distanzbasierten Verfahren zur Clusteranalyse (Strukturentdeckung in Datenbeständen).

Inhaltsverzeichnis

  1. 38 Beziehungen: Ausreißer, Baum (Graphentheorie), Cluster (Datenanalyse), Clusteranalyse, Data-Mining, DBSCAN, Empirische Varianz, Euklidischer Abstand, Gewichtung, Griechische Sprache, Hauptkomponentenanalyse, Heuristik, Jaccard-Koeffizient, K-Means-Algorithmus, Kante (Graphentheorie), Kardinale Variable, Kategoriale Variable, Klasseneinteilung (Statistik), Knoten (Graphentheorie), Knowledge Discovery in Databases, Komplexität (Informatik), Kovarianz (Stochastik), Landau-Symbole, Lp-Raum, Mahalanobis-Abstand, Menge (Mathematik), Nominalskala, OPTICS, Ordinalskala, Partition (Mengenlehre), Persistente Homologie, Skalenniveau, Spannweite (Statistik), Spektrale Relaxation, Statistik, Teilmenge, Top-down und Bottom-up, Totale Varianz.

Ausreißer

Ein Ausreißer-Messwert. Die blaue Regressionsgerade wurde ohne Einbeziehung des Ausreißers erstellt, die violette mit. Der Boxplot wird über einem Zahlenstrahl dargestellt. In der Statistik spricht man von einem Ausreißer, wenn ein Messwert oder Befund nicht in eine erwartete Messreihe passt oder allgemein nicht den Erwartungen entspricht.

Sehen Hierarchische Clusteranalyse und Ausreißer

Baum (Graphentheorie)

Ein Baum ist in der Graphentheorie ein spezieller Typ von Graph, der zusammenhängend ist und keine geschlossenen Pfade enthält, d. h.

Sehen Hierarchische Clusteranalyse und Baum (Graphentheorie)

Cluster (Datenanalyse)

Als Cluster (gelegentlich auch Ballungen) bezeichnet man in der Informatik und Statistik eine Gruppe von Datenobjekten mit ähnlichen Eigenschaften.

Sehen Hierarchische Clusteranalyse und Cluster (Datenanalyse)

Clusteranalyse

Ergebnis einer Clusteranalyse mit Normalverteilungen Unter Clusteranalyse (Clustering-Algorithmus, gelegentlich auch: Ballungsanalyse) versteht man ein Verfahren zur Entdeckung von Ähnlichkeitsstrukturen in (meist relativ großen) Datenbeständen.

Sehen Hierarchische Clusteranalyse und Clusteranalyse

Data-Mining

Unter Data-Mining (von, aus ‚Daten‘ und ‚graben‘, ‚abbauen‘, ‚fördern‘) versteht man die systematische Anwendung statistischer Methoden auf große Datenbestände (insbesondere „Big Data“ bzw. Massendaten) mit dem Ziel, neue Querverbindungen und Trends zu erkennen.

Sehen Hierarchische Clusteranalyse und Data-Mining

DBSCAN

DBSCAN (Density-Based Spatial Clustering of Applications with Noise, etwa: Dichtebasierte räumliche Clusteranalyse mit Rauschen) ist ein von Martin Ester, Hans-Peter Kriegel, Jörg Sander und Xiaowei Xu entwickelter Data-Mining-Algorithmus zur Clusteranalyse.

Sehen Hierarchische Clusteranalyse und DBSCAN

Empirische Varianz

Die empirische VarianzHenze 2013: S. 31ff, auch StichprobenvarianzBehrends 2013: S. 274f (veraltet: empirisches Streuungsquadrat) oder einfach nur kurz Varianz genannt, ist ein Maß für die Streuung von konkreten (empirisch erhobenen) Werten einer Stichprobe.

Sehen Hierarchische Clusteranalyse und Empirische Varianz

Euklidischer Abstand

Der Abstand zweier Punkte p und p.q ist definiert als die Länge ihrer (geraden) Verbindungsstrecke (rot) Der euklidische Abstand ist der Abstandsbegriff der euklidischen Geometrie.

Sehen Hierarchische Clusteranalyse und Euklidischer Abstand

Gewichtung

Unter Gewichtung (auch Wichtung, ''Wägungsschema'') versteht man die Bewertung einzelner Einflussgrößen eines mathematischen Modells beispielsweise hinsichtlich ihrer Wichtigkeit oder Zuverlässigkeit.

Sehen Hierarchische Clusteranalyse und Gewichtung

Griechische Sprache

Die griechische Sprache (bzw. attisch hellēnikḕ glō̂tta) ist eine indogermanische Sprache mit einer Schrifttradition, die sich über einen Zeitraum von 3400 Jahren erstreckt.

Sehen Hierarchische Clusteranalyse und Griechische Sprache

Hauptkomponentenanalyse

zweidimensionalen Normalverteilung mit Mittelwert (1,3) und Standardabweichung circa 3 in (0.866, 0.5)-Richtung und 1 in die dazu orthogonale Richtung. Die Vektoren sind die Eigenvektoren der Kovarianzmatrix und haben als Länge die Wurzel des zugehörigen Eigenwertes. Sie sind so verschoben, dass sie am Mittelwert ansetzen.

Sehen Hierarchische Clusteranalyse und Hauptkomponentenanalyse

Heuristik

Heuristik (von altgriechisch εὑρίσκω heurísko (ich finde) bzw. εὑρίσκειν heurískein (auffinden, entdecken)) bezeichnet Methoden, die mit begrenztem Wissen (unvollständigen Informationen) und wenig Zeit dennoch zu wahrscheinlichen Aussagen oder praktikablen Lösungen kommen.

Sehen Hierarchische Clusteranalyse und Heuristik

Jaccard-Koeffizient

Der Jaccard-Koeffizient oder Jaccard-Index, auch Intersection over Union nach dem Schweizer Botaniker Paul Jaccard (1868–1944) ist eine Kennzahl für die Ähnlichkeit von Mengen.

Sehen Hierarchische Clusteranalyse und Jaccard-Koeffizient

K-Means-Algorithmus

Ein k-Means-Algorithmus ist ein Verfahren zur Vektorquantisierung, das auch zur Clusteranalyse verwendet wird.

Sehen Hierarchische Clusteranalyse und K-Means-Algorithmus

Kante (Graphentheorie)

Darstellung der Knoten, Kanten und Maschen Kanten sind in der Graphentheorie derjenige Teil eines Graphen, der die Verbindung zwischen mindestens zwei Knoten herstellt.

Sehen Hierarchische Clusteranalyse und Kante (Graphentheorie)

Kardinale Variable

In der Statistik bezeichnet man als kardinale bzw.

Sehen Hierarchische Clusteranalyse und Kardinale Variable

Kategoriale Variable

In der Statistik bezeichnet man als kategoriale Variablen folgende Arten von Variablen.

Sehen Hierarchische Clusteranalyse und Kategoriale Variable

Klasseneinteilung (Statistik)

Klasseneinteilung oder Klassierung bezeichnet in der Statistik die Einteilung von Merkmalswerten oder statistischen Reihen in getrennte Gruppen, Klassen oder Größenklassen.

Sehen Hierarchische Clusteranalyse und Klasseneinteilung (Statistik)

Knoten (Graphentheorie)

Darstellung der Knoten, Kanten und Maschen Knoten (oder Ecken) sind in der Graphentheorie derjenige Teil eines Graphen, der mit mindestens einer Kante verbunden ist.

Sehen Hierarchische Clusteranalyse und Knoten (Graphentheorie)

Knowledge Discovery in Databases

Knowledge Discovery in Databases (KDD), auf Deutsch Wissensentdeckung in Datenbanken, ergänzt das oft synonym gebrauchte Data-Mining um vorbereitende Untersuchungen und Transformationen auszuwertender Daten.

Sehen Hierarchische Clusteranalyse und Knowledge Discovery in Databases

Komplexität (Informatik)

Der Begriff Komplexität wird in der Informatik in verschiedenen Teilbereichen verwendet.

Sehen Hierarchische Clusteranalyse und Komplexität (Informatik)

Kovarianz (Stochastik)

Die Kovarianz (con-.

Sehen Hierarchische Clusteranalyse und Kovarianz (Stochastik)

Landau-Symbole

Landau-Symbole (auch O-Notation) werden in der Mathematik und in der Informatik verwendet, um das asymptotische Verhalten von Funktionen und Folgen zu beschreiben.

Sehen Hierarchische Clusteranalyse und Landau-Symbole

Lp-Raum

Die L^p-Räume, auch Lebesgue-Räume, sind in der Mathematik spezielle Räume, die aus allen p-fach integrierbaren Funktionen bestehen.

Sehen Hierarchische Clusteranalyse und Lp-Raum

Mahalanobis-Abstand

Der Mahalanobis-Abstand, auch Mahalanobis-Distanz oder verallgemeinerter Abstand (nach Mahalanobis) genannt, ist ein Distanzmaß zwischen Punkten in einem mehrdimensionalen Vektorraum.

Sehen Hierarchische Clusteranalyse und Mahalanobis-Abstand

Menge (Mathematik)

Symbolische Darstellung einer Menge von Vielecken leer. Als Menge wird in der Mathematik ein abstraktes Objekt bezeichnet, das aus der Zusammenfassung einer Anzahl einzelner Objekte hervorgeht.

Sehen Hierarchische Clusteranalyse und Menge (Mathematik)

Nominalskala

Ein Merkmal skaliert nominal (v. lat. nomen „Name“), wenn seine möglichen Ausprägungen zwar unterschieden werden können, aber keine natürliche Rangfolge aufweisen.

Sehen Hierarchische Clusteranalyse und Nominalskala

OPTICS

OPTICS ist ein dichtebasierter Algorithmus zur Clusteranalyse.

Sehen Hierarchische Clusteranalyse und OPTICS

Ordinalskala

Eine Ordinalskala sortiert Variablen mit Ausprägungen, zwischen denen eine Rangordnung besteht.

Sehen Hierarchische Clusteranalyse und Ordinalskala

Partition (Mengenlehre)

In der Mengenlehre ist eine Partition (auch Zerlegung oder Klasseneinteilung) einer Menge M eine Menge P, deren Elemente nichtleere Teilmengen von M sind, sodass jedes Element von M in genau einem Element von P enthalten ist.

Sehen Hierarchische Clusteranalyse und Partition (Mengenlehre)

Persistente Homologie

Persistente Homologie ist eine algebraische Methode, um topologische Eigenschaften von Daten zu erkennen.

Sehen Hierarchische Clusteranalyse und Persistente Homologie

Skalenniveau

Das Skalenniveau oder Messniveau oder die Skalendignität (selten Skalenqualität) ist in der Empirie eine wichtige Eigenschaft von Merkmalen bzw.

Sehen Hierarchische Clusteranalyse und Skalenniveau

Spannweite (Statistik)

Die Spannweite ist ein Streuungsmaß in der Statistik.

Sehen Hierarchische Clusteranalyse und Spannweite (Statistik)

Spektrale Relaxation

Spektrale Relaxation (meist engl. spectral relaxation) ist ein Algorithmus der hierarchischen Clusteranalyse.

Sehen Hierarchische Clusteranalyse und Spektrale Relaxation

Statistik

Statistik „ist die Lehre von Methoden zum Umgang mit quantitativen Informationen“ (Daten).

Sehen Hierarchische Clusteranalyse und Statistik

Teilmenge

Mengendiagramm: ''A'' ist eine (echte) Teilmenge von ''B''. Die mathematischen Begriffe Teilmenge und Obermenge beschreiben eine Beziehung zwischen zwei Mengen.

Sehen Hierarchische Clusteranalyse und Teilmenge

Top-down und Bottom-up

Als Top-down (engl. von oben nach unten, abwärts) und Bottom-up (engl. von unten nach oben, aufwärts) werden zwei entgegengesetzte Wirkrichtungen in Prozessen bezeichnet, die in verschiedenen Sinnzusammenhängen für Analyse- oder Syntheserichtungen verwendet werden.

Sehen Hierarchische Clusteranalyse und Top-down und Bottom-up

Totale Varianz

Die totale Varianz (nicht zu verwechseln mit der totalen Varianz, die sich aus der totalen Quadratsumme berechnet) ist in der multivariaten Statistik ein Maß für die Gesamt­streuung eines multivariaten (mehrdimensionalen) Datensatzes (mit p Variablen X_j).

Sehen Hierarchische Clusteranalyse und Totale Varianz

Auch bekannt als Agglomerativ, Dendrogramm, Hierarchisches Clustern.