Wir arbeiten daran, die Unionpedia-App im Google Play Store wiederherzustellen
AusgehendeEingehende
🌟Wir haben unser Design fĂŒr eine bessere Navigation vereinfacht!
Instagram Facebook X LinkedIn
Ihre eigene Unionpedia mit Ihrem Logo und Ihrer Domain, ab 9,99 USD/Monat
Mein Unionpedia erstellen

Sorted Neighborhood

Index Sorted Neighborhood

Sortierte Nachbarschaft (engl. sorted neighborhood) ist ein Verfahren zur Duplikaterkennung.

Inhaltsverzeichnis

  1. 8 Beziehungen: Datensatz, Duplikaterkennung, Hashfunktion, Levenshtein-Distanz, Mergesort, Sortierverfahren, Transitive Hülle (Relation), Vorrangwarteschlange.

Datensatz

Ein Datensatz ist (beispielsweise nach Mertens) eine Gruppe von inhaltlich zusammenhängenden (zu einem Objekt gehörenden) Datenfeldern, z. B.

Sehen Sorted Neighborhood und Datensatz

Duplikaterkennung

Unter Duplikaterkennung oder Objektidentifizierung (auch englisch Record Linkage) versteht man verschiedene automatische Verfahren, mit denen sich in Datensätzen Fälle identifizieren lassen, die dasselbe Objekt in der realen Welt repräsentieren.

Sehen Sorted Neighborhood und Duplikaterkennung

Hashfunktion

Eine Hashfunktion, die Namen auf Ganzzahlen abbildet. Für die Namen „John Smith“ und „Sandra Dee“ gibt es eine Kollision. Eine Hashfunktion oder Streuwertfunktion ist eine Abbildung, die eine große Eingabemenge, die Schlüssel, auf eine kleinere Zielmenge, die Hashwerte, abbildet.

Sehen Sorted Neighborhood und Hashfunktion

Levenshtein-Distanz

Die Levenshtein-Distanz (auch Editierdistanz) zwischen zwei Zeichenketten ist die minimale Anzahl einfügender, löschender und ersetzender Operationen, um die erste Zeichenkette in die zweite umzuwandeln.

Sehen Sorted Neighborhood und Levenshtein-Distanz

Mergesort

Beispiel, wie Mergesort eine Liste sortiert. Die Listenelemente werden durch Punkte dargestellt. Die waagerechte Achse gibt an, wo sich ein Element in der Liste befindet, die senkrechte Achse gibt an, wie groß ein Element ist. Mergesort (von ‚verschmelzen‘ und sort ‚sortieren‘) ist ein stabiler Sortieralgorithmus, der nach dem Prinzip teile und herrsche (divide and conquer) arbeitet.

Sehen Sorted Neighborhood und Mergesort

Sortierverfahren

Unter einem Sortierverfahren versteht man in der Informatik einen Algorithmus, der dazu dient, ein Tupel (i. Allg. ein Array) zu sortieren.

Sehen Sorted Neighborhood und Sortierverfahren

Transitive Hülle (Relation)

Die transitive Hülle bzw.

Sehen Sorted Neighborhood und Transitive Hülle (Relation)

Vorrangwarteschlange

In der Informatik ist eine Vorrangwarteschlange (auch Prioritätenliste, Prioritätsschlange, Prioritätswarteschlange oder genannt) eine spezielle abstrakte Datenstruktur, genauer eine erweiterte Form einer Warteschlange.

Sehen Sorted Neighborhood und Vorrangwarteschlange

Auch bekannt als Sortierte Nachbarschaft.