Jaro-Winkler distance

Jaro-Winkler distance

The Jaro-Winkler distance (Winkler, 1999) is a measure of similarity between two strings. It is a variant of the Jaro distance metric (Jaro, 1989, 1995) and mainly used in the area of record linkage (duplicate detection). The higher the Jaro-Winkler distance for two strings is, the more similar the strings are. The Jaro-Winkler distance metric is designed and best suited for short strings such as person names. The score is normalized such that 0 equates to no similarity and 1 is an exact match.

The Jaro distance metric states that given two strings s_1 and s_2, their distance d_j is:

:d_j = frac{1}{3}left(frac{m}

* m = 4 Note that the two "X"s are not considered matches because they are outside the match window of 3.
* |s_1| = 5
* |s_2| = 8
* t = 0

We find a Jaro score of:

:d_j = frac{1}{3}left(frac{4}{5} + frac{4}{8} + frac{4-0}{4} ight) = 0.767

To find the Jaro-Winkler score using the standard weight d = 0.1, we continue to find:

* ell = 2

Thus:

:d_w = 0.767 + (2 * 0.1 (1 - 0.767)) = 0.813

References

*
*
*
*

ee also

record linkage, census

External links

* [http://www.dcs.shef.ac.uk/~sam/stringmetrics.html#jaro Open Source implementation in Java and .NET]
* [http://www.census.gov/geo/msb/stand/strcmp.c Original C Implementation by the author of the algorithm]
* [http://diotalevi.isa-geek.net/~josh/Jaro-Winkler/winkler's.pl Perl bindings for the original C implementation]
* [http://diotalevi.isa-geek.net/~josh/Jaro-Winkler/jjore's.pl Clean, perl reimplementation of the algorithm]


Wikimedia Foundation. 2010.

Игры ⚽ Поможем сделать НИР

Look at other dictionaries:

  • Jaro-Winkler — Distance de Jaro Winkler La distance de Jaro Winkler mesure la similarité entre deux chaînes de caractères. Il s agit d une variante proposée en 1999 par William E. Winkler, découlant de la distance de Jaro (1989, Matthew A. Jaro) qui est… …   Wikipédia en Français

  • Distance de Jaro-Winkler — La distance de Jaro Winkler mesure la similarité entre deux chaînes de caractères. Il s agit d une variante proposée en 1999 par William E. Winkler, découlant de la distance de Jaro (1989, Matthew A. Jaro) qui est principalement utilisée dans la… …   Wikipédia en Français

  • Distance de Jaro — Winkler La distance de Jaro Winkler mesure la similarité entre deux chaînes de caractères. Il s agit d une variante proposée en 1999 par William E. Winkler, découlant de la distance de Jaro (1989, Matthew A. Jaro) qui est principalement utilisée… …   Wikipédia en Français

  • Distance De Levenshtein — La distance de Levenshtein mesure la similarité entre deux chaînes de caractères. Elle est égale au nombre minimal de caractères qu il faut supprimer, insérer ou remplacer pour passer d’une chaîne à l’autre. Son nom provient de Vladimir… …   Wikipédia en Français

  • Distance de levenshtein — La distance de Levenshtein mesure la similarité entre deux chaînes de caractères. Elle est égale au nombre minimal de caractères qu il faut supprimer, insérer ou remplacer pour passer d’une chaîne à l’autre. Son nom provient de Vladimir… …   Wikipédia en Français

  • Jaro — may refer to either of two places in the Philippines: *Jaro, Leyte a municipality in the province of Leyte *Jaro, Iloilo City a district of Iloilo Cityee also*Jaro Winkler distance *Jaro Medien (Jaro Media) a German music company * Jaro Records …   Wikipedia

  • Distance De Hamming — La distance de Hamming, définie par Richard Hamming, est utilisée en informatique, en traitement du signal et dans les télécommunications. Elle joue un rôle important en théorie algébrique des codes correcteurs. Elle permet de quantifier la… …   Wikipédia en Français

  • Distance de hamming — La distance de Hamming, définie par Richard Hamming, est utilisée en informatique, en traitement du signal et dans les télécommunications. Elle joue un rôle important en théorie algébrique des codes correcteurs. Elle permet de quantifier la… …   Wikipédia en Français

  • Distance de Levenshtein — La distance de Levenshtein mesure la similarité entre deux chaînes de caractères. Elle est égale au nombre minimal de caractères qu il faut supprimer, insérer ou remplacer pour passer d’une chaîne à l’autre. Son nom provient de Vladimir… …   Wikipédia en Français

  • Levenshtein distance — In information theory and computer science, the Levenshtein distance is a string metric for measuring the amount of difference between two sequences. The term edit distance is often used to refer specifically to Levenshtein distance. The… …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”