Unicode collation algorithm

Unicode collation algorithm

The Unicode collation algorithm (UCA) provides a standard way to put names, words or strings of text in sequence according to the needs of a particular situation.

When used with the default Unicode collation element table (DUCET), this collation method is similar to the European ordering rules for strings in most European languages. In particular, for strings in the Latin alphabet, the ordering is the same as normal sorting order in English and similar languages, since it first looks only at letters stripped of any modifications or diacritical marks.

"Note - For a detailed overview of this complex method, full specification can be found at [http://www.unicode.org/unicode/reports/tr10/ Unicode Technical Standard #10] ."

In addition to providing a default sorting order, UTS #10 also specifies how to tailor the sorting behaviour to be appropriate for a given locale.

An important open source implementation of UCA is included with the International Components for Unicode, which also supports tailoring. You can see the effects of tailoring and a large number of language specific tailorings in the on-line ICU Locale Explorer.

ee also

*Collation

External links and references

* [http://www.unicode.org/unicode/reports/tr10/ Unicode Collation Algorithm] : Unicode Technical Standard #10
* [http://www.icu-project.org/ International Components for Unicode (ICU)]
* [http://developer.mimer.com/collations/charts/index.tml Mimer SQL Unicode Collation Charts]
* [http://www.collation-charts.org/mysql60/by-charset.html#utf8 MySQL UCA-based Unicode Collation Charts]

Tools

* [http://demo.icu-project.org/icu-bin/locexp?_=en_US&x=col ICU Locale Explorer] An online demonstration of the Unicode Collation Algorithm using International Components for Unicode
* [http://billposer.org/Software/msort.html msort] A sort program that provides an unusual level of flexibility in defining collations and extracting keys.


Wikimedia Foundation. 2010.

Игры ⚽ Нужно сделать НИР?

Look at other dictionaries:

  • Unicode — est une norme informatique, développée par le Consortium Unicode, qui vise à permettre le codage de texte écrit en donnant à tout caractère de n’importe quel système d’écriture un nom et un identifiant numérique, et ce de manière unifiée, quelle… …   Wikipédia en Français

  • Collation — This article is about collation in library, information, and computer science. For other uses, see Collation (disambiguation). Alphabetical redirects here. For the type of writing system, see Alphabet. For the album, see Alphabetical (album). A–Z …   Wikipedia

  • Unicode — Logo von Unicode Unicode [ˈjuːnɪkoʊd] ist ein internationaler Standard, in dem langfristig für jedes sinntragende Schriftzeichen oder Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es,… …   Deutsch Wikipedia

  • Unicode-Block — Logo von Unicode Unicode [ˈjuːnɪkoʊd] ist ein internationaler Standard, in dem langfristig für jedes sinntragende Schriftzeichen oder Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es,… …   Deutsch Wikipedia

  • Unicode-Ebene — Logo von Unicode Unicode [ˈjuːnɪkoʊd] ist ein internationaler Standard, in dem langfristig für jedes sinntragende Schriftzeichen oder Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es,… …   Deutsch Wikipedia

  • Unicode-Schriftart — Logo von Unicode Unicode [ˈjuːnɪkoʊd] ist ein internationaler Standard, in dem langfristig für jedes sinntragende Schriftzeichen oder Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es,… …   Deutsch Wikipedia

  • Unicode Font — Logo von Unicode Unicode [ˈjuːnɪkoʊd] ist ein internationaler Standard, in dem langfristig für jedes sinntragende Schriftzeichen oder Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es,… …   Deutsch Wikipedia

  • Unicode character property — Unicode assigns character properties to each code point.[1] These properties can be used to handle characters (code points) in processes, like in line breaking, script direction right to left or applying controls. Slightly inconsequently, some… …   Wikipedia

  • Unicode equivalence — is the specification by the Unicode character encoding standard that some sequences of code points represent essentially the same character. This feature was introduced in the standard to allow compatibility with preexisting standard character… …   Wikipedia

  • Mapping of Unicode characters — Unicode’s Universal Character Set has a potential capacity to support over 1 million characters. Each UCS character is mapped to a code point which is an integer between 0 and 1,114,111 used to represent each character within the internal logic… …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”