UniCode ASCII ANSI UTF8 UTF16 UTF7 Windows1252 ISO8859-1 Latin1 Zusammenfassung

ASCII:
7 Bits Nummer zwischen 32..127
entspricht Charakter obere Zeichen nicht definiert (128-255)

ANSI:
Übereinkommen bzw. Standard 0-128 Zeichen alle gleich wie ASCII Codepages für alle Zeichen darober (128-255). andere Darstellung je nach Codepage

UTF8:
Codepoint 0-127 -> 1 Byte abspeichern > 128 -> 2,3,..6 Bytes Vorteil: englischer Text in UTF8 = ASCII

UTF16: = UCS2 (Universal Character Set 2) speichere in 2Bytes

UTF7:
höchstes Byte immer 0; kommt durch alle MailGateways

Windows1252:
Win9x Standard -> nicht alle Zeichen speicherbar

ISO8859-1:
Latin-1; 8bit Encoding Schema;
useful for any Western European language
Languages Supported Western European (Albanian, Basque, Breton, Catalan, Danish, Dutch, English, Faeroese, Finnish, French, German, Greenlandic, Icelandic, Irish Gaelic, Italian, Latin, Luxemburgish, Norwegian, Portuguese, Rhaeto-Romanic, Scottish Gaelic, Spanish, Swedish) --> In ISO8859-1 nicht alle Zeichen speicherbar (Arabisch Griechisch ...)

Unicode:
NICHT EINFACHE 16Bit -> Char

VIEL MEHR A -> Codepoint U+0041

Encodings sagen dann wie U+0041 im Speicher abgespeichert wird.

Wenn von "Unicode" gesprochen wird, ist meist der Zeichensatz UCS-2 gemeint, also die "Basic Multilingual Plane" des Unicode.
Die ersten 256 der 65.536 Zeichen des UCS-2 entsprechen den Zeichen des Zeichensatzes "ISO Latin-1" (ISO 8859-1); eines ebenfalls von der ISO genormten und weit verbreiteten Zeichensatzes, in dem die Zeichen der west-europäischen Sprachen zusammengefasst sind. In "ISO Latin-1" wird jedes Zeichen mit nur 8 Bit (einem Byte) kodiert. UCS-2 wird auch als UTF-16 bezeichnet. UTF-16 steht für "UCS Transformation Format 16 Bit"

Notes In UTF7, UTF8, UTF16, UTF32 sind alle deutschen Zeichen speicherbar. Ich muss zu einem String immer sein Encoding haben damit ich wissen kann welche Zeichen wirklich gemeint sind. Unicode Codepoints erhält man mit "charmap" Utility von Windows XP Muss man gelesen haben! The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) Und in Bezug zu Oracle sehr interessant! Choosing a character set

No comments:

Post a Comment

Latest Posts

Popular Posts