ASCII:
7 Bits Nummer zwischen 32..127
entspricht Charakter obere Zeichen nicht definiert (128-255)
ANSI:
Übereinkommen bzw. Standard 0-128 Zeichen alle gleich wie ASCII Codepages für alle Zeichen darober (128-255). andere Darstellung je nach Codepage
UTF8:
Codepoint 0-127 -> 1 Byte abspeichern > 128 -> 2,3,..6 Bytes Vorteil: englischer Text in UTF8 = ASCII
UTF16: = UCS2 (Universal Character Set 2) speichere in 2Bytes
UTF7:
höchstes Byte immer 0; kommt durch alle MailGateways
Windows1252:
Win9x Standard -> nicht alle Zeichen speicherbar
ISO8859-1:
Latin-1; 8bit Encoding Schema;
useful for any Western European language
Languages Supported Western European (Albanian, Basque, Breton, Catalan, Danish, Dutch, English, Faeroese, Finnish, French, German, Greenlandic, Icelandic, Irish Gaelic, Italian, Latin, Luxemburgish, Norwegian, Portuguese, Rhaeto-Romanic, Scottish Gaelic, Spanish, Swedish) --> In ISO8859-1 nicht alle Zeichen speicherbar (Arabisch Griechisch ...)
Unicode:
NICHT EINFACHE 16Bit -> Char
VIEL MEHR A -> Codepoint U+0041
Encodings sagen dann wie U+0041 im Speicher abgespeichert wird.
Wenn von "Unicode" gesprochen wird, ist meist der Zeichensatz UCS-2 gemeint, also die "Basic Multilingual Plane" des Unicode.
Die ersten 256 der 65.536 Zeichen des UCS-2 entsprechen den Zeichen des Zeichensatzes "ISO Latin-1" (ISO 8859-1); eines ebenfalls von der ISO genormten und weit verbreiteten Zeichensatzes, in dem die Zeichen der west-europäischen Sprachen zusammengefasst sind. In "ISO Latin-1" wird jedes Zeichen mit nur 8 Bit (einem Byte) kodiert. UCS-2 wird auch als UTF-16 bezeichnet. UTF-16 steht für "UCS Transformation Format 16 Bit"
Notes In UTF7, UTF8, UTF16, UTF32 sind alle deutschen Zeichen speicherbar. Ich muss zu einem String immer sein Encoding haben damit ich wissen kann welche Zeichen wirklich gemeint sind. Unicode Codepoints erhält man mit "charmap" Utility von Windows XP Muss man gelesen haben! The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) Und in Bezug zu Oracle sehr interessant! Choosing a character set
UniCode ASCII ANSI UTF8 UTF16 UTF7 Windows1252 ISO8859-1 Latin1 Zusammenfassung
Latest Posts
Popular Posts
-
I am *very* keen on automating tests, so I was looking into unit testing a WCF service. If I say "unit test", I mean a fast ,...
-
It's easy I thought, just select the Property of the EntityType and set the Default Value in the Properties window to: DateTime.Now ...
-
*Updated* 26. September 2010: Updated with comments from Adam Cogan *Updated* 27. September 2010: Updated the comparison between anonymo...
No comments:
Post a Comment