encoding iso 8859 1

ISO-8859-1 — кодировка по умолчанию в большинстве современных браузеров.

Первые 128 символов ISO-8859-1 закодированы так же, как и в ASCII (прописные и строчные латинские буквы, цифры от 1 до 9 и некоторые другие символы).

Коды от 160 до 255 содержат символы, используемые в западно-европейских странах и часто используемые спецсимволы.

Коды символов используются для отображения зарезервированных символов или символов, которые сложно ввести с клавиатуры.

Содержание

  1. Зарезервированные символы HTML
  2. Зарезервированные символы HTML
  3. Содержание
  4. Таблицы [ править | править код ]
  5. ISO-8859-1 [ править | править код ]
  6. Windows−1252 [ править | править код ]
  7. 7 Answers 7
  8. ISO-8859

Зарезервированные символы HTML

Некоторые символы в HTML и XHTML зарезервированы. Например, вы не можете использовать знаки больше или меньше, потому что браузер будет воспринимать их как элементы разметки.

Для того, чтобы отобразить эти символы, используйте коды, приведенные в таблице ниже:

Зарезервированные символы HTML

Символ Числовой код Буквенный код Описание « « « Компьютерная кавычка ‘ ‘ ‘ (не работает в IE) Апостроф & & & Амперсанд > > «Больше чем»

Внимание! Буквенные коды символов чувствительны к регистру букв.

ISO/IEC 8859-1 (также известная как ISO 8859-1 и Latin-1) — кодовая страница, предназначенная для западноевропейских языков; она базируется на символьном наборе популярных в прошлом терминалов VT220. Кодовые позиции 0—31 (0x0—0x1F) и 127—159 (0x7F—0x9F) не определены. По образцу ISO 8859-1 сделаны все остальные кодировки серии ISO 8859.

ISO-8859-1 — кодировка, зарегистрированная IANA в 1992 г. В отличие от ISO/IEC 8859-1, кодовые позиции 0—31 и 127—159 здесь заполнены управляющими символами (большинство из которых, впрочем, всё равно никто не использует). В HTML ISO-8859-1 является кодировкой по умолчанию (в XHTML, однако, кодировкой по умолчанию является UTF-8).

IANA разрешает использовать следующие варианты названия: ISO_8859-1:1987, ISO_8859-1, ISO-8859-1, iso-ir-100, sISOLatin1, latin1, l1, IBM819, CP819.

В Юникоде первые 256 кодовых позиций совпадают с ISO-8859-1.

В Microsoft Windows для западноевропейских языков используется кодировка Windows-1252, которая отличается от ISO-8859-1 тем, что позиции 128—159 (0x80—0x9F) здесь заняты разными полезными типографскими символами. Большинство браузеров не различают ISO-8859-1 и Windows-1252 — фактически, и в том, и в другом случае они отображают текст как Windows-1252.

Такая путаница между этими двумя кодировками привела к тому, что многие программы, генерирующие файлы HTML, ошибочно обозначали символы их кодами из Windows−1252 вместо кодов Юникода (исходя из того, что номер символа в ISO-8859-1 равен его номеру в Юникоде): например, тире (—) обозначалось — вместо правильного — , многоточие обозначалось вместо правильного … и т. д.; из-за распространённости этого явления современные браузеры продолжают показывать, например, — как тире, хотя на самом деле — — это управляющий символ «end of guarded area», применение которого в HTML бессмысленно.

В проекте стандарта HTML 5 предписывается показывать ISO-8859-1 как Windows-1252. [1]

Содержание

Таблицы [ править | править код ]

Нижняя часть (0—127) таблиц кодировки не показана, поскольку полностью соответствует обычному ASCII. Числа под буквами обозначают шестнадцатеричный код буквы в Юникоде.

ISO-8859-1 [ править | править код ]

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F 8. PAD
80 HOP
81 BPH
82 NBH
83 IND
84 NEL
85 SSA
86 ESA
87 HTS
88 HTJ
89 VTS
8A PLD
8B PLU
8C RI
8D SS2
8E SS3
8F 9. DCS
90 PU1
91 PU2
92 STS
93 CCH
94 MW
95 SPA
96 EPA
97 SOS
98 SGCI
99 SCI
9A CSI
9B ST
9C OSC
9D PM
9E APC
9F A. A0 ¡
A1 ¢
A2 £
A3 ¤
A4 ¥
A5 ¦
A6 §
A7 ¨
A8 ©
A9 ª
AA «
AB ¬
AC ­
AD ®
AE ¯
AF B. °
B0 ±
B1 ²
B2 ³
B3 ´
B4 µ
B5 ¶
B6 ·
B7 ¸
B8 ¹
B9 º
BA »
BB ¼
BC ½
BD ¾
BE ¿
BF C. À
C0 Á
C1 Â
C2 Ã
C3 Ä
C4 Å
C5 Æ
C6 Ç
C7 È
C8 É
C9 Ê
CA Ë
CB Ì
CC Í
CD Î
CE Ï
CF D. Ð
D0 Ñ
D1 Ò
D2 Ó
D3 Ô
D4 Õ
D5 Ö
D6 ×
D7 Ø
D8 Ù
D9 Ú
DA Û
DB Ü
DC Ý
DD Þ
DE ß
DF E. à
E0 á
E1 â
E2 ã
E3 ä
E4 å
E5 æ
E6 ç
E7 è
E8 é
E9 ê
EA ë
EB ì
EC í
ED î
EE ï
EF F. ð
F0 ñ
F1 ò
F2 ó
F3 ô
F4 õ
F5 ö
F6 ÷
F7 ø
F8 ù
F9 ú
FA û
FB ü
FC ý
FD þ
FE ÿ
FF

Интересно расположение символов × и ÷ посреди букв: первоначально там планировалось разместить лигатуру Œœ, но в конечном итоге было решено, что она не нужна, и освободившиеся два места были заполнены небуквенными символами. [2]

Windows−1252 [ править | править код ]

В первоначальной версии этой кодировки отсутствовали символы: € (0x80), ˆ (0x88), ˜ (0x98), Ž (0x8E), ž (0x9E).

What is the difference between UTF-8 and ISO-8859-1?

7 Answers 7

UTF-8 is a multibyte encoding that can represent any Unicode character. ISO 8859-1 is a single-byte encoding that can represent the first 256 Unicode characters. Both encode ASCII exactly the same way.

Wikipedia explains both reasonably well: UTF-8 vs Latin-1 (ISO-8859-1). Former is a variable-length encoding, latter single-byte fixed length encoding. Latin-1 encodes just the first 256 code points of the Unicode character set, whereas UTF-8 can be used to encode all code points. At physical encoding level, only codepoints 0 — 127 get encoded identically; code points 128 — 255 differ by becoming 2-byte sequence with UTF-8 whereas they are single bytes with Latin-1.

UTF is a family of multi-byte encoding schemes that can represent Unicode code points which can be reperesentative of up to 2^31 [roughly 2 billion] characters. UTF-8 is a flexible encoding system that uses between 1 and 4 bytes to represent the first 2^21 [roughly 2 million] code points.

Long story short: any character with a code point/ordinal representation below 127, aka 7-bit-safe ASCII is represented by the same 1-byte sequence as most other single-byte encodings. Any character with a code point above 127 is represented by a sequence of two or more bytes, with the particular of encoding best explained here.

ISO-8859

ISO-8859 is a family of single-byte encoding schemes used to represent alphabets that can be represented within the range of 127 to 255. These various alphabets are defined as «parts» in the format ISO-8859-n, the most familiar of these likely being ISO-8859-1 aka ‘Latin-1’. As with UTF-8, 7-bit-safe ASCII remains unaffected regardless of the encoding family used.

The drawback to this encoding scheme is its inability to accommodate languages comprised of more than 128 symbols, or to safely display more than one family of symbols at one time. As well, ISO-8859 encodings have fallen out of favor with the rise of UTF. The ISO «Working Group» in charge of it having disbanded in 2004, leaving maintenance up to its parent subcommittee.

Источник: computermaker.info

Понравилась статья? Поделиться с друзьями:
Ок! Компьютер
Добавить комментарий