Что нужно знать каждому разработчику о кодировках и наборах символов для работы с текстом

http://kunststube.net/encoding/
  • Перевод
  • Tutorial
Это первая часть перевода статьи What Every Programmer Absolutely, Positively Needs To Know About Encodings And Character Sets To Work With Text

Если вы работаете с текстом в компьютере, вам обязательно нужно знать про кодировки. Даже если вы посылаете электронные письма. Даже если вы их только получаете. Необязательно понимать каждую деталь, но надо хотя бы знать, что из себя представляют кодировки. И вот первая хорошая новость: статья может быть немного запутанной, но основная идея очень и очень простая.

Эта статья о кодировках и наборах символов.


Статья Джоеэля Спольски под названием «Абсолютный минимум о Unicode и наборе символов для каждого разработчика(без исключений!)» будет хорошей вводной и мне доставляет большое удовольствие перечитывать ее время от времени. Я стесняюсь отсылать к ней тех людей, которые испытывают трудности с пониманием проблем с кодировкам, хотя она довольно легкая в плане технических деталей. Я надеюсь, эта статья прольет немного света на то, чем именно являются кодировки, и почему все ваши тексты оказываются испорченными в самый ненужный момент. Статья предназначена для разработчиков(главным образом, на PHP), но пользу от нее может получить любой пользователь компьютера.

Основы


Все более или менее слышали об этом, но каким-то образом знание испаряется, когда дело доходит до обсуждения, так что вот вам: компьютер не может хранить буквы, числа, картинки или что-либо еще. Он может запомнить только биты. Бит имеет только два значения: ДА или НЕТ, ПРАВДА или ЛОЖЬ, 1 или 0 или любую другую пару, которую вы можете вообразить. Раз уж компьютер работает с электричеством, бит представлен электрическим зарядом: он либо есть, либо его нет. Людям проще представлять это в виде 1 и 0, так что я буду придерживаться этих обозначений.

Чтобы с помощью битов представлять нечно полезное, нам нужны правила. Надо сконвертировать последовательность бит в что-то похожее на буквы, числа и изображения, используя схему кодирования, или, коротко, кодировку. Вот так, например:

01100010 01101001 01110100 01110011
b i t s


В этой кодировке, 01100010 представляет из себя ‘b’, 01101001 — ‘i’, 01110100 — ‘t’, 01110011 — ‘s’. Конкретная последовательность бит соответствует букве, а буква – конкретной последовательности битов. Если вы можете запомнить последовательности для 26 букв или умеете действительно быстро находить нужное соответствие, то вы сможете читать биты, как книги.
Упомянутая схема носит название ASCII. Строка с нолями и единицами разбивается на части по 8 бит(по байтам). Кодировка ASCII определяет таблицу перевода байтов в человеческие буквы. Вот небольшой кусочек этой таблицы:

bits character

01000001 A
01000010 B
01000011 C
01000100 D
01000101 E
01000110 F


В ней 95 символов, включая буквы от A до Z, в нижнем и верхнем регистре, цифры от 0 до 9, с десяток знаков препинания, амперсанд, знак доллара и прочие. В нее также включены 33 значения, такие как пробел, табуляция, перевод строки, возврат символа и прочие. Это непечатаемые символы, хотя они видимы человеку и используются им. Некоторые значения полезны только компьютеру, такие как коды начала и конца текста. Всего в кодировку ASCII включены 128 символов — прекрасное ровное число для тех, кто смыслит в компьютерах, так как оно использует все комбинации 7ми битов (от 0000000 до 1111111).

Вот вам способ представить человеческую строку, используя только единицы и нули:

01001000 01100101 01101100 01101100 01101111 00100000
01010111 01101111 01110010 01101100 01100100

«Hello World»


Важные термины


Для кодирования чего-либо в ASCII двигайтесь справа налево, подменяя буквы на биты. Для декодирования битов в символы, следуйте по таблице слева направо, подменяя биты на буквы.

encode |enˈkōd|
verb [ with obj. ]
convert into a coded form
code |kōd|
noun
a system of words, letters, figures, or other symbols substituted for other words, letters, etc.


Кодирование – это представление чего-либо чем-нибудь другим. Кодировка – это набор правил, описывающий способ перевода одного представления в другое.

Прочие термины, заслуживающие прояснения:

Набор символов, чарсет, charset – Набор символов, который может быть закодирован. «Кодировка ASCII включает набор из 128 символов». Синоним к кодировке.

Кодовая страница – страница кодов, закрепляюшая за символом набор битов. Таблица. Синоним к кодировке.

Строка – пачка чего-нибудь, объединенных вместе. Битовая строка – это пачка бит, такая как 00011011. Символьная строка – это пачка символов, например «Вот эта». Синоним к последовательности.

Двоичный, восьмеричный, десятичный, шестнадцатеричный


Существует множество способов записывать числа. 10011111 – это бинарная запись для 237 в восьмеричной, 159 в десятичной и 9F в шестнадцатиричной системах. Значения у всех этих чисел одинаково, но шестнадцатиричная система короче и проще для понимания, чем двоичная. Я буду придерживаться двоичной системы в этой статье, чтобы улучшить понимание и убрать лишний уровень абстракции. Не пугайтесь, встречая коды символов в других нотациях, все значения эквиваленты.

Excusez-Moi?


Раз уж мы теперь знаем, о чем говорим, заметим: 95 символов – это совсем немного, когда речь идет о языках. Этот набор покрывает базовый английский, но как насчет французских символов? А вот это Straßen¬übergangs¬änderungs¬gesetz из немецкого языка? А приглашение на smörgåsbord в шведском? В-общем, не получится. Не в ASCII. Спецификация на представление é, ß, ü, ä, ö просто отсутствует.

“Постойте-ка”, скажут европейцы, “в обычных компьютерах с 8 битами в байте, ASCII никак не использует бит, который всегда равен 0! Мы можем использовать его, чтобы расширить таблицу еще на 128 значений”. И было так. Но способов обозначить звучание гласных еще слишком много. Не все сочетания букв и значений, используемые в европейских языках, влезают в таблицу из 256 записей. Так мир пришел к изобилию кодировок, стандартов, стандартов де-факто и недостандартов, которые покрывают все субнаборы символов. Кому-то понадобилось написать документ на шведском или чешском, и, не найдя нужной кодировки, просто изобрел еще одну. Или я думаю, что все так и произошло.

Не забывайте о русском, хинди, арабском, корейском и множестве других живых языков планеты. Про мертвые уж молчим. Как только вы найдете способ писать документ, использующий несколько языков, попробуйте добавить китайский. Или японский. Оба содержат тысячи символов. И у вас всего 256 значений. Вперед!

Многобайтные кодировки


Для создания таблиц, которые содержат более 256 символов, одного байта просто недостаточно. Двух байтов (16 бит) хватит для кодировки 65536 различных значений. Big-5 например, кодировка двухбайтная. Вместо разбиения последовательности битов в блоки по 8, она использует блоки по 16 битов и содержит большую(я имею ввиду БОЛЬШУЮ) таблицу с соответствием. Big-5 в своем основном виде покрывает большинство символов традиционного китайского. GB18030 – это похожая кодировка, но она включает как традиционный, так и упрощенный китайский. И, прежде чем вы спросите, да, есть кодировки только для упрощенного китайского. А разве одной недостаточно?

Вот кусок таблицы GB18030:

bits character
10000001 01000000 丂
10000001 01000001 丄
10000001 01000010 丅
10000001 01000011 丆
10000001 01000100 丏


GB18030 покрывает довольно большой диапазон символов, включая большую часть латинских символов, но в конце концов, это всего лишь еще одна кодировка среди многих других.

Путаница с Unicode


В итоге тем, кому больше всех надоела эта каша, пришла в голову идея разработать единый стандарт, объединяющий все кодировки. Этим стандартом стал Unicode. Он определяет невероятную таблицу из 1 114 112 пунктов, используемую для всех вариантов букв и символов. Этого хватит для кодирования всех европейских, средне-азиатских, дальневосточных, южных, северных, западных, доисторических и будущих символов, о которых человечеству известно. Unicode позволяет создать документ на любом языке любыми символами, которые можно ввести в компьютер. Это было невозможно, или очень затруднительно до эры Unicode. В стандарте есть даже неофициальная секция под клингонский. Вы поняли, Unicode настолько большой, чтобы допускает неофициальные секции.

Итак, и сколько же байт использует Unicode для кодирования? Нисколько. Потому что Unicode – это не кодировка.
Смущены? Не вы одни. Unicode в первую и главную очередь определяет таблицу пунктов для символов. Это такой способ сказать «65 – A, 66 – B, 9731 – »(я не шучу, так и есть). Как эти пункты кодируются в байты является предметом другого разговора. Для представления 1 114 112 значений двух байт недостаточно. Трех достаточно, но 3 – странное число, так что 4 является комфортным минимумом. Но, пока вы не используете китайский, или другой язык со множеством символов, которые требуют большого количества битов для кодирования, вам никогда не придет в голову использовать толстую колбасу из 4х байт. Если “A” всегда кодируется в 00000000 00000000 00000000 01000001, а “B” – в 00000000 00000000 00000000 01000010, то документ, использующий такую кодировку, распухнет в 4 раза.

Существует несколько способов решения этой проблемы. UTF-32 – это кодировка, которая переводит все символы в наборы из 32 бит. Это простой алгоритм, но изводящий много места впустую. UTF-16 и UTF-8 являются кодировками с переменной длиной кодирования. Если символ может быть закодирован одним байтом(потому что номер пункта символа очень маленький), UTF-8 закодирует его одним байтом. Если нужно 2 байта, то используется 2 байта. Кодировка сообщает старшими битами, сколькими битами кодируется текущий символ. Такой способ экономит место, но так же и тратит его в случае, если эти сигнальные биты часто используются. UTF-16 является компромиссом: все символы как минимум двухбайтные, но их размер может увеличиваться до 4 байт, если нужно.

character encoding bits
A UTF-8 01000001
A UTF-16 00000000 01000001
A UTF-32 00000000 00000000 00000000 01000001
あ UTF-8 11100011 10000001 10000010
あ UTF-16 00110000 01000010
あ UTF-32 00000000 00000000 00110000 01000010


И все. Unicode – это огромная таблица соответствия символов и чисел, а различные UTF кодировки определяют, как эти числа переводятся в биты. В-общем, Unicode – это просто еще одна схема. Ничего особенного, она просто пытается покрыть все, что можно, оставаясь эффективной. И это хорошо.

Пункты


Символы определяются по их Unicode-пунктам. Эти пункты записаны в шестнадцатеричной системе и предварены “ U+” (просто для удобство, не значит ничего, кроме “Это пункт Unicode”). Символ Ḁ имеет пункт U+1E00. Иными(десятичными) словами, это 7680й символ таблицы Unicode. Он официально называется “ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА А С КОЛЬЦОМ СНИЗУ”.

Ниасилил


Суть вышесказанного: любой символ может быть закодирован множеством разных последовательностей бит, и любая последовательность бит может представлять разные символы, в зависимости от используемой кодировки. Причина в том, что разные кодировки используют разное число бит на символ и разные значения для кодирования разных символов.

bits encoding characters

11000100 01000010 Windows Latin 1 ÄB
11000100 01000010 Mac Roman ƒB
11000100 01000010 GB18030 腂

characters encoding bits

Føö Windows Latin 1 01000110 11111000 11110110
Føö Mac Roman 01000110 10111111 10011010
Føö UTF-8 01000110 11000011 10111000 11000011 10110110


Заблуждения, смущения и проблемы


Имея все вышесказанное, мы приходим к насущным проблемам, которые испытывают множество пользователей и разработчиков каждый день, как они соотносятся с указанным выше, и каковы пути решения. Сама большая проблема – это

Какого черта мой текст нечитаем?


ÉGÉìÉRÅ[ÉfÉBÉìÉOÇÕìÔǵÇ≠ǻǢ

Если вы откроете документ, и он выглядит так, как текст выше, то причина у этого одна: ваша программа ошиблась с кодировкой. И все. Документ не испорчен(по крайней мере, пока), и не нужно никакое волшебство. Вместо него надо просто выбрать правильную кодировку для отображения текста. Предполагаемый документ выше содержит биты:

10000011 01000111 10000011 10010011 10000011 01010010 10000001 01011011
10000011 01100110 10000011 01000010 10000011 10010011 10000011 01001111
10000010 11001101 10010011 11101111 10000010 10110101 10000010 10101101
10000010 11001000 10000010 10100010


Так, быстренько угадали кодировку? Если вы пожали плечами, то вы правы. Да кто знает?
Попробуем с ASCII. Большая часть этих байтов начинается с 1. Если вы правильно помните, ASCII вообще-то не использует этот бит. Так что ASCII не вариант. Как насчет UTF-8? Большая часть байт не является валидными значениями в этой кодировке. Как насчет Mac Roman(еще одна европейская кодировка)? Хм, для нее эти байты являются правильными значениями. 10000011 декодируетися в ”É”, в “G” и так далее. Так что в Mac Roman текст будет выглядеть так: ÉGÉìÉRÅ[ÉfÉBÉìÉOÇÕìÔǵÇ≠ǻǢ. Правильно? Нет? Может быть? А компьютер-то откуда знает? Может кто-то хотел написать именно это. Насколько я знаю, это может быть последовательностью ДНК! Так и порешим: это Mac Roman, и это ДНК.

Конечно, это полный бред. Правильный ответ таков: текст закодирован в Japanes Shift-JIS и должен выглядеть как エンコーディングは難しくない. Кто бы мог подумать?
Первая причина нечитаемости текста в том, что кто-то пытается прочитать последовательность байт в неверной кодировке. Компьютеру всегда нужно подсказывать. Сам он не догадается. Некоторые типы документов определяют кодировку своего содержимого, но последовательность байт всегда остается черным ящиком.
Большинство браузеров предоставляют возможность указать кодировку страницы с помощью специального пункта меню. Иные программы тоже имеют аналогичные пункты.

У автора нет разбиения на части, но статья и так длинна. Продолжение будет через пару дней.
Поделиться публикацией
AdBlock похитил этот баннер, но баннеры не зубы — отрастут

Подробнее
Реклама
Комментарии 37
  • 0
    Зачитался. Хочу продолжения :)
    • +3
      К слову, эта статья есть в книге «Джоэль о программировании». Книга на русском. В ней лучшие подборки статей с блога Джоэля.

      Сорри, не туда
      • 0
        Заработался:( пора домой…
        • 0
          Молодец, все туда. Сам хотел комментарий написать про Джоэля Спольски, вот даже ссылку нашел: habrahabr.ru/sandbox/47663/
          • 0
            Если ваш комментарий не саркастичный, то могу похвастаться, что буквально в субботу купил последний экземпляр данной книги(за 2006 год которая) в своем городе:)
          • 0
            А еще у этой книги есть продолжение www.amazon.com/More-Joel-Software-Occasionally-Developers/dp/1430209879
            Кстати Joel это чувак, который открыл Stackoverflow.
            • 0
              Джоэл много чего написал и нарекомендовал, а вот стек оверфлоу больше похож на хорошую бизнес идею, чем на проект с сильной реализацией.

              Вот тут можно посмотреть что за 12 лет он понаписал больше тысячи статей www.joelonsoftware.com/backIssues.html

              A вот тут посмотреть на стек оверфлоу highscalability.com/blog/2011/3/3/stack-overflow-architecture-update-now-at-95-million-page-vi.html — пара десятков серверов да пяток свичей.

              Возможно он говорит правильные вещи, но мне кажется, что они у него больше от философствования, чем от опыта разработки 8)
              • +1
                Stackoverflow — он не в серверах, а в комьюнити. На знаю насчет бизнес идеи, но для програмистов это просто незаменимый ресурс. Если у вас есть вопрос о программировании, вы почти наверняка найдете десяток готовых ответов на этом сайте. При чем качество меня продолжает изумлять —такие подробные и развернутые ответы трудно встретить в другом месте.
                • 0
                  Ну вот я примерно об этом и говорю, что создание stackoverflow не подтверждает его сильной квалификации как технаря, но говорит о неплохом бизнес-чутье (в широком понимании слова «бизнес»).
          • +1
            Если ничего не случится, то продолжение будет завтра, максимум послезавтра.
          • +1
            Блин. Не могу передать насколько я Вам благодарен за эту статью. Я ВСЕ ПОНЯЛ! И хотя я и до этого читал статьи про кодировки, хотя сама тема, признаю, достаточно проста, но почему-то до Вашей статьи у меня все равно оставался сумбур в голове.
            +∞ Вам в жизненную карму! =)
            • 0
              Статья не моя, я просто сделал перевод. Рад, что он оказался полезен.
            • 0
              У меня была интересная идея сжимать файлы, засовывая внутрь определение его кодировки. Т.е. например в файле в котором используются только кириллица — можно в одном байте ужимать например 2 символа, при этом сначала поставить флаг, означающий кириллицу…
              • +1
                Не выйдет, в 4 бита влезет только 32 комбинации, а в русском алфавите 33 буквы (+33 больших + несколько знаков пунктуации). Но есть более интересные алгоритмы. Вы видели когда-то «Код Хаффмана» (http://ru.wikipedia.org/wiki/Код_Хаффмана)? Принцип работы примерно такой — анализируем текст, наиболее часто встречающийся символ помечаем как 1, второй по популярности как 10, третий 11 и так далее. Очень красиво и лаконично, я считаю.
                • +1
                  Только не совсем так. Второй по популярности нельзя обозначить как 10, потому что дешифровщик решит, что единичка принадлежит первому по популярности, а на нолике он споткнётся. Строго говоря, в этом коде самый популярный символ всегда будет кодироваться либо ноликом либо единичкой, а коды для второго и всех последующих всегда будут начинаться с противоположного символа. То есть, если самый популярный имеет код 0, то все остальные будут начинаться с 1, и наоборот.

                  Допустим, мы имеем сообщение из 7 символов (АББВАБВ), А и В встречаются по 2 раза, Б встречается 3 раза, тогда согласно алгоритму (он есть по вашей ссылке), А и В объединяются в символ АВ с суммой 4, дуге в сторону А присваивается 0, дуге в сторону В присваивается 1, затем новая вершина АВ объединяется с вершиной Б, в сторону Б идёт, допустим, 1 (на самом деле всё равно, 0 или 1), а в сторону вершины АВ идёт 0. Построение дерева закончилось, считываем по дугам коды символов от корневой вершины), так для А получаем АБВ -> АВ -> А = 00, для Б получаем АБВ -> Б = 1, а для В получаем АБВ -> АВ -> В = 01.

                  Корявая картинка:
                  image
                  • 0
                    Спасибо, что поправили. Статья об этом алгоритме на Хабре, если кому интересно habrahabr.ru/post/144200/
                • +2
                  ох, сколько оригинал статьи был у меня в закладках. Все вот-вот собирался прочитать. Благодаря вам наконец-то прочту :)
                  • +1
                    вы не поверите, я читал эту замечательную статью ещё около года назад, а буквально вчера собирался сделать её перевод, но вы меня опередили :)! Спасибо за труд, отлично получилось!
                    • +1
                      Не понял один момент, почему в 4 строке UTF-8 использует 3 бита? Объясните пожалуйста.
                      A UTF-8 01000001
                      A UTF-16 00000000 01000001
                      A UTF-32 00000000 00000000 00000000 01000001
                      あ UTF-8 11100011 10000001 10000010
                      あ UTF-16 00110000 01000010
                      あ UTF-32 00000000 00000000 00110000 01000010

                      • 0
                        Я статью не читал, но насколько я понял, ваш вопрос в том, почему в UTF-16 тот же символ занимает два байта. Похоже, дело в том, что в некоторых ситуациях служебная информация в UTF-16 занимает меньше места.

                        Вот цитата из википедии:
                        Characters U+0800 through U+FFFF use three bytes in UTF-8, but only two in UTF-16. As a result, text in (for example) Chinese, Japanese or Hindi could take more space in UTF-8 if there are more of these characters than there are ASCII characters. This happens for pure text,[35] but rarely for HTML documents. For example, both the Japanese UTF-8 and the Hindi Unicode articles on Wikipedia take more space in UTF-16 than in UTF-8 .[
                        • +1
                          В UTF-16 нет служебной информации. Все символы из базовой многоязыковой плоскости будут закодированы 16 битами в UTF-16, и только после U+10000 понадобится 32 бита.

                          Иными словами, UTF-16 так же относится к UCS-2, как UTF-8 к ASCII, то есть является надмножеством.
                          • 0
                            А как при декодировании узнать сколько байт занимает следующий символ?
                            • +2
                              Проанализировав биты первого байта. В случае с UTF-8 длина символа определяется так:

                              0xxx xxxx — один
                              110x xxxx — два
                              1110 xxxx — три

                              и т.п.

                              Все непервые байты символов при этом должны будут иметь вид 10xx xxxx, поэтому разрыв потока грозит потерей максимум одного символа.
                              • 0
                                Да нет, в UTF-8 я понимаю как это происходит — с помощью служебных бит. Но если их нет в UTF-16, как определить символ занимает два или четыре байта?
                                • +2
                                  UTF-16 эксплуатирует тот факт, что с U+D800 по U+DFFF в Юникоде валидных символов быть не может, и использует этот диапазон для четырёхбайтовго кодирования всех дополнительных планов с U+10000 по U+10FFFF. Стало быть, если попадается 1101 01xx — 1101 xxxx, то перед нами четырёхбайтовый символ.
                                  • 0
                                    Спасибо. Меня всегда поражало сколько информации в UTF-8 расходуется впустую. Случайно промазал по плюсику, но я вам компенсирую ;-).
                                    • 0
                                      Зато экономит много байт, если весь или большая часть текста в ASCII.
                        • 0
                          Это потому, что бит(ы) указывающие на то, что кодпоинт использует дополнительные байты тоже занимают место.
                          • 0
                            Потому что в UTF-8 все значения, не влезающие в диапазон от 0 до 127 кодируются следующим образом. В первом байте идёт столько единиц, сколько всего байт используется для кодирования символа, затем идёт ноль, а оставшиеся биты — это уже часть бинарного представления самого числа. Затем идут по 6 бит записи числа, с префиксом 10. Таким образом, в 2 байтах можно записать 11 бит, т.к. в первом байте будет 3 служебных бита, во втором — 2. А этого недостаточно для кодирования 14-битного значения.
                          • –1
                            А чем плох "официальный" перевод?
                            • +1
                              Ох, это другая статья, прошу прощения.
                            • +3
                              Спасибо за отличный перевод. Хотелось бы дополнить.
                              В вопросе кодировок мне в своё время помогла книга «Dive Into Python 3».
                              Что касается Python, то
                              Characters are an abstraction. A string is a sequence of those abstractions.

                              по русски говоря:
                              Символы — это абстракция. А строки — это последовательность таких абстракций.

                              Иными словами, пока вы в Python коде работаете со строками, то совершенно не нужно знать, как эти строки представляются байтами. Со строками можно производить обычные действия: разрезать, менять регистр, делать замены, не задумываясь о каких-то там кодировках. А вот когда вам понадобится сохранить строку в файл или прочитать из сокета, тогда возникнет вопрос: как последовательность символов превратить в набор байт и обратно. Кодировки в Python возникают только при конвертации string <=> bytes.
                              Это знание помогло мне не беспокоится по пустякам, придало уверенности, мои волосы стали мягкие и шелковистые, и Я стал по другому смотреть на мир.
                              • +1
                                Да, кстати, мне когда то эти простые правила помогли избавиться от проблем с кодировками. Теперь я даже не понимаю, почему говорят что в 2.х есть какие то проблемы с кодировками. На практике я их не встречаю.
                              • +2
                                Вот только charset и encoding — нифига не одно и тоже.

                                charset — набор символов, таблица сопоставления буквам чисел. Например, ascii, windows-1251, unicode.
                                encoding — в общем случае способ представления чисел битами. Например, 8bit (1 байт на число), utf-8, base64.

                                Более точные определния даны в стандарте unicode, где-то в началных главах.

                                То, что в заголовках http и в функциях php они перепутаны, не значит, что это одно и тоже.
                                Хороший способ оконфузиться в этих терминах: почить man recode.
                                • 0
                                  Ну вот и развилась поддержка юникода до той черты, что можно такую статью читать прямо в браузере, и при этом символы вставлены именно символами, а не картинками.
                                  • 0
                                    При решении практических задач, часто возникает необходимость узнать кодировку текста (часто русскоязычного текста). Помочь может универсальный декодировщик (много их разных, я пользуюсь — 2cyr.com/decode/?lang=ru )

                                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.