Что такое Unicode?

Определение понятия Unicode

Unicode — стандарт для цифрового представления символов, используемых в письменной форме всех языков мира. Unicode позволяет обеспечивать хранение, поиск и перестановку текста на любом языке. Он используется всеми современными компьютерами и является основой для обработки текста в интернете.

История возникновения Unicode

В 1980-х годах интернет был на стадии стремительного развития и стал активно распространяться за пределы англоговорящих стран. В связи с этим в мире появилось множество альтернатив американской кодировки, поскольку каждой письменности необходимо место в кодовой таблицы. Из-за большого количества различных кодировок появилась проблема некорректного отображения символов у пользователей интернета из разных стран. Для решения этой проблемы в 1991 году был принят универсальный стандарт кодирования Unicode.

Представление текста в Unicode

Unicode является системой линейного представления текста. Поэтому, если символ содержит надстрочный, подстрочный или какой-либо другой дополнительный элемент, то этот символ представляется в виде определенной последовательности кодов, который называется составной вариант. Так же есть возможность представить этот символ в виде одного кода, тогда получается монолитный вариант. Например немецкая буква Ü содержит дополнительный элемент в виде двух точек над буквой U.

Состав стандарта Unicode

В состав Unicode входит два главных раздела: универсальный состав символов (Universal Character Set, сокращенно UCS) и семейство кодировок (Unicode Transformation Format, сокращенно UTF). Коды в Unicode разбиты на некоторое количество областей. Например символы американской стандартной кодировочной таблицы (American Standard Code for Information Interchange, сокращенно ASCII) входят в область от U+0000 до U+007F. В следующих областях находятся знаки разных письменностей, пунктуационные знаки, а так же различные технические символы.

Unicode-кодировки

Формат согласно которому численное представление символов будет преобразоваться в байты, определяется Unicode-кодировками. Самые известные и распространенные из них UTF-8, UTF-16, UTF-32. Для примера: UTF-8 представление Unicode сделано с целью совместимости с устаревшими 8-битными кодовыми таблицами.

  • 0 Пользователи нашли это полезным
Помог ли вам данный ответ?

Связанные статьи

Как запретить доступ к сайту посетителям из определенной страны?

Если ваш сайт подвергся DDoS - атаке, и нужно быстро отразить атаку, советуем воспользоваться...

Зачем нужно предоставлять паспортные данные при регистрации домена или хостинга?

Паспортные данные необходимы в первую очередь для регистрации доменных имен в зонах .ru, .su, .рф...

Что такое ASCII?

American Standard Code for Information Interchange, сокращенно ASCII — американская стандартная...

Что такое ЦОД?

Общее понятие ЦОД Центр обработки данных (сокращенно ЦОД) представляет собой отказоустойчивую...

Что такое ЦХОД?

Центр хранения и обработки данных (сокращенно ЦХОД) для более детального описания см. "Что такое...