Comments / Profile of EvilShadow / Habr

User

Profile Publications 6Comments 1.5KBookmarks 56

EvilShadow Feb 9 2007 at 01:09

А еще часто бывает, что очередной узел все-таки предваряется одной-двумя звездочками, что говорит не в пользу кач-ва связи. Конечно, один пропущенный узел можно и проигнорировать, но любой уважающий себя сетевик должен понимать, что вероятность того, три-четыре-пять узлов подряд не ответят из-за настроек, намного меньше, чем то, что они не ответят потому, что пакет до них попросту не дошел.

Look

Encoding

EvilShadow Feb 1 2007 at 10:30

Испанское слово, конечно, китайскими буквами не напишешь, а вот польское латиницей - запросто. Можно, конечно, отталкиваться от словоформ (прошу прощения за кривость, я не филолог :)), но это, как мне кажется, очень уж сложная система должна быть. Хотя не невозможная, конечно :)

Look

Encoding

EvilShadow Jan 30 2007 at 15:17

Страницы чего? Базы какой? :-\
УТФ-8 предоставляет от 1го до 4 байт на символ, то есть совмещает лаконичность 8мибитных кодировок и глобальность UCS-4. На самом деле, массовый переход на УТФ-8 позволит без лишних сложностей унифицировать обмен данными и избавиться от перекодировок. В УТФ-8 Вы можете использовать все существующие наборы символов - хоть кириллицу, хоть испанские, хоть китайские, вплоть до самых редких знаков, причем одновременно и совершенно не беспокоясь о корректном их отображении.
А насчет распознавания... Если у меня определенный алфавит помещается в некоторый набор символов, а кодировки различаются только местоположением символов в этом наборе, как определить верную кодировку?

Look

Encoding

EvilShadow Jan 30 2007 at 11:37

> если бы CMS разрабатывалась только для России, ясен перец, ее сделали именно в cp1251
Правда? А почему не в кои8? Или iso8859-5? Или IBM866? Большое число виндузятников - это не довод.
> та же CMS любая будет хранить данные в UTF-8, и не важно на каких языках ты пишешь.
> 1 миллион байт в cp1251 и 2 — в UTF-8.
Вот именно, что ВАЖНО, на каких языках пишешь. UTF-8 потому и 8, что _базовый_ набор символов помещается в 8 бит и совпадает с ASCII. Поэтому для любого языка, использующего латиницу, UTF-8 является однобайтной кодировкой. А если нужно использовать однобайтную кодировку и для кириллицы, то есть варианты куда лучше бестолковой cp1251. В них, по крайней мере, алфавитные символы не совпадают с управляющими.
ЗЫ. А те же Винды, начиная с NT и выше, используют UTF2, также известную как UTF-16. Вот там действительно на все символы отводится по 2 байта, кириллица это, латиница или еще что-то.

Look

1 2 ...

76 77

Information

Specialization