User
Небольшой опрос об операционных системах
ybungalobill
Аналогично! FreeBSD дома на ноутбуке, Windows на работе…
0
LookОдин символ в кодировке UTF-16 занимает (в Википедию и Гугл не подсматривать!):
ybungalobill
О, кстати по теме… На самом деле, и к ‘16’ можно относиться как к одному символу (user-perceived character), в каком ни будь контексте. Юникод это признаёт. Конкретный пример: ‘ch’ считается одним символом в чешском и словацком, а не двумя. Вот поэтому вопрос в топике и не корректен. Что такое символ? Code unit? Code point? Grapheme cluster? User-perceived character?
0
LookОдин символ в кодировке UTF-16 занимает (в Википедию и Гугл не подсматривать!):
ybungalobill
Ага, о вас даже в Юникоде позаботились: ⒗
+3
LookОдин символ в кодировке UTF-16 занимает (в Википедию и Гугл не подсматривать!):
ybungalobill
«на каком месте можно безопасно резать byte-sequence, чтобы получить две парсябельные unicode-строчки»—это grapheme cluster. А они могут быть произвольной длины.
+1
LookОдин символ в кодировке UTF-16 занимает (в Википедию и Гугл не подсматривать!):
ybungalobill
Символом юникод называет coded character (подробности тут). Между прочим, не каждый код поинт это coded character, хотя обратное утверждение верно. Но вне контекста стандарта символом называют все что угодно, что вполне легитимно, потому что юникоду ни кто не давал права переопределять лингвистические термины всех языков мира.
+1
LookОдин символ в кодировке UTF-16 занимает (в Википедию и Гугл не подсматривать!):
ybungalobill
Не все используемые комбинации имеют представление в виде одного код поинта. Большинство как раз не имеют. Даже в Русском, например, возьмем ударение U+0301 combining acute accent, в юникоде нет сочетания его ни с одной другой буквой кириллицы. А о других языках я и не говорю.
+1
LookInformation
- Rating
- Does not participate
- Registered
- Activity