Pull to refresh
0
0
Send message
Аналогично! FreeBSD дома на ноутбуке, Windows на работе…
О, кстати по теме… На самом деле, и к ‘16’ можно относиться как к одному символу (user-perceived character), в каком ни будь контексте. Юникод это признаёт. Конкретный пример: ‘ch’ считается одним символом в чешском и словацком, а не двумя. Вот поэтому вопрос в топике и не корректен. Что такое символ? Code unit? Code point? Grapheme cluster? User-perceived character?
Ага, о вас даже в Юникоде позаботились: ⒗
«на каком месте можно безопасно резать byte-sequence, чтобы получить две парсябельные unicode-строчки»—это grapheme cluster. А они могут быть произвольной длины.
Символом юникод называет coded character (подробности тут). Между прочим, не каждый код поинт это coded character, хотя обратное утверждение верно. Но вне контекста стандарта символом называют все что угодно, что вполне легитимно, потому что юникоду ни кто не давал права переопределять лингвистические термины всех языков мира.
Не все используемые комбинации имеют представление в виде одного код поинта. Большинство как раз не имеют. Даже в Русском, например, возьмем ударение U+0301 combining acute accent, в юникоде нет сочетания его ни с одной другой буквой кириллицы. А о других языках я и не говорю.

Information

Rating
Does not participate
Registered
Activity