В этом топике уже поднимался вопрос о кодировках сервисов Google. Однако там речь шла о некорректности текстов соглашений. Я же в одном из своих проектов столкнулся с проблемами кодировок при работе с одним из API Google. Пикантность ситуации в том, что проблема возникла при работе с недокументированным API, и «палиться» в службе поддержки очень не хотелось. Поиск в сети решений не дал (варианты с «повторять пока не заработает» не принимались как серьезные). Как же мне удалось найти выход и решить всё самому?
Сначала о проекте:
В свободное время разрабатываю переводчик для мобильных телефонов, платформы J2ME, Blackberry и Android. В какой то момент на форумах, где идет обсуждение программы, ребята начали жаловаться на непонятный баг. В рандомном порядке вместо переведенного текста пользователи получали какие то «иероглифы». Появлялись они в одном случае из 5-10 переводов, а могли вовсе не беспокоить человека несколько дней. Географии определенной не было (жалобы были и со стран СНГ, и с Латинской Америки, и с Азии, и с Европы). Единственное что объединяло — это модель телефонов. В приложении встроен логгер, и можно отправить его содержимое мне на почту одним нажатием кнопки. Я внес небольшие правки, и туда начались писаться результаты перевода. Иногда ребята присылали логи, но понять в чем дело так и не удавалось.
Знакомимся с багом:
Так бы проблема и не была решена, пока мне в руки не попался Samsung C3510 Corby. Установив на него приложение, я обнаружил что там в 100 случаев из 100 перевод приходит в «иероглифах». Ок, проблемы с кириллицей дело известное. Каково же было мое удивление, когда даже перевод с английского на французский привел к такому же результату. А вот это уже необычно.
Так что же за чертовщина там происходит:
Изрядно поиздевавшись с переводом, я отправил письмо и стал смотреть его уже на ПК.
Интересными оказались некоторые моменты:
-спецсимволы (двоеточие, скобки и так далее) приходили правильно;
-кириллица приходила не верно;
-латыница приходила тоже не верно;
-установка User-Agent'a не влияет на результат;
-установка кодировки UTF-8 в теле POST-запроса помогла лишь частично, появились английские;
Напрашивался вывод что используется нестандартная для сервисов кодировка, к тому же она не ASCII -based, так как английские в таким случае должны были бы быть в нормальном виде. К тому же баг как то привязан к конкретной модели телефона.
Как же решить:
Количество кодировок в телефонах изначально небольшая (UTF-8, ISO 8859-1 и еще парочка, если повезет), поэтому пришлось написать «ручное» декодирование массива байт в текст нужной кодировки. Тестовое приложение переводило «Привет мир», и в цикле перебирало все кодировки, принтя в консоль полученный текст. CP1251, ISO-8859-7 и так далее естественно не оправдали ожидание, а вот корректный текст был получен (как оказалось, этот комментарий был пророческим) с кодировкой KOI8-RU. На остальных телефонах срабатывает стандартная UTF-8.
Итог:
Переписан код так, что при первом старте определяется кодировка, записывается в долгосрочную память, и потом при каждом переводе с этой кодировкой происходит проверка на корректность результата, в случае несовпадения производиться перебор кодировок. Реализация успешно работает уже несколько месяцев и о проблеме я наконец-то забыл.
Спасибо Stanislav Mayantsev за то что заставил меня поднять задницу и вновь произвести все манипуляции с кодом.
Сначала о проекте:
В свободное время разрабатываю переводчик для мобильных телефонов, платформы J2ME, Blackberry и Android. В какой то момент на форумах, где идет обсуждение программы, ребята начали жаловаться на непонятный баг. В рандомном порядке вместо переведенного текста пользователи получали какие то «иероглифы». Появлялись они в одном случае из 5-10 переводов, а могли вовсе не беспокоить человека несколько дней. Географии определенной не было (жалобы были и со стран СНГ, и с Латинской Америки, и с Азии, и с Европы). Единственное что объединяло — это модель телефонов. В приложении встроен логгер, и можно отправить его содержимое мне на почту одним нажатием кнопки. Я внес небольшие правки, и туда начались писаться результаты перевода. Иногда ребята присылали логи, но понять в чем дело так и не удавалось.
Знакомимся с багом:
Так бы проблема и не была решена, пока мне в руки не попался Samsung C3510 Corby. Установив на него приложение, я обнаружил что там в 100 случаев из 100 перевод приходит в «иероглифах». Ок, проблемы с кириллицей дело известное. Каково же было мое удивление, когда даже перевод с английского на французский привел к такому же результату. А вот это уже необычно.
Так что же за чертовщина там происходит:
Изрядно поиздевавшись с переводом, я отправил письмо и стал смотреть его уже на ПК.
Интересными оказались некоторые моменты:
-спецсимволы (двоеточие, скобки и так далее) приходили правильно;
-кириллица приходила не верно;
-латыница приходила тоже не верно;
-установка User-Agent'a не влияет на результат;
-установка кодировки UTF-8 в теле POST-запроса помогла лишь частично, появились английские;
Напрашивался вывод что используется нестандартная для сервисов кодировка, к тому же она не ASCII -based, так как английские в таким случае должны были бы быть в нормальном виде. К тому же баг как то привязан к конкретной модели телефона.
//то что приходило изначально
[[["R\u0457S\u0402ReR\u0406R\u03BCS , R\u0458ReS\u0402","ò\u0457ó\u0402ò£ò\u0406ò\u00B5ó\u201A ò\u0458ò£ó\u0402","","R\u00ED\u0308S\u0110R\u00EBR\u00CDR\u00B5S\u201A R\u01F0R\u00EBS\u0110"]],,"ru",,[["R\u0457S\u0402ReR\u0406R\u03BCS",[5],1,0,1000,0,1,0],[",",[6],0,0,1000,1,2,0],["R\u0458ReS\u0402",[7],1,0,1000,2,3,0]],[["ò\u0457ó\u0402òÅò\u0406ò\u03BCó",5,[["R\u0457S\u0402ReR\u0406R\u03BCS",1000,1,0]],[[0,11]],"ò\u0457ó\u0402ò£ò\u0406ò\u00B5ó\u201A ò\u0458ò£ó\u0402"],[",",6,[[",",1000,0,0]],[[11,12]],""],["ò\u0458òÅó\u0402",7,[["R\u0458ReS\u0402",1000,1,0]],[[13,19]],""]],,,[["uk","ru"]],3]
//после установки UTF-8
[[["hello world","ÐÒÉ×ÅÔ ÍÉÒ","","privet mir"]],,"ru",,[["hello world",[5],1,0,954,0,2,0]],[["ÐÒÉ×ÅÔ ÍÉÒ",5,[["hello world",954,1,0],["a hello world",0,1,0]],[[0,10]],"ÐÒÉ×ÅÔ ÍÉÒ"]],,,[["ru"]],23]
//как должно быть
[[["hello world","привет мир","","privet mir"]],,"ru",,[["hello world",[5],1,0,954,0,2,0]],[["привет мир",5,[["hello world",954,1,0],["a hello world",0,1,0]],[[0,10]],"привет мир"]],,,[["ru"]],1]
Как же решить:
Количество кодировок в телефонах изначально небольшая (UTF-8, ISO 8859-1 и еще парочка, если повезет), поэтому пришлось написать «ручное» декодирование массива байт в текст нужной кодировки. Тестовое приложение переводило «Привет мир», и в цикле перебирало все кодировки, принтя в консоль полученный текст. CP1251, ISO-8859-7 и так далее естественно не оправдали ожидание, а вот корректный текст был получен (как оказалось, этот комментарий был пророческим) с кодировкой KOI8-RU. На остальных телефонах срабатывает стандартная UTF-8.
Для тех кто любит технические детали
/**
*****j2me реализация******
**/
public static String detectEncoding() {
try {
String sentence = "Привет Мир";
String qq = encodeSequence(sentence);
HttpConnection net = (HttpConnection) Connector.open(query ,
Connector.READ_WRITE, true);
net.setRequestMethod(HttpConnection.POST);
net.setRequestProperty("Host", "translate.google.com");
net.setRequestProperty("User-Agent", "Opera/9.64");
net.setRequestProperty("Referer", "translate.google.com");
net.setRequestProperty("Content-Type",
"application/x-www-form-urlencoded");
net.setRequestProperty("Accept", "*/*");
net.setRequestProperty("Proxy-Connection", "close");
net.setRequestProperty("Connection", "Keep-Alive");
net.setRequestProperty("Accept-Charset", "utf-8");
String locale = System.getProperty("microedition.locale");
String l = "en";
if (!locale.startsWith("zh-")) {
if (locale.indexOf('-') == -1) {
l = locale;
} else {
l = l.replace('_', '-');
l = locale.substring(0, locale.indexOf('-'));
}
l = Utils.toLowerCase(l).trim();
} else {
l = locale;
}
net.setRequestProperty("Accept-Language", l);
OutputStream output = net.openOutputStream();
output.write(("sl=" + "ru" + "&tl=" + "en" + "&ie=UTF-8&client=t&text=" + qq)
.getBytes());
output.close();
resp = net.getResponseCode();
resp2 = net.getResponseMessage();
if (resp == HttpConnection.HTTP_OK) {
InputStream is = net.openInputStream();
ByteArrayOutputStream out = new ByteArrayOutputStream();
int b = 1;
while ((b = is.read()) >= 0) {
out.write(b);
}
out.flush();
is.close();
net.close();
byte[] buff = out.toByteArray();
String enc = detectEncoding(buff, sentence);
if (!enc.equals("")) {
return (enc);
}
} else {
net.close();
throw new Exception("Invalid ResponseCode " + resp + " "
+ resp2);
}
} catch (Exception e) {
System.out.println("#### " + e.toString());
}
return ("UTF-8");
}
public static String[] charsets = new String[]{"WINDOWS-1251", "KOI8-R", "WINDOWS-1257", "ISO-8859-1", "ISO-8859-2", "UTF-8", "UNICODE"};
protected static char[] iso8859_1map = "\u0402\u0403\u201a\u201e\u201e\u2026\u2020\u2021\u20ac\u2030\u0409\u2039\u040a\u040c\u040b\u040f\u0452\u2018\u2019\u201c\u201d\u2022\u2013\u2014\u2122\u0459\u203a\u045a\u045c\u045b\u045f \u040e\u045e\u0408\u00a4\u0490\u00a6\u00a7\u0401\u00a9\u0404\u00ab\u00ac\u00ad\u00ae\u0407\u00b0Z\u00b1\u0406\u0456\u0491\u00b5\u00b6\u00b7\u0451\u2116\u0454\u00bb\u0458\u0405\u0455\u0457\u0410\u0411\u0412\u0413\u0414\u0415\u0416\u0417\u0418\u0419\u041a\u041b\u041c\u041d\u041e\u041f\u0420\u0421\u0422\u0423\u0424\u0425\u0426\u0427\u0428\u0429\u042c\u042b\u042a\u042d\u042e\u042f\u0430\u0431\u0432\u0433\u0434\u0435\u0436\u0437\u0438\u0439\u043a\u043b\u043c\u043d\u043e\u043f\u0440\u0441\u0442\u0443\u0444\u0445\u0446\u0447\u0448\u0449\u044a\u044b\u044c\u044d\u044e\u044f".toCharArray();
protected static char[] cp1251map = "\u0402\u0403\u201A\u0453\u201E\u2026\u2020\u2021\u20AC\u2030\u0409\u2039\u040A\u040C\u040B\u040F\u0452\u2018\u2019\u201C\u201D\u2022\u2013\u2014\uFFFD\u2122\u0459\u203A\u045A\u045C\u045B\u045F\u00A0\u040E\u045E\u0408\u00A4\u0490\u00A6\u00A7\u0401\u00A9\u0404\u00AB\u00AC\u00AD\u00AE\u0407\u00B0\u00B1\u0406\u0456\u0491\u00B5\u00B6\u00B7\u0451\u2116\u0454\u00BB\u0458\u0405\u0455\u0457\u0410\u0411\u0412\u0413\u0414\u0415\u0416\u0417\u0418\u0419\u041A\u041B\u041C\u041D\u041E\u041F\u0420\u0421\u0422\u0423\u0424\u0425\u0426\u0427\u0428\u0429\u042A\u042B\u042C\u042D\u042E\u042F\u0430\u0431\u0432\u0433\u0434\u0435\u0436\u0437\u0438\u0439\u043A\u043B\u043C\u043D\u043E\u043F\u0440\u0441\u0442\u0443\u0444\u0445\u0446\u0447\u0448\u0449\u044A\u044B\u044C\u044D\u044E\u044F"
.toCharArray();
protected static char[] cp1257map = "\u20AC\0\u201A\0\u201E\u2026\u2020\u2021\0\u2030\0\u2039\0\250\u02C7\270\0\u2018\u2019\u201C\u201D\u2022\u2013\u2014\0\u2122\0\u203A\0\257\u02DB\0\240\0\242\243\244\0\246\247\330\251\u0156\253\254\255\256\306\260\261\262\263\264\265\266\267\370\271\u0157\273\274\275\276\346\u0104\u012E\u0100\u0106\304\305\u0118\u0112\u010C\311\u0179\u0116\u0122\u0136\u012A\u013B\u0160\u0143\u0145\323\u014C\325\326\327\u0172\u0141\u015A\u016A\334\u017B\u017D\337\u0105\u012F\u0101\u0107\344\345\u0119\u0113\u010D\351\u017A\u0117\u0123\u0137\u012B\u013C\u0161\u0144\u0146\363\u014D\365\366\367\u0173\u0142\u015B\u016B\374\u017C\u017E\u02D9"
.toCharArray();
protected static char[] iso8859_2map = "\200\201\202\203\204\205\206\207\210\211\212\213\214\215\216\217\220\221\222\223\224\225\226\227\230\231\232\233\234\235\236\237\240\u0104\u02D8\u0141\244\u013D\u015A\247\250\u0160\u015E\u0164\u0179\255\u017D\u017B\260\u0105\u02DB\u0142\264\u013E\u015B\u02C7\270\u0161\u015F\u0165\u017A\u02DD\u017E\u017C\u0154\301\302\u0102\304\u0139\u0106\307\u010C\311\u0118\313\u011A\315\316\u010E\u0110\u0143\u0147\323\324\u0150\326\327\u0158\u016E\332\u0170\334\335\u0162\337\u0155\341\342\u0103\344\u013A\u0107\347\u010D\351\u0119\353\u011B\355\356\u010F\u0111\u0144\u0148\363\364\u0151\366\367\u0159\u016F\372\u0171\374\375\u0163\u02D9"
.toCharArray();
protected static char[] koi8rmap = "\u2500\u2502\u250C\u2510\u2514\u2518\u251C\u2524\u252C\u2534\u253C\u2580\u2584\u2588\u258C\u2590\u2591\u2592\u2593\u2320\u25A0\u2219\u221A\u2248\u2264\u2265\u00A0\u2321\u00B0\u00B2\u00B7\u00F7\u2550\u2551\u2552\u0451\u2553\u2554\u2555\u2556\u2557\u2558\u2559\u255A\u255B\u255C\u255D\u255E\u255F\u2560\u2561\u0401\u2562\u2563\u2564\u2565\u2566\u2567\u2568\u2569\u256A\u256B\u256C\u00A9\u044E\u0430\u0431\u0446\u0434\u0435\u0444\u0433\u0445\u0438\u0439\u043A\u043B\u043C\u043D\u043E\u043F\u044F\u0440\u0441\u0442\u0443\u0436\u0432\u044C\u044B\u0437\u0448\u044D\u0449\u0447\u044A\u042E\u0410\u0411\u0426\u0414\u0415\u0424\u0413\u0425\u0418\u0419\u041A\u041B\u041C\u041D\u041E\u041F\u042F\u0420\u0421\u0422\u0423\u0416\u0412\u042C\u042B\u0417\u0428\u042D\u0429\u0427\u042A"
.toCharArray();
public static String detectEncoding(byte[] bytes, String exemple) {
for (int i = 0; i < charsets.length; i++) {
String ss = byteArrayToString(bytes, charsets[i]);
if (ss.indexOf(exemple) != -1) {
return charsets[i];
}
}
return "";
}
public static String byteArrayToString(byte[] bytes, String charSet) {
String output;
char[] map = null;
if (charSet.equalsIgnoreCase("WINDOWS-1251")
|| charSet.equalsIgnoreCase("WINDOWS1251")
|| charSet.equalsIgnoreCase("WIN1251")
|| charSet.equalsIgnoreCase("CP1251")) {
map = cp1251map;
} else if (charSet.equalsIgnoreCase("KOI8-R")) {
map = koi8rmap;
} else if (charSet.equalsIgnoreCase("WINDOWS-1257")) {
map = cp1257map;
} else if (charSet.equalsIgnoreCase("ISO-8859-1")) {
map = iso8859_1map;
} else if (charSet.equalsIgnoreCase("ISO-8859-2")) {
map = iso8859_2map;
} else if (charSet.equalsIgnoreCase("UTF-8")) {
try {
return (decodeUTF8(bytes, false));
} catch (Exception udfe) {
}
map = cp1251map;
}
if (map != null) {
char[] chars = new char[bytes.length];
for (int i = 0; i < bytes.length; i++) {
byte b = bytes[i];
chars[i] = (b >= 0) ? (char) b : map[b + 128];
}
output = new String(chars);
} else {
try {
output = new String(bytes, charSet);
} catch (UnsupportedEncodingException e) {
output = new String(bytes);
}
}
return output;
}
private static String decodeUTF8(byte[] data, boolean gracious)
throws UTFDataFormatException {
byte a, b, c;
StringBuffer ret = new StringBuffer();
for (int i = 0; i < data.length; i++) {
try {
a = data[i];
if ((a & 0x80) == 0) {
ret.append((char) a);
} else if ((a & 0xe0) == 0xc0) {
b = data[i + 1];
if ((b & 0xc0) == 0x80) {
ret.append((char) (((a & 0x1F) << 6) | (b & 0x3F)));
i++;
} else {
throw new UTFDataFormatException("Illegal 2-byte group");
}
} else if ((a & 0xf0) == 0xe0) {
b = data[i + 1];
c = data[i + 2];
if (((b & 0xc0) == 0x80) && ((c & 0xc0) == 0x80)) {
ret.append((char) (((a & 0x0F) << 12)
| ((b & 0x3F) << 6) | (c & 0x3F)));
i += 2;
} else {
throw new UTFDataFormatException("Illegal 3-byte group");
}
} else if (((a & 0xf0) == 0xf0) || ((a & 0xc0) == 0x80)) {
throw new UTFDataFormatException(
"Illegal first byte of a group");
}
} catch (UTFDataFormatException udfe) {
if (gracious) {
ret.append("?");
} else {
throw udfe;
}
} catch (ArrayIndexOutOfBoundsException aioobe) {
if (gracious) {
ret.append("?");
} else {
throw new UTFDataFormatException("Unexpected EOF");
}
}
}
data = null;
return ret.toString();
}
/**
* *
* */
Итог:
Переписан код так, что при первом старте определяется кодировка, записывается в долгосрочную память, и потом при каждом переводе с этой кодировкой происходит проверка на корректность результата, в случае несовпадения производиться перебор кодировок. Реализация успешно работает уже несколько месяцев и о проблеме я наконец-то забыл.
Спасибо Stanislav Mayantsev за то что заставил меня поднять задницу и вновь произвести все манипуляции с кодом.