node.js бьет бинарные данные при работе по http из-за кодировки по умолчанию — лечим и ненавидим

    Короче, пишу свой прокси-сервер на node.js (это все равно пригодится, но и просто прокси свое применение имеет, мне давно тему спалили, интересно, живо ли это еще)

    Прокси на основе методов типа .pipe() мне не подходит – мне надо полные данные через себя пропускать, а так они мимо пройдут. Мне надо скачать данные полностью, обработать и потом отправить.

    Написал прокси на сокетах на основе примеров – бьет картинки (скачиваются данные другой длины, чем content-length, причем для маленьких картинок разница меньше, для больших больше)

    Переписал на модуле http – все равно бьет, видимость проблемы та же.

    Долго ***ся, нигде ничего нет про такую проблему…

    Причина – что весь ввод-вывод и с сокетами, и с http – имеет указание кодировки, и даже если ты ее не указываешь (опциональный параметр), там внутри есть какая-то кодировка по умолчанию, и она по умолчанию что-то делает!

    То есть, все картинки этой кодировкой обрабатываются как-то и портятся. И это отдельный вопрос, что за хрень – одна кодировка? Тогда должно быть две – кодировка до и после.

    Как лечить проблему с кодировкой node.js


    Ставим кодировку ‘binary’ – если скачиваем, то до получения данных надо писать что-то вида

    var req = http.request(options, function (res) {
    res.setEncoding('binary');

    А когда отправляешь картинку, надо второй параметр добавлять, вида

    response.write(data,'binary');

    И оно перестанет лазить в данные, а так било еще и кодировку html, просто я не сразу заметил, сперва на картинках увидел.

    И нигде никогда на советах примерах всяких stackoverflow.com и документациях этого нет, что эта работа с кодировкой включена по умолчанию и она все данные портит.

    Как это вообще? англоязычным ладно, пофиг на кодировки, но картинки? они приводят такие спокойно примеры кода, которые битые данные берут и отправляют…

    Я не профи программер, изобретаю велосипеды. Наверняка вы сейчас найдете тонны прокси с открытым кодом (удовлетворяющие условиям выше), в него надо было просто посмотреть
    Метки:
    Поделиться публикацией
    Похожие публикации
    Комментарии 21
    • +10
      а надо-то было — всего одну строку в документации посмотреть.
      https://nodejs.org/dist/latest-v6.x/docs/api/http.html#http_response_write_chunk_encoding_callback
      By default the encoding is 'utf8'
      • +10
        Ну да, обычная история. А воплей-то сразу сколько, какая нода плохая, в utf работает!
        • 0
          если бы ты подписал договор, в котором мелким шрифтом нечно написано… тоже бы небось

          вопли потому, что вот такие умолчания — это не тру.
          Ладно бы заставили меня каждый раз указывать в явном виде кодировку, раз она все равно будет работать.
          Тогда я бы знал, что она работает и ее нужно поменять
          • 0
            История стандартная, но и автору спасибо, кому-нибудь пригодится. Единственно — это статься скорее для stackoverflow, а не для хабра
          • 0
            совет читать документацию понятный, но здравый смысл никто не отменял!

            и это ОЧЕНЬ НЕОЧЕВИДНО, что мои, мои данные — кто-то там в промежутке перекодирует
            зло, натурально
            • +1
              здравый смысл как раз состоит в том, чтобы обратиться к документации в самом начале, а не бездумно копипастить с просторов и потом безуспешно искать ответы на стековерфлоу…
              • 0
                нуу… я не бездумно, но первое по времени сильно быстрее. И результат быстро, хоть и проблемы есть.

                но вы сами лично считаете нормальным такие умолчания?
                мне кажется, такие умолчания = зло

                • 0
                  умолчания во фреймворках/либах/сдк подразумевают принятие и следование разработчиком (пользователем этих фреймворков/либ/сдк) некоторых конвенций.

                  Когда он даже не в курсе этого — «ой, я всё» :)
                  • 0
                    это как /в договоре мелким шрифтом/

                    есть очевидные вещи = я кодировку и перекодирование не заказывал использовать, вот и не надо.

                    А мне в ответ ссылки на доки ) да, формально вы правы, но это дико неправильно так делать
                    • +1
                      не совсем верная отсылка к мелкому шрифту, ну да ладно.

                      if it hurts, do in often! ;)
                • –4
                  а по мне так здравый смысл состоит не в изучении доков годами, а чтобы сделал и работало.
                  • +3
                    Достаточно потратить пару часов на вдумчивое чтение доков, после чего, чтобы ты не сделал оно будет работать.
                    нуу… я не бездумно, но первое по времени сильно быстрее. И результат быстро, хоть и проблемы есть.

                    Это очень большое заблуждение, которое с опытом исчезает. Проще, дешевле и быстрее 1 раз вычитать какую-нибудь 100 страничную спецификацию потратив на нее рабочий день и не сталкиваться в будущем с проблемами практически никогда, чем постоянно гуглить стековерфлов и бегло глядеть в доки и костылить годами.
                    • –1
                      Мне повезло с преподавателем, и он на первом занятии сказал, что в js дефолтная кодировка utf-8, в других яп она может быть другой. И в курсе по ноде я тоже это слышал… Но спасибо, что заострили внимание, т.к. мелочей не бывает и на таких моментах иногда уходит очень много времени.
                      • 0
                        Есть такая парадигма ххвп-программирования. Она, конечно, эффективна — быстро, гибко, все дела. Но до первого эпикфейла с намертво лежащим продом, который и поднять-то уже нереально, ибо сделано все не по докам и спекам, а чтобы «сделал и работало».
                        • 0
                          как переводится ххвп? )

                          Да, чтобы сделал и работало — это наше всё.
                          Можно вместо этого, конечно, делать и получать зарплату, за процесс
                          • 0

                            хренак-хренак и в продакшн, скорее всего

                            • 0
                              буду теперь использовать это слово! ххвп
                • +2

                  Стандартная проблема для человека, который не читает доки...

                  • –3
                    ты будешь читать доки годами, продолжай
                    • +1

                      Ну допустим уже читаю годами, и вот не случалось такой фигни, чтобы я чего-то просто не прочитал. Были и доки старые, были и баги в реализации самой либы/фреймворка/платформы, но так, чтобы я тупо не прочёл доки и полез куда-то, нет.

                  • +1
                    Простое правило дабы на такое не натыкаться. Все функции работы с сетью/файлами/прочим по умолчанию выдают строку (не самое лучшее решение, но так получилось). Бинарные данные должны быть в буфере т.к. javascript не может их нормально представлять в строке (много срача, гуглится). Потому первым делом, если нужно получить бинарные данные, то сразу лезть в доку и смотреть какой педалью это включается.

                    Некоторые библиотеки идут дальше и выдают буфер сразу (и иногда даже не имеют опции кодировки), который нужно еще преобразовать в строку через toString. Это чуть более интуитивно, но менее производительно т.к. больше памяти и лишнее копирование. Но да, так проще программисту. Ты сначала выстреливаешь себе в ногу (если хочешь строку), и сразу фиксишь, не лазя в документацию.

                    API node.js сделано всё-таки с упором на производительность, потому вот так.

                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.