Pull to refresh
25
0
gasyoun @gasyoun

User

Send message

Ультимативное сравнение систем распознавания речи: Ashmanov, Google, Sber, Silero, Tinkoff, Yandex

Reading time 8 min
Views 20K

sandwich_fake


Какое-то время назад мы писали цикл статей про то, как правильно измерять качество систем распознавания речи, и собственно снимали метрики с доступных решений (цикл статей — 1, 2, 3) (на тот момент и коммерческих и некоммерческих решений). На Хабре была выжимка из этого цикла в рамках этой статьи, но до масштабного обновления исследования, достойного публикации на Хабре, руки никак не доходили (это требует как минимум большого количества усилий и подготовки).


Прошло некоторое время и пора обновить наше исследование, сделав его по-настоящему ультимативным. По сравнению с прошлыми исследованиями изменилось или добавилось следующее:


  • Добавилось много валидационных сетов из разных реальных доменов;
  • На рынок вышел Сбер, в первую очередь интересно протестировать именно его;
  • Для чистоты эксперимента, мы не предупреждали разработчиков систем о доменах и факте проведения тестов;
  • Мы также попробовали немного протестировать пропускную способность сервисов (понятно, что мы не знаем какое железо и ограничения стоят в облаке);
  • Мы рассматриваем только коммерческие системы, к которым у нас получилось получить доступ и которые показали хоть какой-то намек на "всеядность", работу с холодного старта и "энтерпрайзность";
Читать дальше →
Total votes 26: ↑23 and ↓3 +20
Comments 34

Lingtrain. Приложение для создания мультиязычных книг и параллельных корпусов

Reading time 13 min
Views 7.8K

Хочу показать, как создать мультиязычный параллельный корпус и книги при помощи моего пет-проекта.

Для примера возьмем 10 редакций "Мастера и Маргариты" Михаила Булгакова (ru, uk, by, en, fr, it, es, de, hu, zh). Сначала выровняем девять переводов с оригиналом, а затем выровняем все вместе. Получим параллельный корпус на 10 языках и много красивых книг. Приступим.

Код я оформил в виде веб-приложения, основная логика которого выполняется при помощи библиотеки lingtrain-aligner. Выравнивать можно прямиком из кода на python, либо через UI. В приложении будет удобней разрешать конфликты и там есть редактор, позволяющий корректировать получающийся корпус плюс дополнительные опции по верстке. Код у проекта открытый, можно посмотреть как все работает внутри. Приступим.

Читать далее
Total votes 56: ↑56 and ↓0 +56
Comments 25

DIY. Книги для всех, даром

Reading time 7 min
Views 34K

Lingtrain cover


⚡ Градиент обреченный


Upd. 11.06.2022 Многие заинтересовались генерацией изображений нейросетями. Вот Colab (интерактивная среда для запуска кода) для рисования картинок в стиле pixel art по текстовому описанию. Просто запускайте, ближе к концу увидете ячейку для ввода текста. Примеры картинок из Colab'а в комментариях.


Два года назад я начал делать небольшой проект, связанный с обработкой текстов на иностранных языках. Он постепенно развивался и стал использоваться лингвистами в НКРЯ, а энтузиасты сохранения малых языков используют его для расширения своих параллельных корпусов.


Сегодня же я расскажу как при помощи него создать полноценную параллельную книгу на разных языках. Книга будет красиво сверстана в PDF, иметь содержание, обложку и две выровненные по смыслу колонки текста. Такие книги служат отличным подспорьем при изучении иностранного языка. Найти их, однако, не так просто, и скорее всего это будут книги для детей или избранная классика. Полный пример готовой книги можно посмотреть здесь. Под капотом у приложения NLP модели, поддерживаемых языков более ста.


Проект открытый и любой может в нем поучаствовать. Во многом благодаря сообществу и вашему участию он за несколько лет дошел до сегодняшнего дня. В общем штука годная, давайте уже посмотрим, что к чему.

Сделать книжку
Total votes 76: ↑76 and ↓0 +76
Comments 50

Краткая история животных на обложках книг O’Reilly

Reading time 4 min
Views 134K
Думаю, никому из пользователей Хабрахабра не нужно представлять издательство O'Reilly и его книги, привлекающие взгляд графичными изображениями самых разных и, как правило, весьма странно выглядящих животных на своих обложках.image Эди Фридман, креативный директор O'Reilly Media, опубликовала на сайте animals.oreilly.com небольшой пост, в котором рассказала, как эти животные попали на обложки книг издательства.
Читать дальше →
Total votes 138: ↑134 and ↓4 +130
Comments 34

Многоязыковая проверка орфографии для программ, использующих Hunspell

Reading time 4 min
Views 30K
Многие часто сталкиваются с необходимостью проверки орфографии на нескольких языках одновременно, однако далеко не все существующие программы позволяют производить такую проверку, предлагая пользователю переключаться с одного языка на другой, что довольно неудобно и отнимает массу времени.

Не желая мириться с подобным неудобством для программ, использующих Hunspell словари (FireFox, Seamonkey, Miranda и др.) было принято решение создать автоматическую графическую утилиту для склейки нескольких языков, с возможностью дальнейшего использования полученных словарей.
Интересующихся вопросом приглашаю под кат
Total votes 30: ↑28 and ↓2 +26
Comments 36

Как я использовал BitTorrent Sync между офисами в РФ и Китае

Reading time 6 min
Views 54K
Давно не видел статей о BitTorrentSync, и очень удивляюсь: ведь это такой полезный инструмент. Буквально на днях вышла новая версия*, и я решил рассказать, как применил это решение на работе.



Начало

Однажды в нашей компании наступил момент, когда встала необходимость обмениваться довольно тяжёлыми файлами — макетами продукции и упаковки (100-500 мегабайт) между офисами в Москве, Екатеринбурге и офисом в провинции Чжэцзян, КНР. Сложность была в катастрофически низкой скорости и надёжности связи РФ — Китай.

Когда я обратил внимание на проблему, царил полный разброд и шатание:
Читать дальше →
Total votes 80: ↑75 and ↓5 +70
Comments 80

Подключение Multipath LUN СХД к Windows Server 2008 и Windows Server 2012

Reading time 2 min
Views 14K
В предыдущей статье мы рассматривали «Подключение Multipath LUN СХД к VMware ESXi и Debian GNU/Linux». В данной статье продолжаем. Напомню, что используется конфигурация с двумя SAN-свитчами, к каждому из которых, СХД подключена двумя линками.

Подключение Multipath LUN СХД к Windows Server 2012

Multipath Input Output — это система многопутевого подключения блочных устройств. Требуется она для дублирования каналов подключения в целях повышения отказоустойчивости и производительности за счет того, что сервер может обращаться к устройству по нескольким каналам.

Вот так система видит LUN'ы без поддержки MPIO:



Если MPIO по какой-либо причине отключен, требуется включить. Для этого в «панели мониторинга» выбираем меню «управление» и пункт «добавить роли и компоненты».



В «мастере добавления ролей и компонентов» переходим к пункту «компоненты» и выбираем в списке «Multipath I/O», после чего нажимаем виртуальную кнопку «установить».
Читать дальше →
Total votes 24: ↑21 and ↓3 +18
Comments 7

Бесплатный интернет для планшета от Билайн и МТС

Reading time 3 min
Views 163K
Пару дней назад у Билайн и МТС появились тарифы, в которых бесплатно и без абонентской платы пользователю доступно небольшое количество интернет-трафика.

Тариф Билайн «Интернет навсегда» даёт каждый месяц 200 мегабайт по всей России бесплатно и без абонентской платы.



Опция «МТС Планшет Mini» даёт бесплатно и без абонентской платы 17 мегабайт в день по всей России.


Читать дальше →
Total votes 51: ↑41 and ↓10 +31
Comments 110

Защита подъезда методом организации разумного видеонаблюдения без консьержа

Reading time 13 min
Views 258K
Так получилось, что какой бы ни был аккуратный микрорайон, он всегда с чем-нибудь соседствует, плюс всегда есть праздношатающиеся, непраздношатающиеся и «этождети». Это если забыть про наркоманов, целенаправленных воров и разбойников. Твой дом — твоя крепость. Подъезд твоего дома — тоже твой дом. (Да, этот пункт многие не понимают, но учиться никогда не поздно). Классические методы защиты подъезда — установка укреплённых дверей; установка домофона; инсталляция консьержки; организация видеонаблюдения над входами.

Вот только двери легко открываются при малейшей ошибке их производства, многие домофоны подвержены ключам-«вездеходам», консьержки часто спят и ничего не делают, а видеонаблюдение за которым никто не наблюдает превращается в бесполезную трату денег. В результате, почти все попытки улучшить общественную ситуацию зарезаются соседями методом слонёнка: «а нафига они нам нужны».

Однако, если включить мозги и подумать, на самом деле можно весьма небольшими вложениями получить очень эффективный результат.
Читать дальше →
Total votes 298: ↑294 and ↓4 +290
Comments 314

Исконно русский вопрос, или «сервер для себя»

Reading time 9 min
Views 9.2K


Или сравнение панелей управления хостингом, Вступление


В этой статье преследуется цель представить результаты объективного тестирования и анализа возможностей новой версии панели управления хостингом ISPmanager 5 Lite, о которой был объявлено 19 ноября 2013 года и сравнить ее возможности и удобство с двумя конкурентами (cPanel 11.44 и Plesk 12). Анализ панелей выполнен с точки зрения пользователя хостинга и удобства управления отдельным аккаунтом веб-хостинга. Я не считаю официальный релиз ISPmanager 5 Business ответом на мои насушные потребоности и решил собрать известные факты воедино. Я работаю с хостинговами компаниями (именно не как пользователь) с 2008 г. и у меня есть с чем сравнить.

Прочитать про ISPmanager 5 Lite, конкурентов и мои выводы
Total votes 24: ↑6 and ↓18 -12
Comments 44

Закат эры иконок от FatCow (выборка по цветам, топ 30 и прочая арифметика)

Reading time 8 min
Views 35K

Итоговый выпуск иконок




Пять лет тому назад мы начали рисовать набор пиксельных иконок. Мода была на Vista. К концу 2013 года набор FatCow дорос до 3926 иконок. Это на 356 иконок больше, чем у Fugue, который весной того же года остановился на цифре 3570 (размер: 16х16). 352 иконки из бонуса Fugue (32х32 и 24х24) не в счет (как повторы). Но дальнейшее развитие иконок FatCow заморожено. Увы, мы не увидим круглой цифры из 4000 иконок (работы осталось на месяц), не увидим выпуска для ретины дополнительных размеров уже существующих иконок, разработки прекращены из-за отсутствия бюджета. Успели сделать пробу для retina и только.

Да, это не мега-фото-реалистичные-3D еще-одни-никому-не-нужные-иконки, это старая пиксельная школа. Где в почете был маленький размер и ограничение цветовой гаммы. Пройдут еще 10 лет… и, мы искренне верим, пиксельные иконки так и останутся в ходу. И если Вы ценитель древних видов искусства, дней зарождения компьютерной графики, пожалуйста за ширмой!
Подробности
Total votes 66: ↑63 and ↓3 +60
Comments 52

Построение кроссвордов с помощью языка Wolfram Language (Mathematica)

Reading time 8 min
Views 11K

Перевод поста Майкла Тротта (Michael Trott), «Constructing Crossword Arrays Faster».
Скачать перевод в виде документа Mathematica, который содержит весь код использованный в статье, можно здесь.


В главе 6 моей книги Mathematica GuideBook for Programming, в качестве примера работы со списками я обсудил то, как построить массив, представляющий собой кроссворд. Хотя этот пример был хорош для демонстрации продвинутой работы со списками, тем не менее, использование списков не является оптимальным путем построения массива кроссворда. Сложность добавления нового слова в массив с уже размещенными n-1 словами составляла для этого алгоритма ConstructingCrosswordArrays_1.png, таким образом общая сложность составления массива кроссворда из n слов становилась равной ConstructingCrosswordArrays_2.png.

На протяжении последних нескольких лет, некоторые пользователи Mathematica спрашивали меня о том, можно ли построить более быстрый алгоритм. Ответ — да, можно. Если мы будем применять методы хеширования, то мы сможем быстро и за одно и тоже время проверять, можно ли использовать некоторый элемент массива и, следовательно, мы сможем снизить общую сложность алгоритма с ConstructingCrosswordArrays_3.png до ConstructingCrosswordArrays_4.png, что для кроссвордов из тысяч слов даст большую разницу во времени, затрачиваемом на вычисления. Этот алгоритм реализован в данной статье. Когда мы размещаем отдельные буквы слова в некоторой прямоугольной таблице необходимо рассматривать множество различных ситуаций. В результате в статье содержится большее, чем обычно, количество процедурного кода. Хотя некоторые определения функций несколько длинные, благодаря комментариям между шагами вычислений и ветками решений код должен быть довольно простым для чтения и понимания.
Читать дальше →
Total votes 32: ↑28 and ↓4 +24
Comments 7

Как я покупал 3D-принтер

Reading time 16 min
Views 873K

Данный пост является своеобразным предостережением тем, кто задумал купить 3D-принтер. Этот, казалось бы, простой процесс для цивилизованных стран, может вдребезги разлететься о суровые Российские реалии. Я, сам того не ожидая, сумел пройтись по всем возможным граблям, и на собственной шкуре убедился, как же в действительности обстоят дела по «ту сторону экрана». Итак, приглашаю Вас поучиться на чужих ошибках.
Читать дальше →
Total votes 350: ↑342 and ↓8 +334
Comments 487

Запуск облачной печати

Reading time 1 min
Views 3.8K


Еще в апреле 2010 года мы анонсировали бета версию службы Google Cloud Print, которая позволяет печатать из любого приложения, на любом устройстве, операционной системе или браузере. Сегодня мы очень рады объявить о запуске бета-версии службы Google Cloud Print для мобильных устройств, которую мы будем постепенно развертывать в течение нескольких дней.
Читать дальше →
Total votes 50: ↑41 and ↓9 +32
Comments 25

Исследование факторов ранжирования в Яндексе

Reading time 1 min
Views 3.6K
Несколько десятков специалистов по поисковой оптимизации поучаствовали (своими ответами) в исследовании факторов ранжирования в Яндексе. Результаты вы можете лицезреть ниже на скриншотах или же на сайте топэксперт.рф вместе с комментариями и пояснениями. Думаю, что шпаргалка пригодится не только оптимизаторам, но и всем вебмастерам.

Начнем с внешних факторов. Критерии выбора внешних ссылок:



Читать дальше →
Total votes 167: ↑137 and ↓30 +107
Comments 67

Джентльменский набор интернет шоппера: Shipito + ProfitBid + TrackChecker

Reading time 9 min
Views 43K
На волне постов ненависти к Почте России легко прослеживается тот факт, что все большее количество людей покупают товар из заграниц. Тем самым не желая переплачивать Российским барыгам-ритейлерам подрывая политику государства в области импортозамещения. И я один из них.
Однако много препятствий чинит православным Россиянам виртуальный шоппинг, самое трудное из которых — страна проживания. К сожалению наша отчизна классифицируется большинством онлайн магазинов как страна третьего мира, не иначе, а поэтому и прямой доставки туда нам не видать.
Выходом из этого казуса, очевидно, является mail forwarding сервис.
Итак в данной статье речь пойдет о
  • нововведениях в сервисе-посреднике — Shipito
  • Сервисе, который возвращает процент с покупок на ebay.com/ca/uk, Amazon, Skype, GoDaddy — Profitbid
  • Наконец-то созданном юзером MetalFan отличном софте (полностью бесплатном) для отслеживания почтовых отправлений всех почтовый сервисов TrackChecker
  • Небольшом списке интересных магазинов


PS. В топике присутствуют мои реферральные ссылки.
PS2. Трафик.
Читать дальше
Total votes 114: ↑93 and ↓21 +72
Comments 68

Скорость имеет значение. Теперь официально

Reading time 1 min
Views 1.1K
С наступлением эры безлимитного интернета и аджаксовых красивостей, вебмастера перестали заботиться о скорости загрузки страниц. Например морда хабра весит 750 кб. Мало?!
image
Читать дальше →
Total votes 60: ↑41 and ↓19 +22
Comments 111

Битва за трудочасы. Как надо считать зарплату?

Reading time 6 min
Views 11K
История «успеха».

Не столь давно я работал в одной крупной компании, где было принято расчитывать заработную плату сотрудников, исходя из отработанных ими трудочасов. Данная схема применялась ко всем без исключения: к программистам, инженерам, аналитикам, менеджерам по рекламе, техническим писателям, юристам и т.п. Для учета трудочасов даже применялся специальный (и довольно-таки неудобный) проджект-сервер.

Казалось бы — простая и хорошая схема: рассчитать примерный фонд зарплаты (а это расходная статья) можно на год вперёд.
Но, как и следовало ожидать, в отчетах все сотрудники исправно отрабатывали 40 часов в неделю. Всегда. Все.
Было несколько «партизан», которые иногда забывали там отмечаться, но, в целом, в отчетах царила райская идиллия.

Наконец кому-то из руководства пришла в голову долгожданная мысль, что так быть не может…
Читать дальше →
Total votes 126: ↑121 and ↓5 +116
Comments 164

С днем рождения, Джулиан Ассанж

Reading time 9 min
Views 30K
image3 июля 2014 года Ассанжу исполнилось 43 года.

В детстве он сменил 37 школ, а первый компьютер ему подарила мама в 16 лет.

Он вел несколько передач на канале Russia Today.

А еще он вдохновил Сергея Мавроди на старт МММ-2011

Некоторый малоизвестные выходки/достижения/события из жизни Ассанжа:

1) Джулиан изучал математику, физику и программирование в Central Queensland University, в 1994 и в Университете Мельбурна (2003-2006), но степень так и не получил.

2) Ассанжу не нравилось, то что студентов привлекают к работе над компьютерными проектами для военных и выступал против этого.

3) В 1987 году Джулиан начал «хакать» под ником Mendax, что означает «благородно неправдивый».

4) Он организовал хакерскую группу «International Subversives», вместе с двумя хакерами под псевдонимами «Trax» и «Prime Suspect».

5) Он и его группа взламывали Пентагон, ВМС США, правительственные организации, такие как NASA, MILNET и Australia’s Overseas Telecommunications Commission; частные компании Citibank, Lockheed Martin, Motorola, Panasonic и Xerox; и учебные заведения, такие как Australian National University, La Trobe University и Stanford Research Institute.
Читать дальше →
Total votes 96: ↑80 and ↓16 +64
Comments 13

АНБ следит за теми, кто интересуется Linux и информационной безопасностью

Reading time 2 min
Views 64K


Благодаря документам Сноудена в прошлом году стало известно о существовании программы XKeyscore, в рамках которой осуществляется мониторинг интернет-трафика по ключевым словам, поисковым запросам и т.д.

Вчера немецкий журналист Якоб Аппельбаум — один из тех, кому Эдвард Сноуден передал часть секретных документов АНБ — опубликовал файл xkeyscorerules100.txt, действующий в системе XKeyscore. Это несколько правил, по которым осуществляется мониторинг активности пользователей в интернете.
Читать дальше →
Total votes 83: ↑71 and ↓12 +59
Comments 55

Information

Rating
Does not participate
Location
Новосибирск, Новосибирская обл., Россия
Date of birth
Registered
Activity