Pull to refresh
0
0
Николай Абкаиров @john316

User

Send message

Pitch-tracking, или определение частоты основного тона в речи, на примерах алгоритмов Praat, YAAPT и YIN

Reading time10 min
Views22K
image

В сфере распознавания эмоций голос – второй по важности после лица источник эмоциональных данных. Голос можно охарактеризовать по нескольким параметрам. Высота голоса – одна из основных таких характеристик, однако в сфере акустических технологий корректнее называть этот параметр частотой основного тона.

Частота основного тона имеет непосредственное отношение к тому, что мы называем интонацией. А интонация, например, связана с эмоционально-экспрессивными характеристиками голоса.

Тем не менее, определение частоты основного тона является не совсем тривиальной задачей с интересными нюансами. В этой статье мы обсудим особенности алгоритмов для ее определения и сравним существующие решения на примерах конкретных аудиозаписей.
Читать дальше →
Total votes 33: ↑32 and ↓1+31
Comments7

Семь мифов в области исследований машинного обучения

Reading time10 min
Views12K
Для тех, кому лень читать всё: предлагается опровержение семи популярных мифов, которые в области исследований машинного обучения часто считаются истинными, по состоянию на февраль 2019. Данная статья доступна на сайте ArXiv в виде pdf [на английском языке].

Миф 1: TensorFlow – это библиотека для работы с тензорами.
Миф 2: Базы данных изображений отражают реальные фотографии, встречающиеся в природе.
Миф 3: Исследователи МО не используют проверочные наборы для испытаний.
Миф 4: В обучении нейросети используются все входные данные.
Миф 5: Для обучения очень глубоких остаточных сетей требуется пакетная нормализация.
Миф 6: Сети с вниманием [attention] лучше свёрточных [convolution].
Миф 7: Карты значимости – надёжный способ интерпретации нейросетей.

А теперь — подробности.
Читать дальше →
Total votes 33: ↑26 and ↓7+19
Comments10

Лопнул ли пузырь машинного обучения, или начало новой зари

Reading time10 min
Views111K
Недавно вышла статья, которая неплохо показывает тенденцию в машинном обучении последних лет. Если коротко: число стартапов в области машинного обучения в последние два года резко упало.

image

Ну что. Разберём «лопнул ли пузырь», «как дальше жить» и поговорим откуда вообще такая загогулина.
Total votes 185: ↑181 and ↓4+177
Comments350

Почему Kaldi хорош для распознавания речи? (обновлено 25.12.2019)

Reading time7 min
Views31K


Почему мне (и, надеюсь, вам) интересно распознавание речи? Во-первых, это направление является одним из самых популярных по сравнению с другими задачами компьютерной лингвистики, поскольку технология распознавания речи сейчас используется почти повсеместно – от распознавания простого «да/нет» в автоматическом колл-центре банка до способности поддерживать «светскую беседу» в «умной колонке» типа «Алисы». Во-вторых, чтобы система распознавания речи была качественным, необходимо найти самые эффективные средства для создания и настройки такой системы (одному из подобных средств и посвящена эта статья). Наконец, несомненным «плюсом» выбора специализации в области распознавания речи лично для меня является то, что для исследований в этой области необходимо владеть как программистскими, так и лингвистическими навыками. Это весьма стимулирует, заставляя приобретать знания в разных дисциплинах.
Читать дальше →
Total votes 26: ↑24 and ↓2+22
Comments34

Автоматизируем сборку iOS приложений с помощью Fastlane

Reading time6 min
Views43K

Как часто нам, iOS разработчикам, приходится собирать приложение для загрузки в iTunes Connect App Store Connect? В процессе этапа активного бета-тестирования приложения нужно оперативно фиксить баги и поставлять обновленную сборку для тестирования. А также необходимо скачивать сертификаты, Provision profiles, прокликивать много разных галочек и кнопочек при каждой выкладке нового билда.


К счастью, есть такой замечательный инструмент, как fastlane, который помогает нам автоматизировать ручные действия мобильного разработчика.


В этом посте я расскажу: что такое fastlane и как быстро начать его использовать в своих iOS проектах.

Читать дальше →
Total votes 11: ↑11 and ↓0+11
Comments10

Как Яндекс применил компьютерное зрение для повышения качества видеотрансляций. Технология DeepHD

Reading time7 min
Views71K
Когда люди ищут в интернете картинку или видео, они часто прибавляют к запросу фразу «в хорошем качестве». Под качеством обычно имеется в виду разрешение — пользователи хотят, чтобы изображение было большим и при этом хорошо выглядело на экране современного компьютера, смартфона или телевизора. Но что делать, если источника в хорошем качестве просто не существует?

Сегодня мы расскажем читателям Хабра о том, как с помощью нейронных сетей нам удается повышать разрешение видео в режиме реального времени. Вы также узнаете, чем отличается теоретический подход к решению этой задачи от практического. Если вам не интересны технические детали, то можно смело пролистать пост – в конце вас ждут примеры нашей работы.



В интернете много видеоконтента в низком качестве и разрешении. Это могут быть фильмы, снятые десятки лет назад, или трансляции тв-каналов, которые по разным причинам проводятся не в лучшем качестве. Когда пользователи растягивают такое видео на весь экран, то изображение становится мутным и нечётким. Идеальным решением для старых фильмов было бы найти оригинал плёнки, отсканировать на современном оборудовании и отреставрировать вручную, но это не всегда возможно. С трансляциями всё ещё сложнее – их нужно обрабатывать в прямом эфире. В связи с этим наиболее приемлемый для нас вариант работы — увеличивать разрешение и вычищать артефакты, используя технологии компьютерного зрения.

Total votes 206: ↑204 and ↓2+202
Comments169

Как международная хакерская сеть заработала $100 млн на краже пресс-релизов

Reading time24 min
Views20K


Весной 2012 года в киевском ночном клубе подвыпивший 24-летний Иван Турчинов бахвалился перед дружками-хакерами. Он хвастал, что много лет взламывает ленты бизнес-новостей и продаёт биржевым трейдерам неопубликованные пресс-релизы через московских посредников за долю в прибыли.

Один из хакеров в том клубе Александр Еременко раньше работал с Турчиновым — и решил войти в долю. Вместе со своим другом Вадимом Ермоловичем они взломали ленту Business Wire, украли внутренний доступ Турчинова к сайту и заставили московского главаря, известного под псевдонимом eggPLC, взять их в схему. Враждебное поглощение означало, что Турчинову пришлось делиться. Теперь в игру вступили три хакера.
Читать дальше →
Total votes 49: ↑42 and ↓7+35
Comments36

«Ваша игра скучная», или как поднять уже и так высокий Retention первого дня

Reading time7 min
Views13K


В этой статье я расскажу о внедрении «глубокого UX» в современную мобильную разработку, благодаря которому мне удалось добиться существенного и устойчивого роста Ret1. Под глубоким UX я понимаю комплекс мер, который направлен на работу не только с такими привычными вещами, как информативность, предсказуемость и удобство, но и с такими субъективными, как эмоциональное вовлечение и удержание.
Читать дальше →
Total votes 40: ↑38 and ↓2+36
Comments28

Оптимизация рендеринга сцены из диснеевского мультфильма «Моана». Часть 1

Reading time8 min
Views19K
Walt Disney Animation Studios (WDAS) недавно сделала сообществу исследователей рендеринга неоценимый подарок, выпустив полное описание сцены для острова из мультфильма «Моана». Геометрия и текстуры для одного кадра занимают на диске более 70 ГБ. Это потрясающий пример той степени сложности, с которой сегодня приходится иметь дело системам рендеринга; никогда ранее исследователи и разработчики, занимающиеся рендерингом вне киностудий, не могли поработать с подобными реалистичными сценами.

Вот, как выглядит результат рендеринга сцены с помощью современного pbrt:


Остров из «Моаны», отрендеренный pbrt-v3 в разрешении 2048x858 с 256 сэмплами на пиксель. Общее время рендеринга на 12-ядерном/24-поточном инстансе Google Compute Engine с частотой 2 ГГц с последней версией pbrt-v3 составило 1 ч 44 мин 45 с.

Со стороны компании Disney это был огромный труд, ей пришлось извлечь сцену из собственного внутреннего формата и преобразовать в обычный; особое спасибо ей за время, потраченное на упаковку и подготовку этих данных для широкого использования. Я уверен, что их работа будет хорошо вознаграждена в будущем, потому что исследователи используют эту сцену, чтобы изучить проблемы эффективного рендеринга сцен такого уровня сложности.
Читать дальше →
Total votes 44: ↑44 and ↓0+44
Comments31

Проектирование процессора Verilog

Reading time5 min
Views21K

Часть I
Часть II
Часть III
Часть IV
Часть V

Спроектируем Little Man Computer на языке Verilog.

Статья про LMC была на Хабре.

Online симулятор этого компьютера здесь.

Напишем модуль оперативной памяти RAM/ОЗУ, состоящий из четырех (N=2) четырёхбитных (M=4) слов. Данные загружаются в ОЗУ из data_in по адресу adr при нажатии на кнопку:
module R0 #(parameter N = 2, M = 4)
(
input RAM_button, //кнопка
input [N-1:0] adr, //адрес
input [M-1:0] data_in, //порт ввода данных
output [M-1:0] RAM_out //порт вывода данных
);
reg [M-1:0] mem [2**N-1:0]; //объявляем массив mem
always @(posedge RAM_button) //при нажатии на кнопку
mem [adr] <= data_in; //загружаем данные в ОЗУ из data_in 
assign RAM_out = mem[adr]; //назначаем RAM_out портом вывода данных
endmodule
Читать дальше →
Total votes 27: ↑27 and ↓0+27
Comments4

Обновилось приложение на iOS? — Не беда, откатим

Reading time4 min
Views128K
Пока интернет бурлит новостями на тему обхода блокировок телеграма и сопутствующих с этим проблем у хостинговых компаний у меня была проблема посерьёзней — компания Innologica обновила до версии 6 приложение Inoreader для iOS.

Тихим будничным вечером приложение в телефоне было случайно обновлено до последней версии, т.к. обычно ничто не предвещало беды. Спустя пару дней во время поездки программа была запущена для чтения новостей и я не на шутку начал переживать.
Читать дальше →
Total votes 21: ↑21 and ↓0+21
Comments15

ДНК глазами программиста

Reading time15 min
Views88K
От переводчика: Так как я не являюсь биологом, возможны неточности в переводе терминов (и не только :). Оригинал находится здесь.

Если ты – молоток, то во всём увидишь гвоздь


Это всего лишь размышления программиста о ДНК. Я не являюсь молекулярным генетиком.

Исходный код


Находится здесь. Это не шутка. Исходники можно просмотреть с использованием замечательного набора скриптов Perl под названием "Ensembl". Геном человека занимает приблизительно 3 гигабайта, которые можно сократить до 750 мегабайт, если отбросить шелуху. Немного печалит, что это всего лишь 2.8 браузеров Mozilla Firefox.

ДНК похожа скорее не на исходники на языке C, а на байт-код для виртуальной машины под названием «ядро клетки». Крайне сомнительно, что существуют исходники, которые можно скомпилировать в этот байт-код: то, что мы видим, – это всё, что у нас есть.
Читать дальше →
Total votes 115: ↑114 and ↓1+113
Comments308

17 самых неочевидных возможностей iOS, о которых вы могли не знать

Reading time6 min
Views35K
Когда я только начинал вести свой канал о секретах iOS (ссылка в профиле), я и представить не мог, что это действительно может быть кому-то интересно. Мне всегда казалось, что все возможности уже давно известны и все давно обо всем знают. Как же я ошибался. За время своего развития iOS обросла огромным количеством фич, о которых множество пользователей даже не догадывается. Даже среди моих технически продвинутых друзей, я встречал искреннее удивление. Ниже подробка наиболее высоко оцененных советов для читателей Geektimes.

1. Знаете ли вы, что в приложении камеры на iPhone есть режим фокусировки? Наверняка знаете. Для этого достаточно тапнуть по экрану в той области, где нужен фокус. Но вот ведь незадача, если рука дрогнет, фокус сместится. Оказывается, его можно зафиксировать. Для этого нужно долгим нажатием на место фокуса вызвать меню фиксации. После фиксации фокус уже не сместится и можно выбирать нужный угол съемки.


2. В iOS 11 добавился очень удобный способ поделиться паролем к Wi-Fi. Для того, чтобы функция сработала, нужно чтобы оба устройства были с iOS 11 и включенным Bluetooth соединением. С устройства, которому неизвестен пароль, нужно зайти в Настройки → Wi-Fi и сделать попытку подключения к нужной сети. Устройство, уже подключенное к сети, должно находиться физически рядом (да, лучше прям поднести устройства друг к другу), а контакт человека, который расшаривает пароль должен быть в вашем списке контактов. На нем высветится окно с предложением поделиться паролем, нужно будет подтвердить данное действие и новое устройство подключится к сети. Функция может быть полезна, когда диктовать ваш 20-символьный пароль }X9}I|zxEyw23}4@Ym8>}X9}I|zxEyw23}4@Ym8 реально долго, а таким нехитрым трюком можно сократить себе время и нервы, забыв про объяснения вроде «Эс как доллар», «Си как эс русская» и т.п.
Читать дальше →
Total votes 50: ↑39 and ↓11+28
Comments160

Топ-10 распространенных ошибок в английском произношении, которые вы можете совершать

Reading time5 min
Views51K
Носители английского поголовно утверждают, что понять человека, который говорит с акцентом, можно. Правда, иногда это трудно. Английский язык разительно отличается от русского и в фонетическом, и в интонационном плане. Носителя любого другого языка всегда слышно сразу: не так произносятся гласные, не так выстроена интонация, отсутствуют нужные или присутствуют ненужные звуки в словах. Оговоримся сразу: без акцента вы не говорите даже по-русски. Но изучая иностранный язык, вы можете научиться неплохо имитировать носителей и говорить с минимальным и не режущим слух акцентом. А пока давайте изучим самые частые ошибки русских студентов, изучающих английский язык.

Читать дальше →
Total votes 45: ↑38 and ↓7+31
Comments130

Новогодние подарки, часть первая: Meltdown

Reading time13 min
Views104K
Да, я знаю, что это уже третий материал на GT/HH по данной проблеме.

Однако, к сожалению, до сих пор я не встречал хорошего русскоязычного материала — да в общем и с англоязычными, чего уж тут греха таить, та же проблема, там тоже многих журналистов изнасиловали учёные — в котором внятно раскладывалось бы по полочкам, что именно произошло 3 января 2018 года, и как мы будем с этим жить дальше.

Попробую восполнить пробел, при этом и не слишком влезая в глубины работы процессоров (ассемблера не будет, тонких подробностей постараюсь избегать там, где они не нужны для понимания), и описывая проблему максимально полно.

Тезисно: в прошлом году нашли, а в этом опубликовали информацию о самой серьёзной ошибке в процессорах за все десятилетия их существования. В той или иной степени ей подвержены все процессоры, используемые в настоящее время в настольных компьютерах, серверах, планшетах, смартфонах, автомобилях, самолётах, поездах, почте, телефоне и телеграфе. То есть — вообще все процессоры, кроме микроконтроллеров.

К счастью, подвержены они ей в разной степени. К несчастью, самый серьёзный удар пришёлся на самые распространённые процессоры — Intel, причём затронул он абсолютно все выпускающиеся и практически все эксплуатируемые (единственным исключением являются старые Atom, выпущенные до 2013 года) процессоры этой компании.
Читать дальше →
Total votes 179: ↑177 and ↓2+175
Comments265

Нейросеть Tacotron 2 говорит с человеческими интонациями, на которых обучена

Reading time3 min
Views23K

Архитектура Tacotron 2. В нижней части иллюстрации показаны модели предложение-к-предложению, которые транслируют последовательность букв в последовательность признаков в 80-мерном пространстве. Техническое описание см. в научной статье

Синтез речи — искусственное воспроизводство человеческой речи из текста — традиционно считается одной из составляющих частей искусственного интеллекта. Раньше такие системы можно было увидеть только в фантастических фильмах, а сейчас они работают буквально в каждом смартфоне: это системы Сири, Алиса и тому подобные. Вот только они не очень реалистично произносят фразы: голос неживой, слова отделены друг от друга.

Компания Google разработала продвинутый синтезатор речи нового поколения. Он называется Tacotron 2 и основан на нейросети. Для демонстрации его возможностей компания выложила примеры синтеза. Внизу странички с примерами можно пройти тест и попробовать определить, где текст произносит синтезатор речи, а где человек. Определить разницу практически невозможно.
Читать дальше →
Total votes 14: ↑14 and ↓0+14
Comments17

ИИ от Google обучил дочерний ИИ, который превосходит все ИИ, созданные человеком

Reading time3 min
Views73K


В мае 2017 года исследователи из Google Brain представили проект AutoML, который автоматизирует проектирование моделей машинного обучения. Эксперименты с AutoML показали, что эта система может генерировать маленькие нейросети с очень хорошими показателями — вполне сравнимые с нейросетями, которые спроектированы и обучены экспертами-людьми. Однако поначалу возможности AutoML были ограничены маленькими научными наборами данных вроде CIFAR-10 и Penn Treebank.

Инженеры Google задумались — а что если поставить перед генератором ИИ более серьёзные задачи? Способна ли эта система ИИ сгенерировать другую ИИ, которая будет лучше созданного человеком ИИ в какой-нибудь важной задаче вроде классификации объектов из базы ImageNet — самого известного из крупномасштабных наборов данных в машинном зрении. Так появилась нейросеть NASNet, созданная практически без участия человека.
Читать дальше →
Total votes 68: ↑66 and ↓2+64
Comments271

Hello, world

Reading time4 min
Views9.3K
Ted: Free will is obviously not a big factor in this little world of ours.
Allegra: It's like real life. There's just enough to make it interesting.
David Cronenberg, “Existenz”


Дэвид лениво нажал на кнопку пульта телевизора, программа сменилась. Он был в диапазоне каналов, где с 11 вечера и до 6 утра транслировали магазины на диване. До островка спортивных новостей оставалось еще около 15 переключений, но целиком набирать нужную цифру Дэвид не хотел.
— … Вы устали от жизни? Перестали понимать, что происходит вокруг? Новая пищевая добавка “Здравый смысл 2.0” от компании “5ый элемент” решит все ваши проблемы.
Читать дальше →
Total votes 16: ↑13 and ↓3+10
Comments8

Индукция

Reading time7 min
Views8.5K
— О боже мой, они такие миленькие! — воскликнула Сьюзан, когда Кэрол показала ей лабиринт с мышами. Вся симпатичность лабораторных животных заключалась в том, что на голове у них были разноцветные шлемы, в которых мыши походили на маленьких гонщиков из аниме 70-ых. На синем шлеме была нарисована цифра 1, на красном — цифра 0.
— А это им зачем?
Читать дальше →
Total votes 10: ↑9 and ↓1+8
Comments9

Information

Rating
Does not participate
Location
Зеленоград, Москва и Московская обл., Россия
Registered
Activity