Articles / Bookmarks / Profile of john316 / Habr

How to become an author

Николай Абкаиров @john316

User

Profile Publications Comments 11Bookmarks 114

astkristina Jul 6 2018 at 19:20

Pitch-tracking, или определение частоты основного тона в речи, на примерах алгоритмов Praat, YAAPT и YIN

10 min

22K

Programming*Algorithms*Machine learning*Neurodata Lab corporate blogSound

В сфере распознавания эмоций голос – второй по важности после лица источник эмоциональных данных. Голос можно охарактеризовать по нескольким параметрам. Высота голоса – одна из основных таких характеристик, однако в сфере акустических технологий корректнее называть этот параметр частотой основного тона.

Частота основного тона имеет непосредственное отношение к тому, что мы называем интонацией. А интонация, например, связана с эмоционально-экспрессивными характеристиками голоса.

Тем не менее, определение частоты основного тона является не совсем тривиальной задачей с интересными нюансами. В этой статье мы обсудим особенности алгоритмов для ее определения и сравним существующие решения на примерах конкретных аудиозаписей.

Читать дальше →

+31

SLY_G Mar 19 2019 at 15:00

Семь мифов в области исследований машинного обучения

10 min

12K

Machine learning*Artificial Intelligence

Translation

Для тех, кому лень читать всё: предлагается опровержение семи популярных мифов, которые в области исследований машинного обучения часто считаются истинными, по состоянию на февраль 2019. Данная статья доступна на сайте ArXiv в виде pdf [на английском языке].

Миф 1: TensorFlow – это библиотека для работы с тензорами.
Миф 2: Базы данных изображений отражают реальные фотографии, встречающиеся в природе.
Миф 3: Исследователи МО не используют проверочные наборы для испытаний.
Миф 4: В обучении нейросети используются все входные данные.
Миф 5: Для обучения очень глубоких остаточных сетей требуется пакетная нормализация.
Миф 6: Сети с вниманием [attention] лучше свёрточных [convolution].
Миф 7: Карты значимости – надёжный способ интерпретации нейросетей.

А теперь — подробности.

Читать дальше →

+19

ZlodeiBaal Jun 14 2019 at 03:17

Лопнул ли пузырь машинного обучения, или начало новой зари

10 min

111K

Image processing*Recognitor corporate blogMachine learning*Research and forecasts in IT*Artificial Intelligence

Недавно вышла статья, которая неплохо показывает тенденцию в машинном обучении последних лет. Если коротко: число стартапов в области машинного обучения в последние два года резко упало.

Ну что. Разберём «лопнул ли пузырь», «как дальше жить» и поговорим откуда вообще такая загогулина.

+177

dangrebenkin Oct 8 2019 at 19:06

Почему Kaldi хорош для распознавания речи? (обновлено 25.12.2019)

7 min

31K

Machine learning*Learning languagesNatural Language Processing*

Tutorial

Почему мне (и, надеюсь, вам) интересно распознавание речи? Во-первых, это направление является одним из самых популярных по сравнению с другими задачами компьютерной лингвистики, поскольку технология распознавания речи сейчас используется почти повсеместно – от распознавания простого «да/нет» в автоматическом колл-центре банка до способности поддерживать «светскую беседу» в «умной колонке» типа «Алисы». Во-вторых, чтобы система распознавания речи была качественным, необходимо найти самые эффективные средства для создания и настройки такой системы (одному из подобных средств и посвящена эта статья). Наконец, несомненным «плюсом» выбора специализации в области распознавания речи лично для меня является то, что для исследований в этой области необходимо владеть как программистскими, так и лингвистическими навыками. Это весьма стимулирует, заставляя приобретать знания в разных дисциплинах.

Читать дальше →

+22

deimous Sep 25 2018 at 16:58

Автоматизируем сборку iOS приложений с помощью Fastlane

6 min

43K

Development for iOS*Development of mobile applications*Сбер corporate blogMobile applications testing*

Tutorial

Как часто нам, iOS разработчикам, приходится собирать приложение для загрузки в ~~iTunes Connect~~ App Store Connect? В процессе этапа активного бета-тестирования приложения нужно оперативно фиксить баги и поставлять обновленную сборку для тестирования. А также необходимо скачивать сертификаты, Provision profiles, прокликивать много разных галочек и кнопочек при каждой выкладке нового билда.

К счастью, есть такой замечательный инструмент, как fastlane, который помогает нам автоматизировать ручные действия мобильного разработчика.

В этом посте я расскажу: что такое fastlane и как быстро начать его использовать в своих iOS проектах.

Читать дальше →

+11

bdmoiseev Sep 25 2018 at 10:05

Как Яндекс применил компьютерное зрение для повышения качества видеотрансляций. Технология DeepHD

7 min

71K

Яндекс corporate blogImage processing*Machine learning*Artificial IntelligenceIT-companies

Когда люди ищут в интернете картинку или видео, они часто прибавляют к запросу фразу «в хорошем качестве». Под качеством обычно имеется в виду разрешение — пользователи хотят, чтобы изображение было большим и при этом хорошо выглядело на экране современного компьютера, смартфона или телевизора. Но что делать, если источника в хорошем качестве просто не существует?

Сегодня мы расскажем читателям Хабра о том, как с помощью нейронных сетей нам удается повышать разрешение видео в режиме реального времени. Вы также узнаете, чем отличается теоретический подход к решению этой задачи от практического. Если вам не интересны технические детали, то можно смело пролистать пост – в конце вас ждут примеры нашей работы.

В интернете много видеоконтента в низком качестве и разрешении. Это могут быть фильмы, снятые десятки лет назад, или трансляции тв-каналов, которые по разным причинам проводятся не в лучшем качестве. Когда пользователи растягивают такое видео на весь экран, то изображение становится мутным и нечётким. Идеальным решением для старых фильмов было бы найти оригинал плёнки, отсканировать на современном оборудовании и отреставрировать вручную, но это не всегда возможно. С трансляциями всё ещё сложнее – их нужно обрабатывать в прямом эфире. В связи с этим наиболее приемлемый для нас вариант работы — увеличивать разрешение и вычищать артефакты, используя технологии компьютерного зрения.

+202

m1rko Aug 25 2018 at 18:58

Как международная хакерская сеть заработала $100 млн на краже пресс-релизов

24 min

20K

Information Security*

Translation

Весной 2012 года в киевском ночном клубе подвыпивший 24-летний Иван Турчинов бахвалился перед дружками-хакерами. Он хвастал, что много лет взламывает ленты бизнес-новостей и продаёт биржевым трейдерам неопубликованные пресс-релизы через московских посредников за долю в прибыли.

Один из хакеров в том клубе Александр Еременко раньше работал с Турчиновым — и решил войти в долю. Вместе со своим другом Вадимом Ермоловичем они взломали ленту Business Wire, украли внутренний доступ Турчинова к сайту и заставили московского главаря, известного под псевдонимом eggPLC, взять их в схему. Враждебное поглощение означало, что Турчинову пришлось делиться. Теперь в игру вступили три хакера.

Читать дальше →

+35

EninA Jul 19 2018 at 10:42

«Ваша игра скучная», или как поднять уже и так высокий Retention первого дня

7 min

13K

VK corporate blogGame development*Games monetization*Increasing Conversion Rate*

В этой статье я расскажу о внедрении «глубокого UX» в современную мобильную разработку, благодаря которому мне удалось добиться существенного и устойчивого роста Ret1. Под глубоким UX я понимаю комплекс мер, который направлен на работу не только с такими привычными вещами, как информативность, предсказуемость и удобство, но и с такими субъективными, как эмоциональное вовлечение и удержание.

Читать дальше →

+36

PatientZero Jul 20 2018 at 12:21

Оптимизация рендеринга сцены из диснеевского мультфильма «Моана». Часть 1

8 min

19K

Working with 3D-graphics*Computer Animation*

Translation

Walt Disney Animation Studios (WDAS) недавно сделала сообществу исследователей рендеринга неоценимый подарок, выпустив полное описание сцены для острова из мультфильма «Моана». Геометрия и текстуры для одного кадра занимают на диске более 70 ГБ. Это потрясающий пример той степени сложности, с которой сегодня приходится иметь дело системам рендеринга; никогда ранее исследователи и разработчики, занимающиеся рендерингом вне киностудий, не могли поработать с подобными реалистичными сценами.

Вот, как выглядит результат рендеринга сцены с помощью современного pbrt:

Остров из «Моаны», отрендеренный pbrt-v3 в разрешении 2048x858 с 256 сэмплами на пиксель. Общее время рендеринга на 12-ядерном/24-поточном инстансе Google Compute Engine с частотой 2 ГГц с последней версией pbrt-v3 составило 1 ч 44 мин 45 с.

Со стороны компании Disney это был огромный труд, ей пришлось извлечь сцену из собственного внутреннего формата и преобразовать в обычный; особое спасибо ей за время, потраченное на упаковку и подготовку этих данных для широкого использования. Я уверен, что их работа будет хорошо вознаграждена в будущем, потому что исследователи используют эту сцену, чтобы изучить проблемы эффективного рендеринга сцен такого уровня сложности.

Читать дальше →

+44

demsp May 10 2018 at 22:29

Проектирование процессора Verilog

5 min

21K

Programming*FPGA*DIYElectronics for beginners

Tutorial

Часть I
Часть II
Часть III
Часть IV
Часть V

Спроектируем Little Man Computer на языке Verilog.

Статья про LMC была на Хабре.

Online симулятор этого компьютера здесь.

Напишем модуль оперативной памяти RAM/ОЗУ, состоящий из четырех (N=2) четырёхбитных (M=4) слов. Данные загружаются в ОЗУ из data_in по адресу adr при нажатии на кнопку:

module R0 #(parameter N = 2, M = 4)
(
input RAM_button, //кнопка
input [N-1:0] adr, //адрес
input [M-1:0] data_in, //порт ввода данных
output [M-1:0] RAM_out //порт вывода данных
);
reg [M-1:0] mem [2**N-1:0]; //объявляем массив mem
always @(posedge RAM_button) //при нажатии на кнопку
mem [adr] <= data_in; //загружаем данные в ОЗУ из data_in 
assign RAM_out = mem[adr]; //назначаем RAM_out портом вывода данных
endmodule

Читать дальше →

+27

AndreyYu Apr 24 2018 at 15:18

Обновилось приложение на iOS? — Не беда, откатим

4 min

128K

Development for iOS*

Tutorial

Recovery Mode

Пока интернет бурлит новостями на тему обхода блокировок телеграма и сопутствующих с этим проблем у хостинговых компаний у меня была проблема посерьёзней — компания Innologica обновила до версии 6 приложение Inoreader для iOS.

Тихим будничным вечером приложение в телефоне было случайно обновлено до последней версии, т.к. обычно ничто не предвещало беды. Спустя пару дней во время поездки программа была запущена для чтения новостей и я не на шутку начал переживать.

Читать дальше →

+21

satellight Feb 17 2018 at 21:31

ДНК глазами программиста

15 min

88K

Popular scienceBiotechnologies

От переводчика: Так как я не являюсь биологом, возможны неточности в переводе терминов (и не только :). Оригинал находится здесь.

Если ты – молоток, то во всём увидишь гвоздь

Это всего лишь размышления программиста о ДНК. Я не являюсь молекулярным генетиком.

Исходный код

Находится здесь. Это не шутка. Исходники можно просмотреть с использованием замечательного набора скриптов Perl под названием "Ensembl". Геном человека занимает приблизительно 3 гигабайта, которые можно сократить до 750 мегабайт, если отбросить шелуху. Немного печалит, что это всего лишь 2.8 браузеров Mozilla Firefox.

ДНК похожа скорее не на исходники на языке C, а на байт-код для виртуальной машины под названием «ядро клетки». Крайне сомнительно, что существуют исходники, которые можно скомпилировать в этот байт-код: то, что мы видим, – это всё, что у нас есть.

Читать дальше →

+113

sanchower Feb 16 2018 at 10:56

17 самых неочевидных возможностей iOS, о которых вы могли не знать

6 min

35K

Lifehacks for geeks

Когда я только начинал вести свой канал о секретах iOS (ссылка в профиле), я и представить не мог, что это действительно может быть кому-то интересно. Мне всегда казалось, что все возможности уже давно известны и все давно обо всем знают. Как же я ошибался. За время своего развития iOS обросла огромным количеством фич, о которых множество пользователей даже не догадывается. Даже среди моих технически продвинутых друзей, я встречал искреннее удивление. Ниже подробка наиболее высоко оцененных советов для читателей Geektimes.

1. Знаете ли вы, что в приложении камеры на iPhone есть режим фокусировки? Наверняка знаете. Для этого достаточно тапнуть по экрану в той области, где нужен фокус. Но вот ведь незадача, если рука дрогнет, фокус сместится. Оказывается, его можно зафиксировать. Для этого нужно долгим нажатием на место фокуса вызвать меню фиксации. После фиксации фокус уже не сместится и можно выбирать нужный угол съемки.

2. В iOS 11 добавился очень удобный способ поделиться паролем к Wi-Fi. Для того, чтобы функция сработала, нужно чтобы оба устройства были с iOS 11 и включенным Bluetooth соединением. С устройства, которому неизвестен пароль, нужно зайти в Настройки → Wi-Fi и сделать попытку подключения к нужной сети. Устройство, уже подключенное к сети, должно находиться физически рядом (да, лучше прям поднести устройства друг к другу), а контакт человека, который расшаривает пароль должен быть в вашем списке контактов. На нем высветится окно с предложением поделиться паролем, нужно будет подтвердить данное действие и новое устройство подключится к сети. Функция может быть полезна, когда диктовать ваш 20-символьный пароль }X9}I|zxEyw23}4@Ym8>}X9}I|zxEyw23}4@Ym8 реально долго, а таким нехитрым трюком можно сократить себе время и нервы, забыв про объяснения вроде «Эс как доллар», «Си как эс русская» и т.п.

Читать дальше →

+28

PuzzleEnglish Feb 15 2018 at 15:59

Топ-10 распространенных ошибок в английском произношении, которые вы можете совершать

5 min

51K

Puzzle English corporate blogLearning languages

Tutorial

Носители английского поголовно утверждают, что понять человека, который говорит с акцентом, можно. Правда, иногда это трудно. Английский язык разительно отличается от русского и в фонетическом, и в интонационном плане. Носителя любого другого языка всегда слышно сразу: не так произносятся гласные, не так выстроена интонация, отсутствуют нужные или присутствуют ненужные звуки в словах. Оговоримся сразу: без акцента вы не говорите даже по-русски. Но изучая иностранный язык, вы можете научиться неплохо имитировать носителей и говорить с минимальным и не режущим слух акцентом. А пока давайте изучим самые частые ошибки русских студентов, изучающих английский язык.

Читать дальше →

+31

olartamonov Jan 5 2018 at 15:14

Новогодние подарки, часть первая: Meltdown

13 min

104K

Да, я знаю, что это уже третий материал на GT/HH по данной проблеме.

Однако, к сожалению, до сих пор я не встречал хорошего русскоязычного материала — да в общем и с англоязычными, чего уж тут греха таить, та же проблема, там тоже многих журналистов изнасиловали учёные — в котором внятно раскладывалось бы по полочкам, что именно произошло 3 января 2018 года, и как мы будем с этим жить дальше.

Попробую восполнить пробел, при этом и не слишком влезая в глубины работы процессоров (ассемблера не будет, тонких подробностей постараюсь избегать там, где они не нужны для понимания), и описывая проблему максимально полно.

Тезисно: в прошлом году нашли, а в этом опубликовали информацию о самой серьёзной ошибке в процессорах за все десятилетия их существования. В той или иной степени ей подвержены все процессоры, используемые в настоящее время в настольных компьютерах, серверах, планшетах, смартфонах, автомобилях, самолётах, поездах, почте, телефоне и телеграфе. То есть — вообще все процессоры, кроме микроконтроллеров.

К счастью, подвержены они ей в разной степени. К несчастью, самый серьёзный удар пришёлся на самые распространённые процессоры — Intel, причём затронул он абсолютно все выпускающиеся и практически все эксплуатируемые (единственным исключением являются старые Atom, выпущенные до 2013 года) процессоры этой компании.

Читать дальше →

+175

alizar Dec 21 2017 at 22:04

Нейросеть Tacotron 2 говорит с человеческими интонациями, на которых обучена

3 min

23K

Artificial IntelligenceSoundIT-companies

Архитектура Tacotron 2. В нижней части иллюстрации показаны модели предложение-к-предложению, которые транслируют последовательность букв в последовательность признаков в 80-мерном пространстве. Техническое описание см. в научной статье

Синтез речи — искусственное воспроизводство человеческой речи из текста — традиционно считается одной из составляющих частей искусственного интеллекта. Раньше такие системы можно было увидеть только в фантастических фильмах, а сейчас они работают буквально в каждом смартфоне: это системы Сири, Алиса и тому подобные. Вот только они не очень реалистично произносят фразы: голос неживой, слова отделены друг от друга.

Компания Google разработала продвинутый синтезатор речи нового поколения. Он называется Tacotron 2 и основан на нейросети. Для демонстрации его возможностей компания выложила примеры синтеза. Внизу странички с примерами можно пройти тест и попробовать определить, где текст произносит синтезатор речи, а где человек. Определить разницу практически невозможно.

Читать дальше →

+14

alizar Dec 4 2017 at 16:48

ИИ от Google обучил дочерний ИИ, который превосходит все ИИ, созданные человеком

3 min

73K

SoftwareArtificial Intelligence

В мае 2017 года исследователи из Google Brain представили проект AutoML, который автоматизирует проектирование моделей машинного обучения. Эксперименты с AutoML показали, что эта система может генерировать маленькие нейросети с очень хорошими показателями — вполне сравнимые с нейросетями, которые спроектированы и обучены экспертами-людьми. Однако поначалу возможности AutoML были ограничены маленькими научными наборами данных вроде CIFAR-10 и Penn Treebank.

Инженеры Google задумались — а что если поставить перед генератором ИИ более серьёзные задачи? Способна ли эта система ИИ сгенерировать другую ИИ, которая будет лучше созданного человеком ИИ в какой-нибудь важной задаче вроде классификации объектов из базы ImageNet — самого известного из крупномасштабных наборов данных в машинном зрении. Так появилась нейросеть NASNet, созданная практически без участия человека.

Читать дальше →

+64

al_neon Oct 21 2017 at 17:25

Hello, world

4 min

9.3K

Professional literature*CyberpunkScience fiction

Ted: Free will is obviously not a big factor in this little world of ours.
Allegra: It's like real life. There's just enough to make it interesting.
David Cronenberg, “Existenz”

Дэвид лениво нажал на кнопку пульта телевизора, программа сменилась. Он был в диапазоне каналов, где с 11 вечера и до 6 утра транслировали магазины на диване. До островка спортивных новостей оставалось еще около 15 переключений, но целиком набирать нужную цифру Дэвид не хотел.
— … Вы устали от жизни? Перестали понимать, что происходит вокруг? Новая пищевая добавка “Здравый смысл 2.0” от компании “5ый элемент” решит все ваши проблемы.

Читать дальше →

+10

al_neon Oct 8 2017 at 08:28

Индукция

7 min

8.5K

Professional literature*CyberpunkScience fiction

— О боже мой, они такие миленькие! — воскликнула Сьюзан, когда Кэрол показала ей лабиринт с мышами. Вся симпатичность лабораторных животных заключалась в том, что на голове у них были разноцветные шлемы, в которых мыши походили на маленьких гонщиков из аниме 70-ых. На синем шлеме была нарисована цифра 1, на красном — цифра 0.
— А это им зачем?

Читать дальше →

+8

al_neon Sep 30 2017 at 13:35

День, когда Земля поспорила

1 min

8.6K

Professional literature*CyberpunkScience fiction

Больше рассказов не будет.

+11

1