• Диалектика нейронного машинного перевода
    +1
    Привет.

    Мы в этом бенчмарке конечно сравнивали результат из облачных сервисов. Для компаний с фокусом на on-premise (PROMT, Systran, SDL и многие другие) в облаке часто работает не последняя и не самая точная версия движка. Думаю, что читателям хабра это не очевидно, отсюда и комментарии выше с примерами из онлайн-версии.

    Могу поделиться наблюдениями с нашей стороны.

    (1) NMT не очень хорошо работает с SEO-оптимизированными текстами, для которых характерно избыточное количество прилагательных, родительный падеж, вот это вот всё. Длинный SEO текст может быть переведен одним словом — подходящим, но в контексте бизнес-задачи неправильным. «ROUND TRIP INSTANT PURCHASE FARES» — из этой области.

    (2) NMT в целом не очень хорошо работает с короткими текстами. Ему явно не хватает контекста. Это проявляется в неустойчивом качестве перевода — то пусто, то густо.

    (3) Часть провайдеров обучается на открытых датасетах (которые они краулят с веба). Поэтому применительно к нашему бенчмарку (который сделан на датасете WMT) результаты иногда расходятся с тем, что мы видим на частных датасетах клиентов.

    Напоследок, вот что интегрированные с нам системы перевода выдают для «ROUND TRIP INSTANT PURCHASE FARES» (при этом для более типичных текстов все более-менее хорошо):

    • Microsoft NMT: Прямой проезд
    • Microsoft SMT: ТУР МГНОВЕННОЕ ПРИОБРЕТЕНИЕ ТАРИФЫ
    • SDL Language Cloud: Поездка МГНОВЕННАЯ ПОКУПКА ТАРИФЫ
    • PROMT: МОМЕНТ КРУГОВОГО РЕЙСА ПОКУПАЕТ ТАРИФЫ
    • Baidu: тур интернет — покупки фарес
    • YeeCloud: Раунд ТРИПЛОВЫЙ ПУТЕВЫЙ ПЛАТЫ
    • Google NMT: КРУГЛЫЕ ПОЕЗДКИ МГНОВЕННЫЕ ПОКУПКИ
    • Yandex: КРУГЛОГО ПОЕЗДКИ МГНОВЕННЫЙ ТАРИФЫ КУПИТЬ
    • Systran: ТУДА И ОБРАТНО НЕМЕДЛЕННЫЕ ПЛАТЫ ЗА ПРОЕЗД ПРИОБРЕТЕНИЯ
  • Отладка самолета? Это очень просто!
    +8
    Хотя максимум веселья был, как мне рассказывали, когда на испытательном полете оказалось, что одну часть системы оповещения о неисправностях сделали по новой версии спецификации, другую — по старой. Сразу после взлета полетели такие ошибки, что пилоты поседели, отключили автоматику и сели вручную.
  • Отладка самолета? Это очень просто!
    +9
    А я как-то руководил группой по верификации (DO-178, тогда еще B) ПО на одном джете. Тоже было много анекдотов, в частности на радаре не отрисовывались три строчки, потому что (как потом выяснилось) программист переписал часть автоматически сгенерированного кода и оставил комментарий в духе «тут кажется не оптимально сработал кодогенератор», ну и налепил ошибок.
  • Помогите, нас захватывают
    0
    У вас логика примерно такая же, как у следователей, утверждающих, что погибший после драки водитель пять раз ударил сам себя ножом.

    То есть по умолчанию-то можно что угодно предполагать, но наша позиция понятна — мы сотрудники компании и видим всю ситуацию изнутри (хотя аспектов, происходящих в оффшорах, можем не знать). А у вас откуда ваши умолчания о гадостях и прочем?
  • Помогите, нас захватывают
    0
    Максим, я не знал, что твои нападки по топику связаны с обидами и интересами. Но в целом, обрати внимание, что достаточно странно говорить о том, что отсутствие фактов может быть истолковано так и сяк, имея в активе обещания.
  • Помогите, нас захватывают
    +2
    А можно подробнее?
  • Помогите, нас захватывают
    0
    Здесь проблема не в коде и дизайне. Медиасервисы — это как гонка вооружений. Те проекты, которые есть сейчас, идут в ногу со временем. Чтобы добиться чего-то серьёзного, недостаточно их отшлифовать и масштабировать. Нужно сделать то, что будет на три корпуса впереди. Чем мы и занимались. То есть занимаемся и будем заниматься, с этими инвесторами или нет — покажет время.
  • Помогите, нас захватывают
    0
    Есть такие штуки, доверенности. С ними всё иногда усложняется.
  • Помогите, нас захватывают
    0
    То есть в офисе было около 5 сотрудников компании и 6-8 инвесторов спортивного телосложения.
  • Помогите, нас захватывают
    0
    Это, надо сказать, было непривычно. Я с таким последний раз сталкивался в 92-93, когда мы с приятелем были в восьмом классе и зарабатывали мойкой машин у гостиницы «Владыкино». Ну, опыт сын ошибок трудных.
  • Помогите, нас захватывают
    0
    Монетизация стриминга в наше время — это вообще очень веселое занятие. Можете поделиться вашим обширным опытом со Spotify или хотя бы Fidel. В этом проблема захватчиков — они считают, что захватывают синицу, которую можно откормить и заставить нести золотые яйца.
  • Помогите, нас захватывают
    0
    Но в целом-то понятно, что с точки зрения традиционного бизнеса, где контроль пропорционален тому, с каким капиталом партнеры вошли в компанию, в этих наших интернетах ситуация парадоксальная. Можно быть основным вкладчиком денег, и при этом — миноритарием, да еще и ущемленным в правах по акционерному соглашению. А основатель, который «стоит» на порядок меньше тебя, владельца заводов-газет-пароходов, смеет разговаривать на равных, а исподтишка вообще может свысока поглядывать. Вот здесь и находится корень всех проблем.
  • Помогите, нас захватывают
    0
    Так и не спорь, что споришь? :-) Я не слышал, чтобы в Штатах _перед_ сменой гендиректора миноритарии вламывались в офисы. Это точно штаты Америки были?
  • Помогите, нас захватывают
    +2
    Я не думаю, что у нас в команде есть хотя бы один человек, для которого станет проблемой найти работу в случае конца продуктов в холодильнике.
  • Помогите, нас захватывают
    +4
    «Главное, помнить что у любого события есть две стороны, а правда как обычно где-то между.»

    Максим, это ты по опыту своего конфликта с Инновой и его публичного освещения? :-)
  • Формирование высокоуровневых признаков с помощью широкомасштабного эксперимента по обучению без учителя
    0
    60 000
  • Формирование высокоуровневых признаков с помощью широкомасштабного эксперимента по обучению без учителя
    0
    Здесь речь про асинхронный стохастический градиентный спуск. Он достаточно быстр, в меру точен и масштабируется почти линейно по числу машин. Не слышал про применение для крупномасштабного машинного обучения генетики.
  • Формирование высокоуровневых признаков с помощью широкомасштабного эксперимента по обучению без учителя
    0
    У них получилось порядка 60К концептов, среди которых, например, круги на воде, решетки, облака и.т.п.
  • Формирование высокоуровневых признаков с помощью широкомасштабного эксперимента по обучению без учителя
    0
    Число выходных нейронов там берется с запасом и, насколько я понимаю, не отделается данными. Просто начиная с определенного момента они не очень осмысленны.
  • Google тестирует самообучаемую нейросеть (16 тыс. процессорных ядер)
    0
    Результат, неотличимый от случайности — данный рассказ об этой работе на хабре. Точность распознавания лиц получилась под 90%. 15% — точность отнесения объекта на картинке к одной из 20000 категорий. Человек дает на том же наборе худшую точность (пример двух категорий — разные виды морских скатов).
  • Рекомендательные системы: постановка задачи
    0
    Это во многом вопрос интерфейса. Если пользователь видит только то, что рекомендовано — такое эффект есть. Если рекомендация работает как подсказка — он минимален. Правда, и в этом случае можно направлять действия пользователя — тем не менее, при желании он всегда может не пользоваться этой подсказкой.
  • Рекомендательные системы: SVD и базовые предикторы
    0
    Если я правильно помню, то у Корена "++" в SVD++ присутствует благодаря тому, что этот метод учитывает не только явный фидбэк (величину оценки), но и неявный (сам факт того, что пользователь обратил внимание на фильм).
  • Рекомендательные системы: SVD и базовые предикторы
    0
    См. recommenderbook.net, там упомянуты две хорошие книги, отдельные главы можно найти в открытом доступе.
  • Видео-наблюдение и трансляция на избирательном участке
    0
    вбросить не получится — число проголосовавших можно посчитать по записи камеры
  • Видео-наблюдение и трансляция на избирательном участке
    0
    Как минимум число проголосовавших. Кстати, при таком подходе не нужно разрешение, позволяющее смотреть, сколько бюллетеней опущено в урну. Если число проголосовавших на видео не совпадает с числом бюллетеней — уже можно признавать результаты недействительными.
  • Видео-наблюдение и трансляция на избирательном участке
    +1
    Илья, обсуждается ли в комитете ответственность УИК (или кого-ио ещё) за обеспечение трансляции? Если нет, то это надо учитывать в ТЗ на систему. Например, вай-фай канал могут заджаммить на время, достаточное для вброса, смартфон на штативе — случайно сбить локтем на пол итд итп. Возможно, нужно делать фулпруф-систему?

    Учитывая дискуссионность пользы от камер, я поддерживаю вариант, что нужно как минимум приложить максимум усилий, чтобы эти 15млрд не были выброшены. Если на эти деньги получится провести интернет в те школы, где его нет, а также поставить в каждой школе по несколько камер наблюдения (такого плана) — это будет гуд. Выборы пройдут, а интернет и камеры останутся.

    Плюс ко всему — я думаю, важно не только фиксировать, кто сколько бюллетеней вбросил (т.е. следить за голосующими), но и что делает УИК (т.е. следить за теми, кто вносит максимальный вклад в подтасовки. С этой точки зрения лучше всего — пара потолочных камер на участок.
  • Удивительное рядом или как поиздеваться над биржевыми аналитиками (при помощи Excel)
    +1
    А, ну я это и имел ввиду, когда говорил про «реальный мир». Причем лезвие ножа достаточно узкое. Например, есть много hi-freq монеток, абсолютно бесполезных для обычного частного трейдера, но ценный на флэт-рейте и низкой latency.

    Про телик — конечно. В тему где-то пробегал текст про трейдинг на основании предсказания поведения частных трейдеров, прошедших курсы ТА от разных школ :-)

    По поводу донесения мысли, ещё нагляднее её доносит софтинка, которая на основе ТА задним числом объясняет, почему произошло то или иное движение. Всё как бы сразу становится понятно.
  • Удивительное рядом или как поиздеваться над биржевыми аналитиками (при помощи Excel)
    +1
    Для начала балалайка, рассказывал товарищ, который где-то там конструировал торпеды. Мы подписали соглашение с США, по которому должен был идти обмен данными с датчиков торпед. Ну и обе стороны, дабы держаться в рамках соглашения и при этом не раскрыть лишнего, данными обменивались, но при этом не говорили что с какого датчика и что на осях. И аналитики каждой из сторон, на основе информации о том, что это в принципе про торпеды и есть законы физики, пытались восстановить картину и понять, как устроена торпеда. В какой-то момент американцы предъявили претензию, что наши генерят фейковые графики, потому что они определили, к какому устройству относится график (датчик температуры топлива), но никакого разумного устройства торпеды, соответствующего этому графику, не существует. Когда сняли гриф, американцам показали, что такие графики получаются, если засунуть двигатель в топливный бак.

    К чему это я — конечно можно, подобрав распределение, сгенерить похожие графики на случайных величинах без подлежащей модели функционирования биржи. Похожи ли ваши графики на настоящую биржу? Сходу не скажу, надо посчтитать фрактальную размерность. Скорее всего, ваш случайный график несколько менее детерминирован, чем реальные биржевые процессы.

    Далее. Торговля на «чистом» ТА построена по простому принципу. У вас есть ТА-«монетка», у которой орёл выпадает чуть чаще, чем решка (т.е. при нахождении определённого паттерна вероятность предсказать исход чуть выше 50%). Я несколько упрощаю, конечно, речь идёт о положительном матожидании.

    Соответственно, в идеальном мире нулевое матожидание даст вам нулевую прибыль (при условии правильных параметров стопов, возможности мгновенного выставления и исполнения ордера, нулевой задержки и джиттера сети). В реальном мире, чтобы получать прибыль, это «чуть» (вероятность выпадения орла) должно быть довольно большим. Более того, как только о найденной вами монетке станет известно, это самое «чуть» начнет уменьшаться. В этом смысле финансы — это как физика с меняющимися законами. Вы нашли модель, сегодня она работает, завтра — уже нет.

    Известный пример такой монетки — «январский эффект».
  • Удивительное рядом или как поиздеваться над биржевыми аналитиками (при помощи Excel)
    +1
    Теханализ не существует (вернее, плохо существует) в отрыве от системы торговли, т.е. правил расстановки и расчета параметров ордеров. С нормальной системой, параметры которой рассчитываются на основе ТА, можно быть в бумажной прибыли даже на ваших случайных графиках :-)
  • Удивительное рядом или как поиздеваться над биржевыми аналитиками (при помощи Excel)
    0
    более строго, чем сформулировано выше — в рамках ТА предполагается, что все эти новости учтены в цене (а равно вероятность появления новостей, настроения рынка итп).
  • Улыбайтесь – сейчас вылетит дирижабль!
    0
    лазерных указок не боитесь? :-)
  • И все таки оно взламывается
    +1
    Подробности не могу :-) Но в целом — проблема в уязвимости gsm-анлока это обычная уязвимость в одном из компонентов системы. Гораздо более интересные проблемы связаны с тем, что для удешевления сети критические данные могут пускаться оверлеем по бортовым подсетям, для этого не предназначенным (например, MOST).
  • И все таки оно взламывается
    +3
    Года четыре назад мы делали проект для Даймлера, посвященный анализу угроз для бортовой ИС. Очень забавно наблюдать, как в течение последующих лет угрозы, перечисленные в нашем отчете, всплывают в прессе как реализованные :-) Проблема в том, что до недавнего времени основным критерием при разработке бортовой системы авто была её стоимость, а это крайне негативно влияет на безопасность системы.
  • Обзор бесплатных инструментов для аудита web-ресурсов и не только
    0
    А как же Burp?
  • Каша из топора
    0
    Нет конечно. Именно для этих целей оформляется NDA, где сказано, что можно распространять, что нет. И да, его принято соблюдать.
  • IPO for dummies. Часть VIII: о мотивации
    0
    Почему сразу на Kindle? Давайте на publisher.bookmate.com/ :-)
  • Обыск в офисе fermer.mobi
  • Обыск в офисе fermer.mobi
    +1
    Кстати, шутки-шутками, но электронные обращения в АП довольно быстро переправляются куда нужно и их рассмотрение неплохо контролируется. Причуды вертикали власти.
  • К вопросу о Федеральных Университетах
    0
    Ну тогда ни в коем случае нельзя поднимать зарплату в вузах! А то преподавание и педагогика перестанут быть закланием жизни на алтарь! :-)
  • Поиск в интернете: как ищут мужчины и женщины
    0
    Немного странно в результатах исследования по автоматической классификации на основе машинного обучения не видеть цифр по ошибкам первого и второго рода. Если я правильно понимаю, «на 92% уверен, что Ж» означает, что в обучающей выборке 92% пользователей, к которым можно отнести данный запрос, женщины. А что с тестированием на контрольной?