0,0
рейтинг
15 февраля в 16:26

Разное → Машинное обучение и медицина: Как выявление курильщика по кардиограмме поможет в диагностике болезней



В настоящее время болезни сердца занимают существенную долю в печальной статистике смертности во всем мире. По различным данным, среди всех причин смерти внезапная кардиальная смерть составляет около 10%. Внезапная сердечная смерть (ВСС) составляет 15-20% всех ненасильственных случаев смерти среди жителей промышленно развитых стран. Эта печальная статистика имеет тенденцию к увеличению, по многим причинам.

Заболевания сердца — страшная проблема, однако борьба с ними может помочь справляться и с другими недугами. Как показывают исследования, анализ данных из большого массива регулярно снятых ЭКГ может помочь при определении деструктивных трендов и заболеваний других внутренних и органов человека.

О чем говорит кардиограмма


Существуют также и исследования специалистов по машинному обучению, которые показывают, что ЭКГ-сигнал несет в себе информацию о функционировании всех систем организма, а не только сердца. При этом каждое заболевание по-своему «модулирует» ЭКГ-сигнал, а значит знаки приращений интервалов и амплитуд последовательных кардиоциклов можно использовать для диагностики информации о возможных проблемах со здоровьем у человека, в том числе на ранних этапах их возникновения.

Примером служит цикл работ Константина Воронцова из Вычислительного центра им. А. А. Дородницына РАН. В докладе на V Международной конференции «математическая биология и биоинформатика» им были показаны различия в знаках приращения интервалов (dRn), амплитуд (dTn) и углов (dαn) кардиоциклов у здоровых и страдающих различными заболеваниями людей.







Как найти курильщика


По данным исследователей, подобная диагностика может иметь высокую точность, а для некоторых болезней и очень высокую.

Проблема здесь в том, что для получения данных для анализа, необходимо проводить большое количество ЭКГ-исследований каждого человека — это не всегда реально сделать. В то же время возможность снятия кардиограммы с мобильного устройства вкупе с наличием соответствующих алгоритмов выявления аномалий в работе сердца могла бы способствовать решению этой проблемы.

На Geektimes уже писали о проекте мобильного кардиографа CardioQvark — с помощью этого устройства можно снимать кардиограмму, просто приложив пальцы к специальному чехлу для iPhone. Устройство не просто снимает кардиограмму, но и отсылает данные лечащему врачу пациента, что помогает ему наблюдать возможные проблемы.



Однако на данный момент необходимо еще вести работу по усовершенствованию методов анлиза и поиска существенных маркеров в сигнале ЭКГ, которые могли бы свидетельствовать о наличиях проблем с разными органами.

Для того, чтобы стимулировать процесс таких изысканий, команда проекта CardioQvark объявляет конкурс среди разработчиков и математиков: его целью является создания алгоритма определения курящего человека по его кардиограмме.

Подробнее о конкурсе


По представленной обезличенной выборке кардиограмм (50 курящих и 50 некурящих людей) нужно разработать алгоритм распознавания курильщиков. Победители получат вознаграждение:

  • I место — 300 тыс. руб.
  • II место — 150 тыс. руб.
  • III место — 100 тыс. руб.

Для анализа предлагается две выборки — обучающая и контрольная. Обучающая выборка содержит 100 уникальных маркированных наблюдений 50 курящих и 50 некурящих людей. Каждое наблюдение содержит:

  • Исходный кардиосигнал с частотой дискретизации 1 000 ГЦ, 16 бит, длительностью 5 минут, формат wav.
  • Фильтрованный кардиосигнал с частотой дискретизации 1 000 ГЦ, 16 бит, длительностью 5 минут, формат wav.
  • Рассчитанные параметры вариабельности сердечного ритма, формат csv.
  • Массив RR-интервалов, формат csv.
  • Маркировка is_noise, is_bad — выделяет помехи и интервалы, не вошедшие в массив для расчета параметров ВСР.
  • Усредненный кардиоцикл и его параметры, формат csv.

Контрольная выборка содержит 250 немаркированных наблюдений курящих и некурящих людей (набор файлов аналогичен обучающей выборке). Люди в обучающей и контрольной выборке разные.

Зарегистрироваться для участия в конкурсе можно по ссылке.

Зачем все это нужно


Выборка для конкурса действительно не так велика, как хотелось бы. Проект мобильного кардиографа длится всего два года — во втором квартале 2016 года его уже можно будет купить. Молодостью проекта объясняется небольшой размер выборки для конкурса — однако с ростом числа пользователей быстрыми темпами будет расти и база собранных кардиограмм.

К моменту когда будет накоплен достаточный для более глубоких исследований массив данных, необходимо получить ответ на вопрос, возможна ли качественная диагностика с помощью ЭКГ и алгоритмов выявления маркеров различных заболеваний.

Курение здесь далеко не самый интересный момент. Необходимо понять, возможно ли с высокой достоверностью по результатам анализа говорить о наличии у человека проблем со здоровьем. Возможен вариант, при котором этого добиться не удастся, однако результаты предварительных исследований ряда научных групп обнадеживают.

А это значит, что лучше начинать работу уже сейчас, чтобы потом сэкономить время и продолжить исследования уже при наличии большого массива собираемых данных. Все это поможет не только быстрее продвинуться в изысканиях, но и спасти чью-то жизнь.

С конца декабря для участия в конкурсе было подано 68 заявок, в том числе и командные. Было отправлено более 150 решений с реализациями алгоритма. Лучший результат: чувствительность = 57,81%; специфичность = 65,05%

Рейтинг участников доступен здесь. Присоединяйтесь к соревнованию!
Дмитрий Кабанов @dmitrykabanov
карма
107,2
рейтинг 0,0
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Реклама

Самое читаемое Разное

Комментарии (12)

  • +1
    А почему такая странная функция оценки лидеров? Чем не угодила точность или ф-мера? Рейтинг считается по всей выборки или по части? Если по всей — очень плохо, т.к. можно настроиться на неё. Ну и писать на хабре о конкурсе, который начался в декабре, а кончается через 2 недели — это такое...
    • 0
      Ещё очень забавно, что зарплата специалиста в Machine Learning за месяц равна 150-200 тысяч сейчас по Москве. По области, конечно, меньше, но не очень сильно. Реальной работы тут как раз где-то на месяц, может чуть больше, я бы сказал (учитывая ещё полный отчёт).
      Конечно, какой-то примерный результат можно и за недельку получить, но доводить этот результат и отлаживать дольше сильно.
  • +3
    1) Почему вы не запустили конкурс на специализированных платформах (Kaggle, АлгоМост, и.т.д.)? Полагаю, тогда участников было бы больше.

    2) Если я правильно понял, то вы хотите определять курит ли человек вообще, а не момент когда он курит. Зачем? Ваш пользователь и так знает, что он курит. Есть множество других состояний организма, о которых человек может и не догадываться, и которые можно было бы попробовать определять по ЭКГ. Не разумнее ли тратить ресурсы на них?

    3) Если на первом этапе конкурса все честно и объективно, то второй этап сильно смущает. Некая комиссия оценивает решения, при этом не описаны критерии и методика оценки. Почему не сделать как в стандартных кэгловских конкурсах, когда призовые места определяются на основе понятной метрики, а отчет предоставляют только призеры? Одно дело писать отчет, когда ты точно знаешь, что ты в призах, и другое, когда нужно тратить на это время, когда у тебя только 30% шанс на это. Никто не любит писать отчеты, тем более бесплатно.

    4) Касаемо малой выборки, желание сделать выборку на собственном устройстве понятно, но, полагаю, снимаемая вами ЭКГ не сильно отличается от I отведения стандартной ЭКГ. Соответственно можно использовать базы записей собранные со стандартных ЭКГ мониторов. Например, в базе SHHS есть ПСГ записи чуть менее 6000 людей, включающие ЭКГ и информацию о курении.
    • +1
      Забавно то, что на все заданные вами вопросы есть прямые или косвенные ответы в самой статье.
  • +2
    Ответ от одного из разработчиков CardioQvark (у самого него тут нет аккаунта):

    Методом оценки Конкурса мы акцентируем получение удовлетворительного результата и по чувствительности и по специфичности. Опосредованно, суммой мы нивелируем близко расположенные результаты.
    Оценка компромиссная, но мы выбрали такую. Это наш первый конкурс и многому мы сами учимся, в том числе организационной части.

    Мы не запускали Конкурс на специализированных платформах по нескольким причинам. Крайне небольшая выборка, наш интерес не только к результатам, но и методам решений, такой подход мы считаем лучшим пробным шаром и надеемся увидеть больший спектр подходов.

    Нам нужен результат конкурса. Массив полученных ЭКГ используется в дальнейших исследованиях, пользователь может некорректно заполнить свои данные, и мы будем иметь ошибочные данные. Необходимо или определить их или пометить как неопределенные по этому значению. Тема курения непосредственно пересекается с огромным полем легочных заболеваний… (Ну и еще — десяток вариантов).

    Требование отчета от претендентов связано с малой величиной выборки и реальным подтверждением эффективности результатов, также не исключена возможность дальнейшего сотрудничества. Это нормальное условие.

    Мы категорически исходим из использования наших данных. Кардиокварк, в силу высоких заложенных характеристик (реальных 16-18 бит, динамический диапазон — 21 бит, полоса 0 — 20 кгц), выдает очень точный сигнал. Конкурсом мы пытаемся изучить сигнал ЭКГ в более широком спектре и увидеть возможное появление маркеров различных патологий. Можем и не увидеть — мы к этому тоже готовы.

    Мы всегда с удовольствием даем открытые ответы на вопросы, даже если они невольно спрятаны в статьях.
    • +1
      Про оценку — она выбрана ужасно. Если я правильно понимаю, чувствительность и специфичность — это точность и полнота (precision & recall). Соответственно в рейтинге происходит следующее — для конкретной цифры чувствительности и конкретной цифры специфичности считаются места в "рейтинге" по этим метрикам, получаются соответственно "Результат Se" и "Результат Sp". Итоговая оценка — сумма этих результатов.

      Но давайте посмотрим пример. Допустим, были участники:
      А. Se = 1% (5), Sp = 98% (2), Sum = 7
      B. Se = 2% (4), Sp = 97% (3), Sum = 7
      C. Se = 3% (3), Sp = 96% (4), Sum = 7
      D. Se = 4% (2), Sp = 99% (1), Sum = 3
      E. Se = 95% (1), Sp = 95% (5), Sum = 6
      В таком случае выигрывает участник D, хотя его результат ужасный по сравнению с участником E.

      Так что повторю вопрос, чем не подошла F-мера?

      PS. В данный момент вообще есть два первых места с суммой "баллов" 16. Про то, как будет происходить разрешение ничьих тоже ничего не написано.
      • 0
        Про чувствительность и специфичность не прав, это не точность и полнота, но вещи похожие. Но это всё равно не оправдывает выбранную итоговую оценку как сумма "мест в рейтинге" по каждой из отдельных метрик.
      • 0
        Нам нужны наиболее взвешенные решения максимизирующие оба параметра. Хорошо, когда решение правильно определяет курящих среди курящих, и нет ложных определений. Балльная система для этого.

        Про F-меру: не будем уходить в методологию, иначе следующим вопросом будет: почему использовали F-меру, а не точность, полноту, выпадение или нечто совсем другое.
        • +1
          Я пытаюсь сказать, что как раз такая "балльная" система отдаст предпочтение не наиболее сбалансированному, а тому, кто набрал больше "баллов". Конечно, мой пример сильно искусственный, но показывает проблему.
  • 0
    Я вот чего не понимаю.

    Ну допустим у авторов всего в наличии 350 проверенных кардиограмм. При этом они объявили конкурс с призовым фондом в 550 000 рублей.

    Очевидно, что на таком объеме данных статистически достоверную модель построить невозможно, особенно с учетом всего лишь ста наборов данных на обучение (если конечно нет абсолютно явной зависимости — однако, судя по результатам, такой зависимости нет).

    Что мешало потратить скажем еще 50 000 рублей на обследования, чтобы получить еще несколько сотен кардиограмм?
  • 0
    А меня организация самого соревнования немного опечалила. Идентификаторы пациентов в пояснительной записке и в csv-файлах выглядят одинаково, но таковыми не являются, так как содержат смесь кириллицы и латиницы:
    `

    "BRA" == "BRА"
    [1] FALSE
    `
    Но это ладно, можно сказать, что чистка данных — забота конкурсантов. Но. Попытка стать конкурсантом обернулась крахом. Форма email'a даже не проверяет валидность оного, она спокойно скушала мое отчество (случайно табнул) и после отправки заверила, что письмо с предложением регистрации будет скоро ждать меня на моем почтовом ящике. Да и на валидный email ничего не пришло. Ни вчера, ни сегодня. Вот это грусть-печаль.
    • 0
      Зато на контактом email'е ребята оперативно отвечают, вот за это спасибо!

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.