Pull to refresh
0
0
Roman Goldvarg @RGoldvarg

Product Manager, Python Developer

Send message

Сравнительный анализ тональности комментариев в YouTube (осторожно, ненормативная лексика)

Reading time18 min
Views20K

Привет! Чем еще заняться на каникулах любителю Data Scienсe как не анализом тональности комментариев под новогодними обращениями?! На эту мысль меня натолкнули алгоритмы YouTube, выдавшие к просмотру первого января 2022 года два видео, с очень разными по эмоциональной окраске комментариями.

Тогда я подумал, что пошаговый разбор решения задачи классификации этих комментариев по их тональности мог бы стать довольно наглядным примером для знакомства с базовыми техниками обработки естественного языка, а о том, насколько это получилось предлагаю судить вам.

Читать далее
Total votes 52: ↑43 and ↓9+34
Comments16

Распознавание рентгеновских снимков: precision = 0.84, recall = 0.96. А нужны ли нам еще врачи?

Reading time5 min
Views16K


В последнее время все чаще обсуждается применение AI в медицине. И, конечно, область медицины, которая прямо напрашивается для такого применения это областей диагностики.

Кажется, и раньше можно было применять экспертные системы и алгоритмы классификации к задачам постановки диагноза. Однако, есть одна область AI, которая добилась наибольших успехов в последние годы, а именно область распознавания изображений и сверточные нейронные сети. На некоторых тестах алгоритмы AI в распознавании картинок превзошли человека. Вот два примера: Large Scale Visual Recognition Challenge и German Traffic Sign Recognition Benchmark.

Соответственно, возникла идея применить AI к области распознавания изображений там, где и врачи занимаются распознаванием изображений, а именно к анализу снимков и, для начала, рентгеновских снимков.
Читать дальше →
Total votes 26: ↑19 and ↓7+12
Comments40

Общаемся с базой знаний: как мы улучшили точность генеративных ответов LLM с помощью собственного RAG

Level of difficultyEasy
Reading time7 min
Views7K

Одна из основных проблем при использовании больших языковых моделей это практически неустранимые галлюцинации, возникающие при ответах на вопросы по загруженным документам. Задача "поговорить со своими документами" возникает очень часто, и как правило, она решается с помощью промптинга - вы загружаете вашу статью, договор или другой документ и пишете промпт "Ответь на вопрос по тексту:". Этот способ работает, но у него есть существенные недостатки: размер документа ограничен 1-3 страницами, рандомное возникновение галлюцинаций - неправильных ответов, выглядящих правдоподобно.

В этой статье мы показываем работающие кейсы и синергию подходов, реализованных нами в рамках разработки агента вопросно ответной системы - FractalGPT QA агента. В частности, с помощью алгоритма Fractal answer synthesis и интерпретируемого ИИ нам удается существенно снизить % галлюцинаций и стабильно сильно повысить точность и полноту ответов. Если читать теорию не охота - можно сразу промотать на кейсы.FractalGPT QA агента доступен в закрытой бете, запрос на тест QA системы по базе знаний можно оставить тут.

Читать далее
Total votes 7: ↑5 and ↓2+3
Comments10

Mental Health стартапы из Y Combinator

Reading time12 min
Views6K
image

По одним данным каждый пятый, а по другим — каждый второй, страдает от mental health заморочек различной степени тяжести. Объем рынка mental health оценивается в $300 млрд и вырастет в ближайшие годы до $500 млрд.

Выгорание, депрессия, биполярка, алкоголизм — каждую секунду по микроморту откусывают от жизни ИТишников и их семей. C другой стороны, cофт ест не только мир, но и вторгается в область психического/ментального здоровья и иногда простая эксель-табличка, календарь и зум позволяют повысить КПД реабилитационных программ в десятки раз по сравнению с олдскульными методами. Не говоря уже про суперпрогрессивные психоделические эксперименты, нейроинтерфейсы, биофидбэк, VR, геймификацию, электро-интернет-гипнотехники и цифровую терапевтику.

Я бы хотел разобраться в том, что есть полезного, применимого и действенного в области пересечения ИТ и mental health и собрать список самого полезного в одном месте. (По аналогии с Awesome-mental-health, но более актуальное и с рекомендациями от реальных людей.)

Под катом обзор 30 стартапов в области mental health, в которые проинвестировал самый выдающийся инкубатор — Y Combinator.
Читать дальше →
Total votes 14: ↑2 and ↓12-10
Comments1

Я год шпионил за собой — что из этого вышло. Простой секрет личной эффективности

Reading time5 min
Views121K

На стенах храма Аполлона было написано "Познай самого себя", но там нигде не было сказано как это сделать. Предлагаю исправить такое положение дел, да и к тому же разобраться как это поможет стать более продуктивным.

Читать далее
Total votes 97: ↑90 and ↓7+83
Comments145

Изучение data science c нуля: этапы и вехи

Reading time9 min
Views69K

В соответствии с концепцией спирального подхода к обучению, о которой писал ранее, привожу поэтапный план освоения data science. План составлен так, чтобы каждый этап делал учащегося в той или иной степени лучше подготовленным к выполнению реальных задач. Такой подход вдохновлен идеологией Agile в том смысле, что сколько бы времени вы не уделили обучению и в какой бы момент не остановились - у вас будет наиболее востребованный набор знаний, из возможных к освоению за такое время.

Читать далее
Total votes 13: ↑12 and ↓1+11
Comments12

Принципы эффективного самообучения для желающих изучить машинное обучение

Reading time10 min
Views41K

Подходы к обучению можно разделить на принципы "как учить" и непосредственно "что учить". Даже при наличии хорошего учебного плана ("что учить") можно получить малый выхлоп в конце, если учиться неэффективно. Поэтому сначала надо определить, какие принципы эффективны. Об этом данная статья.

Мне эти принципы помогли относительно быстро перейти из 1С в дата-сайентиста и за два года вырасти до уровня синьора, по уровню ЗП и автономности в решение задач (ссылка на прошлую статью об этом)

Читать далее
Total votes 14: ↑12 and ↓2+10
Comments4

Пол Грэм: Как найти идею для стартапа (часть первая)

Reading time5 min
Views187K

Недавно вышла статья Пола Грэма о поиске идеи для стартапа. Грем — сам по себе культовая личность Кремниевой долины и уже только поэтому достоин внимания. Но на мой взгляд, эта статья одна из лучших в своем роде. Да, о Customer Development и Lean Startup сейчас не пишет разве что ленивый, но она отличается глубокой внутренней философией Грема и обобщает его богатый опыт в качестве основателя YCombinator, общающегося с тысячами стартаперов в год.
Статья очень длинная, поэтому я взял на себя смелость разбить ее на 5 частей, дабы никого не утомить. Поехали:


Лучший способ найти идею для стартапа — не думать о ней. Найдите проблему, и лучше — если она есть у вас самого.
Читать дальше →
Total votes 66: ↑60 and ↓6+54
Comments32

Сэм Альтман: генерация идей

Reading time3 min
Views2K
image


Самый распространенный вопрос, который задают потенциальные основатели стартапов, — как придумать идеи для стартапов. Второй наиболее распространенный вопрос — есть ли у вас какие-то идеи для их запуска.

Но дать основателям идею почти всегда не получается. Наличие идей является одним из самых важных качеств для основателя стартапа — вам нужно будет генерировать много новых идей в процессе запуска стартапа.

Y Combinator однажды попробовал провести эксперимент по финансированию, казалось бы, хороших основателей без каких-либо идей. Я думаю, что каждая компания в этом исследовании без идей потерпела неудачу. Оказывается, что у хороших основателей есть много идей для всего, поэтому, если вы хотите быть основателем и не можете придумать идею для компании, вам, вероятно, следует сначала поработать над тем, чтобы стать хорошим генератором идей.

Как это сделать?
Читать дальше →
Total votes 3: ↑1 and ↓2-1
Comments0

Как я самостоятельно выучил новый язык за 12 месяцев: тотальный гайд

Reading time31 min
Views155K
От А0 до B2 за год

Чуть больше года назад я был полностью монолингвом, говорящем только на английском, с нулевыми познаниями во французском языке. А спустя двенадцать месяцев, я с лёгкостью сдал международный экзамен DELF B2. Если вы не знаете, что значит «В2», посмотрите шкалу CEFR.

Более того, все мои успехи — это результат домашнего обучения и практики. Моё обучение было полностью самостоятельным, без каких-либо специальных учебных программ. Это стало возможным только благодаря множеству удивительных ресурсов, доступных в Интернете, многие из которых бесплатны. Немаловажно, такой результат был достигнут потому, что я отдавал предпочтение продуктивному общению, в частности, проводя много времени за разговорами с теми, кто хорошо знает французский.

Стоит отметить, что мой темп обучения был несколько агрессивным, поскольку за последний год я посвятил изучению французского много времени, однако, это всё ещё значительно меньше, чем фултайм обучение.

Не могу сказать, что полностью свободно говорю, но чтобы вы лучше понимали, каких результатов удалось достичь, приведу список того, что больше не вызывает у меня проблем:

  • Беседа на французском в течение нескольких часов;
  • Понимание различных видов французских СМИ (например, новости и видео на YouTube);
  • Чтение статей, написанных для носителей французского языка;
  • Построение мыслей на французском;

Конечно, я всё ещё очень далёк от уровня носителя. У меня точно есть слабые места, и я не могу выражаться на французском так же хорошо, как на английском. Тем не менее, я очень даже доволен своим уровнем владения французским и думаю, что многие изучающие язык тоже были бы довольны.
Читать дальше →
Total votes 50: ↑47 and ↓3+44
Comments91

21 бесплатный учебный ресурс для разработчиков игр

Reading time8 min
Views133K
В интернете полным-полно создателей контента, и каждый хочет привлечь к себе внимание. Но, как ни странно, хороший учебный ресурс найти нелегко, а бесплатный – еще сложнее. Мы публикуем перевод материала, в котором автор собрал ссылки на самые авторитетные и полезные обучающие площадки.


Читать дальше →
Total votes 32: ↑31 and ↓1+30
Comments7

Как зарабатывают лидеры EdTech

Reading time9 min
Views4.9K

Freemium автоматически выдается в семантической связке с понятиями «модель монетизации» и «MOOCs». Исторически так сложилось, что первые EdTech платформы предлагали образовательный контент бесплатно, зарабатывая на продаже сертификатов. Но за 6 лет многое изменилось.


image
Читать дальше →
Total votes 13: ↑13 and ↓0+13
Comments1

Какие EdTech-стартапы нужно знать, если вы запускаете собственный образовательный проект

Reading time5 min
Views3.5K

Продолжающийся кризис меняет экономический контент во всем мире и подогревает спрос на массовую переподготовку специалистов. Да и классическое образование, кажется, стремится полностью перейти в онлайн-формат. В этом свете становятся заметнее стартапы, предлагающие решения в сегменте корпоративного образования [T&D, L&D]. Они привлекают инвестиции, закрывают сделки с крупными брендами, а компании — получают возможности для эффективного переобучения сотрудников и адаптации бизнеса к изменившимся условиям.

Рассказываем о пяти образовательных проектах, которые стоит изучить в качестве примеров, если вы планируете выходить на российский и международный рынок или запускать что-то подобное в компании, где вы сейчас работаете. Кстати, с этой задачей мы помогаем справиться в рамках нашей новой программы акселерации.

Читать далее
Total votes 13: ↑13 and ↓0+13
Comments2

«Пандемия» научных публикаций о COVID-19

Reading time15 min
Views19K
В современном информационном обществе любые социально-важные процессы, которые к тому же влияют на безопасность и здоровье граждан, сопровождаются потоком ложной информации. Чем больше участников процесса и чем сложнее предметная область, тем шире пространство для манипуляций и распространения дезинформации. Такая дезинформация может быть опаснее явления, породившего угрозу.



Информация о заболевании COVID-19 на сегодняшний день доминирует над любой другой и сопровождается большим количеством ложной информации. В связи с этим возникает потребность в достоверных сведениях, которые при определённом навыке можно получить из рецензируемых научных журналов.

Многие электронные научных библиотеки и журналы (такие как National Center for Immunization and Respiratory Diseases, JAMA Network, Elsevier) на своих сайтах организовали специальные разделы публикаций о коронавирусе SARS-CoV-2. Однако по данной теме в день выходит более 10 научных статей. Разобраться в таком потоке информации непросто. Если наиболее цитируемая публикация про коронавирус с 2003 года за 18 лет привлекла более 3400 источников (по оценке Google Scholar), то на статью Clinical features of patients infected with 2019 novel coronavirus in Wuhan ссылаются уже более 900 источников, при том, что данная статья вышла лишь месяц назад! Эту ситуацию можно назвать «пандемией» научных статей о COVID-19.

Попробуем структурировать поток публикаций и выявить в нём интересные закономерности. Из-за отсутствия специальных знаний в области медицины, в настоящей статье приводятся лишь результаты библиометрического анализа, без попыток интерпретации выявленных фактов в контексте вирусологии.
Читать дальше →
Total votes 26: ↑23 and ↓3+20
Comments37

Определяем COVID-19 на рентгеновских снимках с помощью Keras, TensorFlow и глубокого обучения

Reading time16 min
Views24K

С помощью этого руководства мы с помощью Keras, TensorFlow и глубокого обучения научимся на собранном вручную датасете из рентгеновских снимков автоматически определять COVID-19.

Как и многие другие, я искренне беспокоюсь относительно COVID-19. Я заметил, что постоянно анализирую своё состояние и гадаю, подхвачу ли болезнь и когда это произойдёт. И чем больше я об этом беспокоюсь, тем больше это превращается в болезненную игру разума, в которой симптоматика сочетается с ипохондрией:

  • Я проснулся утром, чувствуя некоторую болезненность и слабость.
  • Когда я выполз из кровати, то обнаружил у себя насморк (хотя уже известно, что насморк не является симптомом COVID-19).
  • К тому времени, как я добрёл до ванной, чтобы взять бумажный платок, я уже кашлял.

Сначала я не обращал на это особого внимания — у меня аллергия на пыльцу, а из-за тёплой погоды на восточном побережье США весна в этом году выдалась ранняя. Скорее всего, это аллергические симптомы. Но в течение дня моё состояние не улучшалось. Я сижу и пишу это руководство с градусником во рту. Смотрю вниз и вижу 37,4 °С. Моя нормальная температура тела чуть ниже, чем у других, на уровне 36,3 °С. Всё, что выше 37,2 °С, для меня уже небольшой жар.

Кашель и небольшой жар? Это может быть COVID-19… или просто моя аллергия. Выяснить без тестирования невозможно, и именно это «незнание» делает ситуацию столь пугающей на человеческом уровне.
Для человека нет ничего страшнее неведения.
Total votes 58: ↑49 and ↓9+40
Comments13

Telegram бот на python против COVID-19

Reading time19 min
Views15K

Вступление


В связи с обстановкой тотальной паники и дезинформации которая льется к нам из абсолютно всех каналов таких как мессенджеры, новостные сайты, радио, телевидение было принято решение показать как можно победить коронавирус с помощью бота на python и других интересных ингредиентов для Telegram (шутка)!


Читать дальше →
Total votes 18: ↑9 and ↓90
Comments9

Биомеханика и искусственный интеллект в медицине. Лекция на YaC 2017

Reading time8 min
Views12K
В этой лекции руководитель компании «Интеллект и инновации» Егор Токунов рассказывает, как нейросети позволяют влиять на двигательные навыки человека и как они могут помочь в реабилитации больных с двигательными нарушениями.

Егор выступил в секции digital health на Yet another Conference 2017.



Немного о докладчике
Добрый день! Я Егор Токунов, компания «Интеллект и инновации». Наша команда состоит из инженеров в области искусственного интеллекта, биомеханики, медицины и спорта. Так сложилось, что в нашей команде оказались специалисты из настолько разных областей. Я расскажу о нашем проекте по применению биомеханики и искусственного интеллекта в медицине.

Здесь уже много говорили о применении искусственного интеллекта, и я, думаю, не стану вам рассказывать еще раз, что он применяется во многих областях и в медицине очень много где используется. Мы решили, что такое пересечение компетенций, которое есть в нашей команде, может быть использовано не совсем в классическом понимании того, как сейчас искусственный интеллект используется в медицине.

Все вы знаете фильм «Матрица». Вдохновившись просмотром, мы подумали: «А почему бы нам не сделать такую систему, где человек просто за короткое время, не используя никаких объяснений, может взять и получить какой-то новый двигательный навык?».

У нас недоставало двух параметров. Первое — что мы можем передать человеку в мозг? И второе — как ему это непосредственно в мозг передать? Однако мы подумали и нашли решение.
Total votes 38: ↑37 and ↓1+36
Comments4

Внимание! Сознание Homo. I

Reading time19 min
Views9.6K

1. Сознательное и бессознательное


1.1 Граница между черным и белым скрывает в себе бесконечное множество оттенков серого


Современные научные направления психологии и когнитивные науки часто предпочитают избегать терминов “сознательное и бессознательное”, так как они прочно ассоциированы с фрейдистской ахинеей. Вместо этого употребляют определения осознаваемые процессы и неосознаваемые. Но, честно говоря, мне и эта терминология совершенно не кажется валидной.

Как только мы пытаемся установить, где кончается сознательное и начинается бессознательное, то сразу же сталкиваемся с такой квантовой неопределенностью, что нам становится уже не до котов. В реальности никакой четкой границы между осознаваемыми процессами и неосознаваемыми не существует.
Читать дальше →
Total votes 28: ↑23 and ↓5+18
Comments39

PsyGuide: Дефицит внимания. #0001/1001

Reading time10 min
Views13K
*** эмоциональная ночная сказка Шахерезады — старшей дочери визиря, словившей маниакальный психоз, сопровождавшийся ощущением собственной избранности, неотразимости и интеллектуального превосходства над миром, толкнувшим ее, рискуя своей головой, отправиться к безумному царю Шахрияру, чтобы несправедливый мир сделать справедливым и остановить бессмысленные ежедневные казни молодых красивых персидских дев.

Выражение “дефицит внимания” в психиатрической практике обычно рассматривается в разрезе симптоматики СДВГ (синдром дефицита внимания и гиперактивности, F90 МКБ-10). Считается, что неустойчивость внимания таких пациентов является патологией, требующей коррекции. Остальные, жалующиеся на плохую концентрацию, — просто лентяи. И некоторые психиатрические основания под этой позицией имеются. Хотя незакрытым остается вопрос, куда отнести лентяев и разгильдяев, которые не хотят быть лентяями и разгильдяями, испытывающими явные страдания, но не преуспевающими в бесконечной борьбе за ”лучшего себя”. Впрочем, у меня есть ответ и на этот вопрос.
Читать дальше →
Total votes 15: ↑15 and ↓0+15
Comments25

Внутри Гиперактивности

Reading time15 min
Views51K
image

Предупреждение: Данная статья написана не квалифицированным врачом-психиатром, а пациентом с тяжелой патологией.

Напоминание: СДВГ, тем более в такой сильно выраженной форме, обостряет многие когнитивные искажения. У таких пациентов, как я, выпукло проявляется эффект Даннинга-Крюгера. Переходящая все границы небрежность компрометирует факты и источники информации, а сниженный интеллект при полном отсутствии внимания к значимым деталям ставит под сомнение выводы и обобщения.

Цель этой статьи — максимально честное и беспристрастное описания работы СДВГшного мозга с примерами конкретных кейсов с максимально доступным мне по части компетентности анализом.
Если для вас это важная тема — касается ребенка или Вы сами придурок, но очень не хотите им быть, добро пожаловать под кат.
Читать дальше →
Total votes 62: ↑60 and ↓2+58
Comments177
1

Information

Rating
Does not participate
Location
Узбекистан
Date of birth
Registered
Activity