Pull to refresh
154
0
Александр Пак @Irokez

User

Send message

Обучаем компьютер чувствам (sentiment analysis по-русски)

Reading time12 min
Views83K


Sentiment analysis (по-русски, анализ тональности) — это область компьютерной лингвистики, которая занимается изучением мнений и эмоций в текстовых документах. Недавно на хабре появилась статья про использование машинного обучения для анализа тональности, однако, она была настолько плохо составлена, что я решил написать свою версию. Итак, в этой статье я постараюсь доступно объяснить, что такое анализ тональности, и как реализовать подобную систему для русского языка.
Читать дальше →
Total votes 90: ↑85 and ↓5+80
Comments40

Парсим русский язык

Reading time8 min
Views70K

В прошлый раз (почти год назад) мы определяли части речи в русском тексте, производили морфологический анализ слов. В этой статье мы пойдем на уровень выше, к синтаксическому анализу целых предложений.

Наша цель заключается в создании парсера русского языка, т.е. программы, которая на вход бы принимала произвольный текст, а на выходе выдавала бы его синтаксическую структуру. Например, так:

"Мама мыла раму":

(предложение
    (именная гр. (сущ мама))
    (глаг. гр. (глаг мыла)
        (именная гр. (сущ раму)))
    (. .)))


Это называется синтаксическим деревом предложения. В графическом виде его можно представить следующим образом (в упрощенном виде):

Читать дальше →
Total votes 128: ↑124 and ↓4+120
Comments97

Определение части речи слов в русском тексте (POS-tagging) на Python 3

Reading time9 min
Views94K
Пусть, дано предложение “Съешьте еще этих мягких французских булок, да выпейте чаю.”, в котором нам нужно определить часть речи для каждого слова:

[('съешьте', 'глаг.'), ('еще', 'нареч.'), ('этих', 'местоим. прил.'), ('мягких', 'прил.'), ('французских', 'прил.'), ('булок', 'сущ.'), ('да', 'союз'), ('выпейте', 'глаг.'), ('чаю', 'сущ.')]

Зачем это нужно? Например, для автоматического определения тегов для блог-поста (для отбора существительных). Морфологическая разметка является одним из первых этапов компьютерного анализа текста.
Узнать, как это реализовать на Python 3
Total votes 82: ↑81 and ↓1+80
Comments74

Социальные цели

Reading time2 min
Views1.3K
Я уже описывал свой стартап на хабре. 42гола — это простой инструмент для учета личных целей. Мы постепенно развиваемся, медленно, но верно набираем активных пользователей. Яндекс нас пока не покупает, да и гугл почему-то молча стоит в стороне. Наконец, посмотрев “Социальную сеть”, и, затарившись холодного пива в зеленых бутылочках, было принято решение как захватить мир нашим стартапом. Вот что из этого получилось:

Читать дальше →
Total votes 101: ↑87 and ↓14+73
Comments85

Новый дизайн 42goals

Reading time1 min
Views760
Сложно представить проект, дизайн которого не меняется с момента запуска. Если проект активно развивается, то его дизайн обновляется в течении всей жизни проекта. Сегодня, наконец, обновился 42goals, сервис для учета целей и ежедневных дел (предыдущий хабратопик). Главная сайта выглядит теперь так:

Читать дальше →
Total votes 59: ↑40 and ↓19+21
Comments68

Обновления на 42goals: API, учет времени, вкладки, архив целей

Reading time2 min
Views826
Около 4 месяцев назад мы запустили 42goals, это онлайн инструмент для учета личных целей. 42goals поможет вам бросить курить, подсчитать сколько кофе вы выпиваете, вести учет тренировок или же простой подсчет расходов. За время, прошедшее со дня запуска, мы добавили несколько нововведений. Пожалуй, одно из главных для вас будет — локализация на русский язык.

Из других обновлений: API, учет времени, вкладки, архив и премиум аккаунты.
Читать дальше →
Total votes 37: ↑30 and ↓7+23
Comments30

42goals — учет личных целей и ежедневных дел

Reading time1 min
Views1.6K
Интерфейс

Команда Ворктрека рада представить новый проект: 42goals.com. Новый сервис предназначен для учета личных целей и ежедневных дел.

Принцип работы очень прост: вы добавляете список целей и отмечаете достижения по ним. Цели могут на данный момент могут быть трех типов:
  1. «штучные», например: количество выкуренных сигарет, чашек кофе, подходов к штанге
  2. «численные»: дистанция ежедневной пробежки, ваши расходы или доходы
  3. «флажки» (да или нет): ежедневная зарядка (делали или проспали), обновление блога, ежедневная продуктивность (хорошо поработали или нет)

Читать дальше →
Total votes 102: ↑86 and ↓16+70
Comments123

Улучшенная мобильная версия

Reading time1 min
Views1.3K
мобильный Ворктрек
Три месяца назад была анонсирована мобильная версия Ворктрека. Однако, спустя некоторое время опытным путем выяснилось, что пользоваться ей совершенно неудобно. К тому же не хватает функционала для работы со списком дел и событиями. В этот раз мы постарались исправить этот недочет. Итак, представляем улучшенную мобильную версию Ворктрека.
Читать дальше →
Total votes 58: ↑39 and ↓19+20
Comments30

Отследить продажу адресов спаммерам

Reading time1 min
Views772
Недавно прислали предложение продать базу адресов моего ворктрека (продать я, конечно, отказался). А на микрохабре прочел, что не только мне присылали подобное. То есть, скорее всего, предложение разослали новым сервисам, которые уже набрали своих пользователей. А ведь, кто-то может и согласился.

В связи с этим у меня появилась следующая идея, которая позволит убить двух зайцев:
1. Выявить сайты, сливающие свои базы
2. Надежным сайтам предоставить, что-то вроде «сертификата надёжности»

Идея, собственно простая: создаем уникальные адреса для каждого сайта, например: bob123@example.com и регистрируем его на тестируемом сайте. Далее это дело можно автоматизировать, хранить базу (сайт — зарегистрированный имейл). Как только в ящик пришел спам — все ясно. Если ящик пуст — сайт надёжен.

Для пользователей можно создать простой сайт, куда можно зайти и проверить урл. Далее можно плагин создать для фф, оперы и т.д. Зашел на сайт, в углу зелёная галочка — ага, регаться можно. Красная — закрываем окно :)

Возможно, идея не новая, но подобной реализации я пока не припомню.

UPD: перенес в «Спам (и антиспам)»
Total votes 83: ↑72 and ↓11+61
Comments70

Мегапланирование

Reading time1 min
Views1.1K
Мегапланирование
В Ворктреке с сегодняшнего дня появилась возможность планирования событий. События можно создавать на один день или на отрезок времени.
Также, можно создавать повторяющиеся события:
  • ежедневные, например, зарядка в 7 утра
  • еженедельные, французский по средам
  • ежемесячные, чистка аквариума в последний понедельник месяца
  • и ежегодные, дни рождения

Читать дальше →
Total votes 64: ↑47 and ↓17+30
Comments57

Изображение на каждый день

Reading time1 min
Views786
image
В недавнем хабратопике была ссылка на интересный сайт Multicolr Search Lab Flickr Set. Сайт позволяет производить поиск по изображениям по цвету, причем достаточно точно. Я решил присоединить результаты выдачи к пинарику, и вот что получилось:
Читать дальше →
Total votes 27: ↑14 and ↓13+1
Comments9

Пинарик онлайн. Ответы на вопросы

Reading time2 min
Views967
image
Итак, прошло почти два дня с момента запуска "пинарика". У меня уже две зеленые клетки :) а у вас?
Большое спасибо за отзывы, советы и критику. В этом топике постараюсь ответить на полученные комментарии.
Комментариев получил очень много, и еще на почте неотвеченные сообщения. Сразу прошу прощения, кому еще не успел ответить.

Обновления


  1. Пофиксил некоторые баги. У пользователей Оперы регистрация вроде должна работать нормально. Если все же имеются ошибки — пишите.
  2. Для пользователей, не получивших письмо для подтверждения регистрации, сделал возможность повторной отправки письма. Для этого в форме входа и регистрации есть ссылка: «мне не пришло письмо для подтверждения эл. почты :(».
  3. Добавил виджет от reformal.ru для сбора пожеланий. Постараюсь осуществить наиболее требуемые в скором времени.
  4. Добавил возможность очищать ячейку. Теперь у каждой ячейки три состояния, переключающихся друг за другом: пустое -> непродуктивное -> продуктивное -> пустое -> и так далее.

Читать дальше →
Total votes 53: ↑41 and ↓12+29
Comments64

Пинарик онлайн

Reading time1 min
Views3.2K
=)
В топике "Личный тайм-менеджмент" McBernar рассказал об интересном приеме для самомотивации — «календарик-пинарик». Это календарь, в котором вы каждый день отмечаете, продуктивно ли вы его провели или нет. Таким образом вы можете наглядно видеть вашу продуктивность, и в следствии чего стараться быть более усердным.
Идея мне очень понравилась, т.к. тема мотивации для меня особо проблемная. Поэтому я решил попробовать завести себе свой календарик. Однако, бумажных блокнотов я с собой не ношу. В результате, за небольшое время я оформил идею в виде сайта. Надеюсь, кому-то он тоже поможет для самомотивации.

Завести себе «пинарик»

UPD: в опере, оказывается, баг при регистрации: не отображается сообщение, что нужно проверить/подтвердить почту. Постараюсь поправить в скором времени.
Total votes 108: ↑94 and ↓14+80
Comments98
1

Information

Rating
Does not participate
Location
Швейцария
Date of birth
Registered
Activity