Pull to refresh
59
0
Александр Амзин @amzin

User

Send message

Определение части речи слов в русском тексте (POS-tagging) на Python 3

Reading time9 min
Views94K
Пусть, дано предложение “Съешьте еще этих мягких французских булок, да выпейте чаю.”, в котором нам нужно определить часть речи для каждого слова:

[('съешьте', 'глаг.'), ('еще', 'нареч.'), ('этих', 'местоим. прил.'), ('мягких', 'прил.'), ('французских', 'прил.'), ('булок', 'сущ.'), ('да', 'союз'), ('выпейте', 'глаг.'), ('чаю', 'сущ.')]

Зачем это нужно? Например, для автоматического определения тегов для блог-поста (для отбора существительных). Морфологическая разметка является одним из первых этапов компьютерного анализа текста.
Узнать, как это реализовать на Python 3
Total votes 82: ↑81 and ↓1+80
Comments74

10 отговорок заказчика, которые должен знать каждый фрилансер

Reading time1 min
Views2K
Для тех, кто хочет попробовать свои силы в качестве фрилансера (неважно, в какой стезе — копирайтер, художник, дизайнер...) Этот чудесный список я нашёл на reddit.com. Фразы, перечисленные в нём, всем хорошо известны, но вообще — стоит распечатать этот список и повесить на стенку.

Top 10 лживых фраз, которые говорят наивным фрилансерам

1. «Сделай это дёшево (или бесплатно) — и в следующий раз мы заплатим больше».

2. «У нас правило — платить только когда мы видим готовый продукт».

3. «Сделай это для нас — и ты получишь всё! Заказы просто посыплются на твою голову!»

4. Глядя на проект/концепцию: «Ну, мы пока не уверены, что ты нам подходишь, так что пока оставь свой материал у меня, чтобы я мог переговорить об этом с партнёром / инвестором / женой / духовным наставником».

5. «Ну, мы ничего не отменяем, просто откладываем. Будь на связи, мы продолжим через месяц-два».

6. «Контракт? Зачем нам эти гнусные бумажки! Разве мы не друзья?»

7. «Пришли мне счёт, когда работа будет опубликована / размещена».

8. «Предыдущий парень сделал это за ХХХ баксов».

9. «У нас бюджет — ХХХ баксов, стопудофф».

10. «У нас — финансовые проблемы. Давай мы немного подзаработаем — и заплатим, окей?»

Просто будьте готовы вежливо ответить на эти возможные «аргументы» — и Ваш фриланс-опыт будет гораздо более удачным!
Total votes 41: ↑35 and ↓6+29
Comments29

PowerSet подвинет Google?

Reading time2 min
Views701
Сам я ещё не видел презентацию поискового движка Powerset, но уже многие рассказывали о том, что после увиденного они больше никогда не будут пользоваться Гуглом.

Цель Powerset — дать людям возможность использовать привычные словосочетания при поиске, в том числе и те слова, которые поисковики сейчас игнорируют. Как и многие другие, мне пришлось научиться менять свой традиционный язык при общении с поисковыми сайтами. Я использовал только ключевые слова, отбрасывая всё остальное. Отчасти эта привычка стала для меня нормой даже в общении с людьми, до такой степени, что переговоры в мессенджере или по электронной почте иногда казались забитыми какими-то лишними, бессмысленными словами!

Несмотря на то, что я не считаю нынешние поисковые сервисы совершенными, я всё же не задумывался над проблемой того, что они не понимают нормальный человеческий язык. Откровенно говоря, я бы предпочёл развивать это умение — общаться так, чтобы нас понимали компьютеры, так как это поможет прогрессу в других высокотехнологичных сферах.

Но Pell приводит убедительный аргумент: поиск с использованием нормального языка важен с точки зрения понимания смысла. Он демонстрирует пример в доказательство своей точки зрения — «книги для детей» (“book for children”), «книги, написанные детьми» (“book by children”) и «книги о детях» (“book about children”); эти три фразы для нынешних поисковиков будут равнозначны. То есть его главный аргумент таков: мы просто не сможем корректно выразить своё желание найти книги, написанные детьми, без использования нормального языка.

Для запуска Powerset требуются солидные финансовые средства. Венчурные инвесторы — всегда отличный источник слухов (особенно когда они отказались от сделки или упустили её). При всём уважении к Powerset, ходят слухи, что компания хочет найти 10 миллионов долларов на проект, для запуска которого, по оценкам экспертов, требуется 20. Это действительно серьёзная сумма, но если вдруг Powerset подвинет Гугл — кто вспомнит о ней!..
Total votes 11: ↑11 and ↓0+11
Comments1

Windows 7 Vienna — первые cкриншоты и информация

Reading time1 min
Views2.3K

В Интернете начали появляться первые «обзоры» и «скриншоты» новой версии Windows. Честно говоря, очень многие из них оказались откровенными фейками с ошибками в орфографии и неправильными версиями компонентов. Зато другие были похожи на правду. Мне интересно, это действительно первые ласточки или просто народ развлекается. Отмечу, что Майкрософт официально не комментирует данную информацию.
Читать дальше →
Total votes 56: ↑39 and ↓17+22
Comments125

Yahoo собирает «посылку» для инопланетян

Reading time1 min
Views1K
Проект Yahoo Time Capsule предполагает создание «антропологии человеческой жизни в 2006 г.». В течение тридцати дней, с 10 октября по 8 ноября 2006 г., все желающие могут прислать любые документы: фотографии, видеофильмы, аудиозаписи, тексты и даже рисунки. Все это будет тщательно отсортировано, упаковано и отправлено в будущее.
Читать дальше →
Rating0
Comments1

Роман Иванов: «Поиск по блогам устроен довольно непросто»

Reading time10 min
Views1.2K
Роман Иванов, руководитель отдела коммуникационных сервисов «Яндекса», в интервью «Хабрахабру» рассказывает об особенностях поиска по блогам и сообщает, какие тренды видны в блогосфере рунета.

Читать дальше →
Total votes 11: ↑10 and ↓1+9
Comments12

Новостная интернет-журналистика

Reading time1 min
Views1.5K
Новостная интернет-журналистика
Краткое руководство по написанию новостей и статей в интернет-издании. Структура новостей, составление заголовков, использование источников, стиль, работа с пиарщиками и многое другое.
PDF-версия — удобно распечатать и читать.
P.S Ну очень полезное издание. Обсудим?
Total votes 36: ↑32 and ↓4+28
Comments21

Почему Баллмер так и не показал код

Reading time2 min
Views755
Многие наверное помнят, как в конце февраля сообщество Open Source, и за ней большинство мировых технических СМИ, всколыхнул громкий ультиматум Стиву Баллмеру, требующий, чтобы тот показал те куски исходного кода в открытом ПО, которые по его словам нарушают патенты, принадлежащие Microsoft. Напомню, что по условиям ультиматума с нехитрым названием Show Us The Code, Баллмер должен был оформить свои претензии до 1 мая или, говоря прямо, идти к черту. И если со вторым, как наделся автор манифеста, второй человек в Редмонде справился бы сам, в первом ему должны были помочь тысячи добровольцев со всего мира, общими усилиями отыскав нужные фрагменты. Что же пошло не так?
Читать дальше →
Total votes 41: ↑39 and ↓2+37
Comments120

Information

Rating
Does not participate
Location
Россия
Date of birth
Registered
Activity