Articles / Profile of kshiian / Habr

@kshiian

User

Profile Publications 3Comments 16Bookmarks

kshiian Dec 22 2012 at 01:18

HTML::TokeParser

5 min

12K

Perl*

Одним из наиболее часто используемых мною модулем при парсинге HTML является HTML::TokeParser. Этот модуль разбивает весь HTML документ на токены, с которым позже можно удобно работать.

Давайте рассмотрим какой-либо пример на практике. Возьмем сайт habrahabr.ru

Читать дальше →

kshiian Dec 21 2012 at 09:59

Работа с кодировками в Perl

10 min

55K

Perl*

На хабре уже есть хорошая статья об использовании UTF-8 в Perl — habrahabr.ru/post/53578. Я все же немного по своему
хотел бы рассказать о кодировках.

Очень много вопросов связано с многообразием кодировок, а также используемой терминологией. Кроме того, многие из нас сталкивались с проблемами, которые связаны с кодировками. Я постараюсь в этой статье написать в понятной форме информацию по этому вопросу. Начну с вопроса автоматического определения кодировки текста.

Читать дальше →

+16

kshiian Dec 17 2012 at 23:53

Алгоритм BM25

3 min

63K

Search engines*

From sandbox

Впервые данный алгоритм встретил на Википедии и не обратил на него особого внимания. Позже изучая научные труды сотрудников Яндекса, я обратил внимание на то, что они ссылаются на него, например, в статье Сегаловича об алгоритмах определения нечетких дубликатов, поэтому решил разобраться, в чем смысл его использования. Постараюсь на простых примерах это объяснить. Итак, для чего этот алгоритм?

Читать дальше →

+17