Python → Фреймворк для парсинга Grab:Spider
Я автор python библиотеки Grab, которая упрощает написание парсеров веб-сайтов. Я о ней писал вводную статью некоторое время назад на хабре. Недавно я решил вплотную занять парсингом, стал искать free-lance заказы по парсингу и мне понадобился инструмент для парсинга сайтов с большим количеством страниц.
Раньше я реализовывал мультипоточные парсеры с помощью python-тредов с помощью такой вот библиотечки. У threading-подхода есть плюсы и минусы. Плюс в том, что мы запускаем отдельный поток(thread) и делаем в нём, что хотим: можем делать последовательно несколько сетевых вызовов и всё это в пределах одного контекста — никуда не надо переключаться, что-то запоминать и вспоминать. Минус в том, что треды тормозят и жрут память.
Какие альтернативы?
Раньше я реализовывал мультипоточные парсеры с помощью python-тредов с помощью такой вот библиотечки. У threading-подхода есть плюсы и минусы. Плюс в том, что мы запускаем отдельный поток(thread) и делаем в нём, что хотим: можем делать последовательно несколько сетевых вызовов и всё это в пределах одного контекста — никуда не надо переключаться, что-то запоминать и вспоминать. Минус в том, что треды тормозят и жрут память.
Какие альтернативы?
Python → Скрипт поиска проектов на odesk.com
Хочу поделиться полезным скриптом для поиска проектов на odesk.com Честно говоря, я не понял, как на odesk.com задать вопрос с OR оператором, чтобы за один присест найти все интерсующие меня проекты, поэтому я искал в несколько подходов, что не очень удобно. Этот скрипт решает проблему. Я поставил его на крон, добавил закладку на локальный файл в браузер и просто смотрю её периодически.
Код скрипта под катом:
Код скрипта под катом:
JavaScript → Определение Layout страницы из песочницы
Задача
Накануне (а если точнее вчера) поступила следующая задача. Требовалось написать js скрипт который будет запускаться на внешней HTML странице, и определять ширину части с контентом, а так же выравнивание этого контента относительно окна браузера. Для наглядности на экран выводится красный прямоугольник высотой 100px;
Беглый просмотр google ни к чему не привел, так что я не долго думая решил написать свой велосипед.
Под катом описание и примеры исходников.
Социальные сети → Постинг данных из скрипта во Вконтакт на публичную страницу

Недавно ко мне в голову пришла идея
Идея
Всё началось с идеи — вначале она мне показалась немного скучной, и смысл в реализации я не видел, но подумав дважды (а то и трижды) я понял, что это может принести некоторый профит к моим навыкам. Но об этом ниже :)Python → Оповещение появления нового топика на Хабрахабре с помощью Python
Мне нравится, когда программа/код полностью своя… понимаешь назначение каждой буквы и почему решение именно такое. В данном топике хочу предложить свой парсер топиков Хабрахабра на Python без сторонних библиотек.
При появлении нового топика — всплывающее окошко сообщает об этом.
При появлении нового топика — всплывающее окошко сообщает об этом.
Python → Grab — python библиотека для парсинга сайтов
Лет пять-шесть назад, когда я ещё программировал преимущественно на PHP, я начал использовать библиотеку curl для парсинга сайтов. Мне нужен был инструмент, который позволял эмулировать сессию пользователя на сайте, отсылать заголовки обычного браузера, давать удобный способ отсылки POST-запросов. Сначала я пытался использовать напрямую curl-расширение, но его интерфейс оказался очень неудобным и я написал обёртку с более простым интерфейсом. Время шло, я пересел на python и столкнулся с таким же дубовым API curl-расширения. Пришлось переписать обёртку на python.
*nix → Парсер на shell с обходом XOR-шифрования при авторизации из песочницы
Недавно возникла необходимость в парсере интернет-счета банковской карты для дальнейшего уведомления об операциях посредством смс\e-mail. Сделать это было решено по-быстрому шел-скриптом, который будет парсить страницу со счетом с определенной периодичностью при помощи задания в cron, а в случае изменения баланса счета — высылать сообщение на мобильный телефон или e-mail. Ничего сложного на первый взгляд, однако в ходе написания пришлось решить некоторые сложности, о которых вы сможете прочесть под катом.
Электронная коммерция → Красивый парсинг email оповещений из банка
Мы продолжаем радовать вас интересными техническими решениями.Сегодня на очереди email оповещения из банка, которые выглядят примерно так:
Pokupka, SHELL AZS OLGINO 1133, karta *347788, 23.07.11 12:09, 300.25 rub. Dostupno = 421.61 rubили так
1000.00 RUR было списано с Вашего счета **77876. Торговая точка: ZAO GAMMAEKSPER Дата: 12/07/2011 Доступный баланс: 12344.11 RUR
Как вы думаете, как должна выглядеть красивая обработка таких оповещений в сервисе учета личных финансов?
Python → Парсинг на Pуthon. Как собрать архив Голубятен из песочницы
Статья описывает разработку скрипта на языке Python. Скрипт выполняет парсинг HTML-кода, составление списка материалов сайта, скачивания статей и предварительную очистку текста статьи от «посторонних» элементов. Используется библиотеки urllib (получение HTML-страниц), lxml (парсинг HTML-кода, удаление элементов и сохранение «очищенной» статьи), re (работа с регулярными выражениями), configobj (чтение файлов конфигурации).
Для написания скрипта достаточно базовых знаний языка Python, навыков программирования и отладки кода.
В статье даются пояснения по применению библиотек на примере составления списка публикаций С.М. Голубицкого, приведена ссылка на работающий скрипт.
Для написания скрипта достаточно базовых знаний языка Python, навыков программирования и отладки кода.
В статье даются пояснения по применению библиотек на примере составления списка публикаций С.М. Голубицкого, приведена ссылка на работающий скрипт.