JeanLouis Jun 28 2011 at 12:48

Как вы относитесь к парсингу сайтов без разрешения их владельцев?

1 min

5.7K

Website development*

-1

Comments 47

JeanLouis Jun 28 2011 at 12:51

Пожалуйста, выберите два варианта:
— Один вариант из трех первых пунктов
— Один вариант из трех последних.

-1

biophreak Jun 28 2011 at 12:55

Мне например иногда приходится парсить сайты, которые не дают API.

JeanLouis Jun 28 2011 at 13:02

Логично предположить, что вы не видите в этом ничего плохого и просто не знаете как быть иначе? Если бы был API вы бы использовали API, верно?

P.S. Скажу сразу, что опрос я провожу, чтобы наглядно подтвердить одно интересное наблюдение в следующей статье.

biophreak Jun 28 2011 at 13:07

Скорее я не знаю как быть иначе.
При наличии API, и с учетом того, что API делает то, что мне надо, то я безусловно использовал-бы его.

Evengard Jun 28 2011 at 13:07

А я вот — нет. Всё равно бы продолжал парсить сайт если бы делал что-то серьёзное. API накладывает ограничения, у них свои условия использования. А при парсинге сайта такого нету.

PS: осуждаю просто перепост (выдачу инфы за свою). А вот для изменения представления — всеми руками за. Особенно если на целевом сайте много рекламы :)

Lipski Jun 28 2011 at 13:01

Вопрос несколько некорректный. Парсинг происходит с какой целью? Чтобы потом у себя выложить на сайте или просто хочется вытянуть для себя только интересующие тебя статьи по заданным темам, но не продираться через груду шлака?

Если с целью выдать статью за свою — воровство.
Если для того, чтобы сэкономить свое время на чтение — обеими руками за.

+14

JeanLouis Jun 28 2011 at 13:03

Да, согласен, можно было бы сказать точнее. Но вы написали правильный вариант, это первый вариант, то есть с целью, чтобы после использовать полученную информацию (не только статьи) на своем сайте (программе).

JeanLouis Jun 28 2011 at 13:07

Например, «одолжить» описания товаров из чужого магазина, какие-то характеристика автомобилей с автосайта или даже вытянуть сообщения с другого форума, чтобы ваш форум не смотрелся безлюдным (да, я видел и такое).

ofiginuri Jun 28 2011 at 13:22

А ваше то какое мнение?
Или дождётесь результатов? :)

JeanLouis Jun 28 2011 at 17:45

Мое мнение… я хотел статью написать о замене парсинга, но уже не смогу. :)

Pagefest Jun 28 2011 at 13:26

Не хватает варианта «временами приходится, когда нет возможности достучаться до владельцев/администраторов сайта».

artemlight Jun 28 2011 at 13:28

Главное — не грузить своими проблемами хозяина сайта. Парсинг осуществляю регулярно, но только ночью, и не более одного запроса в 10 секунд.

Andrewus Jun 28 2011 at 13:35

Гугл и Яндекс голосуют за первый и четвертый пункты

s5656 Jun 28 2011 at 14:09

при этом яндекс борятся с теми кто их парсит =)

MihailOlenin Jun 28 2011 at 14:25

У яндекса есть свой платный продукт с результами поиска

s5656 Jun 28 2011 at 21:55

хм… ну я не про поиск…
хотя ума не приложу зачем надо парсить результат поиска

samally Jun 28 2011 at 23:39

это требуется во многих сеошных программках и сервисах, чтобы анализировать поисковую выдачу.

s5656 Jun 29 2011 at 10:14

дак для этого апи есть… да и сео…

DorBer Jun 28 2011 at 14:08

Самое забавное, что часто приходится производить парсинг, потому что компания не может своему официальному дилеру дать полный набор продукции, например. В смысле не имеет такой технической возможности. Вот бы все пользовались единым «xml-протоколом» на базе того, что использует Яндекс в своем Маркете.

VolCh Jun 28 2011 at 14:12

Нет варианта «другое (отвечу в комментах)» :(

«Воровством» не считаю пока результаты парсинга используются в тех же целях, что и основной сайт, лишь изменяя представление для пользовотеля на более удобное. Но даже с такими парсерами считаю возможным бороться если создают большую нагрузку на сервер. Когда сам пишу заказные парсеры или ботов, то стараюсь большую нагрузку не создавать.

shmaltorhbooks Jun 28 2011 at 14:20

не воровство, т.к. не имеет значения автоматизированно я собираю данные, которые есть в открытом доступе или вручную.

VolCh Jun 28 2011 at 14:41

Воровство нет, но вот нарушение условий под которыми данные находятся в открытом доступе…

shmaltorhbooks Jun 28 2011 at 15:19

что значит «условия, при которых она находится в открытом доступе»? если программный доступ — то она закрыта, а если человек ее смотрит, то открыта? так, простите, человек тоже получает к ней доступ с помощью программ — браузеров или каких-то агрегаторов.
иной вопрос — как я буду эту информацию использовать — выдам ли ее за свою собственность, использую во благо себе или во вред кому-то. но на этот ньюанс можно не обращать внимания в контексте данного опроса

VolCh Jun 28 2011 at 15:35

Например такая фраза в лицензионном соглашении на получение данных

2.4. Вы не имеете права делать автоматические запросы в Яндексе иначе как с соблюдением требований, изложенных в лицензии сервиса Яндекс.XML, в частности, предварительно зарегистрировав IP-адрес вашего автомата.

shmaltorhbooks Jun 28 2011 at 16:15

если для получения каких-либо данных вам надо авторизироваться, зарегисрироваться или указать какой-то ключ, то эти данные уже не находятся в открытом доступе.

точно так же можно сетовать, что вы не имеете права парсить письма кокого-либо юзера, пока не укажете данные для авторизации этим юзером.

VolCh Jun 28 2011 at 16:33

Условия использования и получения информации определяет её обладатель. Он имеет полное право запретить применять автоматические средства сбора даже к информации находящейся в открытом доступе (не требующей идентификации и т. п.). Если вы всё же их примените, то нарушите этим его право и можете быть привлечены к ответственности.

Aux Jun 28 2011 at 17:03

Это что значит? Телнетом сайты смотреть? Ведь браузер — ни что иное, как автоматическое средство сбора и отображения информации! Хватит пургу нести, если данные в открытом доступе никаких запретов быть не может. Не хотите чтобы парсили — введите регу и наложите ограничения на пользование. Все нормальные люди так делают.

VolCh Jun 28 2011 at 17:24

Пургу несёте вы. Вам закон процитировать? Или вы мне процитируете какой-нибудь неизвестный мне акт, который гласит, что раз я не сделал регистрации на своём сайте, то с инфой на нём можно делать что угодно, включая автоматический сбор ботами? Я выложил информацию, определил условия её использования, в частности запретил работу автоматических средств сбора информации. Вы считаете, что эти условия юридически ничтожны? На основании чего?

Aux Jun 28 2011 at 17:27

Ваша же цитата:

Статья 7. Общедоступная информация

1. К общедоступной информации относятся общеизвестные сведения и иная информация, доступ к которой не ограничен.

Как вы хотите ограничить доступ к информации, которая не спрятана ни за каким замком и лежит в публичном доступе? Я вам уже сказал, браузер — это автоматическое средство сбора информации. Иначе вы никаких картинок на сайте и стилей не увидите.

VolCh Jun 28 2011 at 18:07

Понятие «право доступа» в законах это не логин с паролем и записи в ACL. Это право, которое обладатель информации предоставляет по своему (за редким исключением) усмотрению другим лицам. Обладатель информации может ограничить доступ юридически, но не обязан для этого ограничивать его технически. Или может ограничить его технически, лишь указав

User-agent: *

 Disallow: /

в robots.txt, да ещё в суде скажет «Гугл, Яндекс, Майкрософт и т. д. не нарушают условия использования информации, а вот бот этого Васи Пупкина нарушает, да ещё и сервер мне положил своими 100500 запросами в секунду»

Aux Jun 28 2011 at 18:27

Я не понимаю, как можно ограничить юридически. Я зашёл на сайт и вот он весь, я уже всю инфу получил. Финита ля комедия. Да и robots.txt не является частью HTML и HTTP, он не имеет никакой силы. То что гугол с ним считается не более чем пожелание гугла.

А 100500 запросов в секунду — это уже DoS и уголовная отвественность. К вопросу прав доступа отношения не имеет.

Право доступа в законах определяется не ACL-ом, а реальными ограничениями. Логин с паролем один из вариантов. Режьте юзеров по IP, тоже вариант. Но если доступ ничем не контроллируется, то инфа в свободном доступе и в суде ваш пошлют нафиг.

VolCh Jun 28 2011 at 18:54

Тем самым вы приняли условия публичной оферты на этом сайте, если в ней такой способ принятия предусмотрен. А если не приняли, то больше не заходите и тем более по другим ссылкам не ходите, ведь вы получили только одну страницу сайта, а не всю инфу с него.

Обладатель информации вправе устанавливать режим доступа к ней по своему усмотрению. Если он устанавливает, что урлы, попадающие под маску Disallow в robots.txt запрещены к автоматической обработке, то значит он запретил её. Если нашёлся способ обойти такую защиту (наплевать на директивы в robots.txt) — то это несанкционированный доступ и тоже уголовная ответственность. Информация не в свободном доступе, режим доступа к ней определён юридическим документом, на который есть ссылка на каждой странице сайта. Какие технические меры поддерживают этот режим дело десятое.

Aux Jun 28 2011 at 19:06

Бред. Я не могу согласиться или не согласиться с офертой, так как я её читаю уже ПОСЛЕ того, как получил информацию. Закон не может распостраняться в прошлое. Вот если на входе мне её сунут с кнопкой ОК и только после нажатия дадут смотреть информацию, тогда да, ваш вариант работает. Иначе — нет.

Директивы robots.txt не могут кого-либо в чём ограничивать, так как фактически они ничего не делают. Это просто текстовый файлик ни о чём. Это как рядом с воротами на землю положить замок, а ворота оставить открытыми. Плюс табличку о том, что это частная собственность спрятать внутри здания в подвале.

На сколько я помню, закон работает просто — всё что не запрещено, то разрешено. Нет замка на входе — сами виноваты и не надо отмазываться задним числом.

VolCh Jun 28 2011 at 19:13

Это как рядом с воротами на землю положить замок, а ворота оставить открытыми. Плюс табличку о том, что это частная собственность спрятать внутри здания в подвале.

Хорошая аналогия. Думаете суд вас оправдывает при обвинении в краже, скажем, ноутбука из этого дома?

Aux Jun 29 2011 at 11:30

Причем тут воровство? Я ничего воровать не собираюсь. Но если я в здании увижу информационный плакат или книгу, я спокойно могу их изучить, сфоткать и т.д. А за книгу и нарушение авторских и смежных прав по голове дадут владельцу здания, ибо бесплатно дал мне почитать.

JeanLouis Jun 28 2011 at 17:44

Нет почему же, именно в этом и суть опроса. Я имею в виду то, что информация после парсинга будет использован на другом сайте для реализации определенного функционала в целом коммерческих целях.

bootch Jun 28 2011 at 14:28

Кстати, раз уж тут собрались интересующиеся люди. Есть сайт цбрф. Мне в моем проекте(публичном) нужны курсы валют за разные дни. Каков правовой статус информации на моем сайте, если она взята с сайта цбрф. Я конечно понимаю, что вряд ли меня засудят за нарушение авторских прав, но хотелось бы знать, существует ли такой класс информации, как «официальные заявления», которые можно использовать по своему усмотрению?

VolCh Jun 28 2011 at 14:35

Закон об информации

Статья 7. Общедоступная информация

1. К общедоступной информации относятся общеизвестные сведения и иная информация, доступ к которой не ограничен.
2. Общедоступная информация может использоваться любыми лицами по их усмотрению при соблюдении установленных федеральными законами ограничений в отношении распространения такой информации.
3. Обладатель информации, ставшей общедоступной по его решению, вправе требовать от лиц, распространяющих такую информацию, указывать себя в качестве источника такой информации.

Насчёт авторского прав всё сказано в ГК РФ

Статья 1259. Объекты авторских прав
…
5. Авторские права не распространяются на идеи, концепции, принципы, методы, процессы, системы, способы, решения технических, организационных или иных задач, открытия, факты, языки программирования.
6. Не являются объектами авторских прав:
1) официальные документы государственных органов и органов местного самоуправления муниципальных образований, в том числе законы, другие нормативные акты, судебные решения, иные материалы законодательного, административного и судебного характера, официальные документы международных организаций, а также их официальные переводы;
2) государственные символы и знаки (флаги, гербы, ордена, денежные знаки и тому подобное), а также символы и знаки муниципальных образований;
3) произведения народного творчества (фольклор), не имеющие конкретных авторов;
4) сообщения о событиях и фактах, имеющие исключительно информационный характер (сообщения о новостях дня, программы телепередач, расписания движения транспортных средств и тому подобное).

bootch Jun 28 2011 at 14:39

Спасибо! Ровно то, что я хотел услышать.

den_rad Jun 28 2011 at 15:34

Я хотел сделать OPML ленту подкастов Эха Москвы, писал им предложение. Ответа — ноль, написал парсер сам. Но это для личного использования, а для коммерческого — нужно соглашение с производителем контента.

UFO just landed and posted this here

sp3ctr00m Jun 28 2011 at 19:01

А к примеру парсить цены с ЯндексМаркета и предлагать платный сервис по анализу цен конкурентов для инет-магазинов это незаконно?

ajaxtelamonid Jun 28 2011 at 19:42

What has been seen cannot be unseen
В смысле если какая-та инфа доступна по http-запросу без авторизации, то можно брать.
Плюс нетикет предусматривает простановку обратной ссылки в качестве указания источника.

Wott Jun 29 2011 at 08:10

эээ, во например
— агрегатор прайсов для книг — парсит с десяток сайтов, где нет своего апи или он глючный
— rss reader для чтения новостей. Какая жалость что гугл свой парсер закрыл

А вообще выложили инфу в инете — значить ее кто-нить «спарсит» :)

Agel_Nash Jul 3 2011 at 17:38

Корень разногласий в комментах лежит в отсутствии конкретизации цели для чего применяется парсинг:
— С целью наживы (создание дорвеев, своих сервисов и т.п.).
— В личных целях для анализа/чтения полученой информации.

Помимо этого, некоторые могут воспринимать вопрос так: «Как вы относитесь к парсингу сайтов без вашего разрешения».

bubuq Jul 3 2011 at 19:10

Всё поисковые системы парсят ежедневно миллионы сайтов. Is this bad?

Vladson Jul 3 2011 at 19:15

Зависит и от того как парсят, и от того что от туда забирают, куда потом ставят, опять же много факторов влияет…

Show the best of all time