Pull to refresh

Comments 47

Пожалуйста, выберите два варианта:
— Один вариант из трех первых пунктов
— Один вариант из трех последних.
Мне например иногда приходится парсить сайты, которые не дают API.
Логично предположить, что вы не видите в этом ничего плохого и просто не знаете как быть иначе? Если бы был API вы бы использовали API, верно?

P.S. Скажу сразу, что опрос я провожу, чтобы наглядно подтвердить одно интересное наблюдение в следующей статье.
Скорее я не знаю как быть иначе.
При наличии API, и с учетом того, что API делает то, что мне надо, то я безусловно использовал-бы его.
А я вот — нет. Всё равно бы продолжал парсить сайт если бы делал что-то серьёзное. API накладывает ограничения, у них свои условия использования. А при парсинге сайта такого нету.

PS: осуждаю просто перепост (выдачу инфы за свою). А вот для изменения представления — всеми руками за. Особенно если на целевом сайте много рекламы :)
Вопрос несколько некорректный. Парсинг происходит с какой целью? Чтобы потом у себя выложить на сайте или просто хочется вытянуть для себя только интересующие тебя статьи по заданным темам, но не продираться через груду шлака?

Если с целью выдать статью за свою — воровство.
Если для того, чтобы сэкономить свое время на чтение — обеими руками за.
Да, согласен, можно было бы сказать точнее. Но вы написали правильный вариант, это первый вариант, то есть с целью, чтобы после использовать полученную информацию (не только статьи) на своем сайте (программе).
Например, «одолжить» описания товаров из чужого магазина, какие-то характеристика автомобилей с автосайта или даже вытянуть сообщения с другого форума, чтобы ваш форум не смотрелся безлюдным (да, я видел и такое).
А ваше то какое мнение?
Или дождётесь результатов? :)
Мое мнение… я хотел статью написать о замене парсинга, но уже не смогу. :)
Не хватает варианта «временами приходится, когда нет возможности достучаться до владельцев/администраторов сайта».
Главное — не грузить своими проблемами хозяина сайта. Парсинг осуществляю регулярно, но только ночью, и не более одного запроса в 10 секунд.
Гугл и Яндекс голосуют за первый и четвертый пункты
при этом яндекс борятся с теми кто их парсит =)
У яндекса есть свой платный продукт с результами поиска
хм… ну я не про поиск…
хотя ума не приложу зачем надо парсить результат поиска
это требуется во многих сеошных программках и сервисах, чтобы анализировать поисковую выдачу.
дак для этого апи есть… да и сео…
Самое забавное, что часто приходится производить парсинг, потому что компания не может своему официальному дилеру дать полный набор продукции, например. В смысле не имеет такой технической возможности. Вот бы все пользовались единым «xml-протоколом» на базе того, что использует Яндекс в своем Маркете.
Нет варианта «другое (отвечу в комментах)» :(

«Воровством» не считаю пока результаты парсинга используются в тех же целях, что и основной сайт, лишь изменяя представление для пользовотеля на более удобное. Но даже с такими парсерами считаю возможным бороться если создают большую нагрузку на сервер. Когда сам пишу заказные парсеры или ботов, то стараюсь большую нагрузку не создавать.
не воровство, т.к. не имеет значения автоматизированно я собираю данные, которые есть в открытом доступе или вручную.
Воровство нет, но вот нарушение условий под которыми данные находятся в открытом доступе…
что значит «условия, при которых она находится в открытом доступе»? если программный доступ — то она закрыта, а если человек ее смотрит, то открыта? так, простите, человек тоже получает к ней доступ с помощью программ — браузеров или каких-то агрегаторов.
иной вопрос — как я буду эту информацию использовать — выдам ли ее за свою собственность, использую во благо себе или во вред кому-то. но на этот ньюанс можно не обращать внимания в контексте данного опроса
Например такая фраза в лицензионном соглашении на получение данных
2.4. Вы не имеете права делать автоматические запросы в Яндексе иначе как с соблюдением требований, изложенных в лицензии сервиса Яндекс.XML, в частности, предварительно зарегистрировав IP-адрес вашего автомата.
если для получения каких-либо данных вам надо авторизироваться, зарегисрироваться или указать какой-то ключ, то эти данные уже не находятся в открытом доступе.

точно так же можно сетовать, что вы не имеете права парсить письма кокого-либо юзера, пока не укажете данные для авторизации этим юзером.
Условия использования и получения информации определяет её обладатель. Он имеет полное право запретить применять автоматические средства сбора даже к информации находящейся в открытом доступе (не требующей идентификации и т. п.). Если вы всё же их примените, то нарушите этим его право и можете быть привлечены к ответственности.
Это что значит? Телнетом сайты смотреть? Ведь браузер — ни что иное, как автоматическое средство сбора и отображения информации! Хватит пургу нести, если данные в открытом доступе никаких запретов быть не может. Не хотите чтобы парсили — введите регу и наложите ограничения на пользование. Все нормальные люди так делают.
Пургу несёте вы. Вам закон процитировать? Или вы мне процитируете какой-нибудь неизвестный мне акт, который гласит, что раз я не сделал регистрации на своём сайте, то с инфой на нём можно делать что угодно, включая автоматический сбор ботами? Я выложил информацию, определил условия её использования, в частности запретил работу автоматических средств сбора информации. Вы считаете, что эти условия юридически ничтожны? На основании чего?
Ваша же цитата:

Статья 7. Общедоступная информация

1. К общедоступной информации относятся общеизвестные сведения и иная информация, доступ к которой не ограничен.


Как вы хотите ограничить доступ к информации, которая не спрятана ни за каким замком и лежит в публичном доступе? Я вам уже сказал, браузер — это автоматическое средство сбора информации. Иначе вы никаких картинок на сайте и стилей не увидите.
Понятие «право доступа» в законах это не логин с паролем и записи в ACL. Это право, которое обладатель информации предоставляет по своему (за редким исключением) усмотрению другим лицам. Обладатель информации может ограничить доступ юридически, но не обязан для этого ограничивать его технически. Или может ограничить его технически, лишь указав User-agent: *
Disallow: /
в robots.txt, да ещё в суде скажет «Гугл, Яндекс, Майкрософт и т. д. не нарушают условия использования информации, а вот бот этого Васи Пупкина нарушает, да ещё и сервер мне положил своими 100500 запросами в секунду»
Я не понимаю, как можно ограничить юридически. Я зашёл на сайт и вот он весь, я уже всю инфу получил. Финита ля комедия. Да и robots.txt не является частью HTML и HTTP, он не имеет никакой силы. То что гугол с ним считается не более чем пожелание гугла.

А 100500 запросов в секунду — это уже DoS и уголовная отвественность. К вопросу прав доступа отношения не имеет.

Право доступа в законах определяется не ACL-ом, а реальными ограничениями. Логин с паролем один из вариантов. Режьте юзеров по IP, тоже вариант. Но если доступ ничем не контроллируется, то инфа в свободном доступе и в суде ваш пошлют нафиг.
Тем самым вы приняли условия публичной оферты на этом сайте, если в ней такой способ принятия предусмотрен. А если не приняли, то больше не заходите и тем более по другим ссылкам не ходите, ведь вы получили только одну страницу сайта, а не всю инфу с него.

Обладатель информации вправе устанавливать режим доступа к ней по своему усмотрению. Если он устанавливает, что урлы, попадающие под маску Disallow в robots.txt запрещены к автоматической обработке, то значит он запретил её. Если нашёлся способ обойти такую защиту (наплевать на директивы в robots.txt) — то это несанкционированный доступ и тоже уголовная ответственность. Информация не в свободном доступе, режим доступа к ней определён юридическим документом, на который есть ссылка на каждой странице сайта. Какие технические меры поддерживают этот режим дело десятое.
Бред. Я не могу согласиться или не согласиться с офертой, так как я её читаю уже ПОСЛЕ того, как получил информацию. Закон не может распостраняться в прошлое. Вот если на входе мне её сунут с кнопкой ОК и только после нажатия дадут смотреть информацию, тогда да, ваш вариант работает. Иначе — нет.

Директивы robots.txt не могут кого-либо в чём ограничивать, так как фактически они ничего не делают. Это просто текстовый файлик ни о чём. Это как рядом с воротами на землю положить замок, а ворота оставить открытыми. Плюс табличку о том, что это частная собственность спрятать внутри здания в подвале.

На сколько я помню, закон работает просто — всё что не запрещено, то разрешено. Нет замка на входе — сами виноваты и не надо отмазываться задним числом.
Это как рядом с воротами на землю положить замок, а ворота оставить открытыми. Плюс табличку о том, что это частная собственность спрятать внутри здания в подвале.

Хорошая аналогия. Думаете суд вас оправдывает при обвинении в краже, скажем, ноутбука из этого дома?
Причем тут воровство? Я ничего воровать не собираюсь. Но если я в здании увижу информационный плакат или книгу, я спокойно могу их изучить, сфоткать и т.д. А за книгу и нарушение авторских и смежных прав по голове дадут владельцу здания, ибо бесплатно дал мне почитать.
Нет почему же, именно в этом и суть опроса. Я имею в виду то, что информация после парсинга будет использован на другом сайте для реализации определенного функционала в целом коммерческих целях.
Кстати, раз уж тут собрались интересующиеся люди. Есть сайт цбрф. Мне в моем проекте(публичном) нужны курсы валют за разные дни. Каков правовой статус информации на моем сайте, если она взята с сайта цбрф. Я конечно понимаю, что вряд ли меня засудят за нарушение авторских прав, но хотелось бы знать, существует ли такой класс информации, как «официальные заявления», которые можно использовать по своему усмотрению?
Закон об информации
Статья 7. Общедоступная информация

1. К общедоступной информации относятся общеизвестные сведения и иная информация, доступ к которой не ограничен.
2. Общедоступная информация может использоваться любыми лицами по их усмотрению при соблюдении установленных федеральными законами ограничений в отношении распространения такой информации.
3. Обладатель информации, ставшей общедоступной по его решению, вправе требовать от лиц, распространяющих такую информацию, указывать себя в качестве источника такой информации.

Насчёт авторского прав всё сказано в ГК РФ
Статья 1259. Объекты авторских прав

5. Авторские права не распространяются на идеи, концепции, принципы, методы, процессы, системы, способы, решения технических, организационных или иных задач, открытия, факты, языки программирования.
6. Не являются объектами авторских прав:
1) официальные документы государственных органов и органов местного самоуправления муниципальных образований, в том числе законы, другие нормативные акты, судебные решения, иные материалы законодательного, административного и судебного характера, официальные документы международных организаций, а также их официальные переводы;
2) государственные символы и знаки (флаги, гербы, ордена, денежные знаки и тому подобное), а также символы и знаки муниципальных образований;
3) произведения народного творчества (фольклор), не имеющие конкретных авторов;
4) сообщения о событиях и фактах, имеющие исключительно информационный характер (сообщения о новостях дня, программы телепередач, расписания движения транспортных средств и тому подобное).

Спасибо! Ровно то, что я хотел услышать.
Я хотел сделать OPML ленту подкастов Эха Москвы, писал им предложение. Ответа — ноль, написал парсер сам. Но это для личного использования, а для коммерческого — нужно соглашение с производителем контента.
UFO just landed and posted this here
А к примеру парсить цены с ЯндексМаркета и предлагать платный сервис по анализу цен конкурентов для инет-магазинов это незаконно?
What has been seen cannot be unseen
В смысле если какая-та инфа доступна по http-запросу без авторизации, то можно брать.
Плюс нетикет предусматривает простановку обратной ссылки в качестве указания источника.
эээ, во например
— агрегатор прайсов для книг — парсит с десяток сайтов, где нет своего апи или он глючный
— rss reader для чтения новостей. Какая жалость что гугл свой парсер закрыл

А вообще выложили инфу в инете — значить ее кто-нить «спарсит» :)
Корень разногласий в комментах лежит в отсутствии конкретизации цели для чего применяется парсинг:
— С целью наживы (создание дорвеев, своих сервисов и т.п.).
— В личных целях для анализа/чтения полученой информации.

Помимо этого, некоторые могут воспринимать вопрос так: «Как вы относитесь к парсингу сайтов без вашего разрешения».
Всё поисковые системы парсят ежедневно миллионы сайтов. Is this bad?
Зависит и от того как парсят, и от того что от туда забирают, куда потом ставят, опять же много факторов влияет…
Sign up to leave a comment.

Articles