Re[12]: Парсинг страницы
От: Cyberax Марс  
Дата: 13.10.09 12:12
Оценка:
Здравствуйте, Sinclair, Вы писали:

C>>Ты забываешь про обязательное лицензирование и справедливое использование

S>А что у нас про "обязательность лицензирования"? Про справедливое использование — имхо, довольно трудно будет приплести его в случае "перепечатки и распространения".
Там есть тонкости.

C>>Тут есть детали. Если хочется сделать полностью автоматическую систему для всех подобных сайтов, которая не затачивалась бы специально под авто.ру — тогда можно было бы говорить о справедливом использовании.

S>Сама по себе разработка такой системы вообще ничему не противоречит. То есть, вменить разработчику "заведомо вредоносное ПО" из УК будет в данном случае крайне трудно. А ГК, имхо, на эту тему вообще ничего не говорит.
Я имею в виду разработку и использование.

S>А вот использование такой системы на auto.ru будет квалифицироваться по-разному — в зависимости от того, каким способом ты применишь его результаты.

Ага.

C>>Опять же, позиция авто.ру весьма лицемерная. С одной стороны, они хотят чтоб их индексировали поисковики, с другой стороны, они это запрещают правилами использования. Если бы они явно прописали "Disallow: *" в robots.txt, то я бы ещё понял.

S>Я вовсе не уверен, что они хотят, чтобы их индексировали поисковики. Во времена, когда я подбирал себе машину, большинство сайтов вели себя так, как будто они строго против этого — даже тупо запомнить URL на search result можно было только у одного из дюжины.
Если бы не хотели, то это решается одной строчкой в robots.txt. Yandex, Google, Rambler его слушаются.

S>Кроме того, ГК и robots.txt, насколько я могу понять, живут в разных плоскостях бытия.

Не совсем. Он является стандартом RFC, и его отсутствие может быть воспринято как разрешение на автоматическое сканирование.
Sapienti sat!
Re[13]: Парсинг страницы
От: Sinclair Россия https://github.com/evilguest/
Дата: 13.10.09 13:04
Оценка:
Здравствуйте, Cyberax, Вы писали:

C>Там есть тонкости.

Это понятно. Какие?

C>Я имею в виду разработку и использование.

Вот тут надо бы быть точнее . Это ж как предикат в запросе к AD — чуть в сторону, и уже "группа лиц, по предварительному сговору".

C>Если бы не хотели, то это решается одной строчкой в robots.txt. Yandex, Google, Rambler его слушаются.

Тут у нас имеют место языковые нюансы. Disallow — это "хотят, чтобы не индексировали". А отсутствие robots.txt не значит вообще ничего.
Может быть, они хотят, чтобы индексировали. Может, они не хотят — то есть не испытывают желания, а проще говоря — им безразличны автоматические индексеры. Может быть, они хотят, чтобы не индексировали, но не знают про robots.txt — глупо ожидать от ламеров всеобщей распространённости знаний RFC. Вон, у нас тут в форумы регулярно прибегают мегапрограммеры для веба, которые про RFC 2616 слыхом не слыхивали.

C>Не совсем. Он является стандартом RFC, и его отсутствие может быть воспринято как разрешение на автоматическое сканирование.

RFC тоже живёт в совсем другой плоскости бытия, чем ГК. На всякий случай напомню, что авторство принадлежит автору в силу авторства.
Даже если на фотографии не нарисовано "перепечатка без согласования с правообладателем запрещена", то перепечатка без согласования с правообладателем таки запрещена. И узнать об этом можно уже потом, когда придёт волшебный факс с обозначенной суммой, требуемыми действиями и сроками выполнения того и другого.
robots.txt в данном случае играют роль именно такой "надписи", то есть никакую.

Формально, гугл и яндекс можно попробовать нагнуть за нарушение копирайта, но сделать это будет трудно. Во-первых, выдача результатов поиска пролезет через fair use — это цитирование, причём очень ограниченное. А вот translate.google.com — это уже публикация derivative works без согласования с правообладателем. Ну и cache — тоже публикация неопределённому кругу лиц.
... << RSDN@Home 1.2.0 alpha rev. 677>>
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
Re[14]: Парсинг страницы
От: Cyberax Марс  
Дата: 13.10.09 13:33
Оценка:
Здравствуйте, Sinclair, Вы писали:

C>>Там есть тонкости.

S>Это понятно. Какие?
См. ниже.

C>>Я имею в виду разработку и использование.

S>Вот тут надо бы быть точнее . Это ж как предикат в запросе к AD — чуть в сторону, и уже "группа лиц, по предварительному сговору".


C>>Если бы не хотели, то это решается одной строчкой в robots.txt. Yandex, Google, Rambler его слушаются.

S>Тут у нас имеют место языковые нюансы. Disallow — это "хотят, чтобы не индексировали". А отсутствие robots.txt не значит вообще ничего.
S>Может быть, они хотят, чтобы индексировали. Может, они не хотят — то есть не испытывают желания, а проще говоря — им безразличны автоматические индексеры. Может быть, они хотят, чтобы не индексировали, но не знают про robots.txt — глупо ожидать от ламеров всеобщей распространённости знаний RFC. Вон, у нас тут в форумы регулярно прибегают мегапрограммеры для веба, которые про RFC 2616 слыхом не слыхивали.
Не совсем. Были решения при старом ГК, что авторы должны использовать соответствующие технические средства для ограничения доступа.

Т.е. ссылка с надписью "вам сюда кликать запрещено, тут коммерческая тайна" не может считаться средством контроля доступа. Соответственно, и статьи УК про несанкционированный доступ и прочее неприменимы. Вот если там будет даже поле ввода пароля (пусть там хоть admin/admin), тогда уже это будет преступлением.

При желании, аналогичный прецедент переносится на robots.txt.

C>>Не совсем. Он является стандартом RFC, и его отсутствие может быть воспринято как разрешение на автоматическое сканирование.

S>RFC тоже живёт в совсем другой плоскости бытия, чем ГК. На всякий случай напомню, что авторство принадлежит автору в силу авторства.
Это понятно. Но ты тут уже сталкиваешься с проблемой публикации. А тут опять всё становится сложно.

S>Даже если на фотографии не нарисовано "перепечатка без согласования с правообладателем запрещена", то перепечатка без согласования с правообладателем таки запрещена. И узнать об этом можно уже потом, когда придёт волшебный факс с обозначенной суммой, требуемыми действиями и сроками выполнения того и другого.

S>robots.txt в данном случае играют роль именно такой "надписи", то есть никакую.
Тут проводится аналогия со съёмками в публичном месте. Если ты снимешь улицу с плакатом на улице, и напечатаешь в своей книге — это будет вполне справедливым использованием.

А вот если ты снимешь плакат, потом поменяешь телефон на нём, и будешь тиражировать крупными партиями — уже будет "турма сидеть".

S>Формально, гугл и яндекс можно попробовать нагнуть за нарушение копирайта, но сделать это будет трудно. Во-первых, выдача результатов поиска пролезет через fair use — это цитирование, причём очень ограниченное. А вот translate.google.com — это уже публикация derivative works без согласования с правообладателем. Ну и cache — тоже публикация неопределённому кругу лиц.

Вот-вот.
Sapienti sat!
Re[2]: Парсинг страницы
От: Аноним  
Дата: 13.10.09 14:27
Оценка:
Здравствуйте, GGoga, Вы писали:

GG>Итого есть одна общедоступная функция у класса, получающая ссылку и набор (иерархию) тегов, и возвращающая массив строк, находящихся в указанных тегах. Полученные строки уже можно парсить как угодно.


Вот это отлично! Спасибо!
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.