Пакеты. Обходим Антироботы поисковиков

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Программируем пакеты СайтСпутника (для продвинутых юзеров) »   Пакеты. Обходим Антироботы поисковиков
RSS

Пакеты. Обходим Антироботы поисковиков

Пакеты. Обходим "антироботы" поисковиков

<<Назад  Вперед>>Страницы: 1 2 3 4
Печать
 
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 783
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Пакеты. Обходим "антироботы" поисковиков

Сегодня столкнулся с интересной задачей. Потребовалось выполнить в Яндексе (и только в Яндексе!) одинаковые запросы по 129 компаниям. Очень быстро сделал большой пакет и запустил СайтСпутник на его выполнение. Но вот незадача! После выполнения 10 строк запросов Яндекс включает "Антиробот" - просит ввести число с картинки.

При написании пакетов поиска по нескольким поисковикам, мы просто чередуем между собой запросы к разным поисковикам. Но что делать, если у нас в пакете запросы только к одному поисковику?

В итоге нашел такое решение: вставил между строками пакета "пустые запросы" к другим поисковикам:

запрос1 || Yandex=1
|| Google=1
|| Mail=1
||Rambler=1
||Yahoo=1
||MSN=1
запрос2 || Yandex=1
|| Google=1
|| Mail=1
||Rambler=1
||Yahoo=1
||MSN=1
запрос3 || Yandex=1
|| Google=1
|| Mail=1
||Rambler=1
...

Таким образом, между каждым обращением к Яндексу, СайтСпутник открывает стартовые страницы других поисковиков.

Известны ли Вам ещё какие-нибудь способы обхода "антиробота" при использовании СайтСпутника?
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

tungus1973 написал:
[q]
Известны ли Вам ещё какие-нибудь способы обхода "антиробота" при использовании СайтСпутника?
[/q]

В версии 6.1.4.2 от 21.02.10 переделан, упрощен и дополнен антиробот.

1. ЗАМЕНИЛ "думающий" переключатель в "настройки - Параметры - Вкладка Интернет - "Обеспечение глубины поиска (от 0 до 100 страниц поисковика)"",
на простой и понятный - "Антиробот: пауза между открытиями страниц поисковиков (от 0 до 20 сек)".
Если установить этот переключатель, например, в 3, то между открытиями страниц поисковиков СайтСпутник будет делать 3-х секундную паузу.
Это позволит открыть большее количество страниц поисковиков, не натыкаясь на антиробот.

2. Появился оператор: ^^Пауза=<число> Его можно вводить прямо в тексте пакета (или справа в запросе).
Приведенный в первом топике пакет, где tungus1973 отвлекал СайтСпутник на выполнение пустых запросов, может теперь выглядеть так:

^^пауза=4
Запрос 1 || Yandex=1
Запрос 2 || Yandex=1
Запрос 3 || Yandex=1

3. Оператор ^^Пауза=<число> приоритетнее, чем настройка из пункта 1. Поэтому, набрав его в тексте пакета, можно не переустанавливать настройку при переходе от пакета к пакету.


Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
А чего не попробовать использовать обращения через группу прокси для обхода таких ограничений? Вон в том же 3proxy есть фича - выбор прокси случайным образом из группы прокси для каждого запроса :wink:
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Vinni написал:
[q]
А чего не попробовать использовать обращения через группу прокси для обхода таких ограничений? Вон в том же 3proxy есть фича - выбор прокси случайным образом из группы прокси для каждого запроса
[/q]

Причина следующая - соблюдение (не нарушение) правил, которые устанавливает используемый ресурс (в данном случае поисковик).

Не "хочет", например, Яндекс обрабатывать с одного компьютера 100 запросов в минуту, значит на то есть причина и, соответственно, не стоит пытаться обмануть "папу". Понять его можно: если на орбиту Яндекса будет запущено 100 СайтСпутников, каждый из которых начнет тянуть одеяло на себя, если другие разработчики программ будут создавать программы перегружающие его аналогичным или другим способом, то одеяло может и порваться ...

vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 179
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009
Ура, на часть вопросов получил ответ. Проблема роботом Яндекса отравляет жизнь уже достаточно давно, но в обычном поиске с использованием СайтСпутника не сильно мешает. А вот вчера заметил, что эта же проблема всплывает и при создании карты сайта (в т.ч. углубленной). Как в этом случае исправить ситуацию?


---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

vbl написал:
[q]
Ура, на часть вопросов получил ответ. Проблема роботом Яндекса отравляет жизнь уже достаточно давно, но в обычном поиске с использованием СайтСпутника не сильно мешает. А вот вчера заметил, что эта же проблема всплывает и при создании карты сайта (в т.ч. углубленной). Как в этом случае исправить ситуацию?
[/q]

1. Ян_дек с "злопамятен", дайте ему забыть о Вас. Не ищите в нем 15-24 часа.
2. Можно войти в него через IE, задать любой поиск, ввести запрашиваемое на капче число, но все равно желательно выполнить пункт 1.
3. После этого при построении больших карт сайтов (КС) используйте параметр: "Настройки - Параметры - Вкладка Интернет - "Антиробот: пауза между открытиями страниц поисковиков (от 0 до 20 сек)".

Если мне попадаются большие сайты, то я сначала делаю построение стандартной КС, по которой видна общая структура сайта. Затем смотрю на ней папки или ресурсы, которые мне интересны и запускаю построение КС этих папок или ресурсов. Бывает, что подобное углубление по месту делаю 3-5 раз, потому что встречаются очень большие сайты, которые человек не в силах просмотреть и обработать. Особенно это помогает при последующем применениии функций поиска в невидимом интернете.

Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

Alexei Mylnikov написал:
[q]
1. Ян_дек с "злопамятен", дайте ему забыть о Вас. Не ищите в нем 15-24 часа.
[/q]


То есть он учитывает историю данного IP (и возможно использует куки) :wink:

vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 179
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009

Alexei Mylnikov написал:
[q]
1. Ян_дек с "злопамятен", дайте ему забыть о Вас. Не ищите в нем 15-24 часа.
2. Можно войти в него через IE, задать любой поиск, ввести запрашиваемое на капче число, но все равно желательно выполнить пункт 1.
3. После этого при построении больших карт сайтов (КС) используйте параметр: "Настройки - Параметры - Вкладка Интернет - "Антиробот: пауза между открытиями страниц поисковиков (от 0 до 20 сек)".
[/q]


1. Понятно, ну тут мы ему нос утрем :evil: , айпишник то у нас динамический. Только придется каждый раз отключаться - подключаться

3. Используем, но если не сделать, то что я указал в пункте 1, то помогает мало. К тому же очень долго идет процесс. При выставлении паузы в 4 сек., карта сайта, по моим субъективным подсчетам, создается раза в три дольше (а это примерно пара часов).

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 179
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009

Vinni написал:
[q]
То есть он учитывает историю данного IP (и возможно использует куки) :wink:
[/q]


На мой взгляд, куки он не использует, так как все проходит при разрыве и новом восстановлении соединения с интернетом (у нас динамичный IP).

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5730
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

vbl написал:
[q]
айпишник то у нас динамический. Только придется каждый раз отключаться - подключаться
[/q]

Да. Это помогает. А еще, у него прямо предусмотрена регистрация для "хороших роботов". Если айпишник статический. но количество запросов не больше, чем он пропускает - можно воспользоваться.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
<<Назад  Вперед>>Страницы: 1 2 3 4
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Программируем пакеты СайтСпутника (для продвинутых юзеров) »   Пакеты. Обходим Антироботы поисковиков
RSS

Последние RSS
Open Source Intelligence (OSINT) Tools and Resources Handbook
Top tips on gathering information about companies by using free online sources
Новое на блоге HRразведка
Безопасность данных в MS Access
Слово как улика
20 Recon and Intel Gathering Tools used by InfoSec Professionals
What’s Changed?
10 альтернативных поисковиков
Ситуационный центр главы Республики Коми
Развёртывание ситуационных центров на базе технологии Avalanche
Как принимать сложные решения. Советы бывшего оперативника ЦРУ.
Открытая информация о "Новичке" из сети интернет.
Ген. директор "ОЗХО" Ахмет Узюмдж о "Новичке" и хим. атаке в Сирии
Онлайн-сервисы для Twitter
Коллекция для Twitter
Приложение Opera VPN закрывается
О работе разведки
Deep web и 11 поисковиков по нему
Об изначальной "лживости" любых документов
Обновление на блоге HRазведка

Самые активные 20 тем RSS
Стандартные источники информации в СайтСпутнике
Слово как улика
Open Source Intelligence (OSINT) Tools and Resources Handbook