Пакеты. Обходим Антироботы поисковиков

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Программируем пакеты СайтСпутника (для продвинутых юзеров) »   Пакеты. Обходим Антироботы поисковиков
RSS

Пакеты. Обходим Антироботы поисковиков

Пакеты. Обходим "антироботы" поисковиков

<<Назад  Вперед>>Страницы: 1 2 3 * 4
Печать
 
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

Alexei Mylnikov написал:
[q]
2. Появился оператор: ^^Пауза=<число> Его можно вводить прямо в тексте пакета (или справа в запросе).
Приведенный в первом топике пакет, где tungus1973 отвлекал СайтСпутник на выполнение пустых запросов, может теперь выглядеть так:

^^пауза=4
Запрос 1 || Yandex=1
Запрос 2 || Yandex=1
Запрос 3 || Yandex=1

3. Оператор ^^Пауза=<число> приоритетнее, чем настройка из пункта 1. Поэтому, набрав его в тексте пакета, можно не переустанавливать настройку при переходе от пакета к пакету.
[/q]


Тоже столкнулся с антироботом :sad: по сему вопрос возник - а данный оператор (^^пауза=) работает по всему запросу или только в месте запроса где поставлен? Вопрос связан с тем, что антиробот только на нашем родном поисковике работает, а на других все нормально. По этой причине замедлять работу всего пакета не целесообразно, а нужно замедлиться только при обращении к определенному сервису. Иначе пакет выполняется уже тридцать минут и еще не закончился :sad:

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 829
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Иоанн написал:
[q]
Тоже столкнулся с антироботом по сему вопрос возник - а данный оператор (^^пауза=) работает по всему запросу или только в месте запроса где поставлен? Вопрос связан с тем, что антиробот только на нашем родном поисковике работает, а на других все нормально. По этой причине замедлять работу всего пакета не целесообразно, а нужно замедлиться только при обращении к определенному сервису. Иначе пакет выполняется уже тридцать минут и еще не закончился
[/q]

Антиробот работает по всему пакету. Поисковики периодически меняют алгоритм борьбы с роботами. То Гугль "капризничает", то Яндекс, то Bing.

Реально сделать оператор типа:
^^Пауза.Yandex=7;
^^Пауза.Google=3; и так далее...

tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 794
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

Иоанн написал:
[q]
Тоже столкнулся с антироботом :sad: по сему вопрос возник - а данный оператор (^^пауза=) работает по всему запросу или только в месте запроса где поставлен?
[/q]
Я в своё время, столкнувшись с той же проблемой, применял способ "пустых запросов":

|| Поисковик=n

где:
Поисковик - Yandex, Google, Mail, MSN и т.д.
n - любое число больше 0.
Перед знаком || ничего нет ("пустой запрос").

По такой команде открывается стартовая страничка выбранного поисковика без запроса. Таким образом делается некоторая пауза. Такие строчки "пустого запроса" можно вставлять перед строчкой с антироботным поисковиком.


Еще один вариант - в настройках программы увеличить время задержки между запросами. Но в этом случае ВСЕ запросы будут выполняться медленнее.


И уж конечно нужно перемешивать поисковики.
То есть, если поставить запросы в таком порядке:

Запрос 1 || Yandex=1000
Запрос 2 || Yandex=1000
Запрос 3 || Yandex=1000


то на 6-ом запросе Яндекс поинтересуется, а не робот ли Вы?

А если запросы перемешать:

Запрос 1 || Yandex=1000
Запрос 1 || Mail=1000
Запрос 1 || Google=1000
...
Запрос 2 || Yandex=1000
Запрос 2 || Mail=1000
Запрос 2 || Google=1000


то естественным образом получается задержка между запросами к каждому конкретному поисковику.
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

Alexei Mylnikov написал:
[q]
Реально сделать оператор типа:
^^Пауза.Yandex=7;
^^Пауза.Google=3; и так далее...
[/q]

м-м-м-м стесняюсь спросить - т.е. этих операторов пока нет? :blush:

tungus1973 написал:
[q]
Я в своё время, столкнувшись с той же проблемой, применял способ "пустых запросов":

|| Поисковик=n
....
[/q]

Спасибо!

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 829
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Иоанн написал:
[q]
м-м-м-м стесняюсь спросить - т.е. этих операторов пока нет?
[/q]

Нет, пока только
^^Пауза=7;
одна на все поисковики.



ЗАМЕЧАНИЕ ОТ 31.08.10
=====================
Обсуждаемые проблемы решены. Можно ответить на капчу и делать "персональные" паузы на Яндексе, Гугле и Яху.
Смотрите на этом форуме в другой теме - forum.razved.info/index.php?t=1044&p=13433#pp13433

Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Значит будем тасовать :smile:

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Потасовал запросы внутри пакета, поставил задержку - большой брат перестал проверять меня на причастность к расе роботов :smile:

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Семёныч
Модератор форума
Городской Охотник
Всего сообщений: 977
Рейтинг пользователя: 10


Ссылка


Дата регистрации на форуме:
8 июня 2009
Столкнулся и я недавно с проблемой капчи. При чём капчу спрашивал только Яндекс (как я заметил сперва). Не был бы он столь мощным поисковиком по рунету - вырубил бы его к чертям, всю работу "Планировщика заданий" рубит на корню. А так пришлось перечитать форум, найти эту ветку и победить (на долго ли? - время покажет) капчу с помощью ^^Пауза.Yandex=5
Но позже я заметил следующий момент: капчу спрашивает и Рамблер, только почему-то программа не останавливается, как на капче Яндекса, а работает дальше, проскакивая Рамблер. Выходит, в поиск не попадают результаты Рамблера? Алексей, если не сложно, проверьте пожалуйста, может это только у меня такой специфический глюк.

Вообще, как-то не понятно, почему поисковики типа Mail.ru, Google, Bing, tut.by, gogo.by и др. не заморачиваются с капчами, а Яндекс, как "девочка-недотрога"? Ещё заметил, что утром капчу запрашивает чаще, чем если поиск-мониторинг запускать ближе к концу рабочего дня.
Ну, спросил капчу раз-другой-третий и пусть бы запомнил, что с этого IP не робот ходит, раз капчу вводят. Ни фига! С утра и до обеда отрабатываются пакеты и постоянно приходится вводить капчу, по 15-25 раз. Пришлось даже отказаться от "Планировщика задач". Теперь, надеюсь, я эту проблему победил.

---
Нет такой безвыходной ситуации,в которую невозможно вляпаться... (с)
Vinni
Администратор

Всего сообщений: 2711
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Как правило капча начинает спрашиваться поисковиком, если с данного IP идет за какой-то недавний промежуток времени более определенного числа запросов (т.е. пользователь слишком часто вводит запросы :evil: ).
Увеличение паузы для Яндекса приводит к замедлению работы... :sad:
По-хорошему, в таких случаях надо ставить локальный балансирующий прокси (тот же 3proxy это может) и купить на дешевых хостингах несколько VDS, на которых тоже поставить прокси. Тогда запросы к поисковикам будут равномерно распределяться по нескольким IP (плюс можно и куки до кучи удалять) и проблем будет меньше :cactus-emot

Семёныч
Модератор форума
Городской Охотник
Всего сообщений: 977
Рейтинг пользователя: 10


Ссылка


Дата регистрации на форуме:
8 июня 2009

Vinni написал:
[q]
Увеличение паузы для Яндекса приводит к замедлению работы... :sad:
[/q]

Да, я сперва "дал маху", настроил Антиробот на 15 сек паузу. Не только для Яндекса, а для всех поисковиков, в Настройках-Параметры-Интернет-Антиробот. Очень медленно всё стало собирать. Потом узнал про ^^Пауза.Yandex= - это меня и выручило.

---
Нет такой безвыходной ситуации,в которую невозможно вляпаться... (с)
<<Назад  Вперед>>Страницы: 1 2 3 * 4
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Программируем пакеты СайтСпутника (для продвинутых юзеров) »   Пакеты. Обходим Антироботы поисковиков
RSS

Последние RSS
Книги о критическом мышлении
Наказывать за вмешательство в частную жизнь, Верховный суд
CI Academic Materials
CiMi.CON Evolution USA
Поиск в КЭШ поисковиков по запросу и пакету запросов
СайтСпутник: Многоязычность, Юникод, MS ACCESS
Новый курс OSINT от АИС
Год тюрьмы за отказ удалять
Книга "Строим доверие по методикам спецслужб"
аналог "Консультанта" о зарубежном законодательстве
Открытые данные ФНС
Получаем информацию по VIN
Competitive-Market Intelligence Conference, Berlin 2018
Не все VPN-сервисы одинаково полезны
«Яндекс» научился выдавать в поиске не скрытые Google-документы. Правда лавочку
War and marketing: 1937 July 7th vs. 2018 July 1st
Историческое. Агентурная разведка
Open Source Intelligence (OSINT) Tools and Resources Handbook
Top tips on gathering information about companies by using free online sources
Новое на блоге HRразведка

Самые активные 20 тем RSS
CI Academic Materials
Книги о критическом мышлении
Наказывать за вмешательство в частную жизнь, Верховный суд