Пакеты. Обходим Антироботы поисковиков

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Программируем пакеты СайтСпутника (для продвинутых юзеров) »   Пакеты. Обходим Антироботы поисковиков
RSS

Пакеты. Обходим Антироботы поисковиков

Пакеты. Обходим "антироботы" поисковиков

<<Назад  Вперед>>Страницы: 1 2 3 * 4
Печать
 
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

Alexei Mylnikov написал:
[q]
2. Появился оператор: ^^Пауза=<число> Его можно вводить прямо в тексте пакета (или справа в запросе).
Приведенный в первом топике пакет, где tungus1973 отвлекал СайтСпутник на выполнение пустых запросов, может теперь выглядеть так:

^^пауза=4
Запрос 1 || Yandex=1
Запрос 2 || Yandex=1
Запрос 3 || Yandex=1

3. Оператор ^^Пауза=<число> приоритетнее, чем настройка из пункта 1. Поэтому, набрав его в тексте пакета, можно не переустанавливать настройку при переходе от пакета к пакету.
[/q]


Тоже столкнулся с антироботом :sad: по сему вопрос возник - а данный оператор (^^пауза=) работает по всему запросу или только в месте запроса где поставлен? Вопрос связан с тем, что антиробот только на нашем родном поисковике работает, а на других все нормально. По этой причине замедлять работу всего пакета не целесообразно, а нужно замедлиться только при обращении к определенному сервису. Иначе пакет выполняется уже тридцать минут и еще не закончился :sad:

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Иоанн написал:
[q]
Тоже столкнулся с антироботом по сему вопрос возник - а данный оператор (^^пауза=) работает по всему запросу или только в месте запроса где поставлен? Вопрос связан с тем, что антиробот только на нашем родном поисковике работает, а на других все нормально. По этой причине замедлять работу всего пакета не целесообразно, а нужно замедлиться только при обращении к определенному сервису. Иначе пакет выполняется уже тридцать минут и еще не закончился
[/q]

Антиробот работает по всему пакету. Поисковики периодически меняют алгоритм борьбы с роботами. То Гугль "капризничает", то Яндекс, то Bing.

Реально сделать оператор типа:
^^Пауза.Yandex=7;
^^Пауза.Google=3; и так далее...

tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

Иоанн написал:
[q]
Тоже столкнулся с антироботом :sad: по сему вопрос возник - а данный оператор (^^пауза=) работает по всему запросу или только в месте запроса где поставлен?
[/q]
Я в своё время, столкнувшись с той же проблемой, применял способ "пустых запросов":

|| Поисковик=n

где:
Поисковик - Yandex, Google, Mail, MSN и т.д.
n - любое число больше 0.
Перед знаком || ничего нет ("пустой запрос").

По такой команде открывается стартовая страничка выбранного поисковика без запроса. Таким образом делается некоторая пауза. Такие строчки "пустого запроса" можно вставлять перед строчкой с антироботным поисковиком.


Еще один вариант - в настройках программы увеличить время задержки между запросами. Но в этом случае ВСЕ запросы будут выполняться медленнее.


И уж конечно нужно перемешивать поисковики.
То есть, если поставить запросы в таком порядке:

Запрос 1 || Yandex=1000
Запрос 2 || Yandex=1000
Запрос 3 || Yandex=1000


то на 6-ом запросе Яндекс поинтересуется, а не робот ли Вы?

А если запросы перемешать:

Запрос 1 || Yandex=1000
Запрос 1 || Mail=1000
Запрос 1 || Google=1000
...
Запрос 2 || Yandex=1000
Запрос 2 || Mail=1000
Запрос 2 || Google=1000


то естественным образом получается задержка между запросами к каждому конкретному поисковику.
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

Alexei Mylnikov написал:
[q]
Реально сделать оператор типа:
^^Пауза.Yandex=7;
^^Пауза.Google=3; и так далее...
[/q]

м-м-м-м стесняюсь спросить - т.е. этих операторов пока нет? :blush:

tungus1973 написал:
[q]
Я в своё время, столкнувшись с той же проблемой, применял способ "пустых запросов":

|| Поисковик=n
....
[/q]

Спасибо!

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Иоанн написал:
[q]
м-м-м-м стесняюсь спросить - т.е. этих операторов пока нет?
[/q]

Нет, пока только
^^Пауза=7;
одна на все поисковики.



ЗАМЕЧАНИЕ ОТ 31.08.10
=====================
Обсуждаемые проблемы решены. Можно ответить на капчу и делать "персональные" паузы на Яндексе, Гугле и Яху.
Смотрите на этом форуме в другой теме - forum.razved.info/index.php?t=1044&p=13433#pp13433

Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Значит будем тасовать :smile:

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Потасовал запросы внутри пакета, поставил задержку - большой брат перестал проверять меня на причастность к расе роботов :smile:

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Семёныч
Модератор форума
Городской Охотник
Всего сообщений: 926
Рейтинг пользователя: 10


Ссылка


Дата регистрации на форуме:
8 июня 2009
Столкнулся и я недавно с проблемой капчи. При чём капчу спрашивал только Яндекс (как я заметил сперва). Не был бы он столь мощным поисковиком по рунету - вырубил бы его к чертям, всю работу "Планировщика заданий" рубит на корню. А так пришлось перечитать форум, найти эту ветку и победить (на долго ли? - время покажет) капчу с помощью ^^Пауза.Yandex=5
Но позже я заметил следующий момент: капчу спрашивает и Рамблер, только почему-то программа не останавливается, как на капче Яндекса, а работает дальше, проскакивая Рамблер. Выходит, в поиск не попадают результаты Рамблера? Алексей, если не сложно, проверьте пожалуйста, может это только у меня такой специфический глюк.

Вообще, как-то не понятно, почему поисковики типа Mail.ru, Google, Bing, tut.by, gogo.by и др. не заморачиваются с капчами, а Яндекс, как "девочка-недотрога"? Ещё заметил, что утром капчу запрашивает чаще, чем если поиск-мониторинг запускать ближе к концу рабочего дня.
Ну, спросил капчу раз-другой-третий и пусть бы запомнил, что с этого IP не робот ходит, раз капчу вводят. Ни фига! С утра и до обеда отрабатываются пакеты и постоянно приходится вводить капчу, по 15-25 раз. Пришлось даже отказаться от "Планировщика задач". Теперь, надеюсь, я эту проблему победил.

---
Нет такой безвыходной ситуации,в которую невозможно вляпаться... (с)
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Как правило капча начинает спрашиваться поисковиком, если с данного IP идет за какой-то недавний промежуток времени более определенного числа запросов (т.е. пользователь слишком часто вводит запросы :evil: ).
Увеличение паузы для Яндекса приводит к замедлению работы... :sad:
По-хорошему, в таких случаях надо ставить локальный балансирующий прокси (тот же 3proxy это может) и купить на дешевых хостингах несколько VDS, на которых тоже поставить прокси. Тогда запросы к поисковикам будут равномерно распределяться по нескольким IP (плюс можно и куки до кучи удалять) и проблем будет меньше :cactus-emot

Семёныч
Модератор форума
Городской Охотник
Всего сообщений: 926
Рейтинг пользователя: 10


Ссылка


Дата регистрации на форуме:
8 июня 2009

Vinni написал:
[q]
Увеличение паузы для Яндекса приводит к замедлению работы... :sad:
[/q]

Да, я сперва "дал маху", настроил Антиробот на 15 сек паузу. Не только для Яндекса, а для всех поисковиков, в Настройках-Параметры-Интернет-Антиробот. Очень медленно всё стало собирать. Потом узнал про ^^Пауза.Yandex= - это меня и выручило.

---
Нет такой безвыходной ситуации,в которую невозможно вляпаться... (с)
<<Назад  Вперед>>Страницы: 1 2 3 * 4
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Программируем пакеты СайтСпутника (для продвинутых юзеров) »   Пакеты. Обходим Антироботы поисковиков
RSS

Последние RSS
Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей

Самые активные 20 тем RSS