Пакеты. Обходим Антироботы поисковиков

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Программируем пакеты СайтСпутника (для продвинутых юзеров) »   Пакеты. Обходим Антироботы поисковиков
RSS

Пакеты. Обходим Антироботы поисковиков

Пакеты. Обходим "антироботы" поисковиков

<<Назад  Вперед>>Страницы: 1 2 3 4
Печать
 
vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 179
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009

Vinni написал:
[q]
что за сайт-то ?
[/q]


Например, вот этот - _ttp://resident.su/ru/ или вот этот _ttp://kursk.rosrabota.ru/

Попробуем сменить user-agent

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 179
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009

tungus1973 написал:
[q]
Чередует.
[/q]


Спасибо


tungus1973 написал:
[q]
Можете воспользоваться бесплатной утилитой "HtmlAsText". Она выбрасывает теги о оставляет текст в формате txt.
[/q]


Ее сейчас и используем, просто это двойная работа получается и к тому же она работает только с htm и html, а всякие php, aspx и т.п. она не обрабатывает, а их достаточно много. Может есть и для них какая прога?


---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

vbl написал:
[q]
работает только с htm и html, а всякие php, aspx и т.п. она не обрабатывает, а их достаточно много. Может есть и для них какая прога?
[/q]
В "Offline Explorer" встроен перенос результатов в "TextPipe" (если он у вас есть), может быть существует какой-то плагин, который способен обрабатывать php, aspx?
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

[q]

или вот этот _ttp://kursk.rosrabota.ru/
[/q]


этот просто считает число запросов с данного IP за некоторый промежуток времени (видимо достаточно большой и не покрываемый большим таймаутом), предлагает ввести капчу и блокирует запросы без ввода капчи :wink:
так что тут спасет только параллельная закачка через большое число проксей


vbl написал:
[q]
Например, вот этот - _ttp://resident.su/ru/
[/q]

аналогично - выдает код 503 и предлагает ввести капчу.

без матлаба здесь не обойтись для обхода капчи :laugh:
vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 179
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009
Для: Vinni

Ясно, спасибо. В первом случае попробуем список проксей настроить, а вот второй.... Программирование для меня темный лес.

Ладно, бог с ним, есть аналогичный ресурс, без этих заморочек. Жалко только, что там база только с 2006 года.

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

vbl написал:
[q]
а вот второй...
[/q]


а со вторым та же проблема и тот же способ решения :wink:
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

Alexei Mylnikov написал:
[q]
2. Появился оператор: ^^Пауза=<число> Его можно вводить прямо в тексте пакета (или справа в запросе).
Приведенный в первом топике пакет, где tungus1973 отвлекал СайтСпутник на выполнение пустых запросов, может теперь выглядеть так:

^^пауза=4
Запрос 1 || Yandex=1
Запрос 2 || Yandex=1
Запрос 3 || Yandex=1

3. Оператор ^^Пауза=<число> приоритетнее, чем настройка из пункта 1. Поэтому, набрав его в тексте пакета, можно не переустанавливать настройку при переходе от пакета к пакету.
[/q]


Тоже столкнулся с антироботом :sad: по сему вопрос возник - а данный оператор (^^пауза=) работает по всему запросу или только в месте запроса где поставлен? Вопрос связан с тем, что антиробот только на нашем родном поисковике работает, а на других все нормально. По этой причине замедлять работу всего пакета не целесообразно, а нужно замедлиться только при обращении к определенному сервису. Иначе пакет выполняется уже тридцать минут и еще не закончился :sad:

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Иоанн написал:
[q]
Тоже столкнулся с антироботом по сему вопрос возник - а данный оператор (^^пауза=) работает по всему запросу или только в месте запроса где поставлен? Вопрос связан с тем, что антиробот только на нашем родном поисковике работает, а на других все нормально. По этой причине замедлять работу всего пакета не целесообразно, а нужно замедлиться только при обращении к определенному сервису. Иначе пакет выполняется уже тридцать минут и еще не закончился
[/q]

Антиробот работает по всему пакету. Поисковики периодически меняют алгоритм борьбы с роботами. То Гугль "капризничает", то Яндекс, то Bing.

Реально сделать оператор типа:
^^Пауза.Yandex=7;
^^Пауза.Google=3; и так далее...

tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

Иоанн написал:
[q]
Тоже столкнулся с антироботом :sad: по сему вопрос возник - а данный оператор (^^пауза=) работает по всему запросу или только в месте запроса где поставлен?
[/q]
Я в своё время, столкнувшись с той же проблемой, применял способ "пустых запросов":

|| Поисковик=n

где:
Поисковик - Yandex, Google, Mail, MSN и т.д.
n - любое число больше 0.
Перед знаком || ничего нет ("пустой запрос").

По такой команде открывается стартовая страничка выбранного поисковика без запроса. Таким образом делается некоторая пауза. Такие строчки "пустого запроса" можно вставлять перед строчкой с антироботным поисковиком.


Еще один вариант - в настройках программы увеличить время задержки между запросами. Но в этом случае ВСЕ запросы будут выполняться медленнее.


И уж конечно нужно перемешивать поисковики.
То есть, если поставить запросы в таком порядке:

Запрос 1 || Yandex=1000
Запрос 2 || Yandex=1000
Запрос 3 || Yandex=1000


то на 6-ом запросе Яндекс поинтересуется, а не робот ли Вы?

А если запросы перемешать:

Запрос 1 || Yandex=1000
Запрос 1 || Mail=1000
Запрос 1 || Google=1000
...
Запрос 2 || Yandex=1000
Запрос 2 || Mail=1000
Запрос 2 || Google=1000


то естественным образом получается задержка между запросами к каждому конкретному поисковику.
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

Alexei Mylnikov написал:
[q]
Реально сделать оператор типа:
^^Пауза.Yandex=7;
^^Пауза.Google=3; и так далее...
[/q]

м-м-м-м стесняюсь спросить - т.е. этих операторов пока нет? :blush:

tungus1973 написал:
[q]
Я в своё время, столкнувшись с той же проблемой, применял способ "пустых запросов":

|| Поисковик=n
....
[/q]

Спасибо!

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
<<Назад  Вперед>>Страницы: 1 2 3 4
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Программируем пакеты СайтСпутника (для продвинутых юзеров) »   Пакеты. Обходим Антироботы поисковиков
RSS

Последние RSS
Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей

Самые активные 20 тем RSS