Пакеты. Обходим Антироботы поисковиков

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Программируем пакеты СайтСпутника (для продвинутых юзеров) »   Пакеты. Обходим Антироботы поисковиков
RSS

Пакеты. Обходим Антироботы поисковиков

Пакеты. Обходим "антироботы" поисковиков

<<Назад  Вперед>>Страницы: 1 2 3 4
Печать
 
vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 179
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009

Vinni написал:
[q]
что за сайт-то ?
[/q]


Например, вот этот - _ttp://resident.su/ru/ или вот этот _ttp://kursk.rosrabota.ru/

Попробуем сменить user-agent

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 179
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009

tungus1973 написал:
[q]
Чередует.
[/q]


Спасибо


tungus1973 написал:
[q]
Можете воспользоваться бесплатной утилитой "HtmlAsText". Она выбрасывает теги о оставляет текст в формате txt.
[/q]


Ее сейчас и используем, просто это двойная работа получается и к тому же она работает только с htm и html, а всякие php, aspx и т.п. она не обрабатывает, а их достаточно много. Может есть и для них какая прога?


---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 794
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

vbl написал:
[q]
работает только с htm и html, а всякие php, aspx и т.п. она не обрабатывает, а их достаточно много. Может есть и для них какая прога?
[/q]
В "Offline Explorer" встроен перенос результатов в "TextPipe" (если он у вас есть), может быть существует какой-то плагин, который способен обрабатывать php, aspx?
Vinni
Администратор

Всего сообщений: 2711
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

[q]

или вот этот _ttp://kursk.rosrabota.ru/
[/q]


этот просто считает число запросов с данного IP за некоторый промежуток времени (видимо достаточно большой и не покрываемый большим таймаутом), предлагает ввести капчу и блокирует запросы без ввода капчи :wink:
так что тут спасет только параллельная закачка через большое число проксей


vbl написал:
[q]
Например, вот этот - _ttp://resident.su/ru/
[/q]

аналогично - выдает код 503 и предлагает ввести капчу.

без матлаба здесь не обойтись для обхода капчи :laugh:
vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 179
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009
Для: Vinni

Ясно, спасибо. В первом случае попробуем список проксей настроить, а вот второй.... Программирование для меня темный лес.

Ладно, бог с ним, есть аналогичный ресурс, без этих заморочек. Жалко только, что там база только с 2006 года.

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
Vinni
Администратор

Всего сообщений: 2711
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

vbl написал:
[q]
а вот второй...
[/q]


а со вторым та же проблема и тот же способ решения :wink:
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

Alexei Mylnikov написал:
[q]
2. Появился оператор: ^^Пауза=<число> Его можно вводить прямо в тексте пакета (или справа в запросе).
Приведенный в первом топике пакет, где tungus1973 отвлекал СайтСпутник на выполнение пустых запросов, может теперь выглядеть так:

^^пауза=4
Запрос 1 || Yandex=1
Запрос 2 || Yandex=1
Запрос 3 || Yandex=1

3. Оператор ^^Пауза=<число> приоритетнее, чем настройка из пункта 1. Поэтому, набрав его в тексте пакета, можно не переустанавливать настройку при переходе от пакета к пакету.
[/q]


Тоже столкнулся с антироботом :sad: по сему вопрос возник - а данный оператор (^^пауза=) работает по всему запросу или только в месте запроса где поставлен? Вопрос связан с тем, что антиробот только на нашем родном поисковике работает, а на других все нормально. По этой причине замедлять работу всего пакета не целесообразно, а нужно замедлиться только при обращении к определенному сервису. Иначе пакет выполняется уже тридцать минут и еще не закончился :sad:

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 829
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Иоанн написал:
[q]
Тоже столкнулся с антироботом по сему вопрос возник - а данный оператор (^^пауза=) работает по всему запросу или только в месте запроса где поставлен? Вопрос связан с тем, что антиробот только на нашем родном поисковике работает, а на других все нормально. По этой причине замедлять работу всего пакета не целесообразно, а нужно замедлиться только при обращении к определенному сервису. Иначе пакет выполняется уже тридцать минут и еще не закончился
[/q]

Антиробот работает по всему пакету. Поисковики периодически меняют алгоритм борьбы с роботами. То Гугль "капризничает", то Яндекс, то Bing.

Реально сделать оператор типа:
^^Пауза.Yandex=7;
^^Пауза.Google=3; и так далее...

tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 794
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

Иоанн написал:
[q]
Тоже столкнулся с антироботом :sad: по сему вопрос возник - а данный оператор (^^пауза=) работает по всему запросу или только в месте запроса где поставлен?
[/q]
Я в своё время, столкнувшись с той же проблемой, применял способ "пустых запросов":

|| Поисковик=n

где:
Поисковик - Yandex, Google, Mail, MSN и т.д.
n - любое число больше 0.
Перед знаком || ничего нет ("пустой запрос").

По такой команде открывается стартовая страничка выбранного поисковика без запроса. Таким образом делается некоторая пауза. Такие строчки "пустого запроса" можно вставлять перед строчкой с антироботным поисковиком.


Еще один вариант - в настройках программы увеличить время задержки между запросами. Но в этом случае ВСЕ запросы будут выполняться медленнее.


И уж конечно нужно перемешивать поисковики.
То есть, если поставить запросы в таком порядке:

Запрос 1 || Yandex=1000
Запрос 2 || Yandex=1000
Запрос 3 || Yandex=1000


то на 6-ом запросе Яндекс поинтересуется, а не робот ли Вы?

А если запросы перемешать:

Запрос 1 || Yandex=1000
Запрос 1 || Mail=1000
Запрос 1 || Google=1000
...
Запрос 2 || Yandex=1000
Запрос 2 || Mail=1000
Запрос 2 || Google=1000


то естественным образом получается задержка между запросами к каждому конкретному поисковику.
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

Alexei Mylnikov написал:
[q]
Реально сделать оператор типа:
^^Пауза.Yandex=7;
^^Пауза.Google=3; и так далее...
[/q]

м-м-м-м стесняюсь спросить - т.е. этих операторов пока нет? :blush:

tungus1973 написал:
[q]
Я в своё время, столкнувшись с той же проблемой, применял способ "пустых запросов":

|| Поисковик=n
....
[/q]

Спасибо!

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
<<Назад  Вперед>>Страницы: 1 2 3 4
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Программируем пакеты СайтСпутника (для продвинутых юзеров) »   Пакеты. Обходим Антироботы поисковиков
RSS

Последние RSS
Книги о критическом мышлении
Наказывать за вмешательство в частную жизнь, Верховный суд
CI Academic Materials
CiMi.CON Evolution USA
Поиск в КЭШ поисковиков по запросу и пакету запросов
СайтСпутник: Многоязычность, Юникод, MS ACCESS
Новый курс OSINT от АИС
Год тюрьмы за отказ удалять
Книга "Строим доверие по методикам спецслужб"
аналог "Консультанта" о зарубежном законодательстве
Открытые данные ФНС
Получаем информацию по VIN
Competitive-Market Intelligence Conference, Berlin 2018
Не все VPN-сервисы одинаково полезны
«Яндекс» научился выдавать в поиске не скрытые Google-документы. Правда лавочку
War and marketing: 1937 July 7th vs. 2018 July 1st
Историческое. Агентурная разведка
Open Source Intelligence (OSINT) Tools and Resources Handbook
Top tips on gathering information about companies by using free online sources
Новое на блоге HRразведка

Самые активные 20 тем RSS
CI Academic Materials
Книги о критическом мышлении
Наказывать за вмешательство в частную жизнь, Верховный суд