Форум Сообщества Практиков Конкурентной разведки (СПКР) » Программируем пакеты СайтСпутника (для продвинутых юзеров) » Пакеты. Обходим Антироботы поисковиков |
<<Назад Вперед>> | Страницы: 1 2 3 * 4 | Печать |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
vbl написал: В "Offline Explorer" встроен перенос результатов в "TextPipe" (если он у вас есть), может быть существует какой-то плагин, который способен обрабатывать php, aspx? работает только с htm и html, а всякие php, aspx и т.п. она не обрабатывает, а их достаточно много. Может есть и для них какая прога? |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
этот просто считает число запросов с данного IP за некоторый промежуток времени (видимо достаточно большой и не покрываемый большим таймаутом), предлагает ввести капчу и блокирует запросы без ввода капчи так что тут спасет только параллельная закачка через большое число проксей vbl написал: Например, вот этот - _ttp://resident.su/ru/ аналогично - выдает код 503 и предлагает ввести капчу. без матлаба здесь не обойтись для обхода капчи |
vbl
Модератор форума
Откуда: Нижний Новгород Всего сообщений: 179 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 10 июня 2009 |
Для: Vinni Ясно, спасибо. В первом случае попробуем список проксей настроить, а вот второй.... Программирование для меня темный лес. Ладно, бог с ним, есть аналогичный ресурс, без этих заморочек. Жалко только, что там база только с 2006 года. ---
Non progredi est regredi http://www.informnn.ru Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
vbl написал: а вот второй... а со вторым та же проблема и тот же способ решения |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Alexei Mylnikov написал: 2. Появился оператор: ^^Пауза=<число> Его можно вводить прямо в тексте пакета (или справа в запросе). Тоже столкнулся с антироботом по сему вопрос возник - а данный оператор (^^пауза=) работает по всему запросу или только в месте запроса где поставлен? Вопрос связан с тем, что антиробот только на нашем родном поисковике работает, а на других все нормально. По этой причине замедлять работу всего пакета не целесообразно, а нужно замедлиться только при обращении к определенному сервису. Иначе пакет выполняется уже тридцать минут и еще не закончился ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Иоанн написал: Тоже столкнулся с антироботом по сему вопрос возник - а данный оператор (^^пауза=) работает по всему запросу или только в месте запроса где поставлен? Вопрос связан с тем, что антиробот только на нашем родном поисковике работает, а на других все нормально. По этой причине замедлять работу всего пакета не целесообразно, а нужно замедлиться только при обращении к определенному сервису. Иначе пакет выполняется уже тридцать минут и еще не закончился Антиробот работает по всему пакету. Поисковики периодически меняют алгоритм борьбы с роботами. То Гугль "капризничает", то Яндекс, то Bing. Реально сделать оператор типа: ^^Пауза.Yandex=7; ^^Пауза.Google=3; и так далее... |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 3 июня 2010 11:14 Сообщение отредактировано: 3 июня 2010 12:09 Иоанн написал: Я в своё время, столкнувшись с той же проблемой, применял способ "пустых запросов": Тоже столкнулся с антироботом по сему вопрос возник - а данный оператор (^^пауза=) работает по всему запросу или только в месте запроса где поставлен? || Поисковик=n где: Поисковик - Yandex, Google, Mail, MSN и т.д. n - любое число больше 0. Перед знаком || ничего нет ("пустой запрос"). По такой команде открывается стартовая страничка выбранного поисковика без запроса. Таким образом делается некоторая пауза. Такие строчки "пустого запроса" можно вставлять перед строчкой с антироботным поисковиком. Еще один вариант - в настройках программы увеличить время задержки между запросами. Но в этом случае ВСЕ запросы будут выполняться медленнее. И уж конечно нужно перемешивать поисковики. То есть, если поставить запросы в таком порядке: Запрос 1 || Yandex=1000 Запрос 2 || Yandex=1000 Запрос 3 || Yandex=1000 то на 6-ом запросе Яндекс поинтересуется, а не робот ли Вы? А если запросы перемешать: Запрос 1 || Yandex=1000 Запрос 1 || Mail=1000 Запрос 1 || Google=1000 ... Запрос 2 || Yandex=1000 Запрос 2 || Mail=1000 Запрос 2 || Google=1000 то естественным образом получается задержка между запросами к каждому конкретному поисковику. |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Alexei Mylnikov написал: Реально сделать оператор типа: м-м-м-м стесняюсь спросить - т.е. этих операторов пока нет? tungus1973 написал: Я в своё время, столкнувшись с той же проблемой, применял способ "пустых запросов": Спасибо! ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 3 июня 2010 14:08 Сообщение отредактировано: 31 августа 2010 20:15 Иоанн написал: м-м-м-м стесняюсь спросить - т.е. этих операторов пока нет? Нет, пока только ^^Пауза=7; одна на все поисковики. ЗАМЕЧАНИЕ ОТ 31.08.10 ===================== Обсуждаемые проблемы решены. Можно ответить на капчу и делать "персональные" паузы на Яндексе, Гугле и Яху. Смотрите на этом форуме в другой теме - forum.razved.info/index.php?t=1044&p=13433#pp13433 |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Значит будем тасовать ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
<<Назад Вперед>> | Страницы: 1 2 3 * 4 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Программируем пакеты СайтСпутника (для продвинутых юзеров) » Пакеты. Обходим Антироботы поисковиков |
Самые активные 20 тем | |