Пакеты. Обходим Антироботы поисковиков

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Программируем пакеты СайтСпутника (для продвинутых юзеров) »   Пакеты. Обходим Антироботы поисковиков
RSS

Пакеты. Обходим Антироботы поисковиков

Пакеты. Обходим "антироботы" поисковиков

<<Назад  Вперед>>Страницы: 1 2 * 3 4
Печать
 
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009
tungus1973, спасибо!

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Искендер
Администратор

Всего сообщений: 5925
Рейтинг пользователя: 43


Ссылка


Дата регистрации на форуме:
7 июня 2009

tungus1973 написал:
[q]
Я использую програму "Offline Explorer Pro" (портативная версия называется "Portable Offline Browser") для исследования и скачивания сайтов. В ней есть одна очень интересная функция - "задать список прокси". В специальное окно нужно один раз ввести список прокси-серверов. В дальнейшем этот список можно дополнять, помещая новые прокси. Начав исследование или скачивание сайта, программа обращается к нему не напрямую, а через прокси, выбирая их случайным образом.
[/q]

Программа именно обращается к исследуемому сайту через прокси из списка или каким-то образом (не кидайте тяжелым в голову) эти прокси подставляет вместо реальных? Ну, вдруг такое возможно? :smile:

---
I`m not a Spy! I can do much better!
Информационные войны "под ключ"
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

Искендер написал:
[q]
Программа именно обращается к исследуемому сайту через прокси из списка или каким-то образом (не кидайте тяжелым в голову) эти прокси подставляет вместо реальных? Ну, вдруг такое возможно?
[/q]
Как-то не задавался этим вопросом... Не знаю, как именно программа работает через прокси.
vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 179
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009

tungus1973 написал:
[q]
Я использую програму "Offline Explorer Pro"
[/q]


Тоже пользуемся этой програмкой, но только версией Enterprise. Классная штука. Но, к сожалению, имеет свои ограничения. Так, опытным путем убедились, что есть ряд сайтов, где админами установлена какая-то защита (не каптча, ибо ничего ввести не предлагает, тупо блокирует), при любом скачивании, даже с максимальной паузой. Был бы очень признателен, если бы подсказали решение данной проблемы.



tungus1973 написал:
[q]
Начав исследование или скачивание сайта, программа обращается к нему не напрямую, а через прокси, выбирая их случайным образом.
[/q]


А программа в процессе скачивания одного сайта их может чередовать или она просто выбирает один и шпарит через него?

Спасибо за таблицу, интересно.

И еще вопросик, не подскажете имеется ли в ней возможность автоматического конвертирования страниц скачанного сайта в формат txt ?

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

vbl написал:
[q]
Так, опытным путем убедились, что есть ряд сайтов, где админами установлена какая-то защита (не каптча, ибо ничего ввести не предлагает, тупо блокирует), при любом скачивании, даже с максимальной паузой. Был бы очень признателен, если бы подсказали решение данной проблемы.
[/q]


а какой-там user-agent используется? могут блокировать по нему - смените его :wink:
либо блокируют из-за того что прокси находится в черном списке - попробуйте через другой прокси

что за сайт-то ?
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

vbl написал:
[q]
пытным путем убедились, что есть ряд сайтов, где админами установлена какая-то защита (не каптча, ибо ничего ввести не предлагает, тупо блокирует)
[/q]
Перешлите разработчикам адреса таких сайтов и опишите проблему. Авторы программы хоть и работают в Америке, но это - русские ребята. На письма отвечают довольно быстро. Либо подскажут Вам как обойти защиту, либо через какое-то время внесут изменения в программу.
Проблема еще может быть, если сайт написан на flesh-технологии (особенно с шифрованием). С такими действительно сплошное мучение...


vbl написал:
[q]
А программа в процессе скачивания одного сайта их может чередовать или она просто выбирает один и шпарит через него?
[/q]
Чередует.


vbl написал:
[q]
И еще вопросик, не подскажете имеется ли в ней возможность автоматического конвертирования страниц скачанного сайта в формат txt ?
[/q]
Можете воспользоваться бесплатной утилитой "HtmlAsText". Она выбрасывает теги о оставляет текст в формате txt.
vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 179
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009

Vinni написал:
[q]
что за сайт-то ?
[/q]


Например, вот этот - _ttp://resident.su/ru/ или вот этот _ttp://kursk.rosrabota.ru/

Попробуем сменить user-agent

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 179
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009

tungus1973 написал:
[q]
Чередует.
[/q]


Спасибо


tungus1973 написал:
[q]
Можете воспользоваться бесплатной утилитой "HtmlAsText". Она выбрасывает теги о оставляет текст в формате txt.
[/q]


Ее сейчас и используем, просто это двойная работа получается и к тому же она работает только с htm и html, а всякие php, aspx и т.п. она не обрабатывает, а их достаточно много. Может есть и для них какая прога?


---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

vbl написал:
[q]
работает только с htm и html, а всякие php, aspx и т.п. она не обрабатывает, а их достаточно много. Может есть и для них какая прога?
[/q]
В "Offline Explorer" встроен перенос результатов в "TextPipe" (если он у вас есть), может быть существует какой-то плагин, который способен обрабатывать php, aspx?
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

[q]

или вот этот _ttp://kursk.rosrabota.ru/
[/q]


этот просто считает число запросов с данного IP за некоторый промежуток времени (видимо достаточно большой и не покрываемый большим таймаутом), предлагает ввести капчу и блокирует запросы без ввода капчи :wink:
так что тут спасет только параллельная закачка через большое число проксей


vbl написал:
[q]
Например, вот этот - _ttp://resident.su/ru/
[/q]

аналогично - выдает код 503 и предлагает ввести капчу.

без матлаба здесь не обойтись для обхода капчи :laugh:
<<Назад  Вперед>>Страницы: 1 2 * 3 4
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Программируем пакеты СайтСпутника (для продвинутых юзеров) »   Пакеты. Обходим Антироботы поисковиков
RSS

Последние RSS
Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей

Самые активные 20 тем RSS