Форум Сообщества Практиков Конкурентной разведки (СПКР) » Программируем пакеты СайтСпутника (для продвинутых юзеров) » Пакеты. Обходим Антироботы поисковиков |
<<Назад Вперед>> | Страницы: 1 2 * 3 4 | Печать |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5565 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
tungus1973, спасибо! ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
Искендер
Администратор
Всего сообщений: 5925 Рейтинг пользователя: 43 Ссылка Дата регистрации на форуме: 7 июня 2009 |
tungus1973 написал: Я использую програму "Offline Explorer Pro" (портативная версия называется "Portable Offline Browser") для исследования и скачивания сайтов. В ней есть одна очень интересная функция - "задать список прокси". В специальное окно нужно один раз ввести список прокси-серверов. В дальнейшем этот список можно дополнять, помещая новые прокси. Начав исследование или скачивание сайта, программа обращается к нему не напрямую, а через прокси, выбирая их случайным образом. Программа именно обращается к исследуемому сайту через прокси из списка или каким-то образом (не кидайте тяжелым в голову) эти прокси подставляет вместо реальных? Ну, вдруг такое возможно? |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Искендер написал: Как-то не задавался этим вопросом... Не знаю, как именно программа работает через прокси. Программа именно обращается к исследуемому сайту через прокси из списка или каким-то образом (не кидайте тяжелым в голову) эти прокси подставляет вместо реальных? Ну, вдруг такое возможно? |
vbl
Модератор форума
Откуда: Нижний Новгород Всего сообщений: 179 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 10 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 8 марта 2010 21:36 Сообщение отредактировано: 8 марта 2010 21:43 tungus1973 написал: Я использую програму "Offline Explorer Pro" Тоже пользуемся этой програмкой, но только версией Enterprise. Классная штука. Но, к сожалению, имеет свои ограничения. Так, опытным путем убедились, что есть ряд сайтов, где админами установлена какая-то защита (не каптча, ибо ничего ввести не предлагает, тупо блокирует), при любом скачивании, даже с максимальной паузой. Был бы очень признателен, если бы подсказали решение данной проблемы. tungus1973 написал: Начав исследование или скачивание сайта, программа обращается к нему не напрямую, а через прокси, выбирая их случайным образом. А программа в процессе скачивания одного сайта их может чередовать или она просто выбирает один и шпарит через него? Спасибо за таблицу, интересно. И еще вопросик, не подскажете имеется ли в ней возможность автоматического конвертирования страниц скачанного сайта в формат txt ? ---
Non progredi est regredi http://www.informnn.ru Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
vbl написал: Так, опытным путем убедились, что есть ряд сайтов, где админами установлена какая-то защита (не каптча, ибо ничего ввести не предлагает, тупо блокирует), при любом скачивании, даже с максимальной паузой. Был бы очень признателен, если бы подсказали решение данной проблемы. а какой-там user-agent используется? могут блокировать по нему - смените его либо блокируют из-за того что прокси находится в черном списке - попробуйте через другой прокси что за сайт-то ? |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 9 марта 2010 7:46 Сообщение отредактировано: 9 марта 2010 7:47 vbl написал: Перешлите разработчикам адреса таких сайтов и опишите проблему. Авторы программы хоть и работают в Америке, но это - русские ребята. На письма отвечают довольно быстро. Либо подскажут Вам как обойти защиту, либо через какое-то время внесут изменения в программу. пытным путем убедились, что есть ряд сайтов, где админами установлена какая-то защита (не каптча, ибо ничего ввести не предлагает, тупо блокирует) Проблема еще может быть, если сайт написан на flesh-технологии (особенно с шифрованием). С такими действительно сплошное мучение... vbl написал: Чередует. А программа в процессе скачивания одного сайта их может чередовать или она просто выбирает один и шпарит через него? vbl написал: Можете воспользоваться бесплатной утилитой " И еще вопросик, не подскажете имеется ли в ней возможность автоматического конвертирования страниц скачанного сайта в формат txt ?HtmlAsText". Она выбрасывает теги о оставляет текст в формате txt. |
vbl
Модератор форума
Откуда: Нижний Новгород Всего сообщений: 179 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 10 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 9 марта 2010 7:58 Сообщение отредактировано: 9 марта 2010 7:58 Vinni написал: что за сайт-то ? Например, вот этот - _ttp://resident.su/ru/ или вот этот _ttp://kursk.rosrabota.ru/ Попробуем сменить user-agent ---
Non progredi est regredi http://www.informnn.ru Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka |
vbl
Модератор форума
Откуда: Нижний Новгород Всего сообщений: 179 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 10 июня 2009 |
tungus1973 написал: Чередует. Спасибо tungus1973 написал: Можете воспользоваться бесплатной утилитой "HtmlAsText". Она выбрасывает теги о оставляет текст в формате txt. Ее сейчас и используем, просто это двойная работа получается и к тому же она работает только с htm и html, а всякие php, aspx и т.п. она не обрабатывает, а их достаточно много. Может есть и для них какая прога? ---
Non progredi est regredi http://www.informnn.ru Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
vbl написал: В "Offline Explorer" встроен перенос результатов в "TextPipe" (если он у вас есть), может быть существует какой-то плагин, который способен обрабатывать php, aspx? работает только с htm и html, а всякие php, aspx и т.п. она не обрабатывает, а их достаточно много. Может есть и для них какая прога? |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
этот просто считает число запросов с данного IP за некоторый промежуток времени (видимо достаточно большой и не покрываемый большим таймаутом), предлагает ввести капчу и блокирует запросы без ввода капчи так что тут спасет только параллельная закачка через большое число проксей vbl написал: Например, вот этот - _ttp://resident.su/ru/ аналогично - выдает код 503 и предлагает ввести капчу. без матлаба здесь не обойтись для обхода капчи |
<<Назад Вперед>> | Страницы: 1 2 * 3 4 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Программируем пакеты СайтСпутника (для продвинутых юзеров) » Пакеты. Обходим Антироботы поисковиков |
Самые активные 20 тем | |