Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » Как наиболее полно скачать содержание сайта. |
<<Назад Вперед>> | Печать |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 27 января 2010 14:51 Сообщение отредактировано: 27 января 2010 14:54
Посмотрел в интернете средства для скачивания содержания (контента) сайта, - не нашел ничего, кроме как запуска спайдера (паука) с главной страницы сайта. Если в СайтСпутнике использовать построение карты сайта и базовые функции поиска в невидимом интернете, то можно более полно скачать содержание (контент) сайта. Не думаю, что это будет широко востребовано, но, так как есть пользователи, которые собирают при помощи SiteSputnik ссылки по заданной теме (речь идет о большом количестве ссылок), затем скачивают их в отдельную папку и полученный контент обрабатывают внешними программами, то "узкая" востребованность должна иметь место. Суть подхода: на первом шаге собираются видимые из интернета ссылки; на втором, "отталкиваясь" от видимых ссылок, ищутся невидимые; на третьем эти ссылки скачиваются в отдельную папку. ШАГ 1. Для поиска принадлежащих сайту видимых ссылок используются основные "собирательные" возможности программы СайтСпутник, а именно, выполняются десятки специальных запросов на основных поисковиках: Yahoo, Google, Яндекс, Bing, Altavista. Повторно найденные ссылки отбрасываются, а уникальные ссылки помещаются в специальный список "Объединение". ШАГ 2. Поиск принадлежащих сайту невидимых ссылок осуществляется при помощи следующих базовых функций: Поиск при помощи спайдера (паука). Он запускается с каждой ссылки. Поиск в окрестности видимой ссылки или папки по "образу и подобию". Поиск ссылок и папок со стандартными именами с использованием специальных словарей. Поиск ссылок в папках открытых и папках, вложенных в открытые папки. Преимущества такого подхода заключаются в следующем. 1. Если запустить спайдер с каждой ссылки из списка "Объединение", то количество собранных с его помощью уникальных ссылок будет не меньше, чем при его запуске только с главной страницы сайта, принадлежащей этому списку. 2. Применяется не только спайдер, но и еще три функции для поиска ссылок. 3. Упомянутые первые три функции поиска в невидимом интернете можно применять в любом порядке и любое количество раз до тех пор, пока перестанут находиться новые невидимые ссылки. Например, если Вы обнаружили при помощи поиска со словарем ссылку "_ttp://www.site.ru/files/href01.htm", то запуск с нее спайдера может привести к нахождению новых ссылок и папок. В свою очередь, в новой папке может быть найдена новая ссылка при помощи поиска со словарем. Подробнее - здесь. Модераторы, переместите, пожалуйста, этоу тему в "Приемы работы..." |
<<Назад Вперед>> | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » Как наиболее полно скачать содержание сайта. |
Самые активные 20 тем | |