Версия для печати

-   Форум Сообщества Практиков Конкурентной разведки (СПКР) http://forum.razved.info/
--  Приемы работы с программой СайтСпутник (SiteSputnik) http://forum.razved.info//index.php?f=38
--- Как наиболее полно скачать содержание сайта. http://forum.razved.info//index.php?t=759




-- Алексей Мыльников написал 27 января 2010 14:51
Посмотрел в интернете средства для скачивания содержания (контента) сайта, - не нашел ничего, кроме как запуска спайдера (паука) с главной страницы сайта.
Если в СайтСпутнике использовать построение карты сайта и базовые функции поиска в невидимом интернете (http://ab.vlink.ru/FFF/Help/SSInstr/SSInvisible.htm), то можно более полно скачать содержание (контент) сайта.

Не думаю, что это будет широко востребовано, но, так как есть пользователи, которые собирают при помощи SiteSputnik ссылки по заданной теме (речь идет о большом количестве ссылок), затем скачивают их в отдельную папку и полученный контент обрабатывают внешними программами, то "узкая" востребованность должна иметь место.

Суть подхода: на первом шаге собираются видимые из интернета ссылки; на втором, "отталкиваясь" от видимых ссылок, ищутся невидимые; на третьем эти ссылки скачиваются в отдельную папку.

ШАГ 1. Для поиска принадлежащих сайту видимых ссылок используются основные "собирательные" возможности программы СайтСпутник, а именно, выполняются десятки специальных запросов на основных поисковиках: Yahoo, Google, Яндекс, Bing, Altavista. Повторно найденные ссылки отбрасываются, а уникальные ссылки помещаются в специальный список "Объединение".

ШАГ 2. Поиск принадлежащих сайту невидимых ссылок осуществляется при помощи следующих базовых функций:
Поиск при помощи спайдера (паука). Он запускается с каждой ссылки.
Поиск в окрестности видимой ссылки или папки по "образу и подобию".
Поиск ссылок и папок со стандартными именами с использованием специальных словарей.
Поиск ссылок в папках открытых и папках, вложенных в открытые папки.

Преимущества такого подхода заключаются в следующем.
1. Если запустить спайдер с каждой ссылки из списка "Объединение", то количество собранных с его помощью уникальных ссылок будет не меньше, чем при его запуске только с главной страницы сайта, принадлежащей этому списку.
2. Применяется не только спайдер, но и еще три функции для поиска ссылок.
3. Упомянутые первые три функции поиска в невидимом интернете можно применять в любом порядке и любое количество раз до тех пор, пока перестанут находиться новые невидимые ссылки. Например, если Вы обнаружили при помощи поиска со словарем ссылку "_ttp://www.site.ru/files/href01.htm", то запуск с нее спайдера может привести к нахождению новых ссылок и папок. В свою очередь, в новой папке может быть найдена новая ссылка при помощи поиска со словарем.

Подробнее - здесь (http://ab.vlink.ru/FFF/Help/SSInstr/SSSiteCo.htm).

Модераторы, переместите, пожалуйста, этоу тему в "Приемы работы..."


Этот форум работает на скрипте Intellect Board
© 2004-2007, 4X_Pro, Объединенный Открытый Проект