Как наиболее полно скачать содержание сайта.

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Как наиболее полно скачать содержание сайта.
RSS

Как наиболее полно скачать содержание сайта.

<<Назад  Вперед>>Печать
 
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 872
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Посмотрел в интернете средства для скачивания содержания (контента) сайта, - не нашел ничего, кроме как запуска спайдера (паука) с главной страницы сайта.
Если в СайтСпутнике использовать построение карты сайта и базовые функции поиска в невидимом интернете, то можно более полно скачать содержание (контент) сайта.

Не думаю, что это будет широко востребовано, но, так как есть пользователи, которые собирают при помощи SiteSputnik ссылки по заданной теме (речь идет о большом количестве ссылок), затем скачивают их в отдельную папку и полученный контент обрабатывают внешними программами, то "узкая" востребованность должна иметь место.

Суть подхода: на первом шаге собираются видимые из интернета ссылки; на втором, "отталкиваясь" от видимых ссылок, ищутся невидимые; на третьем эти ссылки скачиваются в отдельную папку.

ШАГ 1. Для поиска принадлежащих сайту видимых ссылок используются основные "собирательные" возможности программы СайтСпутник, а именно, выполняются десятки специальных запросов на основных поисковиках: Yahoo, Google, Яндекс, Bing, Altavista. Повторно найденные ссылки отбрасываются, а уникальные ссылки помещаются в специальный список "Объединение".

ШАГ 2. Поиск принадлежащих сайту невидимых ссылок осуществляется при помощи следующих базовых функций:
Поиск при помощи спайдера (паука). Он запускается с каждой ссылки.
Поиск в окрестности видимой ссылки или папки по "образу и подобию".
Поиск ссылок и папок со стандартными именами с использованием специальных словарей.
Поиск ссылок в папках открытых и папках, вложенных в открытые папки.

Преимущества такого подхода заключаются в следующем.
1. Если запустить спайдер с каждой ссылки из списка "Объединение", то количество собранных с его помощью уникальных ссылок будет не меньше, чем при его запуске только с главной страницы сайта, принадлежащей этому списку.
2. Применяется не только спайдер, но и еще три функции для поиска ссылок.
3. Упомянутые первые три функции поиска в невидимом интернете можно применять в любом порядке и любое количество раз до тех пор, пока перестанут находиться новые невидимые ссылки. Например, если Вы обнаружили при помощи поиска со словарем ссылку "_ttp://www.site.ru/files/href01.htm", то запуск с нее спайдера может привести к нахождению новых ссылок и папок. В свою очередь, в новой папке может быть найдена новая ссылка при помощи поиска со словарем.

Подробнее - здесь.

Модераторы, переместите, пожалуйста, этоу тему в "Приемы работы..."

<<Назад  Вперед>>Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Как наиболее полно скачать содержание сайта.
RSS

Последние RSS
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей
Лог-файл в программе СайтСпутник

Самые активные 20 тем RSS