SiteSputnik WebSpider. Мониторинг изменений на сайтах

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   SiteSputnik WebSpider. Мониторинг изменений на сайтах
RSS

SiteSputnik WebSpider. Мониторинг изменений на сайтах

Отслеживание обновлений сайтов по запросу. Инструкция по применению.

<<Назад  Вперед>>Страницы: 1 2 3 * 4
Печать
 
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Разобрались после сепаратных переговоров...

Значит так - если по какой то причине не получилось подключить страницу как источник информации (ни поисковик, ни РСС). Не нашел начало пункта, не знаю как пользоваться поиском в txt файлах, еще что или просто лень, то можно задействовать функцию WebSpider. В этом случае СайтСпутник действует следующим образом:
- "фотографирует" страницу, проходит по всем ссылкам и выкачивает оттуда контент (на этом этапе много лишнего);
- при повторном проходе выявляет новое по сравнению с предыдущей версией и забирает контент только с новых ссылок;
- ну и рубрицирует найденное.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 797
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Спасибо!
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
К стати - можно задать глубину прохождения по ссылкам..... и при необходимости выкачать весь сайт.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Пытался протестировать систему мониторинга по инструкции, изложенной на первой странице ветки. Возможно, что-то не так делаю, но вместо полных текстов страниц отображаются только заголовки и теги.


Прикрепленный файл (SiteSputnik.JPG, 76641 байт, скачан: 586 раз)
petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Вот пакет

Прикрепленный файл (paket.JPG, 57339 байт, скачан: 651 раз)
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 857
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]
Вот пакет
[/q]

1. После Новости поставьте знак "точка с запятой",
2. Не Рубрики/Сайтпутник, a Рубрики\СайтСпутник.

Чтобы не делать синтаксических ошибок, выбирайте эти операторы из меню (см. красную и зеленую галочки):



Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 857
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Игорь Нежданов написал:
[q]
Разобрались после сепаратных переговоров...

Значит так - если по какой то причине не получилось подключить страницу как источник информации (ни поисковик, ни РСС). Не нашел начало пункта, не знаю как пользоваться поиском в txt файлах, еще что или просто лень, то можно задействовать функцию WebSpider. В этом случае СайтСпутник действует следующим образом:
- "фотографирует" страницу, проходит по всем ссылкам и выкачивает оттуда контент (на этом этапе много лишнего);
- при повторном проходе выявляет новое по сравнению с предыдущей версией и забирает контент только с новых ссылок;
- ну и рубрицирует найденное.
[/q]

Да, это так (это про источник "|| WebSpider=N"), но в топике #23, всё-таки, речь не об этом.

в СайтСпутнике есть оператор:

^^WebSpider;

Если он стоит в пакете вместо оператора ^^Новости;, то СайтСпутник переключается на алгоритм нахождения и Рубрикации обновлений по пакету запросов.

То есть, выполняется поиск, если находятся новые относительно всех выполненных ранее пакетов ссылки, то они целиком попадают на Рубрикацию. Если ссылка хотя бы один раз уже "попадалась", то СайтСпутник возьмет последнее состояние ссылки, определит что в нем появилось новое (новые фрагменты, обновления) и Рубрицирует эти обновления по тем же Рубрикам, что и новые ссылки.

Если Вы мониторите обновление по пакету запросов в поисковиках, то рекомендуется в "Настройках" убрать выделение значимого контента ссылки (см. на вкладке News внизу набранный мелким шрифтом параметр:
"Не выделять контент новосити из ссылки (оставлять контент ссылки "как есть")).
Если это пакет запросов к "хорошим" источникам , то этого делать не надо. Да, при отказе от выделения контента ссылки всё будет не так "красиво", но не приведет к потере значимой информации.

<<Назад  Вперед>>Страницы: 1 2 3 * 4
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   SiteSputnik WebSpider. Мониторинг изменений на сайтах
RSS

Последние RSS
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
ВС разрешил пропускать работу без разрешения работодателя
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей
Лог-файл в программе СайтСпутник
шантаж, угрозы по Интернету
Практически весь интернет становится русскоязычным
SiteSputnik. Об одном подходе к мониторингу Телеграм
Безопасность при работе на ПК
Книги о критическом мышлении
Наказывать за вмешательство в частную жизнь, Верховный суд
CI Academic Materials

Самые активные 20 тем RSS
SiteSputnik-Bot: Боты в программе СайтСпутник