SiteSputnik WebSpider. Мониторинг изменений на сайтах

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   SiteSputnik WebSpider. Мониторинг изменений на сайтах
RSS

SiteSputnik WebSpider. Мониторинг изменений на сайтах

Отслеживание обновлений сайтов по запросу. Инструкция по применению.

<<Назад  Вперед>>Страницы: 1 2 3 4
Печать
 
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 857
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Данная публикация является вводной инструкцией по применению нового варианта программы SiteSputnik, получившего название SiteSputnik WebSpider. В ней достаточно просто описывается назначение и способ применения этого варианта программы.


Назначение программы SiteSputnik WebSpider


Программа SiteSputnik WebSpider следит за обновлениями уже существующих страниц, а именно, за появлением на них новой информации, удовлетворяющей запросу, заданному пользователем. В этом ее отличие от варианта SiteSputnik News, предназначенного для мониторинга потока новых страниц.

Программы дополняют друг друга. Вместе они обеспечивают мониторинг открытых источников интернета на заданную тему.

Язык, на котором формируется запрос, которому должны удовлетворять изменения на страницах, похож на язык запросов Яндекса.
Поскольку запрос выполняется после скачивания и сравнения нового контента страницы со старым, будем называть его пост-запросом.
Пост-запрос - это критерий, которому должны удовлетворять контенты обновлений на страницах.

Под мониторингом ниже будем понимать весь процесс обработки информации, а именно: скачивание и сохранение веб-страниц, сравнение их контента с предыдущим состоянием, выделение фрагментов новой информации и проверка удовлетворения их контентов пост-запросу.


Описание демонстрационной задачи


Возможности WebSpider(а) продемонстрируем на наглядном примере.
Покажем как можно организовать отслеживание появления новой информации в интернете о самой программе SiteSputnik (СайтСпутник) и её авторе.
Для этого пост-запросу поручим проверять наличие словоформ от слов "СайтСпутник", "SiteSputnuk" и стоящих рядом слов "Алексей" и "Мыльников" в обновлениях страниц из нескольких открытых источников, в которых может появиться интересующая нас информация.

В качестве таких источников возьмем сайты, живые журналы, RSS-потоки или поисковые страницы с ресурсов Бориса Воронцова, Александра Кузина, Елены Лариной, Алексея Мыльникова, Игоря Нежданова, Дмитрия Петряшова, Романа Ромачёва, Евгения Ющука, а также обновившиеся темы форума СПКР и первую поисковую страницу Яндекса по запросу "SiteSputnik".


Решение демонстрационной задачи

Последовательность действий пользователя такова.

    Создайте Ящик (папку), например, с именем "О СайтСпутнике".
    Это простая, хорошо известная пользователям программы процедура.
    Она выполняется следующим образом:

    - выбираем ящик (папку) на вкладке "Поиск в Интернете",
    - выбираем в главном меню пункт "Ящик - Создать новый подобный Ящик...",
    - в появившемся окне вводим его имя "О СайтСпутнике",
    - нажимаем на кнопку "Создать".

    Определите пост-запрос.
    Выбираем в главном меню пункт: "Настройки - Параметры - вкладка WebSpider".
    В графе "Пост-запрос" (смотрите синюю стрелку на картинке ниже) определяем критерий, которому должны удовлетворять изменения на сайтах.





    Пояснения.
    Заданный на картинке Пост-запрос буквально означает следующее. Нас будут интересовать изменения на сайтах, в которых упомянуты словоформы от слов "СайтСпутник", или "SiteSputnik", или двух слов "Алексей" и "Мыльников", стоящих рядом.
    Пост-запрос выполняется над новыми фрагментами страниц сайтов. То есть, WebSpider находит изменения контента каждой страницы относительно предыдущего её состояния и выполняет пост-запрос только над изменениями, а не над всей страницей.



    Составьте пакет - список интересующих Вас сайтов, страниц, RSS-потоков.
    Это делается один раз для каждой темы. При необходимости, список может быть отредактирован.

    Нажмите на иконку "Золотой ключик", затем на кнопку "Пакет" и в открывшемся окне введите адреса ресурсов и глубину проникновения WebSpider(а) для каждого из них.
    Окно показано на картинке ниже.



    Пояснения.
    В 1-ом столбце прописывается адрес сайта, ресурса, страницы или RSS-потока.
    Во 2-ом - WebSpider (паук), который собственно выполняет скачивание и проверки.
    В 3-ем - глубина поиска (глубина проникновения WebSpider(а)).
    В 4-ом - можно ввести комментарии. Ознакомьтесь с ними.


    В качестве адреса страницы можно, в частности, указать обращение к поисковой странице. Смотрите последний адрес.
    Для него глубину проникновения паука мы установили равной 1.
    Это означает, что мониторинг будет проводиться не только над самой поисковой страницей, но и над ссылками размещенными на ней.
    Чтобы не мониторить ненужные ссылки, которые присутствуют на поисковой странице, применим фильтр.
    На первой картинке на него указывает серая стрелка.
    Фильтр содержит две лексемы. Адреса ссылок, содержащие эти лексемы, не будут учитываться при мониторинге.


    На картинке выше зеленая стрелка указывает на момент выбора одного из трех стандартных вариантов WebSpider(а).
    Затем, при необходимости, в колонке Стр. пользователь самостоятельно может прописать любую глубину поиска (проникновения WebSpider(а)).
    Наибольшее практическое значение имеют первые два варианта.

    Выполните мониторинг.
    Для этого нажмите на кнопку "Совместно".
    Первое выполнение пакета - это практически просто создание базы страниц, относительно которой будет проводиться мониторинг при следующих выполнениях.
    Хотя, как написано ниже, в качестве нового фрагмента такой страницы берется весь её контент, над которым и выполняется пост-запрос.

    Если ссылка исчезнет, а потом вновь появится, то мониторинг будет проводиться относительно её последнего состояния.

    Замечание.
    Перед первым выполнением мониторинга рекомендуется предварительно сохранить сформированный пакет.
    Для этого воспользуйтесь кнопкой "Сохранение".



Другие возможности WebSpider(а)

В настоящей реализации программы SiteSputnik WebSpider от 23.07.12 уже можно делать следующее.

    Накладывать фильтры на адреса ссылок, чтобы при глубоком проникновении паука анализировать только интересующие адреса.

    Применять фильтры для контентов новых фрагментов, чтобы отбрасывать заведомо ненужные фрагменты, или верхнюю, или нижнюю часть фрагмента.

    Важная информация.
    Собственно, описанные в этом абзаце действия должны применяться в реальных задачах.
    В пакете (на второй картинке) можно прописать одну или несколько Рубрик.
    Каждая Рубрика может содержать вложенные Рубрики.
    Каждая Рубрика - суть Пост-запрос, определяющий условия попадания в Рубрику новых фрагментов.
    Рубрики из SiteSputnik WebSpider и SiteSputnik News абсолютно эквивалентны: в обоих вариантах программы могут быть применены одни и те же Рубрики.
    Соответственно, в SiteSputnik WebSpider можно задействовать несколько сложных древовидных структур Рубрик (задать очень много разнообразных пост-запросов к нескольким источникам), а в SiteSputnik News теперь можно дополнительно применить один пост-запрос, не обращаясь к Рубрикам.
    На второй картинке коричневая стрелка показывает где и как прописываются Рубрики.

    Результат применения каждого пост-запроса можно отправлять в клиентские папки.
    В качестве них могут выступать папки Вашего компьютера, папки локальной сети и папки глобальной сети, а именно:
    папки корпоративного сайта или е-майл-адреса (отправка по электронной почте).

    При глубине поиска больше нуля WebSpider (паук) будет обнаруживать новые страницы.
    При первом обнаружении новой страницы, её контент рассматривается как один "большой" новый фрагмент, который также отправляется на пост-запрос и/или на рубрикацию.

    Можно прописать максимальное количество ссылок, достигнув которое паук не будет проникать далее вширь и вглубь по ссылкам.

    Если ссылки "позволяют", то можно применить к ним автоматическое выделение значимого контента, используемого при мониторинге.
    При необходимости можно использовать "Настройки сайтов" для этих целей.

Подробнее о технических деталях, о перечисленных и некоторых других возможностях программы - в следующей публикации.
Здесь отмечу только то, что на мой взгляд является главным.
    Главная информация.
    Предложенная технология проста в применение от начала до конца.
    В частности, она позволяет пользователю, не прибегая к анализу html-кода ссылки, получать хорошие результаты, практически без мусора, за счет прохождения найденных фрагментов новой информации через дополнительный фильтр (пост-запрос).
    Мусор автоматически отсеивается пост-запросом, а не вручную пользователем посредством указания от каких HTML-тегов до каких HTML-тегов находятся интересующие его изменения на страницах.
    Например, в нашем и в подавляющем большинстве случаев, изменения времени, дат, счетчиков, обновления рекламы будут автоматически отфильтрованы пост-запросом и не попадут в выдачу.

    Не нужно применять требующий специальных навыков Мастер подключения новых источников, достаточно просто вписать адреса интересующих источников в пакет.

    Также автоматически находятся и ставятся на мониторинг новые ссылки, которые появляются в исследуемых источниках.

В настоящее время проводятся работы по интеграции SiteSputnik WebSpider, SiteSputnik News и SiteSputnik Station, что так же является составной частью разрабатываемой технологии мониторинга открытых источников интернета.


Подробнее в отдельной публикации - sitesputnik.ru/Help/SSWebSpider.htm



Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 857
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Описанное в старт-топике в настоящее время доступно для испытаний из SiteSputnik News.

Единственно, перепишите прикрепленную папку в Alias\Internet\Ссылки открытые\Рубрики и выполните из главного меню: "Ящик - Дерево ящиков - Обновить".

Прикрепленный файл (Пост-запрос., 5448 байт, скачан: 279 раз)
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 857
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
В прикрепленном файле то, что "выцарапал" этот пакет на 10:00 24.07.12 относительно 07:00 24.01.12
Фрагменты с новой информацией отделены друг от друга тонкой линией.

Прикрепленный файл (Пост-запрос_1.htm, 4576 байт, скачан: 491 раз)
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Данная технология удобна в следующих случаях:
- когда нужно контролировать изменение информации на конкретной странице (текст Закона, прайс, состав учредителей или ТОПов, поставщики-клиенты и т.п.);
- когда нужно отлавливать определенные изменения на заранее известной странице и/или на сайте;
- когда нужно извлекать информацию из новостного потока, но подключить его к СайтСпутнику не получается;
- когда некогда подключать новый источник, а результат нужен уже сейчас.

В общем кто в курсе - замена WSW, причем с интересными возможностями и под углом работы с новостями, а не просто отслеживание изменений.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 857
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009


Вот на главную страницу it2b, задействованную в мониторинге, Bot принес информацию с CI2B о публикации из 3-го топика.

WebSpider обнаружил именно это, хотя изменений на задействованных источниках было много. Они не по теме, и перебирать страницы в поиске нужных изменений не надо, но при необходимости, можно ознакомится со всеми изменениями - они в списке "Символьный поток".

PetroFF
Долгожитель форума

Всего сообщений: 270
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
31 янв. 2012
Ух...!! Как интересно, спасибо за развитие проекта!
Дело конечно не моё, но цена получилась махровая... 55 000 руб. + 20 000 руб. = 75 000 руб. Я понимаю, что цена свалилась не с потолка, а как сумма чел\час затраченных на разработку, но "маркетинг в этом случае рулит". Подешевле бы за совмещение двух прекрасных модулей :beer2:... глядишь и "нас" тут бы было больше, а от этого только всем интереснее! :orator:
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5730
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

PetroFF написал:
[q]
цена получилась махровая... 55 000 руб. + 20 000 руб. = 75 000 руб
[/q]

Особенно против 40 - 100 евро за WSW (раз уж о его замене речь идет).
Если цена действительно такова, мне кажется, надо бы более четко объяснить - в чем преимущество новой программы, по сравнению с WSW, которое способно перекрыть эту разницу.

Тем более, что, как мне со стороны видится, СайтСпутник все дальше уходит от простой и интуитивно понятной программы в область массы настроек, которым надо специально учиться. Это, в некотором роде, похоже на сравнение Windows и Mac OS. Первая, конечно, очень гибко настраивается (много ли любителей становиться сисадминами?), зато вторая - просто (т.е. интуитивно понятно и без заморочек) работает.
Вопрос этот задавать, бесспорно, будут, и лучше на него получить ответ здесь всем вместе. Как мне кажется.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 857
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
А причем здесь WSW? Он показывает (подсвечивает) изменения на конкретных страницах, а здесь развитие SiteSputnik News для Рубрикации изменений (обновлений) на страницах, причем, при необходимости, страницы могут находиться пауком.

Насчет усложнения. Ровно наоборот - проще некуда для такого функционала: прописал адреса стартовых страниц, глубину проникновения паука и Пост-запрос или Рубрики и всё. Результат - новостные ленты, содержащие фрагменты обновлений, относящиеся к интересующим темам.

Это уникальный функционал, по крайней мере, аналоги мне не известны.

CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5730
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Алексей Мыльников написал:
[q]
А причем здесь WSW? Он показывает (подсвечивает) изменения на конкретных страницах, а здесь развитие SiteSputnik News для Рубрикации изменений (обновлений) на страницах, причем, при необходимости, страницы могут находиться пауком.
[/q]

Ну, собственно, я задумался о различиях именно с WSW, прочитав вот эту фразу:

Игорь Нежданов написал:
[q]
В общем кто в курсе - замена WSW, причем с интересными возможностями и под углом работы с новостями, а не просто отслеживание изменений.
[/q]




Алексей Мыльников написал:
[q]
Насчет усложнения. Ровно наоборот - проще некуда для такого функционала: прописал адреса стартовых страниц, глубину проникновения паука и Пост-запрос или Рубрики и всё. Результат - новостные ленты, содержащие фрагменты обновлений, относящиеся к интересующим темам.
[/q]

Возможно, и так. Я на количество разных кнопок смотрю просто. Лично мне с 90% из них дел иметь не приходилось, я говорю о субъективном восприятии сообщений о новых настройках разного рода. Допускаю, что мое субъективное восприятие неверно.
В таком случае, как мне кажется, имеет смысл позиционировать СайтСпутник именно как ОЧЕНЬ ПРОСТОЕ решение. И как-то продемонстрировать это на примерах.
Вполне возможно, что всегда есть любители каких-то экзотических настроек. Но, как правило, их немного.


Алексей Мыльников написал:
[q]
Это уникальный функционал, по крайней мере, аналоги мне не известны.
[/q]

Ну не знаю. "Проверка изменений на страницах" - это само по себе точно не уникальный функционал.
А если уникальность таки есть (я верю, что есть, я не спорю, а именно уточняю ее) - хотелось бы внятно понимать - в чем она заключается и почему это действительно важно.

Вот вопросы, котрые у меня возникли. Предлагаю рассматривать меня как чайника в СайтСпутнике, которому интересно понять - что за новые штуки в нем появились. Как правило корпоративные аналитики примерно такими и являются.


Игорь Нежданов написал:
[q]
Данная технология удобна в следующих случаях:
- когда нужно контролировать изменение информации на конкретной странице (текст Закона, прайс, состав учредителей или ТОПов, поставщики-клиенты и т.п.);
[/q]

В чистом виде - функционал WSW (как мне кажется). Или все же нет?



Игорь Нежданов написал:
[q]
- когда нужно отлавливать определенные изменения на заранее известной странице и/или на сайте;
[/q]

"когда нужно отлавливать определенные изменения на заранее известной странице" - в чем разница с предыдущим пунктом?

"и/или на сайте" - тут да, тут, как я понимаю, речь идет о том, что поисковикам стал известен адрес на сайте, который ранее был неизвестен?
Но если да, то чем это отличается от построения карты сайта в версии "Инвизибл"?



Игорь Нежданов написал:
[q]
- когда нужно извлекать информацию из новостного потока, но подключить его к СайтСпутнику не получается;
[/q]

Это что значит? Кроме, конечно, того, что "далеко не всегда, потратив на полноценный СайтСпутник деньги, вы сможете реально мониторить новостные потоки".



Игорь Нежданов написал:
[q]
- когда некогда подключать новый источник, а результат нужен уже сейчас.
[/q]

А это что значит? Первое что приходит в голову - "подключение источников - такой большой геморрой, что даже не думайте о них, если вам прямо сейчас надо результат". А на самом деле о чем речь?

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 857
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

CI-KP написал:
[q]
Алексей Мыльников написал:
[q]

Это уникальный функционал, по крайней мере, аналоги мне не известны.
[/q]

Ну не знаю. "Проверка изменений на страницах" - это само по себе точно не уникальный функционал.
[/q]

Уникальность в следующем.

1. Есть программы, которые рубрицируют потоки новых ссылок. Это делает тот же SiteSputnik News. Есть программы, которые выделяют цветом обновления на странице. Это умеем упомятый WSW. Нет программы, которая умеют и то, и другое, а именно: выделить фрагменты новой информации и Рубрицировать их. SiteSputnik Webspider находит контенты обновлений страниц и Рубрицирует именно их, а не весь контент страниц.

2. Есть паук, который сам по себе не уникальное явление, но при наличие п.1 позволяет находить новые ссылки и ставить на мониторинг обновление их контента. Паук, делающий такую работу, мне не известен.

3. Существование в рамках одной программы мониторинга потока новых страниц и мониторинга обновления уже существующих страниц, мне так же не известно.


CI-KP написал:
[q]
Игорь Нежданов написал:
[q]

- когда нужно извлекать информацию из новостного потока, но подключить его к СайтСпутнику не получается;
[/q]

Это что значит? Кроме, конечно, того, что "далеко не всегда, потратив на полноценный СайтСпутник деньги, вы сможете реально мониторить новостные потоки".
[/q]

Думаю, что здесь имелось ввиду другое. Абсолютно всё подключить не возможно. Редко, но могут ещё попасться страницы, которые в SiteSputnik News не удается подключить. В этом случае можно "отдать" такие страницы на "WebSpider=1". Для новостных потоков это приведет к тому, что фрагментом изменений будет вся страница, она и попадет под рубрикацию. Минус такого подхода - "грязнее" выдача, взамен - проще организовать мониторинг. Я так понял Игоря.

CI-KP написал:
[q]
Игорь Нежданов написал:

[q]

- когда некогда подключать новый источник, а результат нужен уже сейчас.
[/q]

А это что значит? Первое что приходит в голову - "подключение источников - такой большой геморрой, что даже не думайте о них, если вам прямо сейчас надо результат". А на самом деле о чем речь?
[/q]

Вы абсолютно правы - подключить источники не очень просто. Такова техническая обстановка. Именно по этой причине SiteSputnik - пожалуй едиственная программа, которая в январе 2009 года уже имела Мастер для подключения встроенных в сайты поисков. Какая программа это умеет делать в 2012 году? Если кому-то известно, то приведите пример. Кстати, прописывание в WSW: от такого-то тега до такого-то тега мне нужно обнаруживать изменения на странице примерно равна трудоемкости подключения нового источника.


<<Назад  Вперед>>Страницы: 1 2 3 4
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   SiteSputnik WebSpider. Мониторинг изменений на сайтах
RSS

Последние RSS
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
ВС разрешил пропускать работу без разрешения работодателя
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей
Лог-файл в программе СайтСпутник
шантаж, угрозы по Интернету
Практически весь интернет становится русскоязычным
SiteSputnik. Об одном подходе к мониторингу Телеграм
Безопасность при работе на ПК
Книги о критическом мышлении
Наказывать за вмешательство в частную жизнь, Верховный суд
CI Academic Materials

Самые активные 20 тем RSS
SiteSputnik-Bot: Боты в программе СайтСпутник