SiteSputnik WebSpider. Мониторинг изменений на сайтах

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   SiteSputnik WebSpider. Мониторинг изменений на сайтах
RSS

SiteSputnik WebSpider. Мониторинг изменений на сайтах

Отслеживание обновлений сайтов по запросу. Инструкция по применению.

<<Назад  Вперед>>Страницы: 1 2 3 4
Печать
 
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Данная публикация является вводной инструкцией по применению нового варианта программы SiteSputnik, получившего название SiteSputnik WebSpider. В ней достаточно просто описывается назначение и способ применения этого варианта программы.


Назначение программы SiteSputnik WebSpider


Программа SiteSputnik WebSpider следит за обновлениями уже существующих страниц, а именно, за появлением на них новой информации, удовлетворяющей запросу, заданному пользователем. В этом ее отличие от варианта SiteSputnik News, предназначенного для мониторинга потока новых страниц.

Программы дополняют друг друга. Вместе они обеспечивают мониторинг открытых источников интернета на заданную тему.

Язык, на котором формируется запрос, которому должны удовлетворять изменения на страницах, похож на язык запросов Яндекса.
Поскольку запрос выполняется после скачивания и сравнения нового контента страницы со старым, будем называть его пост-запросом.
Пост-запрос - это критерий, которому должны удовлетворять контенты обновлений на страницах.

Под мониторингом ниже будем понимать весь процесс обработки информации, а именно: скачивание и сохранение веб-страниц, сравнение их контента с предыдущим состоянием, выделение фрагментов новой информации и проверка удовлетворения их контентов пост-запросу.


Описание демонстрационной задачи


Возможности WebSpider(а) продемонстрируем на наглядном примере.
Покажем как можно организовать отслеживание появления новой информации в интернете о самой программе SiteSputnik (СайтСпутник) и её авторе.
Для этого пост-запросу поручим проверять наличие словоформ от слов "СайтСпутник", "SiteSputnuk" и стоящих рядом слов "Алексей" и "Мыльников" в обновлениях страниц из нескольких открытых источников, в которых может появиться интересующая нас информация.

В качестве таких источников возьмем сайты, живые журналы, RSS-потоки или поисковые страницы с ресурсов Бориса Воронцова, Александра Кузина, Елены Лариной, Алексея Мыльникова, Игоря Нежданова, Дмитрия Петряшова, Романа Ромачёва, Евгения Ющука, а также обновившиеся темы форума СПКР и первую поисковую страницу Яндекса по запросу "SiteSputnik".


Решение демонстрационной задачи

Последовательность действий пользователя такова.

    Создайте Ящик (папку), например, с именем "О СайтСпутнике".
    Это простая, хорошо известная пользователям программы процедура.
    Она выполняется следующим образом:

    - выбираем ящик (папку) на вкладке "Поиск в Интернете",
    - выбираем в главном меню пункт "Ящик - Создать новый подобный Ящик...",
    - в появившемся окне вводим его имя "О СайтСпутнике",
    - нажимаем на кнопку "Создать".

    Определите пост-запрос.
    Выбираем в главном меню пункт: "Настройки - Параметры - вкладка WebSpider".
    В графе "Пост-запрос" (смотрите синюю стрелку на картинке ниже) определяем критерий, которому должны удовлетворять изменения на сайтах.





    Пояснения.
    Заданный на картинке Пост-запрос буквально означает следующее. Нас будут интересовать изменения на сайтах, в которых упомянуты словоформы от слов "СайтСпутник", или "SiteSputnik", или двух слов "Алексей" и "Мыльников", стоящих рядом.
    Пост-запрос выполняется над новыми фрагментами страниц сайтов. То есть, WebSpider находит изменения контента каждой страницы относительно предыдущего её состояния и выполняет пост-запрос только над изменениями, а не над всей страницей.



    Составьте пакет - список интересующих Вас сайтов, страниц, RSS-потоков.
    Это делается один раз для каждой темы. При необходимости, список может быть отредактирован.

    Нажмите на иконку "Золотой ключик", затем на кнопку "Пакет" и в открывшемся окне введите адреса ресурсов и глубину проникновения WebSpider(а) для каждого из них.
    Окно показано на картинке ниже.



    Пояснения.
    В 1-ом столбце прописывается адрес сайта, ресурса, страницы или RSS-потока.
    Во 2-ом - WebSpider (паук), который собственно выполняет скачивание и проверки.
    В 3-ем - глубина поиска (глубина проникновения WebSpider(а)).
    В 4-ом - можно ввести комментарии. Ознакомьтесь с ними.


    В качестве адреса страницы можно, в частности, указать обращение к поисковой странице. Смотрите последний адрес.
    Для него глубину проникновения паука мы установили равной 1.
    Это означает, что мониторинг будет проводиться не только над самой поисковой страницей, но и над ссылками размещенными на ней.
    Чтобы не мониторить ненужные ссылки, которые присутствуют на поисковой странице, применим фильтр.
    На первой картинке на него указывает серая стрелка.
    Фильтр содержит две лексемы. Адреса ссылок, содержащие эти лексемы, не будут учитываться при мониторинге.


    На картинке выше зеленая стрелка указывает на момент выбора одного из трех стандартных вариантов WebSpider(а).
    Затем, при необходимости, в колонке Стр. пользователь самостоятельно может прописать любую глубину поиска (проникновения WebSpider(а)).
    Наибольшее практическое значение имеют первые два варианта.

    Выполните мониторинг.
    Для этого нажмите на кнопку "Совместно".
    Первое выполнение пакета - это практически просто создание базы страниц, относительно которой будет проводиться мониторинг при следующих выполнениях.
    Хотя, как написано ниже, в качестве нового фрагмента такой страницы берется весь её контент, над которым и выполняется пост-запрос.

    Если ссылка исчезнет, а потом вновь появится, то мониторинг будет проводиться относительно её последнего состояния.

    Замечание.
    Перед первым выполнением мониторинга рекомендуется предварительно сохранить сформированный пакет.
    Для этого воспользуйтесь кнопкой "Сохранение".



Другие возможности WebSpider(а)

В настоящей реализации программы SiteSputnik WebSpider от 23.07.12 уже можно делать следующее.

    Накладывать фильтры на адреса ссылок, чтобы при глубоком проникновении паука анализировать только интересующие адреса.

    Применять фильтры для контентов новых фрагментов, чтобы отбрасывать заведомо ненужные фрагменты, или верхнюю, или нижнюю часть фрагмента.

    Важная информация.
    Собственно, описанные в этом абзаце действия должны применяться в реальных задачах.
    В пакете (на второй картинке) можно прописать одну или несколько Рубрик.
    Каждая Рубрика может содержать вложенные Рубрики.
    Каждая Рубрика - суть Пост-запрос, определяющий условия попадания в Рубрику новых фрагментов.
    Рубрики из SiteSputnik WebSpider и SiteSputnik News абсолютно эквивалентны: в обоих вариантах программы могут быть применены одни и те же Рубрики.
    Соответственно, в SiteSputnik WebSpider можно задействовать несколько сложных древовидных структур Рубрик (задать очень много разнообразных пост-запросов к нескольким источникам), а в SiteSputnik News теперь можно дополнительно применить один пост-запрос, не обращаясь к Рубрикам.
    На второй картинке коричневая стрелка показывает где и как прописываются Рубрики.

    Результат применения каждого пост-запроса можно отправлять в клиентские папки.
    В качестве них могут выступать папки Вашего компьютера, папки локальной сети и папки глобальной сети, а именно:
    папки корпоративного сайта или е-майл-адреса (отправка по электронной почте).

    При глубине поиска больше нуля WebSpider (паук) будет обнаруживать новые страницы.
    При первом обнаружении новой страницы, её контент рассматривается как один "большой" новый фрагмент, который также отправляется на пост-запрос и/или на рубрикацию.

    Можно прописать максимальное количество ссылок, достигнув которое паук не будет проникать далее вширь и вглубь по ссылкам.

    Если ссылки "позволяют", то можно применить к ним автоматическое выделение значимого контента, используемого при мониторинге.
    При необходимости можно использовать "Настройки сайтов" для этих целей.

Подробнее о технических деталях, о перечисленных и некоторых других возможностях программы - в следующей публикации.
Здесь отмечу только то, что на мой взгляд является главным.
    Главная информация.
    Предложенная технология проста в применение от начала до конца.
    В частности, она позволяет пользователю, не прибегая к анализу html-кода ссылки, получать хорошие результаты, практически без мусора, за счет прохождения найденных фрагментов новой информации через дополнительный фильтр (пост-запрос).
    Мусор автоматически отсеивается пост-запросом, а не вручную пользователем посредством указания от каких HTML-тегов до каких HTML-тегов находятся интересующие его изменения на страницах.
    Например, в нашем и в подавляющем большинстве случаев, изменения времени, дат, счетчиков, обновления рекламы будут автоматически отфильтрованы пост-запросом и не попадут в выдачу.

    Не нужно применять требующий специальных навыков Мастер подключения новых источников, достаточно просто вписать адреса интересующих источников в пакет.

    Также автоматически находятся и ставятся на мониторинг новые ссылки, которые появляются в исследуемых источниках.

В настоящее время проводятся работы по интеграции SiteSputnik WebSpider, SiteSputnik News и SiteSputnik Station, что так же является составной частью разрабатываемой технологии мониторинга открытых источников интернета.


Подробнее в отдельной публикации - sitesputnik.ru/Help/SSWebSpider.htm



Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Описанное в старт-топике в настоящее время доступно для испытаний из SiteSputnik News.

Единственно, перепишите прикрепленную папку в Alias\Internet\Ссылки открытые\Рубрики и выполните из главного меню: "Ящик - Дерево ящиков - Обновить".

Прикрепленный файл (Пост-запрос., 5448 байт, скачан: 196 раз)
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
В прикрепленном файле то, что "выцарапал" этот пакет на 10:00 24.07.12 относительно 07:00 24.01.12
Фрагменты с новой информацией отделены друг от друга тонкой линией.

Прикрепленный файл (Пост-запрос_1.htm, 4576 байт, скачан: 386 раз)
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Данная технология удобна в следующих случаях:
- когда нужно контролировать изменение информации на конкретной странице (текст Закона, прайс, состав учредителей или ТОПов, поставщики-клиенты и т.п.);
- когда нужно отлавливать определенные изменения на заранее известной странице и/или на сайте;
- когда нужно извлекать информацию из новостного потока, но подключить его к СайтСпутнику не получается;
- когда некогда подключать новый источник, а результат нужен уже сейчас.

В общем кто в курсе - замена WSW, причем с интересными возможностями и под углом работы с новостями, а не просто отслеживание изменений.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009


Вот на главную страницу it2b, задействованную в мониторинге, Bot принес информацию с CI2B о публикации из 3-го топика.

WebSpider обнаружил именно это, хотя изменений на задействованных источниках было много. Они не по теме, и перебирать страницы в поиске нужных изменений не надо, но при необходимости, можно ознакомится со всеми изменениями - они в списке "Символьный поток".

PetroFF
Долгожитель форума

Всего сообщений: 270
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
31 янв. 2012
Ух...!! Как интересно, спасибо за развитие проекта!
Дело конечно не моё, но цена получилась махровая... 55 000 руб. + 20 000 руб. = 75 000 руб. Я понимаю, что цена свалилась не с потолка, а как сумма чел\час затраченных на разработку, но "маркетинг в этом случае рулит". Подешевле бы за совмещение двух прекрасных модулей :beer2:... глядишь и "нас" тут бы было больше, а от этого только всем интереснее! :orator:
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5730
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

PetroFF написал:
[q]
цена получилась махровая... 55 000 руб. + 20 000 руб. = 75 000 руб
[/q]

Особенно против 40 - 100 евро за WSW (раз уж о его замене речь идет).
Если цена действительно такова, мне кажется, надо бы более четко объяснить - в чем преимущество новой программы, по сравнению с WSW, которое способно перекрыть эту разницу.

Тем более, что, как мне со стороны видится, СайтСпутник все дальше уходит от простой и интуитивно понятной программы в область массы настроек, которым надо специально учиться. Это, в некотором роде, похоже на сравнение Windows и Mac OS. Первая, конечно, очень гибко настраивается (много ли любителей становиться сисадминами?), зато вторая - просто (т.е. интуитивно понятно и без заморочек) работает.
Вопрос этот задавать, бесспорно, будут, и лучше на него получить ответ здесь всем вместе. Как мне кажется.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
А причем здесь WSW? Он показывает (подсвечивает) изменения на конкретных страницах, а здесь развитие SiteSputnik News для Рубрикации изменений (обновлений) на страницах, причем, при необходимости, страницы могут находиться пауком.

Насчет усложнения. Ровно наоборот - проще некуда для такого функционала: прописал адреса стартовых страниц, глубину проникновения паука и Пост-запрос или Рубрики и всё. Результат - новостные ленты, содержащие фрагменты обновлений, относящиеся к интересующим темам.

Это уникальный функционал, по крайней мере, аналоги мне не известны.

CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5730
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Алексей Мыльников написал:
[q]
А причем здесь WSW? Он показывает (подсвечивает) изменения на конкретных страницах, а здесь развитие SiteSputnik News для Рубрикации изменений (обновлений) на страницах, причем, при необходимости, страницы могут находиться пауком.
[/q]

Ну, собственно, я задумался о различиях именно с WSW, прочитав вот эту фразу:

Игорь Нежданов написал:
[q]
В общем кто в курсе - замена WSW, причем с интересными возможностями и под углом работы с новостями, а не просто отслеживание изменений.
[/q]




Алексей Мыльников написал:
[q]
Насчет усложнения. Ровно наоборот - проще некуда для такого функционала: прописал адреса стартовых страниц, глубину проникновения паука и Пост-запрос или Рубрики и всё. Результат - новостные ленты, содержащие фрагменты обновлений, относящиеся к интересующим темам.
[/q]

Возможно, и так. Я на количество разных кнопок смотрю просто. Лично мне с 90% из них дел иметь не приходилось, я говорю о субъективном восприятии сообщений о новых настройках разного рода. Допускаю, что мое субъективное восприятие неверно.
В таком случае, как мне кажется, имеет смысл позиционировать СайтСпутник именно как ОЧЕНЬ ПРОСТОЕ решение. И как-то продемонстрировать это на примерах.
Вполне возможно, что всегда есть любители каких-то экзотических настроек. Но, как правило, их немного.


Алексей Мыльников написал:
[q]
Это уникальный функционал, по крайней мере, аналоги мне не известны.
[/q]

Ну не знаю. "Проверка изменений на страницах" - это само по себе точно не уникальный функционал.
А если уникальность таки есть (я верю, что есть, я не спорю, а именно уточняю ее) - хотелось бы внятно понимать - в чем она заключается и почему это действительно важно.

Вот вопросы, котрые у меня возникли. Предлагаю рассматривать меня как чайника в СайтСпутнике, которому интересно понять - что за новые штуки в нем появились. Как правило корпоративные аналитики примерно такими и являются.


Игорь Нежданов написал:
[q]
Данная технология удобна в следующих случаях:
- когда нужно контролировать изменение информации на конкретной странице (текст Закона, прайс, состав учредителей или ТОПов, поставщики-клиенты и т.п.);
[/q]

В чистом виде - функционал WSW (как мне кажется). Или все же нет?



Игорь Нежданов написал:
[q]
- когда нужно отлавливать определенные изменения на заранее известной странице и/или на сайте;
[/q]

"когда нужно отлавливать определенные изменения на заранее известной странице" - в чем разница с предыдущим пунктом?

"и/или на сайте" - тут да, тут, как я понимаю, речь идет о том, что поисковикам стал известен адрес на сайте, который ранее был неизвестен?
Но если да, то чем это отличается от построения карты сайта в версии "Инвизибл"?



Игорь Нежданов написал:
[q]
- когда нужно извлекать информацию из новостного потока, но подключить его к СайтСпутнику не получается;
[/q]

Это что значит? Кроме, конечно, того, что "далеко не всегда, потратив на полноценный СайтСпутник деньги, вы сможете реально мониторить новостные потоки".



Игорь Нежданов написал:
[q]
- когда некогда подключать новый источник, а результат нужен уже сейчас.
[/q]

А это что значит? Первое что приходит в голову - "подключение источников - такой большой геморрой, что даже не думайте о них, если вам прямо сейчас надо результат". А на самом деле о чем речь?

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

CI-KP написал:
[q]
Алексей Мыльников написал:
[q]

Это уникальный функционал, по крайней мере, аналоги мне не известны.
[/q]

Ну не знаю. "Проверка изменений на страницах" - это само по себе точно не уникальный функционал.
[/q]

Уникальность в следующем.

1. Есть программы, которые рубрицируют потоки новых ссылок. Это делает тот же SiteSputnik News. Есть программы, которые выделяют цветом обновления на странице. Это умеем упомятый WSW. Нет программы, которая умеют и то, и другое, а именно: выделить фрагменты новой информации и Рубрицировать их. SiteSputnik Webspider находит контенты обновлений страниц и Рубрицирует именно их, а не весь контент страниц.

2. Есть паук, который сам по себе не уникальное явление, но при наличие п.1 позволяет находить новые ссылки и ставить на мониторинг обновление их контента. Паук, делающий такую работу, мне не известен.

3. Существование в рамках одной программы мониторинга потока новых страниц и мониторинга обновления уже существующих страниц, мне так же не известно.


CI-KP написал:
[q]
Игорь Нежданов написал:
[q]

- когда нужно извлекать информацию из новостного потока, но подключить его к СайтСпутнику не получается;
[/q]

Это что значит? Кроме, конечно, того, что "далеко не всегда, потратив на полноценный СайтСпутник деньги, вы сможете реально мониторить новостные потоки".
[/q]

Думаю, что здесь имелось ввиду другое. Абсолютно всё подключить не возможно. Редко, но могут ещё попасться страницы, которые в SiteSputnik News не удается подключить. В этом случае можно "отдать" такие страницы на "WebSpider=1". Для новостных потоков это приведет к тому, что фрагментом изменений будет вся страница, она и попадет под рубрикацию. Минус такого подхода - "грязнее" выдача, взамен - проще организовать мониторинг. Я так понял Игоря.

CI-KP написал:
[q]
Игорь Нежданов написал:

[q]

- когда некогда подключать новый источник, а результат нужен уже сейчас.
[/q]

А это что значит? Первое что приходит в голову - "подключение источников - такой большой геморрой, что даже не думайте о них, если вам прямо сейчас надо результат". А на самом деле о чем речь?
[/q]

Вы абсолютно правы - подключить источники не очень просто. Такова техническая обстановка. Именно по этой причине SiteSputnik - пожалуй едиственная программа, которая в январе 2009 года уже имела Мастер для подключения встроенных в сайты поисков. Какая программа это умеет делать в 2012 году? Если кому-то известно, то приведите пример. Кстати, прописывание в WSW: от такого-то тега до такого-то тега мне нужно обнаруживать изменения на странице примерно равна трудоемкости подключения нового источника.


CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5730
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009
Спасибо, Алексей! Теперь понятно.
Мне кажется, есть смысл поставить ссылку непосредственно на Ваш комментарий с разъяснениями, отредактировав первый пост топика. Чтобы читатель сразу это видел. Если считаете это правильным - я могу это сделать.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Думаю, что не надо - всё стоит на своих местах.

CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5730
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009
ОК

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 784
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

Алексей Мыльников написал:
[q]
Нет программы, которая умеют и то, и другое, а именно: выделить фрагменты новой информации и Рубрицировать их.
[/q]
WSW умеет это делать. Он ищет в изменившемся контенте ключевые слова и, если находит их, помещает изменённые странички в "виртуальные папки" (аналог "Рубрик" СайтСпутника).


Алексей Мыльников написал:
[q]
позволяет находить новые ссылки и ставить на мониторинг обновление их контента. Паук, делающий такую работу, мне не известен.
[/q]
В WSW это можно делать для любого сайта/странички через функционал "отслеживание ссылок". Можно задавать, по каким ссылкам ходить, по каким не ходить. WSW сообщает о появлении новых страничек (нужно установить флажок "уведомление об инициализации"), затем мониторит изменение контента на страничках. Написав простой плагин (3-5 строк кода), можно мониторить только определённый контент на сайте.


Алексей Мыльников написал:
[q]
Существование в рамках одной программы мониторинга потока новых страниц и мониторинга обновления уже существующих страниц, мне так же не известно.
[/q]
WebSite Watcher.


Алексей Мыльников написал:
[q]
Кстати, прописывание в WSW: от такого-то тега до такого-то тега мне нужно обнаруживать изменения на странице примерно равна трудоемкости подключения нового источника.
[/q]
В СайтСпутнике подключение поисковиков намного легче, это факт! В остальном принцип работы такой же. В WSW нужно писать плагин для определённого вида сайтов. Если сайт меняет html-код, достаточно один раз внести изменения в плагин, чтобы изменения коснулись всех страничек.


И "СайтСпутник" и "WebSite Watcher" обладают своими уникальными возможностями и своими уникальными недостатками, поэтому у меня они работают оба. Каждая программа занимается своим видом мониторинга.
И не забывайте, что WSW - чисто мониторинговая программа, тогда как "СайтСпутник" - ещё и продвинутый поисковик! :smile:
PetroFF
Долгожитель форума

Всего сообщений: 270
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
31 янв. 2012
Алексей Мыльников Может хотя бы 30 дневную версию сделаете с полным функционалом, по запросу от уже имеющих лицензию на программу.
Так как необходимо практическое подтверждение возможностей представленных на листе и обкатка их в боевых условиях, а так это просто выглядит заманчиво, но цена оттормаживает и заставляет использовать другие комплексы.
Алексей согласитесь, это не 100 американских рублей за WSW.. :capitulati:
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5730
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

tungus1973 написал:
[q]
Каждая программа занимается своим видом мониторинга.
[/q]

А какая каким, если не секрет?

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

tungus1973 написал:
[q]
написал:
[q]

Нет программы, которая умеют и то, и другое, а именно: выделить фрагменты новой информации и Рубрицировать их.
[/q]

WSW умеет это делать. Он ищет в изменившемся контенте ключевые слова и, если находит их, помещает изменённые странички в "виртуальные папки" (аналог "Рубрик" СайтСпутника).
[/q]

"Виртуальные" папки WSW всё же НЕ аналог "Рубрик" в СайтСпутнике. Они могут в какой то мере заменить Рубрики СайтСпутника, но работа с ними посложнее. Хотя бы по тому, что виртуальные папки являются накопителем ссылок на изменившуюся страничку с пометкой что изменилось. Рубрики позволяют гибче работать с информацией.



tungus1973 написал:
[q]
написал:
[q]

позволяет находить новые ссылки и ставить на мониторинг обновление их контента. Паук, делающий такую работу, мне не известен.
[/q]

В WSW это можно делать для любого сайта/странички через функционал "отслеживание ссылок". Можно задавать, по каким ссылкам ходить, по каким не ходить. WSW сообщает о появлении новых страничек (нужно установить флажок "уведомление об инициализации"), затем мониторит изменение контента на страничках. Написав простой плагин (3-5 строк кода), можно мониторить только определённый контент на сайте.
[/q]

Именно написание плагина в 3-5 строк и является ключевым отличием. Я не знаком с кодингом и мне куда удобнее в этом плане СайтСпутник. Вот тебе это действительно удобнее и результат получается интересный (сам видел). :cool: Поэтому правильнее будет говорить о возможностях одной и другой проги в зависимости от подготовки пользователя.



tungus1973 написал:
[q]
И "СайтСпутник" и "WebSite Watcher" обладают своими уникальными возможностями и своими уникальными недостатками, поэтому у меня они работают оба. Каждая программа занимается своим видом мониторинга.
И не забывайте, что WSW - чисто мониторинговая программа, тогда как "СайтСпутник" - ещё и продвинутый поисковик! :smile:
[/q]

Вот тут согласен полностью. И у меня ВСВ использовался для отдельных работ. Правда с появлением Спайдера в СайтСпутнике полностью мигрировал на него. Работать "в одно окно" всё же удобнее, хоть и "разложить яица в разные корзины" - безопаснее. :wink:

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5730
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Игорь Нежданов написал:
[q]
Хотя бы по тому, что виртуальные папки являются накопителем ссылок на изменившуюся страничку с пометкой что изменилось. Рубрики позволяют гибче работать с информацией.
[/q]

А в чем именно гибче?


Игорь Нежданов написал:
[q]
с появлением Спайдера в СайтСпутнике полностью мигрировал на него. Работать "в одно окно" всё же удобнее
[/q]

Интересно было бы услышать - в чем находит ув. tungus1973 выгоды использования WSW в данной ситуации? Т.е., почему тоже не мигрировал на СайтСпутник.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 784
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

CI-KP написал:
[q]
tungus1973 написал:
[q]

Каждая программа занимается своим видом мониторинга.
[/q]

А какая каким, если не секрет?
[/q]

WSW мониторит сайты, которые не может мониторить СайтСпутник:
- сайты, защищённые паролем,
- сайты, защищённые каптчей,
- сайты, которые часто выдают ошибки. И которые СайтСпутник пропускает, а WSW сообщает мне об ошибках,
- сайты, имеющие ошибки в коде, например egrul.nalog.ru, на котором переход на следующую страничку возможен только через макрос WSW,
- сайты требующие функций, отключенных в настройках IE (например, из соображений безопасности),
- странички, в которых мне нужен только определённый контент, который я могу выделить с помощью плагина и сверстать в единый документ. Пример: Ниже приведён отчёт о мониторинге Google Hacks. WSW отслеживает появление новых хаков Google, и если находит новый текст, то вырезает из странички только то, что мне нужно (таблицу с описанием хака) и дополняет отчёт. Я получаю уведомление о появлении новой возможности в хакинге Google (сейчас в списке ~1400 хаков).

Прикрепленный файл (GoogleHacks.htm, 2017607 байт, скачан: 44 раза)
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

tungus1973 написал:
[q]
WSW мониторит сайты, которые не может мониторить СайтСпутник:
- сайты, защищённые паролем,
- сайты, защищённые каптчей,
- сайты, которые часто выдают ошибки. И которые СайтСпутник пропускает, а WSW сообщает мне об ошибках,
- сайты, имеющие ошибки в коде, например egrul.nalog.ru, на котором переход на следующую страничку возможен только через макрос WSW,
- сайты требующие функций, отключенных в настройках IE (например, из соображений безопасности),
- странички, в которых мне нужен только определённый контент, который я могу выделить с помощью плагина и сверстать в единый документ.
[/q]

Да - у WSW есть свои преимущества. Возможность задействовать запароленные ресурсы без предварительного их открытия в IE и обойти каптчу, пожалуй наиболее существенные из них..

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Игорь Нежданов написал:
[q]
Да - у WSW есть свои преимущества. Возможность задействовать запароленные ресурсы без предварительного их открытия в IE и обойти каптчу, пожалуй наиболее существенные из них..
[/q]

Да. Это делать буду. В SiteSputnik News в этом практически необходимости не было. Новостные источники открыты, капчей практически нет, ошибок тоже - сайты отлажены, а в WebSider(е) может потребоваться поставить на мониторинг самые разнообразные страницы.

Также, думаю, что рационально реализовать возможность задания пост-запроса и Рубрикации в функциях SiteSputnik Invisible. Это позволит находить не только адреса невидимых ссылок, но и рубрицировать их контент.

Из сказанного выше согласен, что рационально вывести WebSpider из News в Pro (возможно, что кому-то он потребуется без +News), т.е. можно будет работать в Pro+News, Pro+WebSpider, Pro+News+WebSpider.

По поводу поста #14 tungus1973.

Посмотрел инструкцию по ВСВ из темы о нем. "Ключевые слова" в ВСВ - это намного слабее, чем Рубрики и "Правила попадания в Рубрики" в СайтСпутнике.

Слабее они по трем причинам.

Первое.
"Ключевые слова" - это далеко не дерево Рубрик, через которое просеиваются обновления страниц, а всего один листок этого дерева. Более того, в СайтСпутнике можно просеить поток обновлений сразу через несколько Деревьев.

Второе.
Этот листок привязан только к конкретной одной закладке, а не к группе закладок (в СайтСпутнике группа ссылок-закладок размещается в пакете).

Третье.
Сами Правила попадания в Рубрику в СайтСпутнике намного эффективнее, чем набор ключевых слов, одно из которых должно присутствовать в контенте обновлений. Нет, например, расстояния между словами, нет точных фраз, нет возможности описать сущности, отсутствует логическое "Нет", нет скобочной структуры, вставки текста из файла.

Поэтому, выводы, сделанные в сообщение 10, на мой взгляд верны. Они таковы.

1. Есть программы, которые рубрицируют потоки новых ссылок. Это делает тот же SiteSputnik News. Есть программы, которые выделяют цветом обновления на странице. Это умеем упомятый WSW. Нет программы, которая умеют и то, и другое, а именно: выделить фрагменты новой информации и Рубрицировать их. SiteSputnik Webspider находит контенты обновлений страниц и Рубрицирует именно их, а не весь контент страниц.

2. Есть паук, который сам по себе не уникальное явление, но при наличие п.1 позволяет находить новые ссылки и ставить на мониторинг обновление их контента. Паук, делающий такую работу, мне не известен.

3. Существование в рамках одной программы мониторинга потока новых страниц и мониторинга обновления уже существующих страниц, мне так же не известно.

Уточню только, что под работой паука понимается и его деятельность по Рубрикации.

CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5730
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Алексей Мыльников написал:
[q]
рационально вывести WebSpider из News в Pro (возможно, что кому-то он потребуется без +News), т.е. можно будет работать в Pro+News, Pro+WebSpider, Pro+News+WebSpider.
[/q]

+1

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Мониторинг изменений по пакету запросов: отслеживание обновлений поисковых страниц.

Оператор ^^WebSpider доступен в версии 8.1.4 от 31.10.12 программы SiteSputnik News.

На картинке на него указывает красная стрелка.



Это позволяет найти обновления результатов поиска для любых пакетов запросов, включая поиск в основных поисковиках и встроенных в сайты поисков, и Рубрицировать их (см. зеленую стрелочку).

Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Благодаря функции WebSpider можно не напрягаясь отслеживать те потоки новостей, которые не удалось зацепить никаким из имеющихся в СайтСпутнике вариантов.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 784
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

Игорь Нежданов написал:
[q]
Благодаря функции WebSpider можно не напрягаясь отслеживать те потоки новостей, которые не удалось зацепить никаким из имеющихся в СайтСпутнике вариантов.
[/q]
Очень интересно! Расскажите пожалуйста поподробнее?
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

tungus1973 написал:
[q]
Игорь Нежданов написал:
[q]

Благодаря функции WebSpider можно не напрягаясь отслеживать те потоки новостей, которые не удалось зацепить никаким из имеющихся в СайтСпутнике вариантов.
[/q]

Очень интересно! Расскажите пожалуйста поподробнее?
[/q]


И тебе привет! - а что это ты на "Вы" перешел?

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Разобрались после сепаратных переговоров...

Значит так - если по какой то причине не получилось подключить страницу как источник информации (ни поисковик, ни РСС). Не нашел начало пункта, не знаю как пользоваться поиском в txt файлах, еще что или просто лень, то можно задействовать функцию WebSpider. В этом случае СайтСпутник действует следующим образом:
- "фотографирует" страницу, проходит по всем ссылкам и выкачивает оттуда контент (на этом этапе много лишнего);
- при повторном проходе выявляет новое по сравнению с предыдущей версией и забирает контент только с новых ссылок;
- ну и рубрицирует найденное.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 784
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Спасибо!
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
К стати - можно задать глубину прохождения по ссылкам..... и при необходимости выкачать весь сайт.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Пытался протестировать систему мониторинга по инструкции, изложенной на первой странице ветки. Возможно, что-то не так делаю, но вместо полных текстов страниц отображаются только заголовки и теги.


Прикрепленный файл (SiteSputnik.JPG, 76641 байт, скачан: 230 раз)
petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Вот пакет

Прикрепленный файл (paket.JPG, 57339 байт, скачан: 243 раза)
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]
Вот пакет
[/q]

1. После Новости поставьте знак "точка с запятой",
2. Не Рубрики/Сайтпутник, a Рубрики\СайтСпутник.

Чтобы не делать синтаксических ошибок, выбирайте эти операторы из меню (см. красную и зеленую галочки):



Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Игорь Нежданов написал:
[q]
Разобрались после сепаратных переговоров...

Значит так - если по какой то причине не получилось подключить страницу как источник информации (ни поисковик, ни РСС). Не нашел начало пункта, не знаю как пользоваться поиском в txt файлах, еще что или просто лень, то можно задействовать функцию WebSpider. В этом случае СайтСпутник действует следующим образом:
- "фотографирует" страницу, проходит по всем ссылкам и выкачивает оттуда контент (на этом этапе много лишнего);
- при повторном проходе выявляет новое по сравнению с предыдущей версией и забирает контент только с новых ссылок;
- ну и рубрицирует найденное.
[/q]

Да, это так (это про источник "|| WebSpider=N"), но в топике #23, всё-таки, речь не об этом.

в СайтСпутнике есть оператор:

^^WebSpider;

Если он стоит в пакете вместо оператора ^^Новости;, то СайтСпутник переключается на алгоритм нахождения и Рубрикации обновлений по пакету запросов.

То есть, выполняется поиск, если находятся новые относительно всех выполненных ранее пакетов ссылки, то они целиком попадают на Рубрикацию. Если ссылка хотя бы один раз уже "попадалась", то СайтСпутник возьмет последнее состояние ссылки, определит что в нем появилось новое (новые фрагменты, обновления) и Рубрицирует эти обновления по тем же Рубрикам, что и новые ссылки.

Если Вы мониторите обновление по пакету запросов в поисковиках, то рекомендуется в "Настройках" убрать выделение значимого контента ссылки (см. на вкладке News внизу набранный мелким шрифтом параметр:
"Не выделять контент новосити из ссылки (оставлять контент ссылки "как есть")).
Если это пакет запросов к "хорошим" источникам , то этого делать не надо. Да, при отказе от выделения контента ссылки всё будет не так "красиво", но не приведет к потере значимой информации.

<<Назад  Вперед>>Страницы: 1 2 3 4
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   SiteSputnik WebSpider. Мониторинг изменений на сайтах
RSS

Последние RSS
Не все VPN-сервисы одинаково полезны
«Яндекс» научился выдавать в поиске не скрытые Google-документы. Правда лавочку
War and marketing: 1937 July 7th vs. 2018 July 1st
Историческое. Агентурная разведка
Open Source Intelligence (OSINT) Tools and Resources Handbook
Top tips on gathering information about companies by using free online sources
Новое на блоге HRразведка
Безопасность данных в MS Access
Слово как улика
20 Recon and Intel Gathering Tools used by InfoSec Professionals
What’s Changed?
10 альтернативных поисковиков
Ситуационный центр главы Республики Коми
Развёртывание ситуационных центров на базе технологии Avalanche
Как принимать сложные решения. Советы бывшего оперативника ЦРУ.
Открытая информация о "Новичке" из сети интернет.
Ген. директор "ОЗХО" Ахмет Узюмдж о "Новичке" и хим. атаке в Сирии
Онлайн-сервисы для Twitter
Коллекция для Twitter
Приложение Opera VPN закрывается

Самые активные 20 тем RSS
Новости блогов
Не все VPN-сервисы одинаково полезны