Версия для печати

-   Форум Сообщества Практиков Конкурентной разведки (СПКР) http://forum.razved.info/
--  Софт для конкурентной разведки http://forum.razved.info//index.php?f=7
--- WebSite Watcher http://forum.razved.info//index.php?t=2814




-- tungus1973 написал 21 марта 2012 19:55
В этой ветке предлагаю обсуждать нюансы работы с программой WebSite Watcher, публиковать новости по программе и т.д.

Прямые ссылки на файлы справки и мануала:
Русский help-файл для WebSite-Watcher (http://www.aignes.info/download/wswhelp_russian.exe)
Manual на русском (PDF) (http://www.aignes.info/download/wsw_manual_russian.pdf)


-- tungus1973 написал 21 марта 2012 20:00
На официальном сайте программы в разделе Техподдержка (http://www.aignes.com/support.htm) выложено распечатываемое русское руководство (http://www.aignes.info/download/wsw_manual_russian.pdf) к программе. Если сравнивать тексты мануалов, то русское руководство содержит описание большего числа функций программы, нежели английское и немецкое руководства. Тем, кто изучал программу по иноязычным справочникам, рекомендую скачать русский вариант.

Разработчик, Martin Aignesberger, обещал включить в дистрибутив программы файл русской справки.


-- tungus1973 написал 22 марта 2012 15:56
Русский файл справки (chm-файл) к программе можно скачать с официального сайта программы на странице загрузок (http://www.aignes.com/download.htm) (смотрите в разделе "Add-Ons and other downloads" ссылку "Russian help file for WebSite-Watcher (http://www.aignes.info/download/wswhelp_russian.exe)").

После загрузки, установите файл в каталог установки WebSite Watcher, туда же, где лежат файлы справки на английском и немецком языках.

Русский файл справки будет автоматически загружаться программой, если в ней установлен русскоязычный интерфейс.
Если справка вызывается из какого-то диалога программы, то открывается тот её раздел, который посвящен этому диалогу (и его конкретной вкладке).


-- tungus1973 написал 5 апреля 2012 14:06
С официального сайта программы на странице загрузок (http://www.aignes.com/download.htm) теперь можно скачать русский файл справки к Local WebSite Archive.

Вот прямая ссылка на файл (http://www.aignes.info/download/lwahelp_russian.exe).


-- PetroFF написал 6 апреля 2012 9:24
"tungus1973" Немного поюзал, возник вопрос... а она может приносить только обновления в которых содержаться слова ключи? А то у меня почему то получилось либо все тянет, либо ничего =)) может конечно я что то накриворучил =)) :cactus4:


-- Вялый написал 6 апреля 2012 10:06
1. Может сигнализировать если вообще что-то изменилось (подсвечивая эти измененные места).
2. То же что и в первом, только при этом подсвечивая ключевые слова.
3. Сигнализировать ТОЛЬКО если в изменившейся части страницы есть ключевые слова.


-- tungus1973 написал 6 апреля 2012 11:12
Для: PetroFF
Собственно, Вялый ответил на Ваш вопрос. Можно получать уведомление об обновлении странички только если на ней есть ключевые слова.
Почитайте ещё дополнительно файл справки. Он даже более подробный, чем нужно рядовому пользователю.


-- PetroFF написал 9 апреля 2012 10:02

tungus1973 написал:
[q]
Можно получать уведомление об обновлении странички только если на ней есть ключевые слова.
[/q]

Да, именно это было нужно. :hi: Спасибо, за подвтерждение мануала. :yes:



-- tungus1973 написал 18 июня 2012 13:33
Плагин "WebSite Watcher" для мониторинга Яндекс.Новостей

Плагин написан мной как учебный образец, чтобы любой пользователь программы мог понять, как пишутся и работают плагины. Текст плагина снабжен многочисленными подробными комментариями, буквально для каждого оператора.

Плагин не будет работать в старых версиях "WebSite Watcher", не имеющих систему плагинов.

Скачайте zip-архив с плагином ТУТ (http://www.onlinedisk.ru/file/896263/), разархивируйте его.
Скопируйте плагин в папку "WebSite-Watcher\config\plugins\", затем запустите программу "WebSite Watcher" (WSW). (Если скопировать плагин в папку после запуска WSW, он не пропишется в систему плагинов).

Для постановки Яндекс.Новостей на мониторинг:
- Откройте страничку Яндекс.Новостей в браузере, введите свой запрос, нажмите кнопку "Найти".
- Для корректной работы плагина выберите сортировку "по дате" и "не группировать по сюжетам".
- Скопируйте из адресной строки браузера ссылку и создайте на её основе закладку "WebSite Watcher".
- Плагин можно использовать для мониторинга нескольких "склеенных" страниц. Зайдите в "Свойства закладки / Дополнительно / Слияние страниц (Merge Pages)", установите галочку на функции "Слияние страниц" ("Merge Pages"), нажмите кнопку "Помощник" ("Assistant"). В открывшемся браузере щёлкните на ссылку перехода на страницу 2, нажмите кнопку "Далее >". В открывшемся поле со значениями POST-запроса, выберите строку "p=1", нажмите ещё раз кнопку "Далее >", затем кнопку "Финиш".
- Зайдите в "Свойства закладки / Дополнительно / Плагин", нажмите кнопку "Выбрать публичный плагин", выберите в списке "YaNews". Если на этом этапе вы не увидели плагин, значит это произошло по одной из трёх причин: 1) файл плагина скопирован не в ту папку; 2) файл плагина скопирован в папку после того, как был запущен WSW. Завершите и вновь запустите WSW; 3) WSW посчитал этот плагин несовместимым с закладкой. Проверьте, не изменил ли Яндекс html-код страницы. Если изменил, в плагине нужно будет указать новые теги-признаки начала и конца новостей.

Плагин собирает новости со странички Яндекс.Новостей, определяет, есть ли новые новости. Если найдены новые новости, то формируется html-страничка, в которой новые новости (которых раньше не было) будут располагаться в начале странички, за ними последуют старые новости. Для новостей, не имеющих даты, плагин проставит её. Каждая новость будет содержать сведения в последовательности, отличной от Яндекса: заголовок-ссылка, источник новости, дата-время новости, сниппет (краткое содержание). Плагин выкачает странички с новыми новостями и поместит их в папку "WebSite-Watcher\config\downloads\" (при необходимости эту функцию можно отключить).

Для просмотра текста плагина, зайдите на вкладку "Свойства закладки / Дополнительно / Плагин", нажмите на кнопку со стрелкой вниз, выберите "Правка плагина", откроется среда разработки плагинов, в которой Вы увидите вкладки:
- "Конфигурация". Здесь устанавливаются название, описание плагина, способ применения плагина (спросить пользователя, вручную, автоматически), проверку совместимости (по условиям идентификации, или по идентификации + по тексту плагина).
- "Идентификация". Указываются способы идентификации плагина - когда программа будет предлагать Вам применить его.
- "Скрипт плагина". Здесь находится сам текст плагина.
- "Исходный код страницы". Здесь Вы увидите html-код последней страницы для этой закладки. Если плагин ещё не применялся, то будет показан исходный код интернет-версии страницы. Если к странице применялся плагин, то Вы увидите исходный код страницы, каким он стал после работы плагина.
- "Веб-браузер". Показывает страницу с кодом из предыдущей вкладки, как она выглядит в браузере.
- "Браузер файлов". Здесь можно просмотреть текст других плагинов, пользовательских или предустановленных в программе.
- "Сравнение". Вкладка показывается только после выбора плагина на предыдущей вкладке. Вы можете увидеть, чем отличаются плагины. Очень удобно, если у Вас есть несколько версий одного и того же плагина, можно быстро увидеть их конкретные отличия.


-- tungus1973 написал 27 июля 2012 13:46
Обнаружена проблема: WSW отказывается ходить по ссылкам с кириллическими символами (считает их некорректными?). Например, могут возникнуть проблемы с мониторингом сайта типа "президент.рф". Возможно, такая же проблема может возникнуть с другими программами мониторинга.
Для нормальной работы рекомендуется кириллические символы перевести в Punycode, например, через он-лайн конвертер (http://wwhois.ru/punycode.php). Вводите адрес кириллического сайта, жмёте на кнопку "Перевод". В поле "После кодирования:" отображается адрес в Punycode, который ставите на мониторинг.


-- PetroFF написал 27 июля 2012 15:10
Спасибо за интересный плуг! Буду тестить!
Ранее у меня возникали вопросы по использованию WSW, так вот отличный, максимально простой и полный со скриншотами мануал по использованию опубликованный в журнале "Чип" _ttp://interw.narod.ru/wswatch.html (http://www.interw.narod.ru/wswatch.html ) :yahoo:


-- Игорь Нежданов написал 28 июля 2012 9:18
tungus1973, спасибо! Всегда что то новое расскажешь. Тебе статус надо поменять на "исследователь" или "естествоиспытатель"...


-- tungus1973 написал 9 августа 2012 17:36
Вышел WebSite-Watcher версии 12.3 Beta-1.

Из принципиально нового:
- Проверка бинарных файлов по контрольной сумме (если не работает проверка другими способами).
- Если пользователь открыл какое-либо окно в полный экран, то WSW не будет показывать на нём информационное окошко с обновлением.
- Расширенный поиск: во время поиска отображается индикатор выполнения в панели инструментов.
- Свойства папки: Если параметры унаследуются от родительской папки, то вместо отключенных свойств выводится соответствующее сообщение.

Исправлены ошибки:
- При создании макроса WSW иногда запускал неправильный URL.
- Действие закладки "Открыть файл": Неправильно работала вкладка Текст/Анализ.
- Менеджер загрузки при некоторых обстоятельствах не мог загрузить файлы.

Примечание: Бета-версии могут содержать ошибки, поэтому авторы программы рекомендуют устанавливать только окончательные версии.


-- tungus1973 написал 9 января 2013 9:07
Вышла 1-бета-версия WebSite Watcher 2013 (http://www.aignes.com/beta.htm) (скачать (http://www.aignes.info/files/wsw1300beta01.exe)). Поскольку это бета-версия, то в ней возможны ошибки, поэтому устанавливать её можно по желанию.

Из нововведений:
- Мониторинг файлов в локальной сети.
- В свойствах папки теперь можно сразу указать, какие фильтры и плагины применять к закладкам.
- При отправке обновлений по электронной почте теперь можно задать шаблон сообщения.
- Экспорт новой версии страницы или версии с выделенными изменениями.
- Твик-опция "+". Если перед url поставить знак "+", то эта закладка будет проверяться при каждом запуске проверки.
- Новый плагин проверки Excel-файлов.
- Новый плагин: Мониторинг тегов OPTION.
- Новая функция плагинов "Wsw_MergePages" - позволяет контролировать объединение страниц (Наконец-то! Теперь можно контролировать каптчу Яндекса при слиянии страниц).
- Новая функция плагинов "Wsw_AfterCheck" - вызывается после окончания проверки закладки (Наконец-то! Теперь после окончания проверки можно, например, группировать результаты в дайджесты и оформлять их нужным образом).
- Новый параметр "main_url" в функции Bookmark_SetProperty - позволяет сменить url, например, когда мониторится форум.
- Новый параметр "ignore_filter" в функции Bookmark_SetProperty - определяет фильтры игнорирования при проверке.
- Новый параметр "watch_filter" в функции Bookmark_SetProperty - определяет фильтры проверки.
- В Плагин-IDE появилась новая вкладка "Применить фильтр", на которой можно проверить действие фильтров "ignore_filter" и "watch_filter".
- В файл справки добавлены новые примеры:
--- Уведомление, если ключевые слова НЕ найдены на странице;
--- Слияние страниц результатов поиска;
--- Слияние страниц в теме форума;
--- Расчёт времени проверки и запись его в лог-файл;
--- Уведомление, если на странице более одного изменения.


-- CI-KP написал 9 января 2013 9:24
Ув. tungus1973, спасибо! :hi:


tungus1973 написал:
[q]
Теперь можно контролировать каптчу Яндекса при слиянии страниц
[/q]

Можно подробнее - о чем речь?


tungus1973 написал:
[q]
Теперь после окончания проверки можно, например, группировать результаты в дайджесты и оформлять их нужным образом
[/q]

Это как выглядит?




-- tungus1973 написал 9 января 2013 13:16
Проблема с каптчей Яндекса хорошо решена в СайтСпутнике. Как только СС нарывается на каптчу, он предлагает пользователю ввести буквы-цифры и продолжает работу с точки останова.
У WSW всё далеко не так... Каптча может быть обнаружена программой только если это прописано в макросе. Но макрос работает только на первой странице. Если же речь идёт о слиянии страниц, то часто случается, что первую страницу Вы получаете без каптчи, тогда как все остальные не скачиваются, а блокируются Яндексом. Поправить это своевременно нельзя... Включение в плагины функции Wsw_MergePages может позволить контролировать каптчу в процессе скачивания страниц (ещё не пробовал в действии, т.к. только сегодня скачал обновление).

Аналогично, функционал "Wsw_AfterCheck" позволяет через плагин выполнять действия после того, как прошла проверка закладки, сделано сравнение версий страниц, найдены или не найдены ключевые слова. Например, это может быть: формирование отчётов в заданные файлы; изменение параметров следующей проверки; изменение стартового url закладки и т.д. (тоже в работе ещё не пробовал).
Как может выглядеть отчёт в WSW? Программа работает с текстами, которые получает из Интернета. Внутри плагина можно вытворять с текстом всё, что угодно - искать ключевые слова, вырезать фрагменты текста, заменять одни слова другими, проверять и сравнивать числовые значения, склеивать разные фрагменты в один текст, изменять форматирование html-текста и т.д. Таким образом по окончании проверки пользователь может формировать ЛЮБЫЕ отчёты (по содержанию и внешнему виду), какие только сможет запрограммировать в плагинах.


-- CI-KP написал 9 января 2013 13:34
Спасибо!


-- tungus1973 написал 19 июля 2013 10:35
Вчера вышла новая версия WebSite Watcher 2013.1 (13.1).

Изменений довольно много. Из наиболее существенного:
--- При записи макросов можно отключить оптимизацию. Для некоторых сайтов оптимизация пропускала отдельные действия пользователя.
--- В плагинах появилась новая функция DownloadPageToString.
--- В плагин-функции Bookmark_GetProperty появился новый параметр "check_log".
--- XML-файлы теперь автоматически обрабатываются как текстовые файлы.
--- Улучшена обработка внешних CSS-файлов. Некоторые страницы теперь могут корректно отображаться и без CSS.
--- Улучшено обнаружение ключевых слов на странице.
--- Если настроено автоматическое резервное копирование, но такой папки не существует, то WebSite-Watcher выдаст сообщение об ошибке. Раньше резервная копия просто помещалась в папку по-умолчанию "AutoBackup".
--- Улучшена производительность программы. Многие закладки теперь проверяются ещё быстрее.
--- Улучшено извлечение заголовков RSS-фидов.
--- Улучшено обнаружение символа #, когда он является частью якоря или url-адреса.
--- Отслеживание ссылок. WSW теперь может отслеживать ссылки с того же домена, что и мастер-закладка, если все они были помещены в одну специальную папку.

Предположительно завтра на сайте программы (http://www.aignes.com/download.htm) будут выложены русские файл справки и руководство пользователя.


-- Вялый написал 11 октября 2013 11:22
Спасите други!

Сподобился перейти с версии 4.5 сразу на 2013 (13.1) и при проверка ссылки на поиск в Яндексе (без дополнительного ручного изменения каких-либо свойств закладки) получаю такой текст:

"WebSite-Watcher - WARNINGS:
•WebSite-Watcher is not able to detect updates with the current bookmark configuration!
The whole page content has been filtered, please verify your filter settings"
:sad:

Подскажите, что нужно сделать, чтобы опять все стало красиво?


-- tungus1973 написал 11 октября 2013 18:05
WSW сообщает Вам о том, что всё содержимое странички попадает под фильтр.
Зайдите в свойства закладки. На первой же вкладке зайдите в фильтры. Посмотрите, какие фильтры задействованы. Вероятно, какой-то фильтр вычёркивает всё содержимое, измените или удалите его.


-- Вялый написал 11 октября 2013 21:04
Да нет. С английским у меня все в порядке. :) Никаких фильтров там вообще нет. Дело в том, что не работают импортированные, работавшие в предыдущей версии закладки. Так фиг бы и с ними, но не работает свежесозданная закладка выдачи Яндекса. Сейчас попробовал завести в программу результаты поиска в Гугле, так почему-то в вотчере после проверки открывается просто начальная страница Гугла (с полем для ввода поисковой строки) . Хрень какая-то :tuktuk:


-- tungus1973 написал 13 октября 2013 12:30
Я не встречался с такой проблемой, потому что не работал в версии 4.5, а сразу начинал с версии 11.
Если у Вас всё хорошо с английским, то можно обратиться на форум техподдержки на сайте программы. Мартин Аигнесбергер обычно отвечает на сообщения очень быстро.

Поделюсь личным опытом в мониторинге поисковиков. Устав однажды от антироботов Яндекса и Гугла, я подключал эти сайты через макросы, которые имитируют работу человека. Они открывают первую страничку поисковика, вводят поисковый запрос и жмут на кнопки и проверяют на обновление полученный результат. В дальнейшем, чтобы не создавать макрос ещё раз, можно создать копию закладки и поменять запрос прямо в макросе.

Но, всё же, с поисковиками лучше всего работает СайтСпутник (даже в недорогой, проф.версии). Всё-таки он изначально "заточен" на поисковики.
WSW же идеально работает в мониторинге отдельных страничек, форумов, защищённых сайтов, отдельных файлов и выдачи онлайн-БД.


-- Вялый написал 13 октября 2013 22:01
Так у меня в старой версии тоже все нормально было (я правда слегка наврал, была 4.35). А сейчас вот все это в новой. Я даже уже не импортировал базу закладок. Просто снёс всё, поставил чистую программу и сделал одну новую закладку без всяких лишних движений (с фильтрами и т. п.) и такая же фигняв итоге. Ну ладно, бум искать :(


-- tungus1973 написал 14 октября 2013 12:11
Возможно это какая-то ошибка в программе.
Попробуйте в свойствах закладки установить на вкладке "Дополнительно / Поиск неисправностей" галочку в опции "Не подготавливать страницы для просмотра оффлайн".
Не совсем то, что хотелось бы, но хотя бы страницу получите.


-- Вялый написал 14 октября 2013 14:02
Попробовал, сначала обрадовался, но оказалось рано. Изменилось следующее: Эта табличка про фильтрование всего содержимого осталась, но если её прокрутить, под ней выводится отслеживаемая страница (результаты поиска). К сожалению, на этой странице всё желтое (как-будто новое), даже если проверить закладку сразу ещё раз. Ставил обратно старую 4.35, там всё работает. Может дело в Винде 8-й :( Но снести её нельзя. Больше не знаю на что подумать.

Есть Интересный момент: в свойствах закладки, в "Основные", жму кнопку "Тест фильтра", появляется окошко под названием "Сравнение версий". Там уже нажата сверху кнопка "Использовать фильтр" и обе панели для сравнения пустые. Но когда я убираю нажатие кнопки "Использовать фильтр" в панелях появляется html-код страницы (с желтыми подсветками изменений) и видно, что там все нормально отслеживается, то есть если пару раз проверить сразу то практически ничего не подсвечено, а если проверить через время, то появляются желтые подсветки. НО фильтра то никакого нет :sad: хрень какая-то.


-- tungus1973 написал 14 октября 2013 15:23
Выходит, что Мартин что-то перемудрил с последней версией.
Попробуйте установить старую версию 13.1 или 13.0. Там вроде всё работало.
Если у Вас нет таких дистрибутивов, то напишите мне в личку свой e-mail. Я вышлю.


-- Вялый написал 14 октября 2013 17:18
Спасибо! :hi:


-- tungus1973 написал 10 января 2014 10:23
WebSite Watcher обновился до версии 2014 (14.0), пока "бета".
Изменений довольно много. Приведу наиболее существенные:
-- Улучшена совместимость с Win8 и IE 11. Раньше встроенный браузер распознавался сайтами, как IE версии 9, что приводило к конфликтам с некоторыми сайтами.
-- Появился новый Фильтр игнорирования. Теперь можно отсеивать ненужный контент по CSS-классам.
-- В новой версии можно указывать, сколько должно быть изменённых слов, чтобы WSW сообщил об обновлении странички. Например, можно игнорировать обновление, если изменились только 2-3 слова.
-- Стало более гибким предопределение свойств закладок. Теперь для Фильтров Игнорирования/Отслеживания и для Ключевых слов можно установить опцию "Добавить к существующей конфигурации". Таким образом не теряются старые настройки.
-- Появилась возможность предопределять несколько свойств закладок и проверять их в разных режимах.
-- Предопределяя свойства закладок можно указывать расширенные настройки для метода проверки "Internet Explorer", для работы с IFRAMES, для экспорта страниц, запуска сторонних программ обработки, поиск и устранение неисправностей.
-- В фильтрах и ключевых словах появилась новая функция regexcmp, которая может сравнивать числа и сообщать об обновлении, только если число стало больше (меньше, равно, не равно, и т.д.) заданого числа.
-- Регулярные выражения теперь автоматически проверяются на синтаксические ошибки.
-- Для Ключевых слов появилась возможность тестировать их обнаружение на странице.
-- Улучшилась очередь проверки закладки. Теперь программа работает по более быстрому алгоритму, избегая многих задержек.
-- WSW теперь поддерживает проверку страниц, закодированных в формате UTF-16.
-- Во время проверки для некоторых закладок можно указать "Проверить раньше других закладок".
-- Для сложных RSS-каналов можно несколькими способами вручную настроить признаки новой записи.
-- Мастер фильтров теперь может преобразовывать все ссылки в текст.
-- Статистику работы можно экспортировать в Excel-таблицу для последующего анализа.
-- Статистику работы программы можно обнулить, чтобы начать анализ заново.
-- Плагин "Автовыкачивание с менеджером загрузки" теперь может работать с новыми (инициализированными) закладками.
-- Менеджер загрузки теперь можно прятать в трей и выводить окно с сообщением по окончании загрузки.
-- Агент пользователя теперь можно выбирать из списка. Например, чтобы, при наличии, загрузить версию странички для мобильных телефонов, исключая таким образом рекламу и другой ненужный контент.
-- Появилась новая тонкая настройка HandleIgnoreUpdateAsError=0. Она позволяет задать такой режим работы, когда при обнаружении на странице слов из "чёрного списка", WSW не будет сообщать об ошибке и предупреждать о 10 ошибках подряд.
-- Для отправки результатов мониторинга появились настройки против "антиспама" почтовых серверов. Теперь письма можно отправлять партиями, указывая время между следующей авторизацией на сервере.
-- Улучшены Макросы.
-- Улучшена фильтрация HTML-тегов.
-- Улучшен алгоритм сравнения страниц. Теперь он работает быстрее.


-- asket написал 9 апреля 2014 9:14
Уважаемые форумчане, прошу помочь со следующей проблемой: при постановке на мониторинг странички _ttp://onf.ru/mainnews/ не отображается никакая информация(см.картинку). Версия WSW14.1

з.ы. раннее была проблема с этой страничкой _ttp://onf.ru/category/activity/projects/ решил её поставив галки во вкладке Дополнительно-->IFRAME


-- tungus1973 написал 9 апреля 2014 10:48
Попробуйте установить в свойствах закладки: вкладка "Проверка" / блок "Технология проверки web-страниц" / пункт "Internet Explorer / Браузер (поддержка JavaScript и прочее)".


-- asket написал 9 апреля 2014 12:52
Для: tungus1973
Благодарю, получилось :hi:


-- Вялый написал 15 апреля 2014 10:08

tungus1973 написал:
[q]
Выходит, что Мартин что-то перемудрил с последней версией.
Попробуйте установить старую версию 13.1 или 13.0. Там вроде всё работало.
Если у Вас нет таких дистрибутивов, то напишите мне в личку свой e-mail. Я вышлю.
[/q]

Продолжение истории. Скачал триал 14.1 попробовал, там с Яндексом та же история. Написал письмо автору и в ответ получил грустное сообщение: "seems that it's currently not possible to monitor that page."
:(
бум использовать старые версии


-- BMY написал 22 июня 2014 10:33
Что с их официальным сайтом? Что они с ним делают? Никто не подскажет?


-- tungus1973 написал 22 июня 2014 11:05
Да вроде работает сайт (http://www.aignes.com/)


-- tungus1973 написал 12 марта 2015 13:53
Поместил в старт-топик прямые ссылки на файлы справки к программе.

Здесь продублирую для тех, кому лень переходить на первую страничку :smile:

Русский help-файл для WebSite-Watcher (http://www.aignes.info/download/wswhelp_russian.exe)

Manual на русском (PDF) (http://www.aignes.info/download/wsw_manual_russian.pdf)


-- SkyAn написал 5 мая 2015 14:07
Можете подсказать, как организовать при анализе (скачивании) сайта фильтрацию. Тоесть, ссылки с pdf сбрасывать в под папку PDF, а ссылки с рисунками в под папку Image


-- tungus1973 написал 5 мая 2015 18:10
Вы неясно описали задачу. Процитирую оба Ваши сообщения из двух веток форума:

SkyAn написал:
[q]
помогите выбрать программу для слежением изменений на сайтах конкурентов. Нужно всего немного от программы, получить список страниц сайта, следить за изменениями на них и по возможности фильтровать картинки и pdf с сайта по под папкам.

как организовать при анализе (скачивании) сайта фильтрацию. Тоесть, ссылки с pdf сбрасывать в под папку PDF, а ссылки с рисунками в под папку Image
[/q]

Если я правильно понял:
1. Есть некий сайт.
2. На страницах сайта есть ссылки на PDF-файлы и есть ссылки на рисунки. (Возможно, также потребуется уточнить техническую деталь: рисунки отображаются на странице, или на них есть только ссылки?)
Дальше ничего не понятно...

Уточните, пожалуйста, что Вам требуется от программы:
-- Анализировать сайт? Или скачивать? Если скачивать, то весь сайт или только отдельные файлы? Что следует понимать под "анализом" сайта?
-- Какие конкретно действия/результаты Вы имеете ввиду под словом "фильтрация"?
-- Как следует понимать фразу "сбрасывать ссылки"? В каком виде Вы хотели бы получить результат?
-- О каких "папках" идёт речь: о папках на жёстком диске или о папках WebSite Watcher?
-- Зачем именно раскладывать PDF и рисунки по подпапкам? Не достаточно будет того, что файлы имеют разное расширение?

Опишите подробно, по шагам, что должна для Вас делать программа (как если бы Вы делали то же самое, но вручную).


-- tungus1973 написал 14 мая 2015 8:19
Один из участников форума задал мне вопрос:
[q]
Не могу поставить на мониторинг страничку из контактов. Есть которые ставятся, а есть которые нет. В чем загвоздка?
[/q]


Поскольку ситуация довольно распространённая, а решается разными способами, я отвечу в этой ветке, чтобы мой ответ увидели другие читатели форума и знали, как поступать в таких случаях.

Причина проблемы чаще всего кроется в настройках доступности страничек ВК. Некоторые пользователи ВК открывают свои странички для всех Интернет-пользователей, другие пользователи закрывают их от незарегистрированных пользователей ВК, или открывают их только для друзей. То же самое относится и к другим ресурсам с ограниченным доступом, например, к форумам.

Когда пользователь заходит в ВК через обычный браузер, то авторизуется (возможно автоматически) и видит всё, что ему доступно - открытые странички, страницы друзей. Когда WSW заходит в ВК, то он не авторизован. Он видит только то, что доступно обычному не авторизованному посетителю, то есть только те странички, которые открыты для всех пользователей Интернета.

Чтобы решить эту проблему, нужно научить WebSite Watcher автоматически авторизовываться на ресурсах с ограниченным доступом.
Программа поддерживает сразу несколько видов авторизации.

Способ 1. Cookies. Это, пожалуй, самый быстрый способ авторизации.
Наверное, Вы замечали, что на некоторых сайтах достаточно авторизоваться один раз, а при следующих заходах сайт уже не требует ввода логина-пароля, а сразу пропускает пользователя. Причина кроется в Cookies - небольших файлах, которые сайт сохраняет на компьютере пользователя, и которые содержат некий код идентификации. При каждом следующем заходе сайт просто находит нужный ему файл Cookies, считывает из него код, и, если код правильный, то пропускает пользователя без необходимости ввода пароля.
WebSite Watcher может хранить в себе такие файлы Cookies, либо считывать их из Internet Explorer. Способ работы с Cookies выбирается в настройках закладки "Дополнительно / Опции проверки (2) / Cookies".

Способ 2. Авторизация сервера.
Иногда, когда Вы заходите на сайт, он выводит специальное окошко с 2 полями, в которые нужно ввести пару логин-пароль. Для авторизации такого типа в WebSite Watcher есть специальная настройка "Дополнительно / Login / Авторизация сервера". Просто введите логин и пароль в программе, и WSW будет сам подставлять их в поля формы авторизации.

Способ 3. Макрос. Некоторые сайты, вроде нашего форума, имеют сложный механизм Cookies-авторизации. Однажды сохранённые Cookies не сработают при следующей авторизации. Для подобных сложных случаев в программе предусмотрена авторизация через макрос.
Макрос записывает действия пользователя, которые он совершает при входе на сайт (ввод текста в поля, нажатия кнопок и т.д.), а при проверке закладки автоматически воспроизводит все эти действия. Несмотря на большое удобство этого способа, всё же у него есть недостаток - программа делает довольно большие паузы между действиями, в результате такие закладки проверяются чрезвычайно медленно.
Макрос можно записать в свойствах закладки двумя способами: "Общие / Check Macro..." или "Дополнительно / Login / Check Macro...".

Способ 4. Referrer. Есть такие странички, которые невозможно посмотреть по прямой ссылке. Они доступны только если запрос перенаправлен с другого сайта. WebSite Watcher поддерживает такие перенаправления. В свойствах закладки нужно ввести URL-адрес сайта, с которого осуществляется перенаправление в "Дополнительно / Опции проверки (2) / Referrer".

Способ 5. GET / POST. Этот способ для продвинутых пользователей. Если Вы представляете, как страничка в браузере общается с Интернет-сервером, то можете прописать, какие именно запросы можно отправить серверу в форме GET или POST.


Для авторизации в ВК подойдёт Способ 1.
Откройте ВК в Internet Explorer, авторизуйтесь и импортируйте Cookies.
Либо откройте мини-браузер WebSite Watcher, зайдите в ВК, авторизуйтесь, перейдите на вкладку "Cookies" и скопируйте её содержимое в настройки закладки.
Один и тот же Cookies используйте для всех закладок к ВК.


-- SkyAn написал 7 июля 2015 14:27

tungus1973 написал:
[q]
Если я правильно понял:
1. Есть некий сайт.
2. На страницах сайта есть ссылки на PDF-файлы и есть ссылки на рисунки. (Возможно, также потребуется уточнить техническую деталь: рисунки отображаются на странице, или на них есть только ссылки?)
Дальше ничего не понятно...

Уточните, пожалуйста, что Вам требуется от программы:
-- Анализировать сайт? Или скачивать? Если скачивать, то весь сайт или только отдельные файлы? Что следует понимать под "анализом" сайта?
-- Какие конкретно действия/результаты Вы имеете ввиду под словом "фильтрация"?
-- Как следует понимать фразу "сбрасывать ссылки"? В каком виде Вы хотели бы получить результат?
-- О каких "папках" идёт речь: о папках на жёстком диске или о папках WebSite Watcher?
-- Зачем именно раскладывать PDF и рисунки по подпапкам? Не достаточно будет того, что файлы имеют разное расширение?

Опишите подробно, по шагам, что должна для Вас делать программа (как если бы Вы делали то же самое, но вручную).
[/q]


Извините за долгий ответ. Думал, что это будет разовая работа, но ошибся. Опишу более подробно, что требуется.
Есть список сайтов конкурентов, за которыми хотелось наблюдать. Все эти сайты разделены на условные подгруппы, это для внутреннего понимания. Так вот, руководство хочет отслеживать изменения каждую неделю. Это я сделал. Получилось очень большое количество ссылок с каждого сайта (~2000стр), часть с них, это картинки, часть pdf, некоторые это архивы. А так же большое количество мусорных страниц, которые нас не интересуют, от них я избавился через "Отслеживание ссылок" и там добавил исключения (не знаю правильно ли). Для картинок, pdf и архивов я создал виртуальные папки и отсортировал имеющиеся ссылки по определенным признакам. Но при этом они все остались в основной папке. В таком виде легче воспринимать информацию.

Что хотелось бы получить на выходе.
- Фильтрация по типу ссылок. Частично сделал с помощью виртуальных папок.
- Сделать заготовку, когда добавляется новый сайт, то сразу создаются виртуальные папки с условиями фильтрации (тип, PDF, img, zip)
- Возможность пакетно редактировать условия фильтрации для виртуальных папок.
- Возможность совместной работы с базой. Или как-то по другому информировать об обновлениях.



-- tungus1973 написал 7 июля 2015 14:33

SkyAn написал:
[q]
А так же большое количество мусорных страниц, которые нас не интересуют, от них я избавился через "Отслеживание ссылок" и там добавил исключения (не знаю правильно ли)
[/q]
Есть такой способ. Должен работать.
А почему вы сомневаетесь в его правильности?


-- SkyAn написал 7 июля 2015 18:32
[q]
А почему вы сомневаетесь в его правильности?
[/q]

Ну может это делается по другому. Мануал не осилил прочитать)))))


-- tungus1973 написал 8 июля 2015 9:25

SkyAn написал:
[q]
Что хотелось бы получить на выходе.
1. Фильтрация по типу ссылок. Частично сделал с помощью виртуальных папок.
2. Сделать заготовку, когда добавляется новый сайт, то сразу создаются виртуальные папки с условиями фильтрации (тип, PDF, img, zip)
3. Возможность пакетно редактировать условия фильтрации для виртуальных папок.
4. Возможность совместной работы с базой. Или как-то по другому информировать об обновлениях.
[/q]
Отвечу по пунктам:

1. Почему частично? Правила виртуальных папок настраиваются довольно гибко. Например, можно использовать правило "проверяемый url содержит текст "pdf" ". Все PDF-файлы будут попадать в эту виртуальную папку. Вторым правилом можно указать название сайта, чтобы файлы с разных сайтов попадали в разные папки.

2. К сожалению это невозможно в последней версии WSW. Папки можно создавать только вручную и задавать их свойства тоже только вручную.

3. Этого в программе тоже нет. Нельзя даже просто скопипастить правила попадания в папку.

4. Для информирования об обновлениях можно сделать рассылку отчётов с обновлениями. Есть ещё запуск программ с параметрами, но этот способ для умельцев создавать собственный софт.


-- tungus1973 написал 27 января 2016 21:20
Сегодня выпущен WebSite-Watcher версии 2016.0.

Из нового:



-- tungus1973 написал 20 января 2017 12:05
Вышла первая бета-версия WebSite-Watcher 2017.0

Из нового:



-- tungus1973 написал 3 февраля 2017 22:10
Вышла третья бета-версия WebSite-Watcher 2017.0
Кроме исправления багов, появилась появилась новая опция: "Не показывать изображения". Опция поможет в случаях, когда из-за дефектов страницы изображение закрывает часть текста.


-- Irina написал 6 марта 2017 20:03
Здравствуйте! :hi: Я дилетант в подобных программах, но в рабочем процессе мне пришлось с ней столкнуться. Возникли вопросы, на которые руководство пользователя не дало полные ответы. Помогите, пожалуйста: :angel:

1) почему после установки фильтров отслеживания через пару проверок он слетает и весь текст страницы сайта выделяется как игнорируемый?
2) как правильно установить настройки ,чтобы программа отслеживала глубину ссылок лишь в одном разделе сайта?
3) при большой загруженности программы (при большом количестве ссылок) возможно ли торможение других программ на компьютере, как этого избежать?

Спасибо!


-- tungus1973 написал 6 марта 2017 21:58
Здравствуйте, Irina!

[q]
1) почему после установки фильтров отслеживания через пару проверок он слетает и весь текст страницы сайта выделяется как игнорируемый?
[/q]
Не могу точно ответить на этот вопрос, так как причин может быть очень много. Самая распространённая - если для фильтра выбраны не уникальные фразы.
Посмотрите также, какие фильтры установлены для закладок. Если увидите, что некоторые закладки имеют много фильтров, проверьте их, наверняка большинство из них уже давно устарели и только мешают работе.
Возможно также, что у Вас старая версия WSW. Некоторые пользователи жаловались, что в версии 2016 был баг с фильтрами. В версии 2017 этот баг был исправлен.

[q]
2) как правильно установить настройки ,чтобы программа отслеживала глубину ссылок лишь в одном разделе сайта?
[/q]
Чтобы ответить на этот вопрос, нужно знать устройство сайта, который Вы мониторите.
Если у целевого раздела сайта уникальный url-адрес, то чтобы робот не ходил на другие страницы, можно использовать для ограничения уникальную часть url-адреса (опция "Отслеживать только ссылки, содержащие только одну из следующих строк").
Другие варианты, которые могут сработать:
-- отфильтровать всё содержимое сайта, кроме ссылки на целевой раздел;
-- написать плагин (Wsw_PreProcessPage), который будет удалять ссылки на другие разделы, прежде, чем начнётся проверка страницы;
-- написать плагин (Wsw_PreProcessPage), который будет отслеживать ссылки, создавая закладки вручную и запуская их проверку через скрипт.

[q]
3) при большой загруженности программы (при большом количестве ссылок) возможно ли торможение других программ на компьютере, как этого избежать?
[/q]
Не исключаю, что Вашему компьютеру требуется профилактика (элементарно вычистить пыль и поменять охлаждающую пасту на процессорах), или даже модернизация, если приходится мониторить большое число закладок.
Попробуйте уменьшить количество одновременных Интернет-соединений (Опции / Конфигурация программы / Проверка / Общие / Соединение). Установите максимальное количество одновременных соединений на "1", запустите проверку и запустите параллельно другие программы, которыми Вы обычно пользуетесь. Если программы будут всё так же тормозить, значит дело не в WSW. Если снижение количества одновременных соединений даст положительный эффект, то можете попробовать экспериментальным путём повысить число соединений до приемлемого уровня, потому что 1 соединение - это замедление работы в 10 раз.
Что ещё может влиять на эффективность работы WSW:
-- Макросы. Существенно замедляют проверку. Если используете макросы авторизации, то попробуйте авторизацию через cookies.
-- Использование технологии проверки "Internet Explorer". Применяйте её только там, где это действительно необходимо.
-- Плагины. Особенно замедляют работу, если в плагинах используются неэффективные алгоритмы.
-- Большое число фильтров на одной странице. Особенно, если часто пользуетесь опцией "Автофильтр", но в дальнейшем не проверяете, актуальны ли ещё фильтры или уже устарели. Нужно вычищать неработающие фильтры.
-- Частая автопроверка. Например, когда для тысяч закладок установлено расписание "проверять каждую минуту".
-- Медленное или часто обрывающееся Интернет-соединение. Например, если компьютер работает через общий перегруженный Wi-Fi, а не через кабель локальной сети.


-- Irina написал 10 марта 2017 11:09
Спасибо за ответ!
Хотела все-таки уточнить по поводу отслеживания ссылок в определенном разделе сайта, так как не совсем ясно.

Допустим, у меня есть сайт Бурятского УФАСа и мне нужно так настроить мониторинг, чтобы поиск осуществлялся лишь по ленте новостей, которая идет в центре страницы, при этом поиск осуществлялся по ключевому слову и отслеживался не только в заголовке новости, но и внутри новости, в тексте (тут, я полагаю, и нужно отслеживание ссылок).
Прошу прощения за такую дилетантскую формулировку вопроса))) :smile:


-- tungus1973 написал 10 марта 2017 11:40
Есть два способа решить вашу задачу:

1. Быстрый: Через фильтры. Отфильтровываем весь лишний контент. Затем настраиваем следование по ссылкам. Обязательно включаем опцию "Не следовать по ссылкам внутри отфильтрованных участков".

2. Надёжный: Через плагин. Пишем плагин, который удалит со страницы весь лишний контент. Затем следуем по ссылкам. Плагин гарантирует, что ни по одной другой ссылке робот точно не перейдёт (потому что они гарантированно удалены).

Оба способа хороши, но при изменении исходного контента страницы, фильтры переделывать всё же быстрее, чем плагин.


-- Irina написал 10 марта 2017 14:51
Спасибо за оперативный ответ!
Уточните, у каких случаях и как часто необходимо переделывать фильтры?



-- tungus1973 написал 10 марта 2017 14:56
Владельцы сайтов без дела не сидят. То на страницах какой-то новый элемент прикрутят, то дизайн улучшат, то новую версию движка поставят, то вообще на другой движок перейдут. Все эти действия могут существенно изменять исходный HTML-код страницы. В этом случае старые фильтры могут не срабатывать и плагины тоже перестают работать. Приходится переделывать. Как часто? Среднего значения нет. Есть сайты, которые годами не меняются, а есть сайты, на которых исходный код меняется ежедневно (похоже, какие-то программы ставят, которые исходный код постоянно меняют). Это проблема не только WSW. Это головная боль любой системы мониторинга.


-- Irina написал 10 марта 2017 15:51
Понятно, спасибо. Все, действительно, сложнее, чем кажется))

Я работаю в небольшом агентстве новостей узкой тематики. Сейчас мы испытываем возможности WSW с целью дальнейшей покупки этой программы для нашего отдела мониторинга и пользования ее сотрудниками отдела. Сотрудники - не специалисты программирования )) В связи с этим и с Вашим последним сообщением у меня еще вопрос: посоветовали бы Вы данную программу в нашем случае? Задачи отдела: поиск обновляющейся информации определенной тематики на определенных сайтах? Или, возможно, посоветовали бы другую, более простую (если такая вообще существует) программу?



-- vbl написал 10 марта 2017 16:05

Irina написал:
[q]
[/q]


[q]
Допустим, у меня есть сайт Бурятского УФАСа и мне нужно так настроить мониторинг, чтобы поиск осуществлялся лишь по ленте новостей, которая идет в центре страницы, при этом поиск осуществлялся по ключевому слову и отслеживался не только в заголовке новости, но и внутри новости, в тексте (тут, я полагаю, и нужно отслеживание ссылок).
[/q]


Посмотрите программу СайтСпутник в версии News. Для Ваших задач будет самое то. Сайт программы - www.sitesputnik.ru/

По цене они конечно не очень сопоставимы, но зато функционал у СайтСпутника очень хорош. А решать такую задачу с помощью Вочера, это, отчасти, сродни мазохизму :)





-- tungus1973 написал 10 марта 2017 16:15
Для мониторинга новостей лучше подходит СайтСпутник версии News.

Сильная сторона WSW - мониторинг изменений на конкретной странице. Например, есть страница с перечнем сотрудников некоей компании, и изо дня в день на этой странице ничего не меняется, пока не появится новый сотрудник. Так вот, это задача WSW. Он может годами ходить на одну и ту же страницу, а оповещать Вас только когда на ней появятся изменения.
Также WSW удобен при мониторинге форумов. Там есть специальный встроенный плагин.
И ещё WSW пригождается при мониторинге flash-контента (картинок). Он может делать скриншот экрана и сравнивать его с предыдущей версией.


-- Irina написал 10 марта 2017 16:48
Большое спасибо за разъяснения. Посмотрим еще и СайтСпутник версии News.


-- ara_367519 написал 25 февраля 2018 21:23
А никто не подскажет, wsw можно использовать для мониторинга телеграмм-каналов или что под это заточить?


-- tungus1973 написал 26 февраля 2018 10:39
У WSW есть технология проверки через браузер IE, который запускается скрытно и позволяет выполнять любые скрипты. Если телеграмм-канал можно просмотреть через IE, то его увидит и WSW.
Для авторизации на сайте и задания запросов можно использовать Макросы.
К сожалению, WSW позволяет прокручивать страницу вниз только 10 раз; то есть, более давние новости через него не собрать. Собственно, это понятно - программа предназначена для мониторинга изменений, а не для выкачивания всего контента.
WSW приносит HTML-код страницы, в котором JavaScripts внедряются в текстовом виде (что даёт возможность изучать скрипты и использовать это для сложных запросов к серверу сайта). Если из телеграмм-канала нужно будет доставать только определённую информацию, то для этого нужно будет написать WSW-скрипт, который вытащит нужный текст и сохранит его в виде файла.


-- Вялый написал 15 июня 2018 11:23
WSW появился на iOS и Android. 5 сайтов бесплатно, остальное за деньги.


-- tungus1973 написал 19 ноября 2018 10:53
Один из посетителей форума Ru-Board ставил на мониторинг в WSW ресурс, заблокированный Роскомнадзором. С мониторингом возникла проблема, и он обратился за помощью к форумчанам. Цитирую:

[q]
Есть сайт программы слайсера для 3D печати, попал под раздачу и его забанили в куче с каким то сайтом. Вопрос, сайт открывается только через VPN Можно ли как то прописать его в программе чтобы проверка стала возможной?
[/q]

[q]
Отвечаю сам себе Установил open VPN не как плагин на браузер, а на комп. Авторизировался как USA , сайт открывается, прога сайт увидела и проверяет.
[/q]



-- Вялый написал 3 февраля 2019 15:04

Вялый написал:
[q]
WSW появился на iOS и Android. 5 сайтов бесплатно, остальное за деньги.
[/q]

Появилась еще одна прога для «походного» мониторинга :), правда только в апсторе. Функционал поменьше, что-то типа плагина Update Scanner на Fitefox:
Sites watcher (http://itunes.apple.com/app/id1450670150)

Пробовал разные, нормально работает только WSW и эта, хотя может еще есть какие-то, в основном или вообще не проверяют или очень долго.



Этот форум работает на скрипте Intellect Board
© 2004-2007, 4X_Pro, Объединенный Открытый Проект