Форум Сообщества Практиков Конкурентной разведки (СПКР) » Софт для конкурентной разведки » WebSite Watcher |
<<Назад Вперед>> | Страницы: 1 2 3 4 * 5 6 | Печать |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
SkyAn написал: Есть такой способ. Должен работать. А так же большое количество мусорных страниц, которые нас не интересуют, от них я избавился через "Отслеживание ссылок" и там добавил исключения (не знаю правильно ли) А почему вы сомневаетесь в его правильности? |
SkyAn |
Профиль | Игнорировать
NEW! Сообщение отправлено: 7 июля 2015 18:32 Сообщение отредактировано: 7 июля 2015 18:32
[q]А почему вы сомневаетесь в его правильности? [/q] Ну может это делается по другому. Мануал не осилил прочитать))))) |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
SkyAn написал: Отвечу по пунктам: Что хотелось бы получить на выходе. 1. Почему частично? Правила виртуальных папок настраиваются довольно гибко. Например, можно использовать правило "проверяемый url содержит текст "pdf" ". Все PDF-файлы будут попадать в эту виртуальную папку. Вторым правилом можно указать название сайта, чтобы файлы с разных сайтов попадали в разные папки. 2. К сожалению это невозможно в последней версии WSW. Папки можно создавать только вручную и задавать их свойства тоже только вручную. 3. Этого в программе тоже нет. Нельзя даже просто скопипастить правила попадания в папку. 4. Для информирования об обновлениях можно сделать рассылку отчётов с обновлениями. Есть ещё запуск программ с параметрами, но этот способ для умельцев создавать собственный софт. |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Сегодня выпущен WebSite-Watcher версии 2016.0. Из нового:
|
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Вышла первая бета-версия WebSite-Watcher 2017.0 Из нового:
|
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Вышла третья бета-версия WebSite-Watcher 2017.0 Кроме исправления багов, появилась появилась новая опция: "Не показывать изображения". Опция поможет в случаях, когда из-за дефектов страницы изображение закрывает часть текста. |
Irina |
Здравствуйте! Я дилетант в подобных программах, но в рабочем процессе мне пришлось с ней столкнуться. Возникли вопросы, на которые руководство пользователя не дало полные ответы. Помогите, пожалуйста: 1) почему после установки фильтров отслеживания через пару проверок он слетает и весь текст страницы сайта выделяется как игнорируемый? 2) как правильно установить настройки ,чтобы программа отслеживала глубину ссылок лишь в одном разделе сайта? 3) при большой загруженности программы (при большом количестве ссылок) возможно ли торможение других программ на компьютере, как этого избежать? Спасибо! |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 6 марта 2017 21:58 Сообщение отредактировано: 6 марта 2017 21:59
Здравствуйте, Irina! Не могу точно ответить на этот вопрос, так как причин может быть очень много. Самая распространённая - если для фильтра выбраны не уникальные фразы. 1) почему после установки фильтров отслеживания через пару проверок он слетает и весь текст страницы сайта выделяется как игнорируемый? Посмотрите также, какие фильтры установлены для закладок. Если увидите, что некоторые закладки имеют много фильтров, проверьте их, наверняка большинство из них уже давно устарели и только мешают работе. Возможно также, что у Вас старая версия WSW. Некоторые пользователи жаловались, что в версии 2016 был баг с фильтрами. В версии 2017 этот баг был исправлен. Чтобы ответить на этот вопрос, нужно знать устройство сайта, который Вы мониторите. 2) как правильно установить настройки ,чтобы программа отслеживала глубину ссылок лишь в одном разделе сайта? Если у целевого раздела сайта уникальный url-адрес, то чтобы робот не ходил на другие страницы, можно использовать для ограничения уникальную часть url-адреса (опция "Отслеживать только ссылки, содержащие только одну из следующих строк"). Другие варианты, которые могут сработать: -- отфильтровать всё содержимое сайта, кроме ссылки на целевой раздел; -- написать плагин (Wsw_PreProcessPage), который будет удалять ссылки на другие разделы, прежде, чем начнётся проверка страницы; -- написать плагин (Wsw_PreProcessPage), который будет отслеживать ссылки, создавая закладки вручную и запуская их проверку через скрипт. Не исключаю, что Вашему компьютеру требуется профилактика (элементарно вычистить пыль и поменять охлаждающую пасту на процессорах), или даже модернизация, если приходится мониторить большое число закладок. 3) при большой загруженности программы (при большом количестве ссылок) возможно ли торможение других программ на компьютере, как этого избежать? Попробуйте уменьшить количество одновременных Интернет-соединений (Опции / Конфигурация программы / Проверка / Общие / Соединение). Установите максимальное количество одновременных соединений на "1", запустите проверку и запустите параллельно другие программы, которыми Вы обычно пользуетесь. Если программы будут всё так же тормозить, значит дело не в WSW. Если снижение количества одновременных соединений даст положительный эффект, то можете попробовать экспериментальным путём повысить число соединений до приемлемого уровня, потому что 1 соединение - это замедление работы в 10 раз. Что ещё может влиять на эффективность работы WSW: -- Макросы. Существенно замедляют проверку. Если используете макросы авторизации, то попробуйте авторизацию через cookies. -- Использование технологии проверки "Internet Explorer". Применяйте её только там, где это действительно необходимо. -- Плагины. Особенно замедляют работу, если в плагинах используются неэффективные алгоритмы. -- Большое число фильтров на одной странице. Особенно, если часто пользуетесь опцией "Автофильтр", но в дальнейшем не проверяете, актуальны ли ещё фильтры или уже устарели. Нужно вычищать неработающие фильтры. -- Частая автопроверка. Например, когда для тысяч закладок установлено расписание "проверять каждую минуту". -- Медленное или часто обрывающееся Интернет-соединение. Например, если компьютер работает через общий перегруженный Wi-Fi, а не через кабель локальной сети. |
Irina |
Спасибо за ответ! Хотела все-таки уточнить по поводу отслеживания ссылок в определенном разделе сайта, так как не совсем ясно. Допустим, у меня есть сайт Бурятского УФАСа и мне нужно так настроить мониторинг, чтобы поиск осуществлялся лишь по ленте новостей, которая идет в центре страницы, при этом поиск осуществлялся по ключевому слову и отслеживался не только в заголовке новости, но и внутри новости, в тексте (тут, я полагаю, и нужно отслеживание ссылок). Прошу прощения за такую дилетантскую формулировку вопроса))) |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Есть два способа решить вашу задачу: 1. Быстрый: Через фильтры. Отфильтровываем весь лишний контент. Затем настраиваем следование по ссылкам. Обязательно включаем опцию "Не следовать по ссылкам внутри отфильтрованных участков". 2. Надёжный: Через плагин. Пишем плагин, который удалит со страницы весь лишний контент. Затем следуем по ссылкам. Плагин гарантирует, что ни по одной другой ссылке робот точно не перейдёт (потому что они гарантированно удалены). Оба способа хороши, но при изменении исходного контента страницы, фильтры переделывать всё же быстрее, чем плагин. |
<<Назад Вперед>> | Страницы: 1 2 3 4 * 5 6 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Софт для конкурентной разведки » WebSite Watcher |
Самые активные 20 тем | |