Форум Сообщества Практиков Конкурентной разведки (СПКР) » Библиотека источников и иструменты её создания и ведения » Мастер подключения поисковиков, сайтов и RSS-потоков |
Вперед>> | Страницы: 1 2 3 4 5 6 7 * 8 9 | Печать |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
petryashov написал: Насколько я понимаю, СайтСпутник каждый раз закачивает весь поток, а затем выделяет новые записи. Конечно, нет. Сначала определяются новые адреса ссылок, причем неважно, попавших в этот RSS-поток, в другие RSS-потоки или другие поиски, в данном выполнении задания или в одном из предыдущих выполнений, - а затем скачиваются только новые ссылки. Причем, если Вы хотите результаты каких-то заданий рубрицировать в нескольких других заданиях, то можете экспортировать их в клиентские папки (это можно делать не только для рубрик, но и для потоков), а затем импортировать в тех заданиях, в которых нужно. Это полезно, в частности, для той цели, о которой Вы написали: не скачивать несколько раз одно и тоже. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
ага, понял, спасибо |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
P.S. Это говорилось не про WebSpider. WebSpider скачивает все ссылки, затем сравнивает контент каждой с предыдущим состоянием (ссылка может исчезнуть, а потом опять появиться), находит изменения и рубрицирует их. Если ссылки не было ранее, то она вся попадет на рубрикацию. Здесь никуда не денешься - обрабатываются обновления ссылок, а не новые ссылки. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Алексей Мыльников написал: Это говорилось не про WebSpider. Как раз хотел написать, что у меня сейчас отрабатывается пакет, в котором 2 сценария по тендерам: мой и Ваш. Работает уже 5 часов, выделяет контент из 6 615 ссылок. Получается очень долго. В этой связи вопрос по RSS и возник: при мониторинге RSS- потоков лично мне не нужно, чтобы программа выделяла каждый раз контент из тех ссылок, которые она уже неоднократно скачивала и сравнивала, а не было ли изменений. Нужно, чтобы она скачивала только те данные из RSS- потока, которые новее, чем дата последнего посещения RSS - потока. Отслеживать пропавшие, а затем вновь появившиеся ссылки нужно далеко не во всех случаях. В этой связи и предлагаю предусмотреть возможность выбора следующего параметра при подключении RSS - проверять весь поток или только новые записи. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Так Вы же первый раз выполняете задание? Если да, то для СайтСпутника все ссылки новые. Завтра будете выполнять - новых будет намного меньше, штук 1000. Вот они и будут скачиваться и рубрицироваться. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Алексей Мыльников написал: Так Вы же первый раз выполняете задание? Да вот в том-то и дело, что нет (см. скриншот). Запустил один и тот же пакет 1,2 и 4 апреля. Каждый день обрабатывается по 6 тысяч ссылок. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
А вот статистика по попаданиям в рубрики: |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
petryashov написал: Нужно, чтобы она скачивала только те данные из RSS- потока, которые новее, чем дата последнего посещения RSS - потока. Ну обычно делают немного не так - у каждой новости в RSS есть тег с уникальным идентификатором (GUID), в качестве которого обычно указывается ссылка на новость, и rss-клиенты хранят список прочитанных GUID-ов и скачивают полные тексты новостей только для тех новых GUID. Дело в том, что регулярно сталкиваюсь с тем, что поле даты-времени на сайтах глючит и новости датируются 1940-ым годом и т.д. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Посмотрте в "Настройках-Парамерты" на вкладке "Поиск и сбор" - стоит ли хоть одна галочка сверху по созданию списка "Новые", если да, то это моя вина (где-то лет 5 назад ставил "заглушку" на создание списка "Новые", если размер файла с новыми ссылками более 2,5 мгб). В любом случае, сегодня уберу "заглушку". Вполне вероятно, что она сработала: списка "Новые" у Вас на картинке нет. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
2 Алексей Мыльников Да, у меня стоит галка напротив пункта "Создавать список "Новые относительно 90 точно таких же поисков..." |
Вперед>> | Страницы: 1 2 3 4 5 6 7 * 8 9 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Библиотека источников и иструменты её создания и ведения » Мастер подключения поисковиков, сайтов и RSS-потоков |
Самые активные 20 тем | |