Форум Сообщества Практиков Конкурентной разведки (СПКР) » Библиотека источников и иструменты её создания и ведения » Мастер подключения поисковиков, сайтов и RSS-потоков |
![]() |
Вперед>> | Страницы: 1 2 3 4 5 6 7 8 9 | Печать |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Так Вы же первый раз выполняете задание? Если да, то для СайтСпутника все ссылки новые. Завтра будете выполнять - новых будет намного меньше, штук 1000. Вот они и будут скачиваться и рубрицироваться. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Алексей Мыльников написал: Так Вы же первый раз выполняете задание? Да вот в том-то и дело, что нет (см. скриншот). Запустил один и тот же пакет 1,2 и 4 апреля. Каждый день обрабатывается по 6 тысяч ссылок. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
А вот статистика по попаданиям в рубрики: |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
petryashov написал: Нужно, чтобы она скачивала только те данные из RSS- потока, которые новее, чем дата последнего посещения RSS - потока. Ну обычно делают немного не так - у каждой новости в RSS есть тег с уникальным идентификатором (GUID), в качестве которого обычно указывается ссылка на новость, и rss-клиенты хранят список прочитанных GUID-ов и скачивают полные тексты новостей только для тех новых GUID. Дело в том, что регулярно сталкиваюсь с тем, что поле даты-времени на сайтах глючит и новости датируются 1940-ым годом и т.д. ![]() |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Посмотрте в "Настройках-Парамерты" на вкладке "Поиск и сбор" - стоит ли хоть одна галочка сверху по созданию списка "Новые", если да, то это моя вина (где-то лет 5 назад ставил "заглушку" на создание списка "Новые", если размер файла с новыми ссылками более 2,5 мгб). В любом случае, сегодня уберу "заглушку". Вполне вероятно, что она сработала: списка "Новые" у Вас на картинке нет. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
2 Алексей Мыльников Да, у меня стоит галка напротив пункта "Создавать список "Новые относительно 90 точно таких же поисков..." |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Vinni написал:
Спасибо, интересно. Может быть, Вы знаете еще какие-нибудь способы выделения новых материалов в RSS - потоке среди прочитанных? |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
petryashov написал: еще какие-нибудь способы выделения новых материалов в RSS - потоке среди прочитанных? 1. Из 50 источников, задействованных у Вас, только 4 RSS, остальные поиски или эмуляция, в которых нет информации, упомянутой Винни. Далеко не над всеми потоками информации создаются RSS. 2. В СайтСпутнике все материалы скачиваются только при первом прогоне. Если они (материалы) не нужны, по после окончания поиска можно остановить процесс (скачивать и рубрицировать не обязательно). 3. Можно обновиться и выполнить задание, список "Новые" должен появиться и, соответственно, повторных скачиваний не будет. |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
petryashov написал: Спасибо, интересно. Может быть, Вы знаете еще какие-нибудь способы выделения новых материалов в RSS - потоке среди прочитанных? Ну вообще согласно спецификации RSS это штатный способ ![]() Можно конечно и по тегу даты-времени новости, но это более ненадежный способ ![]() Собсно, RSS-поток по определению избыточен... |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
petryashov написал: Как определять, какие записи старые, а какие новые? В тексте RSS- потока даты появления сообщений маркируются специальными тегами, причем самое новое сообщение находится наверху. Дим, я пару раз столкнулся с RSS-потоками, которые были отсортированы наоборот, а число записей в ленте превышало 200. Самый свежий материал был в конце ленты. Поэтому не советую брать за константу, что в RSSках всегда прямая сортировка. Если найду эти ленты - скину, но дело было года полтора назад, причем ленты были с буржуйских финансовых порталов. ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
Вперед>> | Страницы: 1 2 3 4 5 6 7 8 9 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Библиотека источников и иструменты её создания и ведения » Мастер подключения поисковиков, сайтов и RSS-потоков |
![]() |
Самые активные 20 тем |
![]() |
Мелочи |