Форум Сообщества Практиков Конкурентной разведки (СПКР) » Библиотека источников и иструменты её создания и ведения » Мастер подключения поисковиков, сайтов и RSS-потоков |
Вперед>> | Страницы: 1 2 3 4 5 6 7 8 * 9 | Печать |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
petryashov написал: Нужно, чтобы она скачивала только те данные из RSS- потока, которые новее, чем дата последнего посещения RSS - потока. Ну обычно делают немного не так - у каждой новости в RSS есть тег с уникальным идентификатором (GUID), в качестве которого обычно указывается ссылка на новость, и rss-клиенты хранят список прочитанных GUID-ов и скачивают полные тексты новостей только для тех новых GUID. Дело в том, что регулярно сталкиваюсь с тем, что поле даты-времени на сайтах глючит и новости датируются 1940-ым годом и т.д. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Посмотрте в "Настройках-Парамерты" на вкладке "Поиск и сбор" - стоит ли хоть одна галочка сверху по созданию списка "Новые", если да, то это моя вина (где-то лет 5 назад ставил "заглушку" на создание списка "Новые", если размер файла с новыми ссылками более 2,5 мгб). В любом случае, сегодня уберу "заглушку". Вполне вероятно, что она сработала: списка "Новые" у Вас на картинке нет. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
2 Алексей Мыльников Да, у меня стоит галка напротив пункта "Создавать список "Новые относительно 90 точно таких же поисков..." |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Vinni написал:
Спасибо, интересно. Может быть, Вы знаете еще какие-нибудь способы выделения новых материалов в RSS - потоке среди прочитанных? |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
petryashov написал: еще какие-нибудь способы выделения новых материалов в RSS - потоке среди прочитанных? 1. Из 50 источников, задействованных у Вас, только 4 RSS, остальные поиски или эмуляция, в которых нет информации, упомянутой Винни. Далеко не над всеми потоками информации создаются RSS. 2. В СайтСпутнике все материалы скачиваются только при первом прогоне. Если они (материалы) не нужны, по после окончания поиска можно остановить процесс (скачивать и рубрицировать не обязательно). 3. Можно обновиться и выполнить задание, список "Новые" должен появиться и, соответственно, повторных скачиваний не будет. |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
petryashov написал: Спасибо, интересно. Может быть, Вы знаете еще какие-нибудь способы выделения новых материалов в RSS - потоке среди прочитанных? Ну вообще согласно спецификации RSS это штатный способ Можно конечно и по тегу даты-времени новости, но это более ненадежный способ Собсно, RSS-поток по определению избыточен... |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
petryashov написал: Как определять, какие записи старые, а какие новые? В тексте RSS- потока даты появления сообщений маркируются специальными тегами, причем самое новое сообщение находится наверху. Дим, я пару раз столкнулся с RSS-потоками, которые были отсортированы наоборот, а число записей в ленте превышало 200. Самый свежий материал был в конце ленты. Поэтому не советую брать за константу, что в RSSках всегда прямая сортировка. Если найду эти ленты - скину, но дело было года полтора назад, причем ленты были с буржуйских финансовых порталов. ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 5 апреля 2013 9:19 Сообщение отредактировано: 5 апреля 2013 9:19
Для: Игорь Нежданов и Vinni Спасибо! |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
2 Алексей Мыльников Понял, спасибо! Версию обновил, по итогам запуска напишу |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 15 апреля 2013 16:45 Сообщение отредактировано: 15 апреля 2013 16:51
Совместными усилиями с Алексеем выяснили, что при обработке больших объемов данных программа могла работать некорректно: не выделялся список "Новые", в результате чего программа каждый раз обрабатывала тысячи ссылок. Момент возникновения бага зависел от оперативной памяти компьютера: например, на машине с оперативной памятью 1 ГБайт он был выявлен при обработке примерно 3 000 ссылок, на машинах с бОльшим объемом памяти данная ошибка выплыла при обработке 13 000 ссылок. В результате была выпущена версия 8.4.2.9., в которой данная ошибка устранена. Кроме того, желательно увеличить объем оперативной памяти для повышения скорости работы |
Вперед>> | Страницы: 1 2 3 4 5 6 7 8 * 9 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Библиотека источников и иструменты её создания и ведения » Мастер подключения поисковиков, сайтов и RSS-потоков |
Самые активные 20 тем | |