Мастер подключения поисковиков, сайтов и RSS-потоков

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Библиотека источников и иструменты её создания и ведения »   Мастер подключения поисковиков, сайтов и RSS-потоков
RSS

Мастер подключения поисковиков, сайтов и RSS-потоков

<<Назад  Вперед>>Страницы: 1 2 3 4 5 6 7 8 9
Печать
 
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 829
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Так Вы же первый раз выполняете задание?
Если да, то для СайтСпутника все ссылки новые. Завтра будете выполнять - новых будет намного меньше, штук 1000. Вот они и будут скачиваться и рубрицироваться.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009

Алексей Мыльников написал:
[q]
Так Вы же первый раз выполняете задание?
Если да, то для СайтСпутника все ссылки новые. Завтра будете выполнять - новых будет намного меньше, штук 1000. Вот они и будут скачиваться и рубрицироваться.
[/q]


Да вот в том-то и дело, что нет (см. скриншот). Запустил один и тот же пакет 1,2 и 4 апреля. Каждый день обрабатывается по 6 тысяч ссылок.

Прикрепленный файл (sitesputnik1.JPG, 95905 байт, скачан: 151 раз)
petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
А вот статистика по попаданиям в рубрики:

Прикрепленный файл (SiteSputnik2.JPG, 104977 байт, скачан: 150 раз)
Vinni
Администратор

Всего сообщений: 2711
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

petryashov написал:
[q]
Нужно, чтобы она скачивала только те данные из RSS- потока, которые новее, чем дата последнего посещения RSS - потока.
[/q]


Ну обычно делают немного не так - у каждой новости в RSS есть тег с уникальным идентификатором (GUID), в качестве которого обычно указывается ссылка на новость, и rss-клиенты хранят список прочитанных GUID-ов и скачивают полные тексты новостей только для тех новых GUID.
Дело в том, что регулярно сталкиваюсь с тем, что поле даты-времени на сайтах глючит и новости датируются 1940-ым годом и т.д. :crazy:

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 829
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Посмотрте в "Настройках-Парамерты" на вкладке "Поиск и сбор" - стоит ли хоть одна галочка сверху по созданию списка "Новые", если да, то это моя вина (где-то лет 5 назад ставил "заглушку" на создание списка "Новые", если размер файла с новыми ссылками более 2,5 мгб). В любом случае, сегодня уберу "заглушку". Вполне вероятно, что она сработала: списка "Новые" у Вас на картинке нет.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
2 Алексей Мыльников
Да, у меня стоит галка напротив пункта "Создавать список "Новые относительно 90 точно таких же поисков..."

petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009

Vinni написал:
[q]

Ну обычно делают немного не так - у каждой новости в RSS есть тег с уникальным идентификатором (GUID), в качестве которого обычно указывается ссылка на новость, и rss-клиенты хранят список прочитанных GUID-ов и скачивают полные тексты новостей только для тех новых GUID.
Дело в том, что регулярно сталкиваюсь с тем, что поле даты-времени на сайтах глючит и новости датируются 1940-ым годом и т.д.
[/q]


Спасибо, интересно. Может быть, Вы знаете еще какие-нибудь способы выделения новых материалов в RSS - потоке среди прочитанных?

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 829
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]
еще какие-нибудь способы выделения новых материалов в RSS - потоке среди прочитанных?
[/q]

1. Из 50 источников, задействованных у Вас, только 4 RSS, остальные поиски или эмуляция, в которых нет информации, упомянутой Винни. Далеко не над всеми потоками информации создаются RSS.

2. В СайтСпутнике все материалы скачиваются только при первом прогоне. Если они (материалы) не нужны, по после окончания поиска можно остановить процесс (скачивать и рубрицировать не обязательно).

3. Можно обновиться и выполнить задание, список "Новые" должен появиться и, соответственно, повторных скачиваний не будет.


Vinni
Администратор

Всего сообщений: 2711
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

petryashov написал:
[q]
Спасибо, интересно. Может быть, Вы знаете еще какие-нибудь способы выделения новых материалов в RSS - потоке среди прочитанных?
[/q]


Ну вообще согласно спецификации RSS это штатный способ :wink:
Можно конечно и по тегу даты-времени новости, но это более ненадежный способ :wonder1:

Собсно, RSS-поток по определению избыточен...
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

petryashov написал:
[q]
Как определять, какие записи старые, а какие новые? В тексте RSS- потока даты появления сообщений маркируются специальными тегами, причем самое новое сообщение находится наверху.
[/q]

Дим, я пару раз столкнулся с RSS-потоками, которые были отсортированы наоборот, а число записей в ленте превышало 200. Самый свежий материал был в конце ленты. Поэтому не советую брать за константу, что в RSSках всегда прямая сортировка. Если найду эти ленты - скину, но дело было года полтора назад, причем ленты были с буржуйских финансовых порталов.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
<<Назад  Вперед>>Страницы: 1 2 3 4 5 6 7 8 9
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Библиотека источников и иструменты её создания и ведения »   Мастер подключения поисковиков, сайтов и RSS-потоков
RSS

Последние RSS
CiMi.CON Evolution USA
Поиск в КЭШ поисковиков по запросу и пакету запросов
СайтСпутник: Многоязычность, Юникод, MS ACCESS
Новый курс OSINT от АИС
Год тюрьмы за отказ удалять
Книга "Строим доверие по методикам спецслужб"
аналог "Консультанта" о зарубежном законодательстве
Открытые данные ФНС
Получаем информацию по VIN
Competitive-Market Intelligence Conference, Berlin 2018
Не все VPN-сервисы одинаково полезны
«Яндекс» научился выдавать в поиске не скрытые Google-документы. Правда лавочку
War and marketing: 1937 July 7th vs. 2018 July 1st
Историческое. Агентурная разведка
Open Source Intelligence (OSINT) Tools and Resources Handbook
Top tips on gathering information about companies by using free online sources
Новое на блоге HRразведка
Безопасность данных в MS Access
Слово как улика
20 Recon and Intel Gathering Tools used by InfoSec Professionals

Самые активные 20 тем RSS