Мастер подключения поисковиков, сайтов и RSS-потоков

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Библиотека источников и иструменты её создания и ведения »   Мастер подключения поисковиков, сайтов и RSS-потоков
RSS

Мастер подключения поисковиков, сайтов и RSS-потоков

<<Назад  Вперед>>Страницы: 1 2 3 4 5 6 7 8 9
Печать
 
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 798
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Так Вы же первый раз выполняете задание?
Если да, то для СайтСпутника все ссылки новые. Завтра будете выполнять - новых будет намного меньше, штук 1000. Вот они и будут скачиваться и рубрицироваться.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 487
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009

Алексей Мыльников написал:
[q]
Так Вы же первый раз выполняете задание?
Если да, то для СайтСпутника все ссылки новые. Завтра будете выполнять - новых будет намного меньше, штук 1000. Вот они и будут скачиваться и рубрицироваться.
[/q]


Да вот в том-то и дело, что нет (см. скриншот). Запустил один и тот же пакет 1,2 и 4 апреля. Каждый день обрабатывается по 6 тысяч ссылок.

Прикрепленный файл (sitesputnik1.JPG, 95905 байт, скачан: 113 раз)
petryashov
Администратор

Откуда: Москва
Всего сообщений: 487
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
А вот статистика по попаданиям в рубрики:

Прикрепленный файл (SiteSputnik2.JPG, 104977 байт, скачан: 117 раз)
Vinni
Администратор

Всего сообщений: 2695
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

petryashov написал:
[q]
Нужно, чтобы она скачивала только те данные из RSS- потока, которые новее, чем дата последнего посещения RSS - потока.
[/q]


Ну обычно делают немного не так - у каждой новости в RSS есть тег с уникальным идентификатором (GUID), в качестве которого обычно указывается ссылка на новость, и rss-клиенты хранят список прочитанных GUID-ов и скачивают полные тексты новостей только для тех новых GUID.
Дело в том, что регулярно сталкиваюсь с тем, что поле даты-времени на сайтах глючит и новости датируются 1940-ым годом и т.д. :crazy:

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 798
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Посмотрте в "Настройках-Парамерты" на вкладке "Поиск и сбор" - стоит ли хоть одна галочка сверху по созданию списка "Новые", если да, то это моя вина (где-то лет 5 назад ставил "заглушку" на создание списка "Новые", если размер файла с новыми ссылками более 2,5 мгб). В любом случае, сегодня уберу "заглушку". Вполне вероятно, что она сработала: списка "Новые" у Вас на картинке нет.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 487
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
2 Алексей Мыльников
Да, у меня стоит галка напротив пункта "Создавать список "Новые относительно 90 точно таких же поисков..."

petryashov
Администратор

Откуда: Москва
Всего сообщений: 487
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009

Vinni написал:
[q]

Ну обычно делают немного не так - у каждой новости в RSS есть тег с уникальным идентификатором (GUID), в качестве которого обычно указывается ссылка на новость, и rss-клиенты хранят список прочитанных GUID-ов и скачивают полные тексты новостей только для тех новых GUID.
Дело в том, что регулярно сталкиваюсь с тем, что поле даты-времени на сайтах глючит и новости датируются 1940-ым годом и т.д.
[/q]


Спасибо, интересно. Может быть, Вы знаете еще какие-нибудь способы выделения новых материалов в RSS - потоке среди прочитанных?

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 798
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]
еще какие-нибудь способы выделения новых материалов в RSS - потоке среди прочитанных?
[/q]

1. Из 50 источников, задействованных у Вас, только 4 RSS, остальные поиски или эмуляция, в которых нет информации, упомянутой Винни. Далеко не над всеми потоками информации создаются RSS.

2. В СайтСпутнике все материалы скачиваются только при первом прогоне. Если они (материалы) не нужны, по после окончания поиска можно остановить процесс (скачивать и рубрицировать не обязательно).

3. Можно обновиться и выполнить задание, список "Новые" должен появиться и, соответственно, повторных скачиваний не будет.


Vinni
Администратор

Всего сообщений: 2695
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

petryashov написал:
[q]
Спасибо, интересно. Может быть, Вы знаете еще какие-нибудь способы выделения новых материалов в RSS - потоке среди прочитанных?
[/q]


Ну вообще согласно спецификации RSS это штатный способ :wink:
Можно конечно и по тегу даты-времени новости, но это более ненадежный способ :wonder1:

Собсно, RSS-поток по определению избыточен...
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

petryashov написал:
[q]
Как определять, какие записи старые, а какие новые? В тексте RSS- потока даты появления сообщений маркируются специальными тегами, причем самое новое сообщение находится наверху.
[/q]

Дим, я пару раз столкнулся с RSS-потоками, которые были отсортированы наоборот, а число записей в ленте превышало 200. Самый свежий материал был в конце ленты. Поэтому не советую брать за константу, что в RSSках всегда прямая сортировка. Если найду эти ленты - скину, но дело было года полтора назад, причем ленты были с буржуйских финансовых порталов.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
<<Назад  Вперед>>Страницы: 1 2 3 4 5 6 7 8 9
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Библиотека источников и иструменты её создания и ведения »   Мастер подключения поисковиков, сайтов и RSS-потоков
RSS

Последние RSS
Социнжиниринг в военной пропаганде
Тут будем жаловаться
Новое на блоге HRazvedka
История создания ИГИЛовской спецслужбы ЭМНИ (Emni)
«МИРУ-МИР» (Короткометражный фильм) 2017
Парсер для сайта Реформа ЖКХ
Darknet, Deep Web. Как посещать закрытые сайты?
Баланс банковской карты по её номеру
Сборка инструментов для OSINT
This Week SCIP Is in India
Яндекс запустил открытое бета-тестирование Яндекс.Медианы
Яндекс представит свой новый поиск
Kaspersky Who Calls
DarkNet
Книга "Наружное наблюдение"
Larina, SPKR and US 2016 Election
Засветились...
Экономический шпионаж с китайской спецификой
Обновление на блоге HRazvedka
Как найти email нужного человека: инструменты, хитрости, тактика

Самые активные 20 тем RSS
Мелочи
Тут будем жаловаться
Социнжиниринг в военной пропаганде