Мастер подключения поисковиков, сайтов и RSS-потоков

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Библиотека источников и иструменты её создания и ведения »   Мастер подключения поисковиков, сайтов и RSS-потоков
RSS

Мастер подключения поисковиков, сайтов и RSS-потоков

  Вперед>>Страницы: 1 2 3 4 5 6 7 * 8 9
Печать
 
petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Некоторые RSS- потоки при попытке подключения "подвисают", в диспетчере задач видно, как СайтСпутник забирает все больше памяти и 50% мощности процессора. Операционная система Win XP SP3. После долгого ожидания приходится аварийно завершать работу программы. Вот примеры:

_ttp://www.chelgumr.ru/purchase.do?category=0&cache=1
_ttp://zakupki.rosatom.ru/Web.aspx?node=currentorders

Как с этим бороться?



Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]
_ttp://www.chelgumr.ru/purchase.do?category=0&cache=1
_ttp://zakupki.rosatom.ru/Web.aspx?node=currentorders
[/q]

Если Вы имели ввиду эти RSS:

_http://www.chelgumr.ru/rss/0
_http://zakupki.rosatom.ru/?node=currentorders&mode=order&action=rssfeed&ostate=&ptype=&cust=

то они содержат не 10-25 сниппетов как обычные RSS, а 1000 и на моем компе (16 гб оперативки и Win 7) обрабатывались долго (первый минуты 3-4, второй минут 15), но нормально завершились. Посмотрю на предмет оптимизации, но не в срочном режиме, потому что эти RSS подключаются и работают. Здесь пока придется подождать, пока окончится обработка.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
2 Алексей Мыльников

Подключил ряд длинных RSS потоков и призадумался: очень много времени уходит на их мониторинг. Насколько я понимаю, СайтСпутник каждый раз закачивает весь поток, а затем выделяет новые записи. В результате тратится масса времени на скачивание одного и того же многократно скачанного до того архива ради получения некоторых новых записей. Насколько это оправданно? Может быть, имеет смысл предусмотреть возможность скачивать только новые записи из потока?

Как определять, какие записи старые, а какие новые? В тексте RSS- потока даты появления сообщений маркируются специальными тегами, причем самое новое сообщение находится наверху. Следовательно, при мониторинге потока СайтСпутник может обрабатывать его сверху вниз и скачивать все сообщения, дата и время которых больше , чем дата и время скачанных материалов из того же потока во время прошлого сеанса. Так можно сделать или есть какие-то сложности, которые я не учел?

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]
Насколько я понимаю, СайтСпутник каждый раз закачивает весь поток, а затем выделяет новые записи.
[/q]

Конечно, нет.

Сначала определяются новые адреса ссылок, причем неважно, попавших в этот RSS-поток, в другие RSS-потоки или другие поиски, в данном выполнении задания или в одном из предыдущих выполнений, - а затем скачиваются только новые ссылки.

Причем, если Вы хотите результаты каких-то заданий рубрицировать в нескольких других заданиях, то можете экспортировать их в клиентские папки (это можно делать не только для рубрик, но и для потоков), а затем импортировать в тех заданиях, в которых нужно. Это полезно, в частности, для той цели, о которой Вы написали: не скачивать несколько раз одно и тоже.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
ага, понял, спасибо

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
P.S.
Это говорилось не про WebSpider.
WebSpider скачивает все ссылки, затем сравнивает контент каждой с предыдущим состоянием (ссылка может исчезнуть, а потом опять появиться), находит изменения и рубрицирует их.
Если ссылки не было ранее, то она вся попадет на рубрикацию.
Здесь никуда не денешься - обрабатываются обновления ссылок, а не новые ссылки.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009

Алексей Мыльников написал:
[q]
Это говорилось не про WebSpider.
[/q]


Как раз хотел написать, что у меня сейчас отрабатывается пакет, в котором 2 сценария по тендерам: мой и Ваш. Работает уже 5 часов, выделяет контент из 6 615 ссылок. Получается очень долго.

В этой связи вопрос по RSS и возник: при мониторинге RSS- потоков лично мне не нужно, чтобы программа выделяла каждый раз контент из тех ссылок, которые она уже неоднократно скачивала и сравнивала, а не было ли изменений. Нужно, чтобы она скачивала только те данные из RSS- потока, которые новее, чем дата последнего посещения RSS - потока. Отслеживать пропавшие, а затем вновь появившиеся ссылки нужно далеко не во всех случаях. В этой связи и предлагаю предусмотреть возможность выбора следующего параметра при подключении RSS - проверять весь поток или только новые записи.

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Так Вы же первый раз выполняете задание?
Если да, то для СайтСпутника все ссылки новые. Завтра будете выполнять - новых будет намного меньше, штук 1000. Вот они и будут скачиваться и рубрицироваться.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009

Алексей Мыльников написал:
[q]
Так Вы же первый раз выполняете задание?
Если да, то для СайтСпутника все ссылки новые. Завтра будете выполнять - новых будет намного меньше, штук 1000. Вот они и будут скачиваться и рубрицироваться.
[/q]


Да вот в том-то и дело, что нет (см. скриншот). Запустил один и тот же пакет 1,2 и 4 апреля. Каждый день обрабатывается по 6 тысяч ссылок.

Прикрепленный файл (sitesputnik1.JPG, 95905 байт, скачан: 654 раза)
petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
А вот статистика по попаданиям в рубрики:

Прикрепленный файл (SiteSputnik2.JPG, 104977 байт, скачан: 678 раз)
  Вперед>>Страницы: 1 2 3 4 5 6 7 * 8 9
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Библиотека источников и иструменты её создания и ведения »   Мастер подключения поисковиков, сайтов и RSS-потоков
RSS

Последние RSS
Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей

Самые активные 20 тем RSS