Мастер подключения поисковиков, сайтов и RSS-потоков

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Библиотека источников и иструменты её создания и ведения »   Мастер подключения поисковиков, сайтов и RSS-потоков
RSS

Мастер подключения поисковиков, сайтов и RSS-потоков

<<Назад  Вперед>>Страницы: 1 2 3 4 5 6 7 8 9
Печать
 
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 787
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Это очень хорошее дополнение! :good:

Алексей Мыльников написал:
[q]
...следует указать название кнопки и справа к нему дописать >Клик<.
[/q]
На практике мне приходилось встречаться также с кнопками-картинками и кнопками-ссылками. Можно ли при помощи нового функционала СайтСпутника работать и с ними?
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 829
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
100% уверенности нет, "захват" веб-территории процесс не имеющий границ. Если что не получится присылайте или выкладывайте.

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 829
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Бывают случаи, когда мы хотим снять информации с источника за последний промежуток времени, например 3 дня.

Источник дает такую возможность, но в URL явно прописывает даты, а именно, если мы сегодня подключаем источник, то в его URL пропишутся даты: 10.03.2013 и 12.03.2013.

Примеры.

1. Ставим на WebSpider=1 страницу из Портала госзакупок.

Например, эту:

_http://zakupki.gov.ru/pgz/public/action/search/extended/rss?c0=true&a=true&c=AP&c=CW&d=%D0%BF%D0%BE%D0%B6%D0%B0%D1%80&_e=on&_f=on&_g=on&h=&j=true&_j=on&k=&l=&m=&n=&o=&i=&p=&q=10.03.2013&r=12.03.2013&s=&b8=true&t=&customer.organizationId=&u=5277377&v=5277383&_w=on&x=&y=&_z=on&a0=&sellerOrganizationId=&b7=false&f_MP=c&f_NU=c&f_OLIMPSTROI=c&b6=true&f_UG=c&f_IN=c&f_RM=c&b9=true&a1=&a2=&a4=&a5=&a6=&a7=&b5=&a8=&_a9=on&lotView=false&b0=&b1=true&_b1=on&_b2=on&_b3=on&_b4=on&ext=e19dcce83bf39ff961edda63513ebdd2

Она отслеживает появление на _http://zakupki.gov.ru/ новых аукционов (тендеров) в Свердловской области на тему "Пожары" за последние 3 дня.

Красным выцвечены фиксированные даты, которые сайт прописал на наш запрос сегодня.

2. Подключаем поиск в блогах Google за последние три дня по запросу.

URL имеет вид:

_https://www.google.ru/search?q=2***&hl=ru&newwindow=1&biw=1282&bih=1261&sa=X&ei=BybUUPbUHsX-4QTL84HACw&ved=0CCUQpwUoBw&source=lnt&tbs=cdr%3A1%2Ccd_min%3A10.03.2013%2Ccd_max%3A12.03.2013&tbm=blg

Красным выцвечены фиксированные даты, которые возвращает нам Google.

В обоих случаях, если мы завтра или через неколько дней задействум в Проекте эти источники, то получим сведения не за 3 последних дня, а за период от 10.03.2013 до 12.03.2013.

В настоящий момент можно для достижения требуемой цели (получения сведений за N последних дней в автоматическом режиме) использовать внешнюю функцию date(Х).
в её аргументе указывается Х - число. Функция вернет и поставит вместо себя дату со сдвигом на Х дней.
Например, если мы напишем Date(0), то сегодня это будет 12.03.2013, а завтра 13.03.2013, если Date(-3), то сегодня это будет 09.03.2013, а завтра 10.03.2013.

Соответственно, нужные нам URL будут иметь вид:

_http://zakupki.gov.ru/pgz/public/action/search/extended/rss?c0=true&a=true&c=AP&c=CW&d=%D0%BF%D0%BE%D0%B6%D0%B0%D1%80&_e=on&_f=on&_g=on&h=&j=true&_j=on&k=&l=&m=&n=&o=&i=&p=&q=fun(Date,-2)&r=fun(Date,0)&s=&b8=true&t=&customer.organizationId=&u=5277377&v=5277383&_w=on&x=&y=&_z=on&a0=&sellerOrganizationId=&b7=false&f_MP=c&f_NU=c&f_OLIMPSTROI=c&b6=true&f_UG=c&f_IN=c&f_RM=c&b9=true&a1=&a2=&a4=&a5=&a6=&a7=&b5=&a8=&_a9=on&lotView=false&b0=&b1=true&_b1=on&_b2=on&_b3=on&_b4=on&ext=e19dcce83bf39ff961edda63513ebdd2

_https://www.google.ru/search?q=2***&hl=ru&newwindow=1&biw=1282&bih=1261&sa=X&ei=BybUUPbUHsX-4QTL84HACw&ved=0CCUQpwUoBw&source=lnt&tbs=cdr%3A1%2Ccd_min%3Afun(Date,-2)%2Ccd_max%3Afun(Date,0)&tbm=blg

Механизм работы следующий. Увидев в URL-ке из "Настройка поиска" или в любом месте тела Пакета эту функцию, программа SiteSputnik вызовет её, а функция сделает свою работу - заменит себя на нужную дату.

Чтобы применить функцию, её следует поместить в папку Exe. Взять её можно отсюда.

Поиск по блогам Google за последние 3 дня прикреплён.

Прикрепленный файл (Поисковик~GOOGLE~Google - Блоги , 718 байт, скачан: 167 раз)
petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Некоторые RSS- потоки при попытке подключения "подвисают", в диспетчере задач видно, как СайтСпутник забирает все больше памяти и 50% мощности процессора. Операционная система Win XP SP3. После долгого ожидания приходится аварийно завершать работу программы. Вот примеры:

_ttp://www.chelgumr.ru/purchase.do?category=0&cache=1
_ttp://zakupki.rosatom.ru/Web.aspx?node=currentorders

Как с этим бороться?



Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 829
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]
_ttp://www.chelgumr.ru/purchase.do?category=0&cache=1
_ttp://zakupki.rosatom.ru/Web.aspx?node=currentorders
[/q]

Если Вы имели ввиду эти RSS:

_http://www.chelgumr.ru/rss/0
_http://zakupki.rosatom.ru/?node=currentorders&mode=order&action=rssfeed&ostate=&ptype=&cust=

то они содержат не 10-25 сниппетов как обычные RSS, а 1000 и на моем компе (16 гб оперативки и Win 7) обрабатывались долго (первый минуты 3-4, второй минут 15), но нормально завершились. Посмотрю на предмет оптимизации, но не в срочном режиме, потому что эти RSS подключаются и работают. Здесь пока придется подождать, пока окончится обработка.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
2 Алексей Мыльников

Подключил ряд длинных RSS потоков и призадумался: очень много времени уходит на их мониторинг. Насколько я понимаю, СайтСпутник каждый раз закачивает весь поток, а затем выделяет новые записи. В результате тратится масса времени на скачивание одного и того же многократно скачанного до того архива ради получения некоторых новых записей. Насколько это оправданно? Может быть, имеет смысл предусмотреть возможность скачивать только новые записи из потока?

Как определять, какие записи старые, а какие новые? В тексте RSS- потока даты появления сообщений маркируются специальными тегами, причем самое новое сообщение находится наверху. Следовательно, при мониторинге потока СайтСпутник может обрабатывать его сверху вниз и скачивать все сообщения, дата и время которых больше , чем дата и время скачанных материалов из того же потока во время прошлого сеанса. Так можно сделать или есть какие-то сложности, которые я не учел?

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 829
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]
Насколько я понимаю, СайтСпутник каждый раз закачивает весь поток, а затем выделяет новые записи.
[/q]

Конечно, нет.

Сначала определяются новые адреса ссылок, причем неважно, попавших в этот RSS-поток, в другие RSS-потоки или другие поиски, в данном выполнении задания или в одном из предыдущих выполнений, - а затем скачиваются только новые ссылки.

Причем, если Вы хотите результаты каких-то заданий рубрицировать в нескольких других заданиях, то можете экспортировать их в клиентские папки (это можно делать не только для рубрик, но и для потоков), а затем импортировать в тех заданиях, в которых нужно. Это полезно, в частности, для той цели, о которой Вы написали: не скачивать несколько раз одно и тоже.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
ага, понял, спасибо

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 829
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
P.S.
Это говорилось не про WebSpider.
WebSpider скачивает все ссылки, затем сравнивает контент каждой с предыдущим состоянием (ссылка может исчезнуть, а потом опять появиться), находит изменения и рубрицирует их.
Если ссылки не было ранее, то она вся попадет на рубрикацию.
Здесь никуда не денешься - обрабатываются обновления ссылок, а не новые ссылки.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009

Алексей Мыльников написал:
[q]
Это говорилось не про WebSpider.
[/q]


Как раз хотел написать, что у меня сейчас отрабатывается пакет, в котором 2 сценария по тендерам: мой и Ваш. Работает уже 5 часов, выделяет контент из 6 615 ссылок. Получается очень долго.

В этой связи вопрос по RSS и возник: при мониторинге RSS- потоков лично мне не нужно, чтобы программа выделяла каждый раз контент из тех ссылок, которые она уже неоднократно скачивала и сравнивала, а не было ли изменений. Нужно, чтобы она скачивала только те данные из RSS- потока, которые новее, чем дата последнего посещения RSS - потока. Отслеживать пропавшие, а затем вновь появившиеся ссылки нужно далеко не во всех случаях. В этой связи и предлагаю предусмотреть возможность выбора следующего параметра при подключении RSS - проверять весь поток или только новые записи.

<<Назад  Вперед>>Страницы: 1 2 3 4 5 6 7 8 9
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Библиотека источников и иструменты её создания и ведения »   Мастер подключения поисковиков, сайтов и RSS-потоков
RSS

Последние RSS
CiMi.CON Evolution USA
Поиск в КЭШ поисковиков по запросу и пакету запросов
СайтСпутник: Многоязычность, Юникод, MS ACCESS
Новый курс OSINT от АИС
Год тюрьмы за отказ удалять
Книга "Строим доверие по методикам спецслужб"
аналог "Консультанта" о зарубежном законодательстве
Открытые данные ФНС
Получаем информацию по VIN
Competitive-Market Intelligence Conference, Berlin 2018
Не все VPN-сервисы одинаково полезны
«Яндекс» научился выдавать в поиске не скрытые Google-документы. Правда лавочку
War and marketing: 1937 July 7th vs. 2018 July 1st
Историческое. Агентурная разведка
Open Source Intelligence (OSINT) Tools and Resources Handbook
Top tips on gathering information about companies by using free online sources
Новое на блоге HRразведка
Безопасность данных в MS Access
Слово как улика
20 Recon and Intel Gathering Tools used by InfoSec Professionals

Самые активные 20 тем RSS