Мастер подключения поисковиков, сайтов и RSS-потоков :: Библиотека источников и иструменты её создания и ведения

Форум Сообщества Практиков Конкурентной разведки (СПКР) » Библиотека источников и иструменты её создания и ведения » Мастер подключения поисковиков, сайтов и RSS-потоков

Мастер подключения поисковиков, сайтов и RSS-потоков

Страницы: 1 2 3 4 5 6 7 8 9

tungus1973

Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11

Ссылка

Дата регистрации на форуме:
3 июля 2009

Профиль | Игнорировать
NEW! Сообщение отправлено: 12 марта 2013 14:20
Сообщение отредактировано: 12 марта 2013 14:21

Это очень хорошее дополнение! :good:

Алексей Мыльников написал:

[q]
...следует указать название кнопки и справа к нему дописать >Клик<.
[/q]

На практике мне приходилось встречаться также с кнопками-картинками и кнопками-ссылками. Можно ли при помощи нового функционала СайтСпутника работать и с ними?

#61 | Наверх

Алексей Мыльников Долгожитель форума Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009	Профиль \| Игнорировать NEW! Сообщение отправлено: 12 марта 2013 14:56 100% уверенности нет, "захват" веб-территории процесс не имеющий границ. Если что не получится присылайте или выкладывайте. --- www.sitesputnik.ru
	#62 \| Наверх

Алексей Мыльников

Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6

Ссылка

Дата регистрации на форуме:
22 июня 2009

Профиль | Игнорировать
NEW! Сообщение отправлено: 12 марта 2013 16:28
Сообщение отредактировано: 12 марта 2013 16:35

Бывают случаи, когда мы хотим снять информации с источника за последний промежуток времени, например 3 дня.

Источник дает такую возможность, но в URL явно прописывает даты, а именно, если мы сегодня подключаем источник, то в его URL пропишутся даты: 10.03.2013 и 12.03.2013.

Примеры.

1. Ставим на WebSpider=1 страницу из Портала госзакупок.

Например, эту:

_http://zakupki.gov.ru/pgz/public/action/search/extended/rss?c0=true&a=true&c=AP&c=CW&d=%D0%BF%D0%BE%D0%B6%D0%B0%D1%80&_e=on&_f=on&_g=on&h=&j=true&_j=on&k=&l=&m=&n=&o=&i=&p=&q=10.03.2013&r=12.03.2013&s=&b8=true&t=&customer.organizationId=&u=5277377&v=5277383&_w=on&x=&y=&_z=on&a0=&sellerOrganizationId=&b7=false&f_MP=c&f_NU=c&f_OLIMPSTROI=c&b6=true&f_UG=c&f_IN=c&f_RM=c&b9=true&a1=&a2=&a4=&a5=&a6=&a7=&b5=&a8=&_a9=on&lotView=false&b0=&b1=true&_b1=on&_b2=on&_b3=on&_b4=on&ext=e19dcce83bf39ff961edda63513ebdd2

Она отслеживает появление на _http://zakupki.gov.ru/ новых аукционов (тендеров) в Свердловской области на тему "Пожары" за последние 3 дня.

Красным выцвечены фиксированные даты, которые сайт прописал на наш запрос сегодня.

2. Подключаем поиск в блогах Google за последние три дня по запросу.

URL имеет вид:

_https://www.google.ru/search?q=2***&hl=ru&newwindow=1&biw=1282&bih=1261&sa=X&ei=BybUUPbUHsX-4QTL84HACw&ved=0CCUQpwUoBw&source=lnt&tbs=cdr%3A1%2Ccd_min%3A10.03.2013%2Ccd_max%3A12.03.2013&tbm=blg

Красным выцвечены фиксированные даты, которые возвращает нам Google.

В обоих случаях, если мы завтра или через неколько дней задействум в Проекте эти источники, то получим сведения не за 3 последних дня, а за период от 10.03.2013 до 12.03.2013.

В настоящий момент можно для достижения требуемой цели (получения сведений за N последних дней в автоматическом режиме) использовать внешнюю функцию date(Х).
в её аргументе указывается Х - число. Функция вернет и поставит вместо себя дату со сдвигом на Х дней.
Например, если мы напишем Date(0), то сегодня это будет 12.03.2013, а завтра 13.03.2013, если Date(-3), то сегодня это будет 09.03.2013, а завтра 10.03.2013.

Соответственно, нужные нам URL будут иметь вид:

_http://zakupki.gov.ru/pgz/public/action/search/extended/rss?c0=true&a=true&c=AP&c=CW&d=%D0%BF%D0%BE%D0%B6%D0%B0%D1%80&_e=on&_f=on&_g=on&h=&j=true&_j=on&k=&l=&m=&n=&o=&i=&p=&q=fun(Date,-2)&r=fun(Date,0)&s=&b8=true&t=&customer.organizationId=&u=5277377&v=5277383&_w=on&x=&y=&_z=on&a0=&sellerOrganizationId=&b7=false&f_MP=c&f_NU=c&f_OLIMPSTROI=c&b6=true&f_UG=c&f_IN=c&f_RM=c&b9=true&a1=&a2=&a4=&a5=&a6=&a7=&b5=&a8=&_a9=on&lotView=false&b0=&b1=true&_b1=on&_b2=on&_b3=on&_b4=on&ext=e19dcce83bf39ff961edda63513ebdd2

_https://www.google.ru/search?q=2***&hl=ru&newwindow=1&biw=1282&bih=1261&sa=X&ei=BybUUPbUHsX-4QTL84HACw&ved=0CCUQpwUoBw&source=lnt&tbs=cdr%3A1%2Ccd_min%3Afun(Date,-2)%2Ccd_max%3Afun(Date,0)&tbm=blg

Механизм работы следующий. Увидев в URL-ке из "Настройка поиска" или в любом месте тела Пакета эту функцию, программа SiteSputnik вызовет её, а функция сделает свою работу - заменит себя на нужную дату.

Чтобы применить функцию, её следует поместить в папку Exe. Взять её можно отсюда.

Поиск по блогам Google за последние 3 дня прикреплён.

Прикрепленный файл (Поисковик~GOOGLE~Google - Блоги , 718 байт, скачан: 452 раза)

---
www.sitesputnik.ru

#63 | Наверх

petryashov

Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9

Ссылка

Дата регистрации на форуме:
7 июня 2009

Профиль | Игнорировать
NEW! Сообщение отправлено: 27 марта 2013 11:40

Некоторые RSS- потоки при попытке подключения "подвисают", в диспетчере задач видно, как СайтСпутник забирает все больше памяти и 50% мощности процессора. Операционная система Win XP SP3. После долгого ожидания приходится аварийно завершать работу программы. Вот примеры:

_ttp://www.chelgumr.ru/purchase.do?category=0&cache=1
_ttp://zakupki.rosatom.ru/Web.aspx?node=currentorders

Как с этим бороться?

---
Маркетинг и конкурентная разведка

#64 | Наверх

Алексей Мыльников

Профиль | Игнорировать
NEW! Сообщение отправлено: 27 марта 2013 13:13

petryashov написал:

[q]
_ttp://www.chelgumr.ru/purchase.do?category=0&cache=1
_ttp://zakupki.rosatom.ru/Web.aspx?node=currentorders
[/q]

Если Вы имели ввиду эти RSS:

_http://www.chelgumr.ru/rss/0
_http://zakupki.rosatom.ru/?node=currentorders&mode=order&action=rssfeed&ostate=&ptype=&cust=

то они содержат не 10-25 сниппетов как обычные RSS, а 1000 и на моем компе (16 гб оперативки и Win 7) обрабатывались долго (первый минуты 3-4, второй минут 15), но нормально завершились. Посмотрю на предмет оптимизации, но не в срочном режиме, потому что эти RSS подключаются и работают. Здесь пока придется подождать, пока окончится обработка.

---
www.sitesputnik.ru

#65 | Наверх

petryashov

Профиль | Игнорировать
NEW! Сообщение отправлено: 4 апреля 2013 11:02

2 Алексей Мыльников

Подключил ряд длинных RSS потоков и призадумался: очень много времени уходит на их мониторинг. Насколько я понимаю, СайтСпутник каждый раз закачивает весь поток, а затем выделяет новые записи. В результате тратится масса времени на скачивание одного и того же многократно скачанного до того архива ради получения некоторых новых записей. Насколько это оправданно? Может быть, имеет смысл предусмотреть возможность скачивать только новые записи из потока?

Как определять, какие записи старые, а какие новые? В тексте RSS- потока даты появления сообщений маркируются специальными тегами, причем самое новое сообщение находится наверху. Следовательно, при мониторинге потока СайтСпутник может обрабатывать его сверху вниз и скачивать все сообщения, дата и время которых больше , чем дата и время скачанных материалов из того же потока во время прошлого сеанса. Так можно сделать или есть какие-то сложности, которые я не учел?

---
Маркетинг и конкурентная разведка

#66 | Наверх

Алексей Мыльников

Профиль | Игнорировать
NEW! Сообщение отправлено: 4 апреля 2013 11:47

petryashov написал:

[q]
Насколько я понимаю, СайтСпутник каждый раз закачивает весь поток, а затем выделяет новые записи.
[/q]

Конечно, нет.

Сначала определяются новые адреса ссылок, причем неважно, попавших в этот RSS-поток, в другие RSS-потоки или другие поиски, в данном выполнении задания или в одном из предыдущих выполнений, - а затем скачиваются только новые ссылки.

Причем, если Вы хотите результаты каких-то заданий рубрицировать в нескольких других заданиях, то можете экспортировать их в клиентские папки (это можно делать не только для рубрик, но и для потоков), а затем импортировать в тех заданиях, в которых нужно. Это полезно, в частности, для той цели, о которой Вы написали: не скачивать несколько раз одно и тоже.

---
www.sitesputnik.ru

#67 | Наверх

petryashov Администратор Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009	Профиль \| Игнорировать NEW! Сообщение отправлено: 4 апреля 2013 11:59 ага, понял, спасибо --- Маркетинг и конкурентная разведка
	#68 \| Наверх

Алексей Мыльников

Профиль | Игнорировать
NEW! Сообщение отправлено: 4 апреля 2013 12:14

P.S.
Это говорилось не про WebSpider.
WebSpider скачивает все ссылки, затем сравнивает контент каждой с предыдущим состоянием (ссылка может исчезнуть, а потом опять появиться), находит изменения и рубрицирует их.
Если ссылки не было ранее, то она вся попадет на рубрикацию.
Здесь никуда не денешься - обрабатываются обновления ссылок, а не новые ссылки.

---
www.sitesputnik.ru

#69 | Наверх

petryashov

Профиль | Игнорировать
NEW! Сообщение отправлено: 4 апреля 2013 13:59

Алексей Мыльников написал:

[q]
Это говорилось не про WebSpider.
[/q]

Как раз хотел написать, что у меня сейчас отрабатывается пакет, в котором 2 сценария по тендерам: мой и Ваш. Работает уже 5 часов, выделяет контент из 6 615 ссылок. Получается очень долго.

В этой связи вопрос по RSS и возник: при мониторинге RSS- потоков лично мне не нужно, чтобы программа выделяла каждый раз контент из тех ссылок, которые она уже неоднократно скачивала и сравнивала, а не было ли изменений. Нужно, чтобы она скачивала только те данные из RSS- потока, которые новее, чем дата последнего посещения RSS - потока. Отслеживать пропавшие, а затем вновь появившиеся ссылки нужно далеко не во всех случаях. В этой связи и предлагаю предусмотреть возможность выбора следующего параметра при подключении RSS - проверять весь поток или только новые записи.

---
Маркетинг и конкурентная разведка

#70 | Наверх

Вперед>>

Страницы: 1 2 3 4 5 6 7 8 9

Печать

Форум Сообщества Практиков Конкурентной разведки (СПКР) » Библиотека источников и иструменты её создания и ведения » Мастер подключения поисковиков, сайтов и RSS-потоков

Последние

Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Лог-файл в программе СайтСпутник
шантаж, угрозы по Интернету

Самые активные 20 тем

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка, Деловая разведка по открытым источникам в бизнесе. Работаем строго в рамках закона.

Мастер подключения поисковиков, сайтов и RSS-потоков

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.