Мастер подключения поисковиков, сайтов и RSS-потоков

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Библиотека источников и иструменты её создания и ведения »   Мастер подключения поисковиков, сайтов и RSS-потоков
RSS

Мастер подключения поисковиков, сайтов и RSS-потоков

  Вперед>>Страницы: 1 2 3 4 5 6 * 7 8 9
Печать
 
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

Алексей Мыльников написал:
[q]
в качестве признака следующей страницы указывайте:
>прокрутка<
[/q]

Можно ли ограничить количество прокручиваемых страниц? Например, нужно прокрутить вниз только 2 страницы, или только 10, или прокрутить все?
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

tungus1973 написал:
[q]
Можно ли ограничить количество прокручиваемых страниц? Например, нужно прокрутить вниз только 2 страницы, или только 10, или прокрутить все?
[/q]

Да, можно.
В Мастере есть параметр "Максимальная глубина поиска в страницах". Это и есть количество прокруток страницы вниз.

tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Спасибо!
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Выше в сообщении #55 прикреплен поиск в Твиттере по "Тор".
Есть ещё (спасибо Игорю Нежданову за подсказку) поиск по "All". Он прикреплен к данному сообщению и доступен из версии 8.2.1.3.

Прикрепленный файл (Поисковик~%D, 571 байт, скачан: 595 раз)
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Переход к следующей странице с помощью прокрутки, например, в Твиттере рассмотрен в сообщении #55 этой темы.

Есть ещё источники, в которых чтобы "углубиться" (перейти к следуюшим сниппетам или страницам) нужно кликнуть на кнопку или ссылку.

Примеры таких источников: Facebook и поиск по Новостям Mail.ru.

В версии 8.4.1.9 от 12.03.2013 для того, чтобы обеспечить "углубление" поиска в подобных случаях, в поле "Признак следующей страницы" (в Мастере при подключении или живьем в "Настройке Поиска") следует указать название кнопки и справа к нему дописать >Клик<.

Соответственно, для Facebook и Новости.Мэйл.Ру признаки будут таковы:

Показать больше результатов>Клик<
и
Показать еще...>Клик<

Оба поиска прикреплены к сообщению в упакованном файле.

Прикрепленный файл (Поиск FB и НМР, 1245 байт, скачан: 413 раз)
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Это очень хорошее дополнение! :good:

Алексей Мыльников написал:
[q]
...следует указать название кнопки и справа к нему дописать >Клик<.
[/q]
На практике мне приходилось встречаться также с кнопками-картинками и кнопками-ссылками. Можно ли при помощи нового функционала СайтСпутника работать и с ними?
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
100% уверенности нет, "захват" веб-территории процесс не имеющий границ. Если что не получится присылайте или выкладывайте.

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Бывают случаи, когда мы хотим снять информации с источника за последний промежуток времени, например 3 дня.

Источник дает такую возможность, но в URL явно прописывает даты, а именно, если мы сегодня подключаем источник, то в его URL пропишутся даты: 10.03.2013 и 12.03.2013.

Примеры.

1. Ставим на WebSpider=1 страницу из Портала госзакупок.

Например, эту:

_http://zakupki.gov.ru/pgz/public/action/search/extended/rss?c0=true&a=true&c=AP&c=CW&d=%D0%BF%D0%BE%D0%B6%D0%B0%D1%80&_e=on&_f=on&_g=on&h=&j=true&_j=on&k=&l=&m=&n=&o=&i=&p=&q=10.03.2013&r=12.03.2013&s=&b8=true&t=&customer.organizationId=&u=5277377&v=5277383&_w=on&x=&y=&_z=on&a0=&sellerOrganizationId=&b7=false&f_MP=c&f_NU=c&f_OLIMPSTROI=c&b6=true&f_UG=c&f_IN=c&f_RM=c&b9=true&a1=&a2=&a4=&a5=&a6=&a7=&b5=&a8=&_a9=on&lotView=false&b0=&b1=true&_b1=on&_b2=on&_b3=on&_b4=on&ext=e19dcce83bf39ff961edda63513ebdd2

Она отслеживает появление на _http://zakupki.gov.ru/ новых аукционов (тендеров) в Свердловской области на тему "Пожары" за последние 3 дня.

Красным выцвечены фиксированные даты, которые сайт прописал на наш запрос сегодня.

2. Подключаем поиск в блогах Google за последние три дня по запросу.

URL имеет вид:

_https://www.google.ru/search?q=2***&hl=ru&newwindow=1&biw=1282&bih=1261&sa=X&ei=BybUUPbUHsX-4QTL84HACw&ved=0CCUQpwUoBw&source=lnt&tbs=cdr%3A1%2Ccd_min%3A10.03.2013%2Ccd_max%3A12.03.2013&tbm=blg

Красным выцвечены фиксированные даты, которые возвращает нам Google.

В обоих случаях, если мы завтра или через неколько дней задействум в Проекте эти источники, то получим сведения не за 3 последних дня, а за период от 10.03.2013 до 12.03.2013.

В настоящий момент можно для достижения требуемой цели (получения сведений за N последних дней в автоматическом режиме) использовать внешнюю функцию date(Х).
в её аргументе указывается Х - число. Функция вернет и поставит вместо себя дату со сдвигом на Х дней.
Например, если мы напишем Date(0), то сегодня это будет 12.03.2013, а завтра 13.03.2013, если Date(-3), то сегодня это будет 09.03.2013, а завтра 10.03.2013.

Соответственно, нужные нам URL будут иметь вид:

_http://zakupki.gov.ru/pgz/public/action/search/extended/rss?c0=true&a=true&c=AP&c=CW&d=%D0%BF%D0%BE%D0%B6%D0%B0%D1%80&_e=on&_f=on&_g=on&h=&j=true&_j=on&k=&l=&m=&n=&o=&i=&p=&q=fun(Date,-2)&r=fun(Date,0)&s=&b8=true&t=&customer.organizationId=&u=5277377&v=5277383&_w=on&x=&y=&_z=on&a0=&sellerOrganizationId=&b7=false&f_MP=c&f_NU=c&f_OLIMPSTROI=c&b6=true&f_UG=c&f_IN=c&f_RM=c&b9=true&a1=&a2=&a4=&a5=&a6=&a7=&b5=&a8=&_a9=on&lotView=false&b0=&b1=true&_b1=on&_b2=on&_b3=on&_b4=on&ext=e19dcce83bf39ff961edda63513ebdd2

_https://www.google.ru/search?q=2***&hl=ru&newwindow=1&biw=1282&bih=1261&sa=X&ei=BybUUPbUHsX-4QTL84HACw&ved=0CCUQpwUoBw&source=lnt&tbs=cdr%3A1%2Ccd_min%3Afun(Date,-2)%2Ccd_max%3Afun(Date,0)&tbm=blg

Механизм работы следующий. Увидев в URL-ке из "Настройка поиска" или в любом месте тела Пакета эту функцию, программа SiteSputnik вызовет её, а функция сделает свою работу - заменит себя на нужную дату.

Чтобы применить функцию, её следует поместить в папку Exe. Взять её можно отсюда.

Поиск по блогам Google за последние 3 дня прикреплён.

Прикрепленный файл (Поисковик~GOOGLE~Google - Блоги , 718 байт, скачан: 400 раз)
petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Некоторые RSS- потоки при попытке подключения "подвисают", в диспетчере задач видно, как СайтСпутник забирает все больше памяти и 50% мощности процессора. Операционная система Win XP SP3. После долгого ожидания приходится аварийно завершать работу программы. Вот примеры:

_ttp://www.chelgumr.ru/purchase.do?category=0&cache=1
_ttp://zakupki.rosatom.ru/Web.aspx?node=currentorders

Как с этим бороться?



Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]
_ttp://www.chelgumr.ru/purchase.do?category=0&cache=1
_ttp://zakupki.rosatom.ru/Web.aspx?node=currentorders
[/q]

Если Вы имели ввиду эти RSS:

_http://www.chelgumr.ru/rss/0
_http://zakupki.rosatom.ru/?node=currentorders&mode=order&action=rssfeed&ostate=&ptype=&cust=

то они содержат не 10-25 сниппетов как обычные RSS, а 1000 и на моем компе (16 гб оперативки и Win 7) обрабатывались долго (первый минуты 3-4, второй минут 15), но нормально завершились. Посмотрю на предмет оптимизации, но не в срочном режиме, потому что эти RSS подключаются и работают. Здесь пока придется подождать, пока окончится обработка.

  Вперед>>Страницы: 1 2 3 4 5 6 * 7 8 9
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Библиотека источников и иструменты её создания и ведения »   Мастер подключения поисковиков, сайтов и RSS-потоков
RSS

Последние RSS
Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей

Самые активные 20 тем RSS