Эмуляции RSS-потоков: ещё один способ

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Библиотека источников и иструменты её создания и ведения »   Эмуляции RSS-потоков: ещё один способ
RSS

Эмуляции RSS-потоков: ещё один способ

Эмуляция RSS-потоков с произвольных страниц без применения Мастера в программе СайтСпутник

<<Назад  Вперед>>Печать
 
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    Об автоматическом распознавании и обработке RSS-потоков в программе СайтСпутник можно прочитать здесь на форуме: forum.razved.info/index.php?t=2344&p=47342#pp47342. Суть написанного в том, что можно не подключать каждый новый RSS-поток через Мастер, а просто в запросе или пакете вписать его адрес (URL). Префикс http:// - обязателен.

    В новой версии программы SiteSputnik 8.6.3 от 09.01.14 появился ещё один способ практически автоматической эмуляции RSS-потоков с произвольных страниц без применения Мастера.

    Для эмуляции RSS-потока со страницы достаточно в запросе или пакете указать её адрес (URL) и дополнительный признак. Префикс http:// в URL - обязателен.

    Продемонстрирую новую технику на примерах.


      Пример 1: http://infox.ru/ +/hi-tech/

      Здесь для страницы infox.ru эмулируется поток новостей и сообщений по теме Hi-Tech ("Высокие технологии").

      В выдачу на момент написания этого топика попадут ссылки, содержащие лексему /hi-tech/, а именно:

        infox.ru/themes/hi-tech/
        infox.ru/hi-tech/internet/2014/01/06/Minyust_RF_zabrakova.phtml
        infox.ru/hi-tech/internet/2014/01/06/Minyust_RF_zabrakova.phtml?comm
        infox.ru/themes/hi-tech/index.phtml
        infox.ru/themes/hi-tech/rss.xml
        infox.ru/hi-tech/tech/2013/12/27/V_2014_godu_v_Pyenzy.phtml
        infox.ru/hi-tech/internet/2013/12/27/Krupnyeyshiye_muzyyk.phtml
        infox.ru/hi-tech/internet/2011/06/09/WP7.phtml
        infox.ru/hi-tech/tech/2014/01/05/Samsung_vyypustit_mo.phtml
        infox.ru/hi-tech/internet/2014/01/03/Dvoye_amyerikancyev_.phtml
        infox.ru/hi-tech/internet/2013/12/28/Roskomnadzor_vnyes_R.phtml
        infox.ru/hi-tech/gadget/2013/12/27/LG_pokazhyet___umnyy.phtml
        infox.ru/hi-tech/games/2013/12/27/SHutyer_Battlefield_.phtml
        infox.ru/hi-tech/internet/2013/12/27/Mail_Ru_otkazalas_ot.phtml
        infox.ru/hi-tech/multimedia/2013/12/27/FSB_budyet_provodit_.phtml
        infox.ru/hi-tech/tech/2013/11/07/Kurs_virtualnoy_valy.phtml
        infox.ru/hi-tech/internet/2012/06/06/Domyen__DYETI_____dy.phtml
        infox.ru/hi-tech/tech/2012/03/23/Robot_parikmahyer.phtml

      Пример 2: http://infox.ru/ +/hi-tech/ -themes

      Этот поток отличается от первого тем, что в него не попадут 1, 4 и 5 ссылки.

      Пример 3: http://infox.ru/ +/hi-tech/;/blog

      Этот поток отличается от первого тем, что в него будут добавлены ещё "Блоги".

    Продолжение следует ...

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    В принципе, с точки зрения Пользователя, это вся техника.

    Формально конструкция:

    +Лексема1;Лексема2;ЛексемаN - определяет список лексем, хотя бы одна из которых должна содержаться в ссылке, попадающей в выдачу.

    -Лексема1;Лексема2;ЛексемаM - определяет список лексем, ни одна из которых не должна содержаться в ссылке, попадающей в выдачу.


    Для удобства определения нужных ссылок исходной страницы предварительно можно выполнить:

    Пример 5: http://infox.ru/

    Это приведёт к выбору всех ссылок исходной страницы. Их можно увидеть в списке "Экспорт-txt". На картинке ниже показан фрагмент такого списка.



Продолжение следует ...

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Ещё несколько демонстрационных примеров:

    Пример 6: http://forum.razved.info/ +m=profile&u=

    Поток ссылок на профили участников форума СПКР, сделавших последнее сообщение, хотя бы в одном разделе.

    Пример 7: http://www.aif.ru/politics/ +russia

    Со страницы "Политика" из "Аргументы и факты" выбрать раздел "В России".

    Пример 8: http://www.mk.ru/culture/cinema/ +interview

    Со страницы "Кино" из "Культуры" из "Московского комсомольца" выбрать "Интервью".

Продолжение следует ...

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    Важные замечания.

    1. Продемонстрированная техника, с одной стороны, весьма проста, с другой стороны, достаточно эффективна особенно для SiteSputnik News и его расширений: +WebSpider, +Comments, +Station.

    2. Она дополняет, а не исключает возможности применения Мастера подключения источников информации для эмуляции RSS-потоков.
    При необходимости, правила для дополнительных признаков будут усовершенствованы.

    3. Эта техника также применима для SiteSputnik WebSpider, например, оператор:

    http://infox.ru/ +/hi-tech/ || WebSpider=1

    применённый в проекте типа "Веб-Спайдер" приведёт к выбору темы "Высокие технологии", её мониторингу и рубрикации. Другими словами, в этом случае программа СайтСпутник будет наблюдать за обновлением веб-пространства, ограниченного ссылками, попадающими в выдачу данного оператора, и рубрицировать обнаруженные изменения по правилам, прописанным в подключенных Рубриках. В проекте можно прописать произвольное количество подобных операторов.


Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    Информация по этой ссылке forum.razved.info/index.php?t=5460 с форума СПКР, где показана технология подключения списка источников, размещенных на веб-странице, уместна и в этой теме.

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    Появились ещё две операции для работы с лексемами:

    1) && - лог. "И" над лексемами
    2) =фраза - в html-контенте ссылки должна быть точная фраза, применять целесообразно только на глубине.

    Пояснения на примерах.

    Пример 9: http://infox.ru/ +/hi-tech/&&2014

    Оставит из примера 1 только ссылки, в которых есть число 2014

    Пример 10:
    wikibloger.com/groups/razoblachennie?page={1-11} +/bloggers/ -# +.livejournal.com;vk.com;facebook.com;twitter.com;/ok.ru;odnoklassniki;mail.ru; -blogger;
    wikibloger.com/groups/razoblachennie?page={1-11} +/bloggers/ -# +.livejournal.com;vk.com;facebook.com;twitter.com;/ok.ru;odnoklassniki;mail.ru; -blogger; =avatar photo black


    Первый вариант (без конструкции =avatar photo black) "достанет" все адреса в социальных сетях, по которым работают все и черные, и белые блоггеры, а второй только все черные за счет того, что на анализ попадут только те ссылки, в html-контенте которых есть фраза avatar photo black.

    Этот пример работает по схеме, описанной здесь - forum.razved.info/index.php?t=5460



    Замечание от 05.03.21. Операция для работы с тегом.
    Для определения ссылок, попадающих в поток можно также применять теги, например:

    Пример 11:
    https://volgograd.cian.ru/cat.php?deal_type=sale&engine_version=2&object_type%5B0%5D=1&offer_type=flat®ion=4707&room1=1&room2=1&room3=1&room4=1&room5=1&with_neighbors=0
    +<<article


    Здесь для получения ссылок на ЦИАНе на списки продаваемых квартир в городе Волжском использовался тег <article.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Подведу некоторые итоги использования различных способов получения информации с сайтов тендеров.

1. Использовать Мастер, при помощи которого скачивать нужную информацию путем использования механизма внутреннего поиска по сайтам. Это хорошо срабатывает, если число запросов небольшое, но по мере появления необходимости поиска тендеров по новым ключевым словам количество обращений к сайту становится очень большим, что рано или поздно вызовет санкции со стороны администрации сайта (у меня такой печальный опыт уже был)

2. Подключать RSS-поток при его наличии. Минусы- при большом количестве обновлений и ежедневном сканировании в RSS- поток может не попасть часть сообщений (например, сайт настроен так, что в поток транслируется только 100 последних сообщений)

3. Эмулировать RSS - поток, найдя определенные закономерности в адресации обновлений: например, ID с уникальным номером закупки и т.п. Минусы: теряется часть информации за счет того, что программа не переходит на вторую, третью страницу и т.д.

4. Эмулировать RSS- поток, привязываясь к закономерностям формирования адресов страниц выдачи списка обновлений (например, сканируем первые 10 страниц выдачи)

В том случае, если по определенным причинам пропущено несколько дней при сканировании, то способы 2-4 не принесут часть информации.
Пока наиболее эффективно проявил себя способ №4, но, к сожалению, он не везде применим

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    1.
    Если число запросов большое, то сделайте один или три не очень точных запроса, но копните поглубже, тогда количество обращений к сайту уменьшится, а точность достигните на Рубрикации. Не надо каждый тендер подробно описывать запросом.

    2.
    Чаще применяйте вызов RSS. Причем здесь СайтСпутник? Это минус RSS-потока, что он не дает возможность варьировать количеством ссылок, в него попадающих. Примените Планировщик, чтобы самому вручную не стартовать вовремя задачи.

    3.
    Если есть где перейти на другую страницу, то можно осуществить такой переход, если нет, то на нет и суда нет.

    4.
    Если пропустили 3-4 дня, то или больше страниц подайте на мониторинг или примените Планировщик задач, который будет работать по нужному расписанию, и все тендеры попадут на мониторинг. Приведите пример, где не применим п.4.

    X.
    Приведите пример сайта, с которым Вы не справились.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Вот Пример сайта, с которым я не справился: www.gazprom.ru/tenders/inwork/

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]
Вот Пример сайта, с которым я не справился: www.gazprom.ru/tenders/inwork/
[/q]

Подключил через Мастер. Файл импорта сценария для этого Источника прикрепил. Обновитесь до 8.6.6.5 - в программу внесены усовершенствования, поэтому Вы и не справились.

Прикрепленный файл (GazProm.rar, 628 байт, скачан: 495 раз)
<<Назад  Вперед>>Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Библиотека источников и иструменты её создания и ведения »   Эмуляции RSS-потоков: ещё один способ
RSS

Последние RSS
Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей

Самые активные 20 тем RSS