Эмуляции RSS-потоков: ещё один способ

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Библиотека источников и иструменты её создания и ведения »   Эмуляции RSS-потоков: ещё один способ
RSS

Эмуляции RSS-потоков: ещё один способ

Эмуляция RSS-потоков с произвольных страниц без применения Мастера в программе СайтСпутник

<<Назад  Вперед>>Страницы: 1 *
Печать
 
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 872
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    Информация по этой ссылке forum.razved.info/index.php?t=5460 с форума СПКР, где показана технология подключения списка источников, размещенных на веб-странице, уместна и в этой теме.

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 872
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    Появились ещё две операции для работы с лексемами:

    1) && - лог. "И" над лексемами
    2) =фраза - в html-контенте ссылки должна быть точная фраза, применять целесообразно только на глубине.

    Пояснения на примерах.

    Пример 9: http://infox.ru/ +/hi-tech/&&2014

    Оставит из примера 1 только ссылки, в которых есть число 2014

    Пример 10:
    wikibloger.com/groups/razoblachennie?page={1-11} +/bloggers/ -# +.livejournal.com;vk.com;facebook.com;twitter.com;/ok.ru;odnoklassniki;mail.ru; -blogger;
    wikibloger.com/groups/razoblachennie?page={1-11} +/bloggers/ -# +.livejournal.com;vk.com;facebook.com;twitter.com;/ok.ru;odnoklassniki;mail.ru; -blogger; =avatar photo black


    Первый вариант (без конструкции =avatar photo black) "достанет" все адреса в социальных сетях, по которым работают все и черные, и белые блоггеры, а второй только все черные за счет того, что на анализ попадут только те ссылки, в html-контенте которых есть фраза avatar photo black.

    Этот пример работает по схеме, описанной здесь - forum.razved.info/index.php?t=5460



    Замечание от 05.03.21. Операция для работы с тегом.
    Для определения ссылок, попадающих в поток можно также применять теги, например:

    Пример 11:
    https://volgograd.cian.ru/cat.php?deal_type=sale&engine_version=2&object_type%5B0%5D=1&offer_type=flat®ion=4707&room1=1&room2=1&room3=1&room4=1&room5=1&with_neighbors=0
    +<<article


    Здесь для получения ссылок на ЦИАНе на списки продаваемых квартир в городе Волжском использовался тег <article.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Подведу некоторые итоги использования различных способов получения информации с сайтов тендеров.

1. Использовать Мастер, при помощи которого скачивать нужную информацию путем использования механизма внутреннего поиска по сайтам. Это хорошо срабатывает, если число запросов небольшое, но по мере появления необходимости поиска тендеров по новым ключевым словам количество обращений к сайту становится очень большим, что рано или поздно вызовет санкции со стороны администрации сайта (у меня такой печальный опыт уже был)

2. Подключать RSS-поток при его наличии. Минусы- при большом количестве обновлений и ежедневном сканировании в RSS- поток может не попасть часть сообщений (например, сайт настроен так, что в поток транслируется только 100 последних сообщений)

3. Эмулировать RSS - поток, найдя определенные закономерности в адресации обновлений: например, ID с уникальным номером закупки и т.п. Минусы: теряется часть информации за счет того, что программа не переходит на вторую, третью страницу и т.д.

4. Эмулировать RSS- поток, привязываясь к закономерностям формирования адресов страниц выдачи списка обновлений (например, сканируем первые 10 страниц выдачи)

В том случае, если по определенным причинам пропущено несколько дней при сканировании, то способы 2-4 не принесут часть информации.
Пока наиболее эффективно проявил себя способ №4, но, к сожалению, он не везде применим

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 872
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    1.
    Если число запросов большое, то сделайте один или три не очень точных запроса, но копните поглубже, тогда количество обращений к сайту уменьшится, а точность достигните на Рубрикации. Не надо каждый тендер подробно описывать запросом.

    2.
    Чаще применяйте вызов RSS. Причем здесь СайтСпутник? Это минус RSS-потока, что он не дает возможность варьировать количеством ссылок, в него попадающих. Примените Планировщик, чтобы самому вручную не стартовать вовремя задачи.

    3.
    Если есть где перейти на другую страницу, то можно осуществить такой переход, если нет, то на нет и суда нет.

    4.
    Если пропустили 3-4 дня, то или больше страниц подайте на мониторинг или примените Планировщик задач, который будет работать по нужному расписанию, и все тендеры попадут на мониторинг. Приведите пример, где не применим п.4.

    X.
    Приведите пример сайта, с которым Вы не справились.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Вот Пример сайта, с которым я не справился: www.gazprom.ru/tenders/inwork/

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 872
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]
Вот Пример сайта, с которым я не справился: www.gazprom.ru/tenders/inwork/
[/q]

Подключил через Мастер. Файл импорта сценария для этого Источника прикрепил. Обновитесь до 8.6.6.5 - в программу внесены усовершенствования, поэтому Вы и не справились.

Прикрепленный файл (GazProm.rar, 628 байт, скачан: 421 раз)
<<Назад  Вперед>>Страницы: 1 *
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Библиотека источников и иструменты её создания и ведения »   Эмуляции RSS-потоков: ещё один способ
RSS

Последние RSS
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей
Лог-файл в программе СайтСпутник

Самые активные 20 тем RSS