SiteSputnik PostQuery: Запрос + Пост-запрос

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Программируем пакеты СайтСпутника (для продвинутых юзеров) »   SiteSputnik PostQuery: Запрос + Пост-запрос
RSS

SiteSputnik PostQuery: Запрос + Пост-запрос

Расстояние между словами, слова в одном предложении, скобочная структура и другие элементы языка запросов

<<Назад  Вперед>>Печать
 
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    SiteSputnik PostQuery: назначение модуля

    Во всех современных поисковиках, включая Яндекс и Google, и во всех встроенных в сайты поисках в настоящее время:

    • в запросах нельзя определить для ключевых слов максимальное допустимое расстояние между ними, их нахождение в одном предложении или абзаце;

    • нигде не поддерживается скобочная структура запроса;

    • перестают поддерживаться некоторые другие возможности языков запросов.

    В настоящей публикации описан способ, применяя который можно частично преодолеть или сгладить перечисленные выше недостатки.


    Доступно, начиная с Site Sputnik версии 9.5.2 от 21.11.2017 г.

Продолжение следует ...

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    §1. Запрос + Пост-запрос


    Сначала несколько демонстрационных примеров.

    ПРИМЕР 1. Открываем пункт меню (смотрите по красной стрелочке):



    и вводим запрос: Алексей /1 Мыльников /3 программист

    Его назначение: найти те и только те ссылки, в содержании которых есть стоящие на расстоянии 1 пробела (то есть рядом) словоформы от слов Алексей и Мыльников и есть ещё словоформа от слова программист, стоящая на расстоянии не более 3 пробелов от первых двух словоформ.



    На картинке выше кроме запроса мы ещё указали источник, на котором он будет выполнен (это поисковик Google) и глубину поиска, равную 7-ми поисковым страницам.

    Нажимаем на кнопку «Поиск+». СайтСпутник сделает следующее:

    1) выполнит в Google запрос: Алексей Мыльников программист, - на глубину 7 страниц
    (обратите внимание, что символы “/1”и “/3” отсутствуют в запросе (они Гуглю ни о чём не говорят));

    2) скачает все найденные по этому запросу ссылки;

    3) проанализирует их содержание (контент) и поместит в специально созданный список “Пост-запрос+” ссылки, содержание которых удовлетворяет указанным выше целям.

    Ниже список “Пост-запрос+” будем называть выдачей.

    Фрагмент из выдачи по этому запросу таков:



    Красные стрелочки указывают на элементарные правила, которым удовлетворяет содержание найденных ссылок (именно содержание ссылок, а не содержание сниппетов, которые Вы видите сейчас на картинке справа).

Продолжение следует ...

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    ПРИМЕР 2. Открываем окно для ввода запроса и вводим следующий запрос:

    Алексей /1 Мыльников & ( СайтСпутник | Sitesputnik | Борисович)

    Его назначение: найти те и только те страницы, в содержании которых есть стоящие рядом словоформы от слов Алексей и Мыльников и ещё, чтобы в одном предложении с ними была хотя бы одна словоформа из следующих трёх: СайтСпутник, Sitesputnik или Борисович.



    Здесь мы прописали поиск на Яндексе на глубину 10 страниц.

    Нажимаем на кнопку «Поиск+». СайтСпутник сделает следующее:

    1) Выполнит в Яндексе поиск по трём запросам:

    a. Алексей Мыльников СайтСпутник, - на глубину 10 страниц
    b. Алексей Мыльников SiteSputnik, - на глубину 10 страниц
    c. Алексей Мыльников Борисович, - на глубину 10 страниц

    (обратите внимание, что символы “/1” и “&” отсутствуют (они Яндексу уже ни о чем не говорят), а скобки раскрыты (Яндекс уже их не воспримимает));

    2) Объединит три результата поиска, отбросив дубли ссылок и оставив только уникальные ссылки;

    3) Скачает все уникальные ссылки;

    4) Проанализирует их содержание (контент) и поместит в выдачу ссылки, содержание которых удовлетворяет указанным выше целям.

    Фрагмент из выдачи по этому запросу таков:



    Красные стрелочки указывают на элементарные правила, которым удовлетворяют содержания найденных ссылок (именно ссылок, а не сниппетов, как уже подчеркивалось выше).

Продолжение следует ...

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    ПРИМЕР 3. Ещё один чисто демонстрационный запрос посложнее.



    Выше на картинке показано как по запросу, отправленному на источник, называемый Метапоиск, можно получить ссылки, содержащие информацию о чемпионате мира по футболу, проводимому в России. Причем на этих ссылках не должно быть словоформы от слова Мутко или стоящих рядом словоформ от слов Строительство и Стадион (не должно быть ни одной из этих двух конструкций).

    Действия СайтСпутника подобны его действиям, выполненным в предыдущем примере. Он выполнит упрощенные запросы на источниках, скачает найденные уникальные ссылки, проверит и оставит в выдаче те и только те из них, содержание которых удовлетворяет сложному запросу (Пост-запросу).

Продолжение следует ...

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    §2. Пакет + Пост-запрос

    Можно задать не только один запрос, но и Пакет запросов.

    Обращение к Пакету - из меню (смотрите на самой первой картинке по зеленой стрелочке).

    ПРИМЕР 4. На картинке ниже показан простой, чисто демонстрационный, пакет запросов:



    После выполнения поиска по каждому запросу и скачивания всех найденных уникальных ссылок для их содержания будет выполнен следующий Пост-запрос:

    (Олег /2 Табаков) | (Табакерка /5 (Театр | Студия))

    Соответственно, в выдачу попадут те и только те ссылки, в содержании которых есть стоящие не далее, чем на расстоянии 2-х пробелов друг от друга словоформы от слов Олег и Табаков или Табакерка, на расстоянии не более 5 пробелов от которой стоит Театр или Студия.

    В данном Пакете одним из источников является поиск в Твиттере.


Продолжение следует ...

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    Заключительные замечания

    • Язык Пост-запросов СайтСпутника практически эквивалентен Языку Рубрик СайтСпутника:
    o примеры простых запросов - на ссылке (смотрите абзац «Элементарные правила),
    o подробнее – на ссылке Рубрики в Сайт Спутнике;
    o обсуждение - на форуме СПКР.

    • если Вы повторите любой запрос или пакет запросов через какой-то промежуток времени, то увидите в выдаче те и только те ссылки, которые Вы ранее не находили и не просматривали ни разу, независимо от того, когда Вы до этого выполняли поиск: сегодня или год назад, - естественно, что Вы сможете ознакомиться и со всеми найденными ссылками;

    • в качестве Источников могут быть использованы самые разные поисковики, встроенные в сайты поиски, RSS-потоки и другие подключенные источники информации, начиная от Яндекса, в котором описанные возможности уже не поддерживаются, включая Google, в котором их никогда не было, заканчивая самым обычным встроенным в сайт поиском или потоком;

    • если использованы несколько источников, то дубли ссылок, найденные ими, будут отбрасываться.


    Доступно, начиная с Site Sputnik версии 9.5.2 от 21.11.2017 г.

    Подробнее - на ссылке SiteSputnik: Запрос + Пост-запрос.

tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 783
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Инструмент хорош!
Практики должны чётко осознавать, в каком случае применять его, а в каком случае предпочесть умные Рубрики.

PostQuery отфильтровывает результаты поисковиков, у которых уже в сниппетах выявлено несоответствие. Однако если текст на странице содержит ключевые слова в разных местах и в разных формах написания, то есть риск, что соответствующий сниппет будет пропущен. Умные Рубрики просматривают весь контент страницы, но работают существенно медленнее.

Если задача должна быть выполнена быстро и допускает потерю некоторого количества результатов, но лучше использовать PostQuery. Если же задача стоит "Найти все имеющиеся результаты", то лучше использовать умные Рубрики.
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

tungus1973 написал:
[q]
PostQuery отфильтровывает результаты поисковиков, у которых уже в сниппетах выявлено несоответствие. Однако если текст на странице содержит ключевые слова в разных местах и в разных формах написания, то есть риск, что соответствующий сниппет будет пропущен. Умные Рубрики просматривают весь контент страницы, но работают существенно медленнее
Если задача должна быть выполнена быстро и допускает потерю некоторого количества результатов, но лучше использовать PostQuery. Если же задача стоит "Найти все имеющиеся результаты", то лучше использовать умные Рубрики.
[/q]

    Нет никакого риска потерять некоторое количество результатов ни в +PostQuery, но в +News: в обоих случаях анализируется содержание ссылок, которые скачиваются живьем, а не сниппетов. Сниппеты вообще здесь не анализируются.

    Скорость - примерно одинакова в обоих случаях.

    Это вообще разные вещи:
    +PostQuery - для поиска информации (и не обязательно в поисковиках),
    +News - для мониторинга потоков новой информации.

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
    Уточняю ещё раз: сначала ищутся ссылки по упрощенному запросу (такому, который понимается поисковиками или всртоенными в сайты поисками), потом найденные ссылки (в них мусора бывает не мало) скачиваются и анализируются СайтСпутником на сложном запросе (после этого мусора практически не остается). Отсюда и название процедуры: +Пост-запрос.

<<Назад  Вперед>>Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Программируем пакеты СайтСпутника (для продвинутых юзеров) »   SiteSputnik PostQuery: Запрос + Пост-запрос
RSS

Последние RSS
Open Source Intelligence (OSINT) Tools and Resources Handbook
Top tips on gathering information about companies by using free online sources
Новое на блоге HRразведка
Безопасность данных в MS Access
Слово как улика
20 Recon and Intel Gathering Tools used by InfoSec Professionals
What’s Changed?
10 альтернативных поисковиков
Ситуационный центр главы Республики Коми
Развёртывание ситуационных центров на базе технологии Avalanche
Как принимать сложные решения. Советы бывшего оперативника ЦРУ.
Открытая информация о "Новичке" из сети интернет.
Ген. директор "ОЗХО" Ахмет Узюмдж о "Новичке" и хим. атаке в Сирии
Онлайн-сервисы для Twitter
Коллекция для Twitter
Приложение Opera VPN закрывается
О работе разведки
Deep web и 11 поисковиков по нему
Об изначальной "лживости" любых документов
Обновление на блоге HRазведка

Самые активные 20 тем RSS
Стандартные источники информации в СайтСпутнике
Слово как улика
Open Source Intelligence (OSINT) Tools and Resources Handbook