SiteSputnik PostQuery: Запрос + Пост-запрос

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Программируем пакеты СайтСпутника (для продвинутых юзеров) »   SiteSputnik PostQuery: Запрос + Пост-запрос
RSS

SiteSputnik PostQuery: Запрос + Пост-запрос

Расстояние между словами, слова в одном предложении, скобочная структура и другие элементы языка запросов

  Вперед>>Печать
 
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 810
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    SiteSputnik PostQuery: назначение модуля

    Во всех современных поисковиках, включая Яндекс и Google, и во всех встроенных в сайты поисках в настоящее время:

    • в запросах нельзя определить для ключевых слов максимальное допустимое расстояние между ними, их нахождение в одном предложении или абзаце;

    • нигде не поддерживается скобочная структура запроса;

    • перестают поддерживаться некоторые другие возможности языков запросов.

    В настоящей публикации описан способ, применяя который можно частично преодолеть или сгладить перечисленные выше недостатки.


    Доступно, начиная с Site Sputnik версии 9.5.2 от 21.11.2017 г.

Продолжение следует ...

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 810
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    §1. Запрос + Пост-запрос


    Сначала несколько демонстрационных примеров.

    ПРИМЕР 1. Открываем пункт меню (смотрите по красной стрелочке):



    и вводим запрос: Алексей /1 Мыльников /3 программист

    Его назначение: найти те и только те ссылки, в содержании которых есть стоящие на расстоянии 1 пробела (то есть рядом) словоформы от слов Алексей и Мыльников и есть ещё словоформа от слова программист, стоящая на расстоянии не более 3 пробелов от первых двух словоформ.



    На картинке выше кроме запроса мы ещё указали источник, на котором он будет выполнен (это поисковик Google) и глубину поиска, равную 7-ми поисковым страницам.

    Нажимаем на кнопку «Поиск+». СайтСпутник сделает следующее:

    1) выполнит в Google запрос: Алексей Мыльников программист, - на глубину 7 страниц
    (обратите внимание, что символы “/1”и “/3” отсутствуют в запросе (они Гуглю ни о чём не говорят));

    2) скачает все найденные по этому запросу ссылки;

    3) проанализирует их содержание (контент) и поместит в специально созданный список “Пост-запрос+” ссылки, содержание которых удовлетворяет указанным выше целям.

    Ниже список “Пост-запрос+” будем называть выдачей.

    Фрагмент из выдачи по этому запросу таков:



    Красные стрелочки указывают на элементарные правила, которым удовлетворяет содержание найденных ссылок (именно содержание ссылок, а не содержание сниппетов, которые Вы видите сейчас на картинке справа).

Продолжение следует ...

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 810
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    ПРИМЕР 2. Открываем окно для ввода запроса и вводим следующий запрос:

    Алексей /1 Мыльников & ( СайтСпутник | Sitesputnik | Борисович)

    Его назначение: найти те и только те страницы, в содержании которых есть стоящие рядом словоформы от слов Алексей и Мыльников и ещё, чтобы в одном предложении с ними была хотя бы одна словоформа из следующих трёх: СайтСпутник, Sitesputnik или Борисович.



    Здесь мы прописали поиск на Яндексе на глубину 10 страниц.

    Нажимаем на кнопку «Поиск+». СайтСпутник сделает следующее:

    1) Выполнит в Яндексе поиск по трём запросам:

    a. Алексей Мыльников СайтСпутник, - на глубину 10 страниц
    b. Алексей Мыльников SiteSputnik, - на глубину 10 страниц
    c. Алексей Мыльников Борисович, - на глубину 10 страниц

    (обратите внимание, что символы “/1” и “&” отсутствуют (они Яндексу уже ни о чем не говорят), а скобки раскрыты (Яндекс уже их не воспримимает));

    2) Объединит три результата поиска, отбросив дубли ссылок и оставив только уникальные ссылки;

    3) Скачает все уникальные ссылки;

    4) Проанализирует их содержание (контент) и поместит в выдачу ссылки, содержание которых удовлетворяет указанным выше целям.

    Фрагмент из выдачи по этому запросу таков:



    Красные стрелочки указывают на элементарные правила, которым удовлетворяют содержания найденных ссылок (именно ссылок, а не сниппетов, как уже подчеркивалось выше).

Продолжение следует ...

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 810
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    ПРИМЕР 3. Ещё один чисто демонстрационный запрос посложнее.



    Выше на картинке показано как по запросу, отправленному на источник, называемый Метапоиск, можно получить ссылки, содержащие информацию о чемпионате мира по футболу, проводимому в России. Причем на этих ссылках не должно быть словоформы от слова Мутко или стоящих рядом словоформ от слов Строительство и Стадион (не должно быть ни одной из этих двух конструкций).

    Действия СайтСпутника подобны его действиям, выполненным в предыдущем примере. Он выполнит упрощенные запросы на источниках, скачает найденные уникальные ссылки, проверит и оставит в выдаче те и только те из них, содержание которых удовлетворяет сложному запросу (Пост-запросу).

Продолжение следует ...

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 810
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    §2. Пакет + Пост-запрос

    Можно задать не только один запрос, но и Пакет запросов.

    Обращение к Пакету - из меню (смотрите на самой первой картинке по зеленой стрелочке).

    ПРИМЕР 4. На картинке ниже показан простой, чисто демонстрационный, пакет запросов:



    После выполнения поиска по каждому запросу и скачивания всех найденных уникальных ссылок для их содержания будет выполнен следующий Пост-запрос:

    (Олег /2 Табаков) | (Табакерка /5 (Театр | Студия))

    Соответственно, в выдачу попадут те и только те ссылки, в содержании которых есть стоящие не далее, чем на расстоянии 2-х пробелов друг от друга словоформы от слов Олег и Табаков или Табакерка, на расстоянии не более 5 пробелов от которой стоит Театр или Студия.

    В данном Пакете одним из источников является поиск в Твиттере.


Продолжение следует ...

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 810
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    Заключительные замечания

    • Язык Пост-запросов СайтСпутника практически эквивалентен Языку Рубрик СайтСпутника:
    o примеры простых запросов - на ссылке (смотрите абзац «Элементарные правила),
    o подробнее – на ссылке Рубрики в Сайт Спутнике;
    o обсуждение - на форуме СПКР.

    • если Вы повторите любой запрос или пакет запросов через какой-то промежуток времени, то увидите в выдаче те и только те ссылки, которые Вы ранее не находили и не просматривали ни разу, независимо от того, когда Вы до этого выполняли поиск: сегодня или год назад, - естественно, что Вы сможете ознакомиться и со всеми найденными ссылками;

    • в качестве Источников могут быть использованы самые разные поисковики, встроенные в сайты поиски, RSS-потоки и другие подключенные источники информации, начиная от Яндекса, в котором описанные возможности уже не поддерживаются, включая Google, в котором их никогда не было, заканчивая самым обычным встроенным в сайт поиском или потоком;

    • если использованы несколько источников, то дубли ссылок, найденные ими, будут отбрасываться.


    Доступно, начиная с Site Sputnik версии 9.5.2 от 21.11.2017 г.

    Подробнее - на ссылке SiteSputnik: Запрос + Пост-запрос.

tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 779
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Инструмент хорош!
Практики должны чётко осознавать, в каком случае применять его, а в каком случае предпочесть умные Рубрики.

PostQuery отфильтровывает результаты поисковиков, у которых уже в сниппетах выявлено несоответствие. Однако если текст на странице содержит ключевые слова в разных местах и в разных формах написания, то есть риск, что соответствующий сниппет будет пропущен. Умные Рубрики просматривают весь контент страницы, но работают существенно медленнее.

Если задача должна быть выполнена быстро и допускает потерю некоторого количества результатов, но лучше использовать PostQuery. Если же задача стоит "Найти все имеющиеся результаты", то лучше использовать умные Рубрики.
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 810
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

tungus1973 написал:
[q]
PostQuery отфильтровывает результаты поисковиков, у которых уже в сниппетах выявлено несоответствие. Однако если текст на странице содержит ключевые слова в разных местах и в разных формах написания, то есть риск, что соответствующий сниппет будет пропущен. Умные Рубрики просматривают весь контент страницы, но работают существенно медленнее
Если задача должна быть выполнена быстро и допускает потерю некоторого количества результатов, но лучше использовать PostQuery. Если же задача стоит "Найти все имеющиеся результаты", то лучше использовать умные Рубрики.
[/q]

    Нет никакого риска потерять некоторое количество результатов ни в +PostQuery, но в +News: в обоих случаях анализируется содержание ссылок, которые скачиваются живьем, а не сниппетов. Сниппеты вообще здесь не анализируются.

    Скорость - примерно одинакова в обоих случаях.

    Это вообще разные вещи:
    +PostQuery - для поиска информации (и не обязательно в поисковиках),
    +News - для мониторинга потоков новой информации.

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 810
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
    Уточняю ещё раз: сначала ищутся ссылки по упрощенному запросу (такому, который понимается поисковиками или всртоенными в сайты поисками), потом найденные ссылки (в них мусора бывает не мало) скачиваются и анализируются СайтСпутником на сложном запросе (после этого мусора практически не остается). Отсюда и название процедуры: +Пост-запрос.

  Вперед>>Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Программируем пакеты СайтСпутника (для продвинутых юзеров) »   SiteSputnik PostQuery: Запрос + Пост-запрос
RSS

Последние RSS
Журнал ошибок и предупреждений
ЕГР ЗАГС
О стратегической разведке
Вебинар по визуализации больших объемов данных с помощью связки программ Tableau
Руководство по верификации для журналистских расследований
SiteSputnik PostQuery: Запрос + Пост-запрос
SiteSputnik PostQuery: Запрос + Пост-запрос
Руководство по верификации для журналистских расследований
Визуализация данных с помощью бесплатных онлайн-инструментов
Аналитика и разведка
СК РБ впервые направил в суд дело о коммерческом шпионаже
IP за Cloud Flare
Статистика в СайтСпутнике - новые возможности
Книга 5 уровней проверки контрагента
Сервис по проверке контрагентов
Шпион, разлогинься
Интересные практические кейсы, которые могут быть полезны в работе.
Программа для управления всевозможными СУБД
Вебинар по КР
Яков Кедми о руководителе разведки

Самые активные 20 тем RSS
Журнал ошибок и предупреждений
Новости блогов
ЕГР ЗАГС