Версия для печати
- Форум Сообщества Практиков Конкурентной разведки (СПКР) http://forum.razved.info/
-- Программируем пакеты СайтСпутника (для продвинутых юзеров) http://forum.razved.info//index.php?f=39
--- SiteSputnik PostQuery: Запрос + Пост-запрос http://forum.razved.info//index.php?t=6040
-- Алексей Мыльников написал 21 ноября 2017 9:09
SiteSputnik PostQuery: назначение модуля
Во всех современных поисковиках, включая Яндекс и Google, и во всех встроенных в сайты поисках в настоящее время:
• в запросах нельзя определить для ключевых слов максимальное допустимое расстояние между ними, их нахождение в одном предложении или абзаце;
• нигде не поддерживается скобочная структура запроса;
• перестают поддерживаться некоторые другие возможности языков запросов.
В настоящей публикации описан способ, применяя который можно частично преодолеть или сгладить перечисленные выше недостатки.
Доступно, начиная с Site Sputnik (http://sitesputnik.ru/) версии 9.5.2 от 21.11.2017 г.
Продолжение следует ...
-- Алексей Мыльников написал 21 ноября 2017 9:20
§1. Запрос + Пост-запрос
Сначала несколько демонстрационных примеров.
ПРИМЕР 1. Открываем пункт меню (смотрите по красной стрелочке):
(http://sitesputnik.ru/Help/Pic/F/PostQuery_Menu.jpg)
и вводим запрос: Алексей /1 Мыльников /3 программист
Его назначение: найти те и только те ссылки, в содержании которых есть стоящие на расстоянии 1 пробела (то есть рядом) словоформы от слов Алексей и Мыльников и есть ещё словоформа от слова программист, стоящая на расстоянии не более 3 пробелов от первых двух словоформ.
(http://sitesputnik.ru/Help/Pic/F/PostQuery_Query_01.gif)
На картинке выше кроме запроса мы ещё указали источник, на котором он будет выполнен (это поисковик Google) и глубину поиска, равную 7-ми поисковым страницам.
Нажимаем на кнопку «Поиск+». СайтСпутник сделает следующее:
1) выполнит в Google запрос: Алексей Мыльников программист, - на глубину 7 страниц
(обратите внимание, что символы “/1”и “/3” отсутствуют в запросе (они Гуглю ни о чём не говорят));
2) скачает все найденные по этому запросу ссылки;
3) проанализирует их содержание (контент) и поместит в специально созданный список “Пост-запрос+” ссылки, содержание которых удовлетворяет указанным выше целям.
Ниже список “Пост-запрос+” будем называть выдачей.
Фрагмент из выдачи по этому запросу таков:
(http://sitesputnik.ru/Help/Pic/F/PostQuery_Output.gif)
Красные стрелочки указывают на элементарные правила, которым удовлетворяет содержание найденных ссылок (именно содержание ссылок, а не содержание сниппетов, которые Вы видите сейчас на картинке справа).
Продолжение следует ...
-- Алексей Мыльников написал 21 ноября 2017 9:35
ПРИМЕР 2. Открываем окно для ввода запроса и вводим следующий запрос:
Алексей /1 Мыльников & ( СайтСпутник | Sitesputnik | Борисович)
Его назначение: найти те и только те страницы, в содержании которых есть стоящие рядом словоформы от слов Алексей и Мыльников и ещё, чтобы в одном предложении с ними была хотя бы одна словоформа из следующих трёх: СайтСпутник, Sitesputnik или Борисович.
(http://sitesputnik.ru/Help/Pic/F/PostQuery_Query_02.gif)
Здесь мы прописали поиск на Яндексе на глубину 10 страниц.
Нажимаем на кнопку «Поиск+». СайтСпутник сделает следующее:
1) Выполнит в Яндексе поиск по трём запросам:
a. Алексей Мыльников СайтСпутник, - на глубину 10 страниц
b. Алексей Мыльников SiteSputnik, - на глубину 10 страниц
c. Алексей Мыльников Борисович, - на глубину 10 страниц
(обратите внимание, что символы “/1” и “&” отсутствуют (они Яндексу уже ни о чем не говорят), а скобки раскрыты (Яндекс уже их не воспримимает));
2) Объединит три результата поиска, отбросив дубли ссылок и оставив только уникальные ссылки;
3) Скачает все уникальные ссылки;
4) Проанализирует их содержание (контент) и поместит в выдачу ссылки, содержание которых удовлетворяет указанным выше целям.
Фрагмент из выдачи по этому запросу таков:
(http://sitesputnik.ru/Help/Pic/F/PostQuery_Output_02.gif)
Красные стрелочки указывают на элементарные правила, которым удовлетворяют содержания найденных ссылок (именно ссылок, а не сниппетов, как уже подчеркивалось выше).
Продолжение следует ...
-- Алексей Мыльников написал 21 ноября 2017 9:40
ПРИМЕР 3. Ещё один чисто демонстрационный запрос посложнее.
(http://sitesputnik.ru/Help/Pic/F/PostQuery_Query_03.gif)
Выше на картинке показано как по запросу, отправленному на источник, называемый Метапоиск, можно получить ссылки, содержащие информацию о чемпионате мира по футболу, проводимому в России. Причем на этих ссылках не должно быть словоформы от слова Мутко или стоящих рядом словоформ от слов Строительство и Стадион (не должно быть ни одной из этих двух конструкций).
Действия СайтСпутника подобны его действиям, выполненным в предыдущем примере. Он выполнит упрощенные запросы на источниках, скачает найденные уникальные ссылки, проверит и оставит в выдаче те и только те из них, содержание которых удовлетворяет сложному запросу (Пост-запросу).
Продолжение следует ...
-- Алексей Мыльников написал 21 ноября 2017 9:47
§2. Пакет + Пост-запрос
Можно задать не только один запрос, но и Пакет запросов.
Обращение к Пакету - из меню (смотрите на самой первой картинке по зеленой стрелочке).
ПРИМЕР 4. На картинке ниже показан простой, чисто демонстрационный, пакет запросов:
(http://sitesputnik.ru/Help/Pic/F/PostQuery_Query_04.gif)
После выполнения поиска по каждому запросу и скачивания всех найденных уникальных ссылок для их содержания будет выполнен следующий Пост-запрос:
(Олег /2 Табаков) | (Табакерка /5 (Театр | Студия))
Соответственно, в выдачу попадут те и только те ссылки, в содержании которых есть стоящие не далее, чем на расстоянии 2-х пробелов друг от друга словоформы от слов Олег и Табаков или Табакерка, на расстоянии не более 5 пробелов от которой стоит Театр или Студия.
В данном Пакете одним из источников является поиск в Твиттере.
Продолжение следует ...
-- Алексей Мыльников написал 21 ноября 2017 9:57
Заключительные замечания
• Язык Пост-запросов СайтСпутника практически эквивалентен Языку Рубрик СайтСпутника:
o примеры простых запросов - на ссылке (http://sitesputnik.ru/Help/NoUseRub.htm) (смотрите абзац «Элементарные правила),
o подробнее – на ссылке Рубрики в Сайт Спутнике (http://sitesputnik.ru/Help/SSRubriki.htm);
o обсуждение - на форуме СПКР (http://forum.razved.info/index.php?t=1045&&st=0).
• если Вы повторите любой запрос или пакет запросов через какой-то промежуток времени, то увидите в выдаче те и только те ссылки, которые Вы ранее не находили и не просматривали ни разу, независимо от того, когда Вы до этого выполняли поиск: сегодня или год назад, - естественно, что Вы сможете ознакомиться и со всеми найденными ссылками;
• в качестве Источников могут быть использованы самые разные поисковики, встроенные в сайты поиски, RSS-потоки и другие подключенные источники информации, начиная от Яндекса, в котором описанные возможности уже не поддерживаются, включая Google, в котором их никогда не было, заканчивая самым обычным встроенным в сайт поиском или потоком;
• если использованы несколько источников, то дубли ссылок, найденные ими, будут отбрасываться.
Доступно, начиная с Site Sputnik (http://sitesputnik.ru/) версии 9.5.2 от 21.11.2017 г.
Подробнее - на ссылке SiteSputnik: Запрос + Пост-запрос (http://sitesputnik.ru/Help/I/QueryPostQuery.pdf).
-- tungus1973 написал 21 ноября 2017 12:43
Инструмент хорош!
Практики должны чётко осознавать, в каком случае применять его, а в каком случае предпочесть умные Рубрики.
PostQuery отфильтровывает результаты поисковиков, у которых уже в сниппетах выявлено несоответствие. Однако если текст на странице содержит ключевые слова в разных местах и в разных формах написания, то есть риск, что соответствующий сниппет будет пропущен. Умные Рубрики просматривают весь контент страницы, но работают существенно медленнее.
Если задача должна быть выполнена быстро и допускает потерю некоторого количества результатов, но лучше использовать PostQuery. Если же задача стоит "Найти все имеющиеся результаты", то лучше использовать умные Рубрики.
-- Алексей Мыльников написал 21 ноября 2017 16:51
tungus1973 написал:[q]
PostQuery отфильтровывает результаты поисковиков, у которых уже в сниппетах выявлено несоответствие. Однако если текст на странице содержит ключевые слова в разных местах и в разных формах написания, то есть риск, что соответствующий сниппет будет пропущен. Умные Рубрики просматривают весь контент страницы, но работают существенно медленнее
Если задача должна быть выполнена быстро и допускает потерю некоторого количества результатов, но лучше использовать PostQuery. Если же задача стоит "Найти все имеющиеся результаты", то лучше использовать умные Рубрики.[/q]
Нет никакого риска потерять некоторое количество результатов ни в +PostQuery, но в +News: в обоих случаях анализируется содержание ссылок, которые скачиваются живьем, а не сниппетов. Сниппеты вообще здесь не анализируются.
Скорость - примерно одинакова в обоих случаях.
Это вообще разные вещи:
+PostQuery - для поиска информации (и не обязательно в поисковиках),
+News - для мониторинга потоков новой информации.
-- Алексей Мыльников написал 21 ноября 2017 17:11
Уточняю ещё раз: сначала ищутся ссылки по упрощенному запросу (такому, который понимается поисковиками или всртоенными в сайты поисками), потом найденные ссылки (в них мусора бывает не мало) скачиваются и анализируются СайтСпутником на сложном запросе (после этого мусора практически не остается). Отсюда и название процедуры: +Пост-запрос.
Этот форум работает на скрипте Intellect Board
© 2004-2007, 4X_Pro, Объединенный Открытый Проект