Версия для печати

-   Форум Сообщества Практиков Конкурентной разведки (СПКР) http://forum.razved.info/
--  Приемы работы с программой СайтСпутник (SiteSputnik) http://forum.razved.info//index.php?f=38
--- Поиск с учетом регистра,по аббревиатуре,фильтры по сниппетам http://forum.razved.info//index.php?t=1007




-- Алексей Мыльников написал 1 июля 2010 22:29
Для целей, указанных в заголовке темы, в SiteSputnik 6.4.3 используйте следующие четыре конструкции:

1. +++слово - до и после этой конструкции могут быть другие ключевые слова (запрос)
2. +++"фраза" - до и после этой конструкции могут быть другие ключевые слова (запрос)
3. запрос ++слово - конструкция ++слово, не относится к запросу, поэтому располагайте ее исключительно после запроса
4. запрос --слово - конструкция --слово, не относится к запросу, поэтому располагайте ее исключительно после запроса и после конструкции ++


Пояснение на примерах (все примеры чисто демонстрационные, а не методические).
1. +++ВолГУ - отфильтрует в любом поисковике: "продал старую Волгу ГАЗ-3110", "новый мост через Волгу в г. Волгограде", оставив информацию, связанную только с волгоградским госуниверситетом, сокращенно ВолГУ. Поиск по аббревиатуре.
2. +++"Мыльников Алексей" - отфильтрует в любом поисковике: "Иван Мыльников, Алексей Кудрин", оставив информацию только о моих однофамильцах и тезках.
3. ОСМП | OSMP ++Україна - оставит только те сниппеты из запроса "ОСМП | OSMP", в которых встречается слово Україна (написано по-украински).
4. +++GE --.ge/ - отфильтрует в любом поисковике грузинские сайты (обратите внимание на точку перед знаками — и наклонную черту после них, точка и черта здесь обязательны). Также отфильтруются Ge, ge и gE слова. Останется информация только о фирме GE (General Electric (специально для Петряшова)).
5. +++ВолГУ --volsu.ru - информация об университете не с сайтов Волгоградского госуниверситета, а из других источников.

Замечания.
1. Пока поиск с учетом регистра (с различием строчных и прописных букв) сделан для одного ключевого слова или для одной ключевой фразы, взятой в кавычки. Думаю, этого достаточно для многих жизненных случаев.
2. Это программное моделирование поиска, построенное на особенностях html-кода сниппетов, выдаваемых поисковиками. Оно часто требует прописывания достаточно глубокого поиска по количеству страниц, - это минус; зато не потребовалось открытие страниц, - это плюс.

Вопросы к форумчанам.
1. Есть ли еще варианты применения подобных конструкций?
2. Есть ли конкретные задачи, в которых после выполнения запроса (пакета запросов) может потребоваться скачивание и анализ контента страниц. Два варианта подобных действий в SiteSputnik(е) уже есть. Это "Мониторинг СМИ и новостных источников" и "Поиск контактной информации для списка предприятий".



-- Алексей Мыльников написал 8 июля 2010 12:16

Alexei Mylnikov написал:
[q]
Есть ли еще варианты применения подобных конструкций?
[/q]

По Нику иногда очень удобно, например, для CI-KP пакет:

+++"CI-KP" ^^Здесь KP - на английском
+++"CI-КР" ^^Здесь KP - на русском

Попробуйте выполнить этот пакет с +++ и с +, для того, чтобы увидеть разницу. Но, предварительно, подкачайте версию 6.4.3.2



-- Николаич написал 4 октября 2010 0:08
Понадобилось мне отыскать все почтовые ящики на домене.
Вначале использовал стандартный пакет "Почтовый ящик"
Получил 463 ссылки, среди которых было столько мусора, что не стал и рыться.
Тогда, по образу и подобию, я написал пакет "Почтовые ящики на домене", использовав вот эту конструкцию:
+++"@domain.zone"

Пока я экспериментировал, Яндекс "наложил на меня епитимию".
И все же. При прочих равных условиях я получил 49 уникальных ссылок, без всяких "примесей".

Не сомневаюсь, что и остальные конструкции также удачны.
Спасибо!


-- Алексей Мыльников написал 8 октября 2010 11:42
Николаич предложил в предыдущем топике способ сбора всех "засветившихся" почтовых ящиков на домене.

Еще одно применение конструкций из первого сообщения - поиск расшифровок аббревиатуры. Примеры запросов:

SCIP ++(S
СПКР ++(С
РОПКР ++(Р
"ЦОРИ КМ" ++(Ц

Лучше искать поглубже, например:

SCIP ++(S || Метапоиск=30

можно еще строже:

+++SCIP ++(S || Метапоиск=30

Работает следующим образом. СайтСтутник ищет аббревиатуру и оставляет только те сниппеты, в которых кроме нее обязательно есть открывающаяся скобка, после которой следует первая буква первого слова в аббревиатуре. Как правило, это и есть расшифровка. Поиск выполняется очень быстро, практически весь мусор отсеивается. Часто удается найти несколько расшифровок одной и той же аббревиатуры или ее новое и старое значение.



-- tungus1973 написал 3 ноября 2010 15:50
Вопрос по оператору "++".
Точно такой же оператор "++слово" есть в языке запросов Яндекса. Он означает, что это слово обязательно должно присутствовать в любом месте странички.

Применяя этот оператор в Яндекс-запросах "СайтСпутника", я рискую получить нерелевантные результаты. Т.к. программа оставит мне только запросы, в сниппетах которых встречается указанное слово. Если же слово было на страничке, но не попало в сниппеты, то ссылку я не увижу :sad:

Что делать?


-- Алексей Мыльников написал 3 ноября 2010 16:30

tungus1973 написал:
[q]
Вопрос по оператору "++".
Точно такой же оператор "++слово" есть в языке запросов Яндекса.
[/q]

Не знаю (еще раз посмотрел в Яндексе и не нашел) такой конструкции. Знаю +слово. Если это так, то противоречия нет.


-- Доктор ТуамОсес написал 19 сентября 2013 13:25

Алексей Мыльников написал:
[q]
Пояснение на примерах (все примеры чисто демонстрационные, а не методические).
1. +++ВолГУ - отфильтрует в любом поисковике: "продал старую Волгу ГАЗ-3110", "новый мост через Волгу в г. Волгограде", оставив информацию, связанную только с волгоградским госуниверситетом, сокращенно ВолГУ.
[/q]

А если использовать белый список, чтобы отфильтровать "реку Волгу" записав в белом списке слово "ВолГУ", то сниппеты в которых нет "ВолГУ" (но есть "Волгу") все равно остаются в выдаче :tuktuk:
Почему-то.
Т.е. черный и белый списки, которые как казалось бы являются логическим продолжением операторов +++ и --- оказались регистро НЕ зависимыми


Этот форум работает на скрипте Intellect Board
© 2004-2007, 4X_Pro, Объединенный Открытый Проект