Форум Сообщества Практиков Конкурентной разведки (СПКР) » Предложения по программе для допроса Интернета СайтСпутник » Некорректная работа поисковиков для исключаемых слов |
<<Назад Вперед>> | Страницы: 1 2 3 | Печать |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 28 августа 2012 11:19 Сообщение отредактировано: 28 августа 2012 11:20
Я намедни обнаружил "косяк" всех без исключения поисковиков. И пришла мне в голову идея, что этот "косяк" легко может обходить СайтСпутник. :) Речь идёт об исключении статей. В поисковиках для этого используются операнды "-" и "~". Все поисковики настроены так, что исключают ВСЕ документы, если в них встречаются слова со знаком "-". А ведь это не всегда правильно! Допустим, мы сделали запрос в любом поисковике: "приземлился самолёт" -Аэрофлот , с целью найти все сообщения, когда речь идёт о приземлении самолёта, но не "Аэрофлота". И допустим, в поисковике есть сообщение с таким содержанием: ---------------------- Вчера я видел, как приземлился самолёт Боинг. Это было великолепное зрелище! Точные и уверенные действия экипажа плавно посадили тяжёлую крылатую машину. А вот сегодня я смотрел, как приземлился самолёт Аэрофлота. Машина три раза заходила на круг. Её качало из стороны в сторону. А перед касанием дорожки самолёт вообще "клюнул" носом. ---------------------- Так вот... По нашему запросу все поисковики выкинут этот документ из выдачи! Хотя он отвечает нашим требованиям релевантности, т.е. кроме самолёта Аэрофлота, в нём говорится и о самолёте Боинга. Обойти это ограничение можно через СайтСпутник. Отталкиваясь от нашего примера, я мог бы собирать с поисковиков программой все статьи, в которых есть словосочетание "приземлился самолёт", а уже СайтСпутник выбирал бы, что именно оставить, а что - следует удалить. Пользователю могут понадобиться 2 случая: 1) Удалить все статьи, в которых хотя бы раз в предложении встречается нужное словосочетание и слово "Аэрофлот". 2) Удалить статьи, где встречается только словосочетание вместе со словом "Аэрофлот", но оставить статьи, если кроме предложения с Аэрофлотом, встречается также предложение, в котором отсутствует слово "Аэрофлот". То же самое будет справедливо и для рубрик. В случае 1 приведённая статья НЕ попадёт в выдачу. В случае 2 статья попадёт в выдачу (например, в рубрику "Боинг") Для управления выдачей, можно, например, использовать операнд "~~~", который ни в одном поисковике не встречается. Либо какой-то другой операнд. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
tungus1973 написал: Для управления выдачей, можно, например, использовать операнд "~~~", который ни в одном поисковике не встречается. Сформулируйте, используя ~~~, запросы для обоих случаев. |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Алексей Мыльников написал: Например, операнд "---" уже есть в СайтСпутнике. Можно его использовать как команду "исключить всё" (случай 1 из старттопика), а операнд "~~~" как команду "не исключать, если в тексте также есть и другое словосочетание" (случай 2 из старттопика). Сформулируйте, используя ~~~, запросы для обоих случаев. Возможно существует другой, более эффективный способ сделать это? Или можно применить другие операнды? |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5565 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
tungus1973 написал: Все поисковики настроены так, что исключают ВСЕ документы, если в них встречаются слова со знаком "-". Все же, не все. Яндекс, как раз, имеет возможность гибкой настройки - либо с помощью одинарной тильды, либо с помощью оператора расстояния межу словами. Гугл - нет. Но в гугле расстояние между словами, все же, задавать можно - звездочкой. ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 30 августа 2012 15:37 Сообщение отредактировано: 30 августа 2012 15:45 CI-KP написал: В приведённом мной примере эти настройки поисковиков не имеют значения. Оба поисковика исключают документ, если в нём есть хотя бы одна фраза, подпадающая под правило со знаком "-", и не обращают внимания на другие фразы, не имеющие слов со знаком "-". Яндекс, как раз, имеет возможность гибкой настройки - либо с помощью одинарной тильды, либо с помощью оператора расстояния межу словами. Проблема особенно заметна на больших документах - типа аналитических дайджестов статей, газет в pdf-формате и т.п. Поясню на примере. Допустим, нужно найти Льва Сергеевича Толстого (не писателя): По запросу "Лев Сергеевич Толстой" получим релевантные результаты, но не все документы, относящиеся к Л.С. Толстому. По запросу "Лев Толстой" получим много результатов, включающий разных Львов Толстых, например известного писателя-классика. По запросу "Лев Толстой -Николаевич" получим более-менее релевантные результаты. Но! Тут нас ждёт фокус! :) Если в поисковике будет проиндексированный документ с фразой: "Лев Сергеевич Толстой, как и его знаменитый тёзка Лев Николаевич Толстой, начал писать рассказы с детства", то поисковик не покажет его нам, хотя документ релевантный! Такой казус присущ не только поисковикам, но и большинству (если не всем) системам поисковика баз данных. Его можно обходить СайтСпутником, если немного расширить функционал. Это как раз тот самый случай, когда СайтСпутник будет искать ещё точнее и лучше любого другого инструмента и становится ещё немного больше программой для профессионалов. |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5565 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
tungus1973 написал: В приведённом мной примере эти настройки поисковиков не имеют значения. Оба поисковика исключают документ, если в нём есть хотя бы одна фраза, подпадающая под правило со знаком "-", и не обращают внимания на другие фразы, не имеющие слов со знаком "-". Не буду спорить. Просто,как мне кажется, если есть оператор, позволяющий избежать проблемы (и это не оператор минус, а оператор "включить/исключить слово в одном предложении" и "оператор расстояния между словами"), то не совсем верно использовать вместо него другой оператор - такой, который этого не позволяет делать, а потом обвинять в этом поисковик. Ну, как опять же, мне кажется, любые инструменты всегда лучше использовать по их назначению - тогда результат лучше. Я, собственно, так и стараюсь поступать в работе, но абсолютно не настаиваю, чтобы так делали все :) Позиция "Я применяю вместо скальпеля лом и получаю плохой результат" - ну, не комильфо это, на мой взгляд. ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
Sergey
Долгожитель форума
Всего сообщений: 640 Рейтинг пользователя: 2 Ссылка Дата регистрации на форуме: 9 июня 2010 |
А еще лучше использовать свой поисковик, тогда нет вообще ограничений. (не шутка и не стеб) |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
tungus1973 написал: Например, операнд "---" уже есть в СайтСпутнике. Можно его использовать как команду "исключить всё" (случай 1 из старттопика), а операнд "~~~" как команду "не исключать, если в тексте также есть и другое словосочетание" (случай 2 из старттопика). Таких операндов нет в СайтСпутнике, и думаю, что и не будет. "Нестандартный" анализ контента будет осуществляться с помощью плагинов. Программное обеспечение, поддерживающее реализацию плагинов, практически завершено, но не декларировалось. tungus1973 написал: Возможно существует другой, более эффективный способ сделать это? Или можно применить другие операнды? Насколько я понял, речь идет о пост-запросе и рубрикации, так как такой результат чисто при помощи языков запросов поисковиков и анализа сниппетов не получишь. Тогда логично не вводить новых конструкций, а усовершенствовать уже существую: расстояние между словами: 1)"приземлился самолёт" /7 Аэрофлот - есть слово "Аэрофлот" на расстоянии не более 7 пробелов (6 слов) от "приземлился самолёт". Это есть в СайтСпутнике. 2)"приземлился самолёт" /7 ~Аэрофлот - есть такой фрагмент в контенте ссылки, где нет слова "Аэрофлот" на расстоянии не более 7 пробелов (6 слов) от "приземлился самолёт". Этого нет в СайтСпутнике. Сейчас пункт 2) можно решить, используя "сущности" (если я правильно понял Нежданова в личной переписке), следующим способом: "приземлился самолёт" /7 (Авиакомпания №1 | Авиакомпания №2 | ... | Авиакомпания №Z), то есть, перечислить то что нужно, а не то что не нужно. Это в СайтСпутнике есть. В скобках находится "сущность" - список всех Авиакомпаний. Из него выбрасывается Аэрофлот. "Сущность" может храниться в файле-вставке и подставляться в пост-запрос в виде файла, а именно: "приземлился самолёт" /7 ("Сущности\Авиакомпании.txt") |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5565 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
Sergey написал: А еще лучше использовать свой поисковик, тогда нет вообще ограничений. Но ведь ни один поисковик не в состоянии на сегодня всё проиндексировать и поэтому их пересечение не так уж велико. Мне кажется, что если речь о просмотре поисковиком уже известных источников - то можно свой поисковик использовать, но если надо и неизвестные брать во внимание, то вряд ли свой поисковик адекватно справится с задачей. Я правильно понимаю ситуацию? ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
Sergey
Долгожитель форума
Всего сообщений: 640 Рейтинг пользователя: 2 Ссылка Дата регистрации на форуме: 9 июня 2010 |
CI-KP написал: Вопрос очень не простой. Дело в том, что есть независимые поисковики, про которые не пишут. Там свои правила игры. |
<<Назад Вперед>> | Страницы: 1 2 3 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Предложения по программе для допроса Интернета СайтСпутник » Некорректная работа поисковиков для исключаемых слов |
Самые активные 20 тем | |