Форум Сообщества Практиков Конкурентной разведки (СПКР) » Предложения по программе для допроса Интернета СайтСпутник » Некорректная работа поисковиков для исключаемых слов |
<<Назад Вперед>> | Страницы: 1 2 3 | Печать |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5565 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 31 августа 2012 0:18 Сообщение отредактировано: 31 августа 2012 0:19 Sergey написал: Дело в том, что есть независимые поисковики, про которые не пишут. 1. А независимые поисковики и "свой поисковик" - разве одно и то же? 2. Поисковики общего назначения - например, Яндекс, Гугл , Яху и Бинг чисто физически не в состоянии проиндексировать одно и то же. К "невидимому интернету" относится настолько бОльшая часть страниц, что поисковики не в состоянии побывать на всех них. На тех, которые популярны (имеют много внешних ссылок, по большому счету) - успевают побывать все. а дальше - как получится. По этой причине, если нужен реально большой охват - приходится пользоваться множеством поисковиков. Таким образом, если вместо этого множества - которое все равно не все видит - использовать какой-то один поисковик, результат, теоретически, должен быть много меньше, чем при использовании разных поисковиков. Собственно, вся работа СайтСпутника - живая иллюстрация этого явления: он убирает дубли и показывает уникальные адреса. Ему бы просто нечего было показывать, если бы существовал идеальный поисковик. ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
Sergey
Долгожитель форума
Всего сообщений: 640 Рейтинг пользователя: 2 Ссылка Дата регистрации на форуме: 9 июня 2010 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 31 августа 2012 0:39 Сообщение отредактировано: 31 августа 2012 0:42
Отвечу кратко. А зачем индексировать информационный шум (белый шум). Есть ведь варинты.... (удалять дубли, это не уникум - это банальность, даже не интересно это обсуждать) |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5565 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 31 августа 2012 7:17 Сообщение отредактировано: 31 августа 2012 7:30 Sergey написал: А зачем индексировать информационный шум (белый шум). Есть ведь варинты.... Какие есть варианты, когда на каком-нибудь Севастопольском форуме, впервые в жизни, и без всяких предвестников, появляется, например, разгон негативной статьи по объекту нашего интереса? И как мы об этом можем узнать, если наш уникальный поисковик не знает о существовании этого форума? Т.е., наверное, узнаем - когда это будет перепечатано там, где мы смотрим. Но вот только это уже совсем не "раннее предупреждение". Проведу аналогию, которая лично мне понятна. О бомбардировке можно узнать нескольктми способами: 1. По вылетанию окон от взрывной волны 2. По свисту падающей бомбы 3. По гулу бомбардировщика в небе над головой 4. По гулу бомбардировщика в акустических уловителях дальнего обнаружения 5. По отметке на радаре дальнего обнаружения Каждый из способов работоспособен, но время на реагирование дает очень по-разному. Я вижу такую ситуацию с поисковиками: когда известны адреса, которые надо мониторить - действительно, возможны разные варианты. СайтСпутник - как общедоступное решение, но без возможности настройки под каждого человека в отдельности или индивидуальный поисковик - с возможностью такой настройки (но и с необходимостью иметь своих программеров для него) - это как раз такие примеры. Но когда надо иметь раннее предупреждение - это во многом бесполезные инструменты, если рассматривать их вне поисковиков общего характера. В то же время, язык запросов и сортировка по времени позволяют использовать поисковики общего характера для раннего предупреждения. Особенно, если не писать синтаксически неверных запросов, а делать это корректно.. ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 31 августа 2012 9:11 Сообщение отредактировано: 31 августа 2012 10:10
Похоже, я затронул совсем-совсем "тонкости" поиска... Алексей Мыльников написал: Абсолютно верно! Насколько я понял, речь идет о пост-запросе и рубрикации, так как такой результат чисто при помощи языков запросов поисковиков и анализа сниппетов не получишь. CI-KP написал: если есть оператор, позволяющий избежать проблемы (и это не оператор минус, а оператор "включить/исключить слово в одном предложении" и "оператор расстояния между словами") Алексей Мыльников написал: К сожалению, это не решает проблемы. В приведённом мной примере №1 есть 2 фразы: "приземлился самолёт Боинг" и "приземлился самолёт Аэрофлота" оба выделенных слова располагаются в одной последовательности и на одинаковом расстоянии. Поисковики всё равно исключат документ из выдачи. ... Тогда логично не вводить новых конструкций, а усовершенствовать уже существующее: расстояние между словами: Алексей Мыльников написал: Да, этот способ точнее. Но всё же! Из нашего внимания выпадут: 1) новые Авиакомпании; 2) Авиакомпании, сменившие название; 3) Авиакомпании, название которых написано в транскрипции; 4) Авиакомпании, название которых написано с ошибкой или намеренно искажённые автором сообщения. Не так уж и мало... Сейчас пункт 2) можно решить, используя "сущности" (если я правильно понял Нежданова в личной переписке), следующим способом: CI-KP написал: Я поисковики не обвиняю. Они работают, как умеют... не совсем верно использовать вместо него другой оператор - такой, который этого не позволяет делать, а потом обвинять в этом поисковик. Я лишь подсказываю, как можно добиться лучшего результата - с одной стороны исключить ненужные документы, с другой - не пропустить нужные (релевантные. Или пертинентные, если хотите...). CI-KP написал: Несовсем так... (а вернее, совсем не так...). Моя позиция: "Сейчас все вынуждены работать ломами (потому, что другого инструмента просто нет!). Но я знаю, как сделать скальпель. Со скальпелем работать будет удобнее". Позиция "Я применяю вместо скальпеля лом и получаю плохой результат" Sergey написал: Не стану спорить, это было бы удобнее. Создать собственный поисковик - интересная идея, но это ж сколько нужно денег и какие нужны мощности, чтобы персональный поисковик индексировал больше сайтов, чем Яндекс и Google? А еще лучше использовать свой поисковик, тогда нет вообще ограничений. Моё мнение - воспользоваться трудами Яндекса и Google - намного проще. И дешевле. На практике же хорошо себя оправдывает совмещённый подход - мониторим и поисковики, и отдельные сайты. И те и другие подключаются к СайтСпутнику, который исключает дублирующуюся информацию. Отдельные сайты мониторим с целью быстрее получить информацию из заведомо подходящего источника. Поисковики - найти источники, о которых раньше не знали. И, как справедливо замечено: CI-KP написал: Возможности поиска нужной информации в Интернете ограничены для каждого конкретного человека. Путь к эффективности - по максимуму использовать возможности каждого рабочего инструмента. Какие есть варианты, когда на каком-нибудь Севастопольском форуме, впервые в жизни, и без всяких предвестников, появляется, например, разгон негативной статьи по объекту нашего интереса? Функционал, который я предложил для СайтСпутника - не от хорошей жизни. Интернет удваивается ежегодно, стремительно растёт количество документов. Уже сейчас мы сталкиваемся с тем, что по запросу в поисковике либо выпадает много мусора, либо в выдачу не попадают релевантные документы. Предложенный мной способ - попытка приблизиться к желаемому: "НАЙТИ ВСЁ и с ГАРАНТИЕЙ" ================= P.S. Sergey написал: Sergey, а можете привести список таких поисковиков, которые индексируют сайты, непроиндексированные ведущими поисковиками? (У меня профессиональный интерес) Дело в том, что есть независимые поисковики, про которые не пишут. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
tungus1973 написал: Алексей Мыльников написал: К поисковику будет запрос "приземлился самолет", а "приземлился самолет" /7 ~Аэрофлот - это пост-запрос. Его на поисковики посылать бессмысленно. На практике это не всегда хорошо, так как по "приземлился самолет" будет огромная выдача, которую надо будет всю переработать. Но если запросы к поисковикам идут по дате (интересует новая информация), то можно ограничить глубину поиска. В этом случае можно достичь практичного результата. |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Алексей Мыльников написал: Именно так. Это пост-запрос, который будет работать исключительно внутри СайтСпутника. К поисковику будет запрос "приземлился самолет", а "приземлился самолет" /7 ~Аэрофлот - это пост-запрос. Его на поисковики посылать бессмысленно И такой же пост-запрос может эффективно работать в рубриках. Алексей Мыльников написал: Именно так и приходится делать. На практике это не всегда хорошо, так как по "приземлился самолет" будет огромная выдача, которую надо будет всю переработать. Но если запросы к поисковикам идут по дате (интересует новая информация), то можно ограничить глубину поиска. В этом случае можно достичь практичного результата. |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5565 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 31 августа 2012 13:31 Сообщение отредактировано: 31 августа 2012 13:36 Алексей Мыльников написал: К сожалению, это не решает проблемы. В приведённом мной примере №1 есть 2 фразы: "приземлился самолёт Боинг" и "приземлился самолёт Аэрофлота" оба выделенных слова располагаются в одной последовательности и на одинаковом расстоянии. Поисковики всё равно исключат документ из выдачи. Вот в таком варианте что плохо? (приземлился /1 самолёт) ~ Аэрофлот или вот в таком - более жестком: "приземлился самолёт" ~ Аэрофлот На всякий случай, проверяем - не исключены ли все документы по слову "Аэрофлот" огульно: ("приземлился самолёт" ~ Аэрофлот) && +Аэрофлот ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
CI-KP написал: Нормальный вариант Вот в таком варианте что плохо? Яндекс просто работает с ошибками... По этому запросу Яндекс должен был исключить все документы, в которых в одном предложении встречаются слова приземлился, самолёт и Аэрофлот. Однако, если мы сделаем тут же "поиск в найденном" с запросом: (приземлился /1 самолёт) & Аэрофлот И видим: "Яндекс нашёл 131 ответ". Я, правда, посмотрел не все ссылки, а только первые. В них во всех встречаются слова приземлился и самолёт только вместе со словом Аэрофлот и нигде не встречаются эти слова без слова Аэрофлот. "Косяк" поисковика! Поэтому мной и предложен вариант - собирать СайтСпутником всё, без исключения слов. А уже потом уточнять поиск (делать пост-обработку результатов). |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5565 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
tungus1973 написал: Однако, если мы сделаем тут же "поиск в найденном" с запросом: У Яндекса "поиск в найденном", по моим наблюдениям, никогда корректно и не работал. Основная выдача может подглючивать, но временами, а вот "поиском в найденном" я вообще не пользуюсь. ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
beta |
Добрый день! Подскажите, пожалуйста, ответ по такому вопросу: Пользуюсь пакетом "Pro", при поиске по номеру телефона в выдаче результата много сайтов "мусоров", которые не несут в себе никакой полезной информации. Существуют ли какие-либо приемы, чтобы при выполнении таких запросов эти сайты в выдаче результата не попадались? Скажем, внести их в "Черный список" и в список "Сайты-исключения". В настройках поиска я этого не обнаружила, как и на этом форуме тоже. Под сайтами "мусора" я имею в виду, например, такие: И им подобные. Заранее спасибо. |
<<Назад Вперед>> | Страницы: 1 2 3 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Предложения по программе для допроса Интернета СайтСпутник » Некорректная работа поисковиков для исключаемых слов |
Самые активные 20 тем | |