Форум Сообщества Практиков Конкурентной разведки (СПКР) » Предложения по программе для допроса Интернета СайтСпутник » Аналитическое вычитание |
<<Назад Вперед>> | Страницы: 1 2 * 3 4 | Печать |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
tungus1973 написал: Можем рассмотреть такой пример. Какие проекты (пакеты) Вы составите? Что из чего будете вычитать? Судя по первому топику этой темы, Вам достаточно вычитания на двух проектах - если что, то каждый из них может быть получен путем АО из нескольких проектов. |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 24 мая 2010 14:08 Сообщение отредактировано: 24 мая 2010 14:09 Alexei Mylnikov написал: 1й пакет. Николай Карамзин. Бегло смотрим, какие тёзки повторяются часто. Какие проекты (пакеты) Вы составите? Что из чего будете вычитать? 2й пакет. Николай Михайлович Карамзин. 3й пакет. Николай Карамзин + (историк | писатель) Затем выполняем "АВ" = "1й пакет" - "2й пакет" - "3й пакет" При желании можно еще запустить: 4й пакет. Николай Николаевич Карамзин. "АВ" = "АВ 1" - "4й пакет" и т.д. пока не останется приемлемое количество ссылок. |
Искендер
Администратор
Всего сообщений: 5925 Рейтинг пользователя: 43 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 24 мая 2010 17:04 Сообщение отредактировано: 24 мая 2010 17:29
Я согласен с уважаемым tungus1973. То, что он описывает - значительно может облегчить поиск. Точнее - фильтрацию результатов. Возьмем, к примеру, губернатора Ненецкого автономного округа Игоря Федорова. Пример абсолютно с потолка, если что, и взят именно из-за распространенной фамилии и очень частого упоминания его имени в Интернете. Губер, все же, медийная персона. Если искать информацию о нем по полному ФИО - "Федоров Игорь Геннадьевич" - выборка будет довольно точной, но очень многое, где он упоминается только по ФИ - "Игорь Федоров" - в выдачу не попадет. Искать по ФИ - завалит "мусорными" ссылками. Для сравнения - по ФИО Гугл выдает 291 000 ссылок, а по ФИ - 1 350 000! Но, где-то среди этой разницы (1 350 000 - 291 000) - есть и полезная нам информация. Но как ее "достать"? Просмотреть весь массив? Понятно - там хватает дублей, их СС удалит, но и без них объем будет ого-го! Через "АВ" мы, действительно, могли бы (пошагово, к примеру, или пакетом) убрать "Сергеевичей", "Михайловичей", "Владимировичей", "Петровичей" и прочих не нужных нам Игорей Федоровых. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Искендер написал: Через "АВ" мы, действительно, могли бы (пошагово, к примеру, или пакетом) убрать "Сергеевичей", "Михайловичей", "Владимировичей", "Петровичей" и прочих не нужных нам Игорей Федоровых. Да, согласен: это способ убрать из выдачи некоторые заведомо ненужные страницы, причем делать это можно "долго" и "упорно", чего на чистом Гугле не сделаешь, то есть можно добиться более точного результата. Сделать ее реально. Еще где-нибуть АВ может быть полезно? |
Искендер
Администратор
Всего сообщений: 5925 Рейтинг пользователя: 43 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Alexei Mylnikov написал:
Думаю, что похожий пример смог бы привести уважаемый Дмитрий Петряшов. По какой-то товарной номенклатуре. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Искендер написал: Думаю, что похожий пример смог бы привести уважаемый Дмитрий Петряшов. По какой-то товарной номенклатуре. Пара первых попавшихся примеров: 1. Если такая компания Legrand, а есть композитор Мишель Легран. Информации куча и по тому, и по тому. Мишель Легран мне не нужен, надо его "вычесть" 2. При мониторинге по слову GE (General Electric) находится масса грузинских сайтов, у которых домены заканчиваются на .ge. Соответственно, грузинские сайты тоже нужно отметать И кстати, Алексей, можно ли сделать некой черный список тех сайтов, которые СайтСпутник должен обходить стороной? Например, выкинуть все или некоторые грузинские сайты или все или часть музыкальных сайтов, содержащих информацию о Мишеле Легране? |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 24 мая 2010 20:47 Сообщение отредактировано: 28 октября 2010 14:44 petryashov написал: Своих фильтров над сниппетами в СайтСпутнике пока нет. И кстати, Алексей, можно ли сделать некой черный список тех сайтов, которые СайтСпутник должен обходить стороной? Например, выкинуть все или некоторые грузинские сайты или все или часть музыкальных сайтов, содержащих информацию о Мишеле Легране? Замечание от 28.10.10. В настоящее время уже есть. Смотрите на форуме здесь - forum.razved.info/index.php?t=1007 |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Еще один частый пример - нередко встречается одно и то же название организаций во многих регионах. Чтобы найти нужную, приходится указывать исключения: "Самолёт" ~/1 (ЗАО | ОАО) ~~/40 (Москва | Волгоград | Петербург) || Yandex=1000 Эту задачу тоже можно решать с помощью "АВ". Если сказать общими словами, то "Аналитическое Вычитание" необходимо везде, где нужно исключить МАССУ похожих объектов. АВ - такая же аналитическая операция, как и АО, как и анализ пересечений объектов. |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 23 октября 2010 16:02 Сообщение отредактировано: 23 октября 2010 16:07
Снова возвращаюсь к теме "Аналитического вычитания". Один из коллег СПКР попросил помочь в сборе информации. Уже сейчас из задания ясно, что придется выполнять поиск в несколько этапов. Значит, одни и те же ссылки будут попадаться несколько раз. Хотелось бы облегчить задачу. Вопрос к Alexei Mylnikov: можно в сделать в СайтСпутнике универсальный механизм "АО" "АВ"? Например, так. Выполняем несколько поисковых пакетов, которые в СайтСпутнике записываются под универсальными системными номерами (эти номера уже сейчас автоматически присваиваются каждому новому запросу): 1. .... 2. .... 3. .... 4. АО 3-(1+2) Четвертая строка - аналитическая операция над ссылками, собранными в пунктах 1, 2, 3. В данном случае обозначает, что нужно выполнить "Аналитическое объединение" над ссылками, собранными по строкам 1 и 2. Затем вычесть полученное из ссылок, собранных по строке 3. Запись в строке 4 могла бы выглядеть и так "АО 3-1-2". Это не принципиально. Просто хотелось показать, что теоретически к таким записям можно было бы применять скобки как в математике. Возможно ли реализовать этот способ? |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
tungus1973 написал: Возможно ли реализовать этот способ? Да, возможно. |
<<Назад Вперед>> | Страницы: 1 2 * 3 4 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Предложения по программе для допроса Интернета СайтСпутник » Аналитическое вычитание |
Самые активные 20 тем | |