Форум Сообщества Практиков Конкурентной разведки (СПКР) » Предложения по программе для допроса Интернета СайтСпутник » Аналитическое вычитание |
<<Назад Вперед>> | Страницы: 1 2 * 3 4 | Печать |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 24 мая 2010 12:21 Сообщение отредактировано: 24 мая 2010 14:21 Alexei Mylnikov написал: Почему же? Я и ув.Искендер привели сразу два примера, когда выполнение "Аналитического вычитания" существенно(!), т.е. в 5-10 раз, экономит время поиска информации. практического широкого применения не вижу Решение задачи на 4000 тысячах ссылок КРАЙНЕ затруднительно! Лично я в таких случаях перехожу с СайтСпутника на "ручной" поиск (и это весьма обидно - отказываться от удобного инструмента!). Да, я соберу значительно меньше данных, но зато и времени потрачу не 3-4 дня, а гораздо меньше. Реализация функции "Аналитическое вычитание" (АВ) легко сокращает те самые 3-4 дня до пары часов! А если ожидается такая экономия, то почему бы не автоматизировать этот процесс? Кроме того, реализовав "АВ" мы вновь приближаемся к принципу "Найти всё и с гарантией!" Alexei Mylnikov написал: А вот это мне не понятно - почему? Конечно, для поиска человека с уникальными фамилией и именем, например, Алишера Усманова, эта функция не очень нужна. А вот для поиска людей с распространенными фамилией и именем, когда мы имеем дело с массой однофамильцев - без АВ никуда не деться. По сути, при "ручном" поиске мы делаем то же самое - начинаем сочинять запросы с исключением ненужных результатов: пытался применять "Взятие разности" - не получал эффективных результатов (Иванов /2 Алексей) -Федорович -Иванович -Кузьмич -Ильич... Вот только не все поисковики поддерживают длинную строку запроса. Как раз в данном случае СайтСпутник вновь помог бы нам обойти ограничения поисковиков по длине строки! Alexei Mylnikov написал: Можем рассмотреть такой пример. Как только у Вас возникнет конкретный "несекретный" пример (или пример можно придумать), в котором требуется применить "Взятие разности", то выложите его здесь. Мы его выполним и оценим результаты. Если результаты будут плохими, поищем другой пример. Объект интереса: Николай Андреевич Карамзин, житель Екатеринбурга, 30 лет. Поиск в Яндексе по полным фамилии, имени и отчеству выдал 39 страниц, на которых упоминается этот человек. Задача: Найти странички, на которых этот гражданин упоминается в сочетаниях - Николай Карамзин или Карамзин Николай (т.е. без отчества). |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
tungus1973 написал: Да, я соберу значительно меньше данных tungus1973 написал: мы вновь приближаемся к принципу "Найти всё и с гарантией!" Явное противоречие. Много информации будет потеряно. |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Противоречия нет! Первая цитата - речь шла о том, что меньше данных я соберу, если буду выполнять эту задачу без СайтСпутника, т.е. вручную. Вторая цитата - речь шла о том, что если в СайтСпутнике будет реализована функция "АВ", то мы, тем самым, вновь приблизимся к принципу "Найти всё и с гарантией!" С функцией "АВ" как раз потерь информации не будет, т.к. мы отсекаем заведомо лишнее, а всё сомнительное остаётся в собранных ссылках. Вот дальше мы перебираем эти ссылки вручную. Да, на это тоже уйдет некоторое время, но гораздо меньшее, чем перебирать все ссылки, собранные без вычитания! |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
tungus1973 написал: Можем рассмотреть такой пример. Какие проекты (пакеты) Вы составите? Что из чего будете вычитать? Судя по первому топику этой темы, Вам достаточно вычитания на двух проектах - если что, то каждый из них может быть получен путем АО из нескольких проектов. |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 24 мая 2010 14:08 Сообщение отредактировано: 24 мая 2010 14:09 Alexei Mylnikov написал: 1й пакет. Николай Карамзин. Бегло смотрим, какие тёзки повторяются часто. Какие проекты (пакеты) Вы составите? Что из чего будете вычитать? 2й пакет. Николай Михайлович Карамзин. 3й пакет. Николай Карамзин + (историк | писатель) Затем выполняем "АВ" = "1й пакет" - "2й пакет" - "3й пакет" При желании можно еще запустить: 4й пакет. Николай Николаевич Карамзин. "АВ" = "АВ 1" - "4й пакет" и т.д. пока не останется приемлемое количество ссылок. |
Искендер
Администратор
Всего сообщений: 5925 Рейтинг пользователя: 43 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 24 мая 2010 17:04 Сообщение отредактировано: 24 мая 2010 17:29
Я согласен с уважаемым tungus1973. То, что он описывает - значительно может облегчить поиск. Точнее - фильтрацию результатов. Возьмем, к примеру, губернатора Ненецкого автономного округа Игоря Федорова. Пример абсолютно с потолка, если что, и взят именно из-за распространенной фамилии и очень частого упоминания его имени в Интернете. Губер, все же, медийная персона. Если искать информацию о нем по полному ФИО - "Федоров Игорь Геннадьевич" - выборка будет довольно точной, но очень многое, где он упоминается только по ФИ - "Игорь Федоров" - в выдачу не попадет. Искать по ФИ - завалит "мусорными" ссылками. Для сравнения - по ФИО Гугл выдает 291 000 ссылок, а по ФИ - 1 350 000! Но, где-то среди этой разницы (1 350 000 - 291 000) - есть и полезная нам информация. Но как ее "достать"? Просмотреть весь массив? Понятно - там хватает дублей, их СС удалит, но и без них объем будет ого-го! Через "АВ" мы, действительно, могли бы (пошагово, к примеру, или пакетом) убрать "Сергеевичей", "Михайловичей", "Владимировичей", "Петровичей" и прочих не нужных нам Игорей Федоровых. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Искендер написал: Через "АВ" мы, действительно, могли бы (пошагово, к примеру, или пакетом) убрать "Сергеевичей", "Михайловичей", "Владимировичей", "Петровичей" и прочих не нужных нам Игорей Федоровых. Да, согласен: это способ убрать из выдачи некоторые заведомо ненужные страницы, причем делать это можно "долго" и "упорно", чего на чистом Гугле не сделаешь, то есть можно добиться более точного результата. Сделать ее реально. Еще где-нибуть АВ может быть полезно? |
Искендер
Администратор
Всего сообщений: 5925 Рейтинг пользователя: 43 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Alexei Mylnikov написал:
Думаю, что похожий пример смог бы привести уважаемый Дмитрий Петряшов. По какой-то товарной номенклатуре. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Искендер написал: Думаю, что похожий пример смог бы привести уважаемый Дмитрий Петряшов. По какой-то товарной номенклатуре. Пара первых попавшихся примеров: 1. Если такая компания Legrand, а есть композитор Мишель Легран. Информации куча и по тому, и по тому. Мишель Легран мне не нужен, надо его "вычесть" 2. При мониторинге по слову GE (General Electric) находится масса грузинских сайтов, у которых домены заканчиваются на .ge. Соответственно, грузинские сайты тоже нужно отметать И кстати, Алексей, можно ли сделать некой черный список тех сайтов, которые СайтСпутник должен обходить стороной? Например, выкинуть все или некоторые грузинские сайты или все или часть музыкальных сайтов, содержащих информацию о Мишеле Легране? |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 24 мая 2010 20:47 Сообщение отредактировано: 28 октября 2010 14:44 petryashov написал: Своих фильтров над сниппетами в СайтСпутнике пока нет. И кстати, Алексей, можно ли сделать некой черный список тех сайтов, которые СайтСпутник должен обходить стороной? Например, выкинуть все или некоторые грузинские сайты или все или часть музыкальных сайтов, содержащих информацию о Мишеле Легране? Замечание от 28.10.10. В настоящее время уже есть. Смотрите на форуме здесь - forum.razved.info/index.php?t=1007 |
<<Назад Вперед>> | Страницы: 1 2 * 3 4 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Предложения по программе для допроса Интернета СайтСпутник » Аналитическое вычитание |
Самые активные 20 тем | |