Аналитическое вычитание

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Предложения по программе для допроса Интернета СайтСпутник »   Аналитическое вычитание
RSS

Аналитическое вычитание

<<Назад  Вперед>>Страницы: 1 2 3 4
Печать
 
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
На семинаре, посвященном СайтСпутнику, мы с коллегами обсуждали применение операции противоположной "Аналитическому объединению", которую мы условно назвали "Аналитическое вычитание". Кратко разъясню суть операции.
Предположим, у Вас есть 2 проекта.

Проект 1
Проект 2


Выполняя "Аналитическое объединение" вы соединяете все найденные списки из двух проектов в один.

Проект 1 + Проект 2 = АО

Но вот, допустим, Вам потребовалось не объединить списки, а вычесть из одного списка ссылок ссылки из другого списка. То есть, нужно выполнить такую операцию:

Проект 2 - Проект 1 = АВ

Когда может пригодиться эта функция? Ну, например, собираете Вы информацию про "Алексея Ивановича Федорова". И, чтобы собрать данные более полно, Вы проверяете, а не упоминается ли искомый человек в сочетании "Алексей Фёдоров"?

И вы делаете отдельный пакет и собираете все ссылки на странички, где упоминается гр-н. Фёдоров. Предположим, что таких ссылок собралось более 1000 шт. Но! Как выяснилось, у нашего Фёдорова очень много однофамильцев, в том числе и очень известных личностей. И вот Вы просматриваете собранные сниппеты и видите, что очень часто упоминаются "Алексей Петрович Фёдоров" (примерно 500 ссылок) и "Алексей Васильевич Фёдоров" (тоже примерно 300 из всех ссылок). Вы знаете, что где-то среди оставшихся 200 ссылок есть и Ваш "Алексей Иванович Фёдоров", но просматривать из-за него все 1000 ссылок Вам уже как-то не хочется.
Что делать?

Логично было бы запустить отдельные пакеты для поиска "Васильевича" и "Петровича" Фёдоровых, а потом уже вычесть результаты из общего пакета. А оставшиеся 200 (а может уже и меньше) ссылок просмотреть, и даже выкачать на свой компьютер. Вот здесь нам и пригодилась бы функция "Аналитическое вычитание"!

На страничке СайтСпутника написано, что в программе уже реализована аналогичная функция как "Взятие разности"("метавычитание").

Уважаемый Алексей Борисович, можно ли в этой ветке форума рассказать о том, как выполнить "Аналитическое вычитание" методами, уже реализованными в программе? И если такая операция на поверку оказывается сложновыполнимой, нельзя ли предусмотреть в СайтСпутнике специальную функцию для такой операции?
Искендер
Администратор

Всего сообщений: 5925
Рейтинг пользователя: 43


Ссылка


Дата регистрации на форуме:
7 июня 2009
Да-да-да! Дайте две! Совсем, вот, недавно - мало того, что объект персонаж медийный, да еще и с распространенными ФИО. Почти 4 тысячи ссылок! Думал - глаза выпадут! Алексей! Не дайте зрения лишиться!

---
I`m not a Spy! I can do much better!
Информационные войны "под ключ"
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009
Насколько я понимаю, эта-то опция вообще не требует особо время тратить на ее создание. Ежели оно что-то с чем-то складывает, то и вычесть может это же самое без проблем.
Или я неправ?

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Искендер написал:
[q]
ало того, что объект персонаж медийный, да еще и с распространенными ФИО. Почти 4 тысячи ссылок! Думал - глаза выпадут! Алексей! Не дайте зрения лишиться!
[/q]

А нефиг мониторить Сергея Безрукова. Мониторь Эммануила Папандопуло - и тебе не понадобятся никакие приблуды в СайтСпутник :smile:

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Очень нужная функция. БЫло бы замечательно, если бы она была реализована
Искендер
Администратор

Всего сообщений: 5925
Рейтинг пользователя: 43


Ссылка


Дата регистрации на форуме:
7 июня 2009

CI-KP написал:
[q]

Искендер написал:
[q]
ало того, что объект персонаж медийный, да еще и с распространенными ФИО. Почти 4 тысячи ссылок! Думал - глаза выпадут! Алексей! Не дайте зрения лишиться!
[/q]
А нефиг мониторить Сергея Безрукова. Мониторь Эммануила Папандопуло - и тебе не понадобятся никакие приблуды в СайтСпутник
[/q]

Что делать - не фанат я Папандопуло... :smile:

---
I`m not a Spy! I can do much better!
Информационные войны "под ключ"
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

tungus1973 написал:
[q]
На страничке СайтСпутника написано, что в программе уже реализована аналогичная функция как "Взятие разности"("метавычитание").
[/q]

Да, "Взятие разности", упомянутое на сайте делает именно то, что написал tungus1973.

А = "Проект 1" - "Проект 2"
и
Б = "Проект 2" - "Проект 1",

не равны друг другу, более того, не имеют не одной общей ссылки.

Но А и Б не выделены в отдельные списки. Их можно руками выделить следующим образом. Отметить, превратив маленькие серые шарики в зеленые, затем нажать большой зеленый шарик и получить список "Отмеченные". Отмечать для А надо те ссылки, которые вошли только и только в "Проект 2", для Б только и только в "Проект 1". Ссылки идут подряд.

Делать я этого не стал - итак "получаю" за "сложные места", а здесь, если берется разность только двух проектов, еще два непонятных списка. Если проектов несколько, то там вообще можно окончательно запутать пользователя.

tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

Alexei Mylnikov написал:
[q]
Их можно руками выделить следующим образом.
[/q]
Руками - это долго. Взять, к примеру, задачу Искендера - 4000 ссылок! Вручную особо не наотмечаешься...

А, в принципе, насколько сложно автоматизировать эту функцию?

Как заметил ув. CI-KP
[q]
Ежели оно что-то с чем-то складывает, то и вычесть может это же самое без проблем.
[/q]
Наверняка он прав.

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

tungus1973 написал:
[q]
А, в принципе, насколько сложно автоматизировать эту функцию?

Как заметил ув. CI-KP
[q]
Ежели оно что-то с чем-то складывает, то и вычесть может это же самое без проблем.
[/q]
Наверняка он прав.
[/q]

Уважаемый СI-KP прав. Сделать несложно. Сомневаюсь, что нужно. Зачем лишние списки или лишнии опции. По-моему, это надумано.

CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Alexei Mylnikov написал:
[q]
По-моему, это надумано.
[/q]

Не. Ну, если уже двое ПРАКТИКОВ говорят, что надо, то наверное таки надо.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009

Alexei Mylnikov написал:
[q]
Уважаемый СI-KP прав. Сделать несложно. Сомневаюсь, что нужно. Зачем лишние списки или лишнии опции. По-моему, это надумано.
[/q]

Алексей,все, что будет ниже, это исключительно мое мнение как пользователя Вашей программы. Это не является официальной позицией СПКР.

я уже пару раз этот вопрос задавал, Вы на него так и не ответили: Вы всерьез полагаете, что участники данного форума спят и видят, какую бы еще хрень придумать, лишь бы Мыльникову работу подкинуть?

Если так, то вы ошибаетесь. Думаю, Вам не составит труда запустить Вашу программу и посмотреть, в каких компаниях работают те члены СПКР, которые не скрывают место своей работы. Узнав это, Вы поймете, что те задачи, которые у нас возникают, это не какие-то игрушки. а весьма серьезные вопросы, которые мы решаем при помощи Вашей программы. Мы, практики, видим и плюсы, и минусы программы. Мы выступаем в роли бета-тестеров и консультантов, дающих Вам советы по улучшению функционала программы под конкретные практические цели.

Ваша позиция "Гениальный программер и задравшие его ламеры" , вне всякого сомнения, имеет право на существование. Но вот только чего вы хотите на выходе получить? Удовлетворение ЧСВ? Вселенской славы? Или просто денег заработать? Насчет первого и второго воздержусь, ибо не знаю, как Вам в этом помочь, а вот по поводу третьего скажу вот что: программа Ваша очень хорошая. Она находит все и экономит массу времени . Но она совершенно кошмарно документирована и весьма сложна в освоении. К тому же Вы не умеете ее продвигать и вероятно, ждете, чтобы этим на безвозмездной основе занимались пользователи.

Это тоже возможно, но лично я уже пару раз наступал на эту мину, отправляя ссылку на Ваш сайт и расточая дифирамбы программе. Я уж молчу про гуманитариев, одним из которых я являюсь, но даже Ваши коллеги- программисты без моих комментариев недоуменно поводили плечами. В итоге потенциал программы остается нераскрытым, Вы остаетесь без ряда корпоративных заказов, а я юзаю пакет, купленный за свои деньги. Согласитесь, ненормальная ситуация, так ведь?

Итак, Алексей, давайте расставим точки над "i": лично я готов и впредь давать Вам бесплатные советы по улучшению программы под требования маркетологов моего рынка и упоминать Вашу программу в своих научных и популярных статьях. От Вас мне нужно лишь одно: перестаньте на все предложения по усовершенствованию программы реагировать с таким надрывом и чувством оскорбленной справедливости. У Вас, по большому счету, есть два варианта: либо продолжать создавать сферического коня в вакууме, либо начать прислушиваться к советам пользователей Вашей программы и делать то. что востребовано практиками. Выбор за Вами!
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Петряшову.

Озвученная Вами в утвердительной форме моя позиция о программере и ламерах является ошибочной. Я так не думаю.
По поводу пару раз заданного безответного вопроса, отвечаю: "Нет, не полагаю, что форумчане хотят подкинуть никому не нужную работу".
По поводу юзанья программой за свои деньги и бесплатных советов. Здесь мы наравных. Вы ее приобрели больше года назад. За это время в программу были добавлены новые функции, поставляемые и сопровождаемые совершенно бесплато.

По существу.
Недавно овладев операцией "Аналитическое объединение", Вы посчитали, что "Взятие разности" тоже весьма полезно на практике. Я считаю, что теоретически все отлично, плюс можно попиариться, но практического широкого применения не вижу, более того, пытался применять "Взятие разности" - не получал эффективных результатов.
Как только у Вас возникнет конкретный "несекретный" пример (или пример можно придумать), в котором требуется применить "Взятие разности", то выложите его здесь. Мы его выполним и оценим результаты. Если результаты будут плохими, поищем другой пример.

К сожалению, не все проходит гладко на практике. Например, (для этого специально только-что выложил версию 6.2.1.5, в которой приоткрыл более автоматизированный способ вычисления связей ФЛ и связей ЮЛ: "Подменю золотого ключика" - "Ассемблер" - "Связи объектов" - ... Внешне все выглядит привлекательно: вводятся анкетные данные ФЛ или ЮЛ и всё, - но практические примеры приносят слабоватые результаты (над анкетой можно еще, конечно, поработать). Применение ассемблера на пакетах tungus1973 значительно эффективнее. Повторюсь - это не готовая функция, а ее экспериментальный вариант. Возможно, в дальнейшем она будет удалена.

tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

Alexei Mylnikov написал:
[q]
практического широкого применения не вижу
[/q]
Почему же? Я и ув.Искендер привели сразу два примера, когда выполнение "Аналитического вычитания" существенно(!), т.е. в 5-10 раз, экономит время поиска информации.

Решение задачи на 4000 тысячах ссылок КРАЙНЕ затруднительно! Лично я в таких случаях перехожу с СайтСпутника на "ручной" поиск (и это весьма обидно - отказываться от удобного инструмента!). Да, я соберу значительно меньше данных, но зато и времени потрачу не 3-4 дня, а гораздо меньше.

Реализация функции "Аналитическое вычитание" (АВ) легко сокращает те самые 3-4 дня до пары часов! А если ожидается такая экономия, то почему бы не автоматизировать этот процесс? Кроме того, реализовав "АВ" мы вновь приближаемся к принципу "Найти всё и с гарантией!"

Alexei Mylnikov написал:
[q]
пытался применять "Взятие разности" - не получал эффективных результатов
[/q]
А вот это мне не понятно - почему? Конечно, для поиска человека с уникальными фамилией и именем, например, Алишера Усманова, эта функция не очень нужна. А вот для поиска людей с распространенными фамилией и именем, когда мы имеем дело с массой однофамильцев - без АВ никуда не деться. По сути, при "ручном" поиске мы делаем то же самое - начинаем сочинять запросы с исключением ненужных результатов:

(Иванов /2 Алексей) -Федорович -Иванович -Кузьмич -Ильич...

Вот только не все поисковики поддерживают длинную строку запроса. Как раз в данном случае СайтСпутник вновь помог бы нам обойти ограничения поисковиков по длине строки!

Alexei Mylnikov написал:
[q]
Как только у Вас возникнет конкретный "несекретный" пример (или пример можно придумать), в котором требуется применить "Взятие разности", то выложите его здесь. Мы его выполним и оценим результаты. Если результаты будут плохими, поищем другой пример.
[/q]
Можем рассмотреть такой пример.
Объект интереса: Николай Андреевич Карамзин, житель Екатеринбурга, 30 лет.
Поиск в Яндексе по полным фамилии, имени и отчеству выдал 39 страниц, на которых упоминается этот человек.
Задача: Найти странички, на которых этот гражданин упоминается в сочетаниях - Николай Карамзин или Карамзин Николай (т.е. без отчества).
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

tungus1973 написал:
[q]
Да, я соберу значительно меньше данных
[/q]

tungus1973 написал:
[q]
мы вновь приближаемся к принципу "Найти всё и с гарантией!"
[/q]

Явное противоречие. Много информации будет потеряно.

tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Противоречия нет! :smile:

Первая цитата - речь шла о том, что меньше данных я соберу, если буду выполнять эту задачу без СайтСпутника, т.е. вручную.

Вторая цитата - речь шла о том, что если в СайтСпутнике будет реализована функция "АВ", то мы, тем самым, вновь приблизимся к принципу "Найти всё и с гарантией!"

С функцией "АВ" как раз потерь информации не будет, т.к. мы отсекаем заведомо лишнее, а всё сомнительное остаётся в собранных ссылках. Вот дальше мы перебираем эти ссылки вручную. Да, на это тоже уйдет некоторое время, но гораздо меньшее, чем перебирать все ссылки, собранные без вычитания!
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

tungus1973 написал:
[q]
Можем рассмотреть такой пример.
Объект интереса: Николай Андреевич Карамзин, житель Екатеринбурга, 30 лет.
Поиск в Яндексе по полным фамилии, имени и отчеству выдал 39 страниц, на которых упоминается этот человек.
Задача: Найти странички, на которых этот гражданин упоминается в сочетаниях - Николай Карамзин или Карамзин Николай (т.е. без отчества).
[/q]

Какие проекты (пакеты) Вы составите? Что из чего будете вычитать?
Судя по первому топику этой темы, Вам достаточно вычитания на двух проектах - если что, то каждый из них может быть получен путем АО из нескольких проектов.

tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

Alexei Mylnikov написал:
[q]
Какие проекты (пакеты) Вы составите? Что из чего будете вычитать?
[/q]
1й пакет. Николай Карамзин. Бегло смотрим, какие тёзки повторяются часто.
2й пакет. Николай Михайлович Карамзин.
3й пакет. Николай Карамзин + (историк | писатель)
Затем выполняем "АВ" = "1й пакет" - "2й пакет" - "3й пакет"
При желании можно еще запустить:
4й пакет. Николай Николаевич Карамзин.
"АВ" = "АВ 1" - "4й пакет"
и т.д. пока не останется приемлемое количество ссылок.
Искендер
Администратор

Всего сообщений: 5925
Рейтинг пользователя: 43


Ссылка


Дата регистрации на форуме:
7 июня 2009
Я согласен с уважаемым tungus1973. То, что он описывает - значительно может облегчить поиск. Точнее - фильтрацию результатов. Возьмем, к примеру, губернатора Ненецкого автономного округа Игоря Федорова. Пример абсолютно с потолка, если что, и взят именно из-за распространенной фамилии и очень частого упоминания его имени в Интернете. Губер, все же, медийная персона. Если искать информацию о нем по полному ФИО - "Федоров Игорь Геннадьевич" - выборка будет довольно точной, но очень многое, где он упоминается только по ФИ - "Игорь Федоров" - в выдачу не попадет. Искать по ФИ - завалит "мусорными" ссылками. Для сравнения - по ФИО Гугл выдает 291 000 ссылок, а по ФИ - 1 350 000! Но, где-то среди этой разницы (1 350 000 - 291 000) - есть и полезная нам информация. Но как ее "достать"? Просмотреть весь массив? Понятно - там хватает дублей, их СС удалит, но и без них объем будет ого-го! Через "АВ" мы, действительно, могли бы (пошагово, к примеру, или пакетом) убрать "Сергеевичей", "Михайловичей", "Владимировичей", "Петровичей" и прочих не нужных нам Игорей Федоровых.

---
I`m not a Spy! I can do much better!
Информационные войны "под ключ"
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Искендер написал:
[q]
Через "АВ" мы, действительно, могли бы (пошагово, к примеру, или пакетом) убрать "Сергеевичей", "Михайловичей", "Владимировичей", "Петровичей" и прочих не нужных нам Игорей Федоровых.
[/q]

Да, согласен: это способ убрать из выдачи некоторые заведомо ненужные страницы, причем делать это можно "долго" и "упорно", чего на чистом Гугле не сделаешь, то есть можно добиться более точного результата.
Сделать ее реально.
Еще где-нибуть АВ может быть полезно?

Искендер
Администратор

Всего сообщений: 5925
Рейтинг пользователя: 43


Ссылка


Дата регистрации на форуме:
7 июня 2009

Alexei Mylnikov написал:
[q]

Искендер написал:
[q]
Через "АВ" мы, действительно, могли бы (пошагово, к примеру, или пакетом) убрать "Сергеевичей", "Михайловичей", "Владимировичей", "Петровичей" и прочих не нужных нам Игорей Федоровых.
[/q]
Да, согласен: это способ убрать из выдачи некоторые заведомо ненужные страницы, причем делать это можно "долго" и "упорно", чего на чистом Гугле не сделаешь, то есть можно добиться более точного результата. Сделать ее реально.Еще где-нибуть АВ может быть полезно?
[/q]

Думаю, что похожий пример смог бы привести уважаемый Дмитрий Петряшов. По какой-то товарной номенклатуре.

---
I`m not a Spy! I can do much better!
Информационные войны "под ключ"
petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009

Искендер написал:
[q]
Думаю, что похожий пример смог бы привести уважаемый Дмитрий Петряшов. По какой-то товарной номенклатуре.
[/q]

Пара первых попавшихся примеров:

1. Если такая компания Legrand, а есть композитор Мишель Легран. Информации куча и по тому, и по тому. Мишель Легран мне не нужен, надо его "вычесть"

2. При мониторинге по слову GE (General Electric) находится масса грузинских сайтов, у которых домены заканчиваются на .ge. Соответственно, грузинские сайты тоже нужно отметать

И кстати, Алексей, можно ли сделать некой черный список тех сайтов, которые СайтСпутник должен обходить стороной? Например, выкинуть все или некоторые грузинские сайты или все или часть музыкальных сайтов, содержащих информацию о Мишеле Легране?
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]
И кстати, Алексей, можно ли сделать некой черный список тех сайтов, которые СайтСпутник должен обходить стороной? Например, выкинуть все или некоторые грузинские сайты или все или часть музыкальных сайтов, содержащих информацию о Мишеле Легране?
[/q]
Своих фильтров над сниппетами в СайтСпутнике пока нет.

Замечание от 28.10.10.
В настоящее время уже есть. Смотрите на форуме здесь - forum.razved.info/index.php?t=1007

tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Еще один частый пример - нередко встречается одно и то же название организаций во многих регионах. Чтобы найти нужную, приходится указывать исключения:

"Самолёт" ~/1 (ЗАО | ОАО) ~~/40 (Москва | Волгоград | Петербург) || Yandex=1000

Эту задачу тоже можно решать с помощью "АВ".

Если сказать общими словами, то "Аналитическое Вычитание" необходимо везде, где нужно исключить МАССУ похожих объектов.
АВ - такая же аналитическая операция, как и АО, как и анализ пересечений объектов.
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Снова возвращаюсь к теме "Аналитического вычитания".

Один из коллег СПКР попросил помочь в сборе информации.
Уже сейчас из задания ясно, что придется выполнять поиск в несколько этапов. Значит, одни и те же ссылки будут попадаться несколько раз. Хотелось бы облегчить задачу.

Вопрос к Alexei Mylnikov: можно в сделать в СайтСпутнике универсальный механизм "АО" "АВ"? Например, так.

Выполняем несколько поисковых пакетов, которые в СайтСпутнике записываются под универсальными системными номерами (эти номера уже сейчас автоматически присваиваются каждому новому запросу):

1. ....
2. ....
3. ....
4. АО 3-(1+2)

Четвертая строка - аналитическая операция над ссылками, собранными в пунктах 1, 2, 3. В данном случае обозначает, что нужно выполнить "Аналитическое объединение" над ссылками, собранными по строкам 1 и 2. Затем вычесть полученное из ссылок, собранных по строке 3.
Запись в строке 4 могла бы выглядеть и так "АО 3-1-2". Это не принципиально. Просто хотелось показать, что теоретически к таким записям можно было бы применять скобки как в математике.

Возможно ли реализовать этот способ?
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

tungus1973 написал:
[q]
Возможно ли реализовать этот способ?
[/q]

Да, возможно.

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
В версии SiteSputnik 6.4.6 от 28.10.10 появилась обсуждаемая в данной теме операция.

Она получила название "Взятие разности", а не "Аналитическое вычитание", по следующим причинам.
1. Не вижу в этой операции аналитики, в отличии от "Аналитического объединения".
2. Операция "Взятие разности" имеется в теории множеств и полностью совпадает с тем, что сделано в SiteSputnik(е),

а именно, из МНОЖЕСТВА ссылок, найденных запросом А, она удаляет МНОЖЕСТВО ссылок, найденных запросом Б.
Другими словами, из запроса А, удаляются ссылки, найденные в запросе Б.
Под запросом здесь понимается любое поисковое задание, начиная от простого запроса и заканчивая очень сложным поисковым заданием, составленным при помощи ассемблера или пакетов запросов.

Качественно, "Взятие разности" похоже на ~~ в Яндеске и - в Гугле:
получив при помощи мощного поискового задания множество "не очень релевантных" ссылок, затем можно "выбивать" из него нерелевантные ссылки при помощи других запросов. Выше приводились примеры задач, в которых это может пригодиться.

Как прописать "Взятие разности".
1. Поставьте знак + в колонке "Вкл." для "Уменьшаемое".
2. Поставьте знак - в колонке "Вкл." для "Вычитаемого".
3. В подменю "Глобуса с линзой" выбираете: "Групповые операции поиска - Взятие разности".



Уменьшаемое - это то множество ссылок, из которого удаляем ссылки.
Вычитаемое - это те ссылки, которые удаляем из Уменьшаемого.
Разность - это оставшиеся ссылки.

Уменьшаемым и вычитаемым могут быть не только результаты поиска, но и само "Взятие разности" и "Аналитическое объединение".
"Взятие разности" к любому Уменьшаемому можно рекурсивно применить любое количество раз.

P.S.
Можно будет в будущем "наделать" много плюсиков и много минусиков (это уже не проблема), если "Взятие разности" будет достаточно хорошо востребовано.
Также можно будет создавать для контроля список "Удаленные ссылки" и так далее...

tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Для: Alexei Mylnikov, ОГРОМНОЕ СПАСИБО!!! :yahoo: :yahoo: :yahoo:
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009
:hi: :hi: :hi: :good: :good: :good:
Спасибо, Алексей!

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Алексей, спасибо!
Семёныч
Модератор форума
Городской Охотник
Всего сообщений: 926
Рейтинг пользователя: 10


Ссылка


Дата регистрации на форуме:
8 июня 2009
Похоже, мне "Взятие разности" нравиться больше, чем "Аналитическое объединение". Субъективное мнение. :respect:

---
Нет такой безвыходной ситуации,в которую невозможно вляпаться... (с)
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Семёныч написал:
[q]
Похоже, мне "Взятие разности" нравиться больше, чем "Аналитическое объединение". Субъективное мнение.
[/q]

Думаю, это происходит по той причине, что "Взятие разности" проще в освоении. Почти не надо напрягаться. Но оно послужит тому, что больше специалистов освоят "Аналитическое объединение", которое очень полезно при поиске и сборе информации, для нахождения страниц, содержащих максимум разыскиваемой информации, для "вычисления" связей людей, предприятий и других однородных и неоднородных объектов.

tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

Alexei Mylnikov написал:
[q]
1. Поставьте знак + в колонке "Вкл." для "Уменьшаемое".
[/q]
В моей версии программы нет колонки "Вкл.", знаки "+" и "-" я проставляю в колонке "Обновить".

Алексей Борисович, а можно в этой колонке ставить сразу несколько знаков "+" и несколько знаков "-"? Можно ли использовать скобки "(" и ")"?
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

tungus1973 написал:
[q]
В моей версии программы нет колонки "Вкл.", знаки "+" и "-" я проставляю в колонке "Обновить".
[/q]

Да, все правильно, у Вас СайтСпутник давно и колонка называется "Обновить".

tungus1973 написал:
[q]
а можно в этой колонке ставить сразу несколько знаков "+" и несколько знаков "-"? Можно ли использовать скобки "(" и ")"?
[/q]

В топике 26 в P.S. я писал, что сделать много "+" и "-" проблемы не составляет (пока используйте АО), а про скобки "(" и ")" я не понял.

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
"Взятие разности" реально пригодилось и мне. Описываю подробнее.
Я ежесуточно тестирую СайтСпутник, запуская из Планировшика задачу из 20 заданий, одно из которых выдает мне список новых страниц, с которых за прошедшие сутки сослались на два моих ресурса: sitesputnik.ru и ab.vlink.ru. Для этого использовался следующий пакет запросов:

link:http://sitesputnik.ru/ -site:sitesputnik.ru || Yahoo=100
link:http://sitesputnik.ru/ -site:sitesputnik.ru || ПС->Altavista=100
link:http://www.sitesputnik.ru/ -site:www.sitesputnik.ru || Yahoo=100
link:http://www.sitesputnik.ru/ -site:www.sitesputnik.ru || ПС->Altavista=100
link="http://sitesputnik.ru/" || Yandex.Блоги=100
link:sitesputnik.ru || Google.Блоги=100
link="http://www.sitesputnik.ru/" || Yandex.Блоги=100
link:www.sitesputnik.ru || Google.Блоги=100
link:http://ab.vlink.ru/ -site:ab.vlink.ru || Yahoo=100
link:http://ab.vlink.ru/ -site:ab.vlink.ru || ПС->Altavista=100
link:http://www.ab.vlink.ru/ -site:www.ab.vlink.ru || Yahoo=100
link:http://www.ab.vlink.ru/ -site:www.ab.vlink.ru || ПС->Altavista=100
link="http://ab.vlink.ru/" || Yandex.Блоги=100
link:ab.vlink.ru || Google.Блоги=100
link="http://www.ab.vlink.ru/" || Yandex.Блоги=100
link:www.ab.vlink.ru || Google.Блоги=100


Недели две Yahoo (а АльтаВиста уже очень давно) перестал правильно выполнять свою работу:
link:http://sitesputnik.ru/ - работает правильно,
site:sitesputnik.ru - работает правильно, а
link:http://sitesputnik.ru/ -site:sitesputnik.ru - работает неправильно, точнее вообще не приносит ни одной ссылки.

Четыре дня назад я написал в Yahoo о найденной ошибке, но конструкция так и не работает.

Для того, чтобы получить список нужных мне страниц, я выполнил два пакета:

link:http://sitesputnik.ru/ || Yahoo=100
link:http://sitesputnik.ru/ || ПС->Altavista=100
link:http://www.sitesputnik.ru/ || Yahoo=100
link:http://www.sitesputnik.ru/ || ПС->Altavista=100
link="http://sitesputnik.ru/" || Yandex.Блоги=100
link:sitesputnik.ru || Google.Блоги=100
link="http://www.sitesputnik.ru/" || Yandex.Блоги=100
link:www.sitesputnik.ru || Google.Блоги=100
link:http://ab.vlink.ru/ || Yahoo=100
link:http://ab.vlink.ru/ || ПС->Altavista=100
link:http://www.ab.vlink.ru/ || Yahoo=100
link:http://www.ab.vlink.ru/ || ПС->Altavista=100
link="http://ab.vlink.ru/" || Yandex.Блоги=100
link:ab.vlink.ru || Google.Блоги=100
link="http://www.ab.vlink.ru/" || Yandex.Блоги=100
link:www.ab.vlink.ru || Google.Блоги=100

и

site:sitesputnik.ru || Yahoo=100
site:sitesputnik.ru || ПС->Altavista=100
site:www.sitesputnik.ru || Yahoo=100
site:www.sitesputnik.ru || ПС->Altavista=100
site:ab.vlink.ru || Yahoo=100
site:ab.vlink.ru || ПС->Altavista=100
site:www.ab.vlink.ru || Yahoo=100
site:www.ab.vlink.ru || ПС->Altavista=100


Затем из первого результата, вычил второй (вместо 2-го пакета можно было построить две карты сайта и вычесть их из первого пакета) и получил то, что искал в чистом виде.

Далее ежедневно выполняю только первый пакет и смотрю список "Новые". Принадлежащих sitesputnik.ru и ab.vlink.ru страниц в нем не будет. Будут только появившиеся за прошедшие сутки новые страницы, содержащие ссылку на один из моих сайтов.


tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

Alexei Mylnikov написал:
[q]
"Взятие разности" реально пригодилось и мне.
[/q]
а то...
я ж говорил, полезная будет функция :smile:
<<Назад  Вперед>>Страницы: 1 2 3 4
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Предложения по программе для допроса Интернета СайтСпутник »   Аналитическое вычитание
RSS

Последние RSS
Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей

Самые активные 20 тем RSS