Обсуждение нереализованной функции: автоматический сбор ссыл

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Предложения по программе для допроса Интернета СайтСпутник »   Обсуждение нереализованной функции: автоматический сбор ссыл
RSS

Обсуждение нереализованной функции: автоматический сбор ссыл

<<Назад  Страницы: 1 * 2
Печать
 
petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Да, такая функция не только нужна, но и крайне необходима для работы.
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

petryashov написал:
[q]
Да, такая функция не только нужна, но и крайне необходима для работы.
[/q]


+1 Хорошая постановка задачи. :good:
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
-1
Сделать можно - поисковому роботу (правильнее автомату) все равно сколько работать и какую бороду выкачивать.

Но я бы поступил по-другому.
1. Выполнил, как tungus1973 очень правильно выразился, ПЕРВИЧНЫЙ поиск.
2. На тех ресурсах, где обнаружилось пересечение искомых объектов, неудовлетворившее нашему поиску, выполнил бы ВТОРИЧНЫЙ поиск, а именно, использовал бы функцию из программы SiteSputnik "Метапоиск по сайту" по тому же запросу, что и в первичном поиске для каждого искомого объекта и провел бы "Аналитическое объединение" над результатами выполнения этих запросов. Тогда Вам не надо будет рыться в 200 страницах - Вы получите несколько страниц с сайта, где объекты пересеклись.
Причем это будет в разы более полный поиск, так как вы получите ссылки не только из Яндекса, но и из Google, Yahoo, Рамблера и других поисковиков, ДАЖЕ, если эти поисковики не имеют поле типа "Еще с сайта".

Если же делать Вашим способом, то Вы рискуете потерять информацию из-за громадного количества ссылок, как следствие, неравноценного представления информации с разных сайтов в выдаче поисковиков и, самое главное, заметанием большого количества МУСОРА из полей типа "Еще с сайта".

Поэтому с Вашим выводом "о черновом" поиске не согласен. Предлагаю пользоваться терминами первичный и вторичный поиск в СайтСпутнике и применять его.
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Alexei Mylnikov, обсудим по тезисам.

Alexei Mylnikov написал:
[q]
Если же делать Вашим способом, то Вы рискуете потерять информацию из-за громадного количества ссылок, как следствие, неравноценного представления информации с разных сайтов в выдаче поисковиков
[/q]


Alexei Mylnikov написал:
[q]
поисковому роботу (правильнее автомату) все равно сколько работать и какую бороду выкачивать
[/q]

Не согласен.

1. "Бороды" исправляются качеством запросов. Если поиск выдает много мусора, значит аналитик должен доработать запрос. Возможно, написать его для каждого конкретного поисковика. Есть еще вариант - разбить запрос на 2-3 части. первый запрос - по наиболее распространенным вариантам употребления объекта, следующий по менее распространенным, третий - по совсем редким.

2. "Бороды" можно отрегулировать глубиной поиска.

3. Вами был заявлен собственный алгоритм сортировки найденных ссылок (если я не ошибаюсь), который сортирует странички по истинной релевантности, т.е. по наличию на них искомой информации. Если всё так, то даже при большой "бороде" я увижу максимум нужной информации в верхних строчках Объединения. Если же не увижу, то буду читать дальше и дальше, пока не найду нужное.


Alexei Mylnikov написал:
[q]
На тех ресурсах, где обнаружилось пересечение искомых объектов, неудовлетворившее нашему поиску, выполнил бы ВТОРИЧНЫЙ поиск
[/q]

Если искомые объекты окажутся в сгруппированных ссылках ("Ещё с сайта"), а не в открытых ссылках, то "Аналитическое объединение" (АО) делать бессмысленно - результат будет: "0 пересечений". (Хотя в реальности пересечения существуют). О чём я подробно расписал в "Неприятности 2".
И уж тем более, не найдя пересечений, не будет и ВТОРИЧНОГО поиска.

Alexei Mylnikov написал:
[q]
Если же делать Вашим способом, то Вы рискуете ... заметанием большого количества МУСОРА из полей типа "Еще с сайта".
[/q]

Тоже не согласен.

В сгруппированных ссылках типа "Ещё с сайта" содержатся такие же релевантные результаты, как и в основных ссылках, показанных поисковиком. Если Вы грамотно написали запрос, то это будет далеко не "МУСОР".

Alexei Mylnikov написал:
[q]
Предлагаю пользоваться терминами первичный и вторичный поиск в СайтСпутнике и применять его.
[/q]

Я не против. Можем использовать термины "первичный" и "вторичный".

================================================================================
P.S. Не смотря на жаркие дебаты, всё равно снимаю шляпу перед талантом автора СайтСпутника. :smile: :hi:
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Остаюсь при своем мнении, высказанном в топике 4. Поясню следующий момент.

tungus1973 написал:
[q]
Если искомые объекты окажутся в сгруппированных ссылках ("Ещё с сайта"), а не в открытых ссылках, то "Аналитическое объединение" (АО) делать бессмысленно - результат будет: "0 пересечений". (Хотя в реальности пересечения существуют).
[/q]

Мы, скорее всего, не поняли друг друга. АО быть пустым не может. Оно будет содержать как минимум одну ссылку, найденную первичным поиском.
Подробнее о вторичном поиске.
Вы нашли первичным поиском ссылку на сайте xyz.ru, где объекты по запросам Q1, Q2 и Q3 пересеклись. Открываете ссылку и видите, что это не то, что Вы искали, но "Еще с сайта" говорит, что кроме этой ссылки есть еще 200 интересных ссылок на сайте.
Вы решили подробнее разобраться с этим сайтом.
Заходите в подменю "Золотой ключик" выбираете пункт "Метапоиск по сайту" и повторяте запросы уже только по конкретному исследуемому сайту, а именнo:
xyz.ru Q1
xyz.ru Q2
xyz.ru Q3
Теперь по этим трем запросам сделаете АО и просматриваете только верхние ссылки. Нет смысла знакомиться со всеми 200 ссылками, нижние ссылки заведомо будут содержать мусор.

А если действоать по принципу золотой середины, то думаю надо сделать так.
1. Первичный поиск.
2. Выбираются несколько сайтов на вторичный поиск.
3. Запускается робот на выполнение вторичного поиска по выбранным сайтам.
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

Alexei Mylnikov написал:
[q]
А если действоать по принципу золотой середины, то думаю надо сделать так.
1. Первичный поиск.
2. Выбираются несколько сайтов на вторичный поиск.
3. Запускается робот на выполнение вторичного поиска по выбранным сайтам.
[/q]

Принято в отношении "Неприятности №2" ("Аналитическое объединение"). Не автомат, конечно, но работать можно.

А как быть с "Неприятностью 1" (пропуск важной информации в сгруппированных ссылках) и "Неприятностью 3" (по нескольку раз просматривать дублирующиеся ссылки)?
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

tungus1973 написал:
[q]

Alexei Mylnikov написал:
[q]
А если действоать по принципу золотой середины, то думаю надо сделать так.
1. Первичный поиск.
2. Выбираются несколько сайтов на вторичный поиск.
3. Запускается робот на выполнение вторичного поиска по выбранным сайтам.
[/q]


Принято в отношении "Неприятности №2" ("Аналитическое объединение"). Не автомат, конечно, но работать можно.

А как быть с "Неприятностью 1" (пропуск важной информации в сгруппированных ссылках) и "Неприятностью 3" (по нескольку раз просматривать дублирующиеся ссылки)?
[/q]

Это устраняет все три "неприятности", включая пропуск важной информации и просмотр дублей ссылок.
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

Alexei Mylnikov написал:
[q]
Это устраняет все три "неприятности", включая пропуск важной информации и просмотр дублей ссылок.
[/q]

Не устраняет. Вводит необходимость ручной работы там, где запросто можно сэкономить время автоматизацией.

Сейчас в СайтСпутнике реализован поиск в ширину - найти при первом поиске как можно больше сайтов.
Сбор сгруппированных ссылок дает глубину - собрать релевантные ссылки с одного сайта.
Применение одновременно двух подходов дает максимум нужной информации, обеспечивая поиск в ширину и в глубину одновременно. При этом часть "бороды" в виде дублирующихся ссылок программа уберет сама, уменьшая наше время на просмотр найденного.

Имея под рукой ПРОГРАММУ, как-то стрёмно по окончании ее работы вручную щелкать на ссылки и проверять, не потерялось ли что-то.

Подпрограмма сбора сгруппированных ссылок не сложная, ее аналог уже реализован в мастере подключения поисковиков. В нем мы вручную указываем на ссылку следующей страницы поисковика, а можно точно также вручную указать на ссылку с группами страниц ("Еще с сайта" и ее аналоги).

Наконец, поиском "в ширину" можно управлять. Уменьшая глубину и ширину поиска для распространенных объектов, мы уменьшаем "бороду". Увеличивая глубину и ширину поиска мы увеличиваем количество полезных ссылок для малораспространенных объектов. Например, можно по желанию пользователя ограничивать количество просматриваемых страниц в группах "Еще с сайта". Можно вообще отключать эту функцию через Настройки, если пользователь решил, что она ему будет только мешать. Тогда он сможет потом вручную покопать сгруппированные ссылки.
Но, заметьте! У пользователя появляется ВЫБОР и он сам может управлять глубиной поисков.

Таким образом, поиск в ширину и глубину приближает программу к заявленному: "Найти Всё и с Гарантией!", и облегчает работу, убирая дубли из найденного.
petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009

tungus1973 написал:
[q]
Не устраняет. Вводит необходимость ручной работы там, где запросто можно сэкономить время автоматизацией.

....
Имея под рукой ПРОГРАММУ, как-то стрёмно по окончании ее работы вручную щелкать на ссылки и проверять, не потерялось ли что-то.

...
Таким образом, поиск в ширину и глубину приближает программу к заявленному: "Найти Всё и с Гарантией!", и облегчает работу, убирая дубли из найденного.
[/q]


Подписываюсь под каждым словом. Алексей, если Вы реализуете эту штуку, вы существенно расширите целевую аудиторию своего продукта. Многие пользователи поисковых систем даже не замечают ссылки "еще с сайта", в результате чего огромные массивы информации проходят мимо них. А теперь представьте, как это будет эффектно выглядеть, когда Вы в процессе презентации продукта показываете статистику по поисковикам и сравниваете ее со статистикой СайтСпутника! А если в эту статистику попадут все раскрытые "еще с сайта", то формирование устойчивого имиджа лучшей поисковой программы Вашей разработке гарантировано, равно как и рост доходов от продажи программы
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Обдумываю эргономическую и техническую составляющую вторичного поиска. Согласен, что "рыть" нужно глубже.
<<Назад  Страницы: 1 * 2
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Предложения по программе для допроса Интернета СайтСпутник »   Обсуждение нереализованной функции: автоматический сбор ссыл
RSS

Последние RSS
Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей

Самые активные 20 тем RSS