Обсуждение нереализованной функции: автоматический сбор ссыл

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Предложения по программе для допроса Интернета СайтСпутник »   Обсуждение нереализованной функции: автоматический сбор ссыл
RSS

Обсуждение нереализованной функции: автоматический сбор ссыл

<<Назад  Страницы: 1 * 2
Печать
 
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

Alexei Mylnikov написал:
[q]
А если действоать по принципу золотой середины, то думаю надо сделать так.
1. Первичный поиск.
2. Выбираются несколько сайтов на вторичный поиск.
3. Запускается робот на выполнение вторичного поиска по выбранным сайтам.
[/q]

Принято в отношении "Неприятности №2" ("Аналитическое объединение"). Не автомат, конечно, но работать можно.

А как быть с "Неприятностью 1" (пропуск важной информации в сгруппированных ссылках) и "Неприятностью 3" (по нескольку раз просматривать дублирующиеся ссылки)?
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

tungus1973 написал:
[q]

Alexei Mylnikov написал:
[q]
А если действоать по принципу золотой середины, то думаю надо сделать так.
1. Первичный поиск.
2. Выбираются несколько сайтов на вторичный поиск.
3. Запускается робот на выполнение вторичного поиска по выбранным сайтам.
[/q]


Принято в отношении "Неприятности №2" ("Аналитическое объединение"). Не автомат, конечно, но работать можно.

А как быть с "Неприятностью 1" (пропуск важной информации в сгруппированных ссылках) и "Неприятностью 3" (по нескольку раз просматривать дублирующиеся ссылки)?
[/q]

Это устраняет все три "неприятности", включая пропуск важной информации и просмотр дублей ссылок.
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

Alexei Mylnikov написал:
[q]
Это устраняет все три "неприятности", включая пропуск важной информации и просмотр дублей ссылок.
[/q]

Не устраняет. Вводит необходимость ручной работы там, где запросто можно сэкономить время автоматизацией.

Сейчас в СайтСпутнике реализован поиск в ширину - найти при первом поиске как можно больше сайтов.
Сбор сгруппированных ссылок дает глубину - собрать релевантные ссылки с одного сайта.
Применение одновременно двух подходов дает максимум нужной информации, обеспечивая поиск в ширину и в глубину одновременно. При этом часть "бороды" в виде дублирующихся ссылок программа уберет сама, уменьшая наше время на просмотр найденного.

Имея под рукой ПРОГРАММУ, как-то стрёмно по окончании ее работы вручную щелкать на ссылки и проверять, не потерялось ли что-то.

Подпрограмма сбора сгруппированных ссылок не сложная, ее аналог уже реализован в мастере подключения поисковиков. В нем мы вручную указываем на ссылку следующей страницы поисковика, а можно точно также вручную указать на ссылку с группами страниц ("Еще с сайта" и ее аналоги).

Наконец, поиском "в ширину" можно управлять. Уменьшая глубину и ширину поиска для распространенных объектов, мы уменьшаем "бороду". Увеличивая глубину и ширину поиска мы увеличиваем количество полезных ссылок для малораспространенных объектов. Например, можно по желанию пользователя ограничивать количество просматриваемых страниц в группах "Еще с сайта". Можно вообще отключать эту функцию через Настройки, если пользователь решил, что она ему будет только мешать. Тогда он сможет потом вручную покопать сгруппированные ссылки.
Но, заметьте! У пользователя появляется ВЫБОР и он сам может управлять глубиной поисков.

Таким образом, поиск в ширину и глубину приближает программу к заявленному: "Найти Всё и с Гарантией!", и облегчает работу, убирая дубли из найденного.
petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009

tungus1973 написал:
[q]
Не устраняет. Вводит необходимость ручной работы там, где запросто можно сэкономить время автоматизацией.

....
Имея под рукой ПРОГРАММУ, как-то стрёмно по окончании ее работы вручную щелкать на ссылки и проверять, не потерялось ли что-то.

...
Таким образом, поиск в ширину и глубину приближает программу к заявленному: "Найти Всё и с Гарантией!", и облегчает работу, убирая дубли из найденного.
[/q]


Подписываюсь под каждым словом. Алексей, если Вы реализуете эту штуку, вы существенно расширите целевую аудиторию своего продукта. Многие пользователи поисковых систем даже не замечают ссылки "еще с сайта", в результате чего огромные массивы информации проходят мимо них. А теперь представьте, как это будет эффектно выглядеть, когда Вы в процессе презентации продукта показываете статистику по поисковикам и сравниваете ее со статистикой СайтСпутника! А если в эту статистику попадут все раскрытые "еще с сайта", то формирование устойчивого имиджа лучшей поисковой программы Вашей разработке гарантировано, равно как и рост доходов от продажи программы
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Обдумываю эргономическую и техническую составляющую вторичного поиска. Согласен, что "рыть" нужно глубже.
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
В версии 5.4.5.5, вышедшей 21.07.09 (подкачайтесь из главного меню: "? | Поверить наличие обновлений"), реализован глубокий поиск для Яндекса (предложение tungus1973, поддерженное petryashov и Vinni). Он сделан следующим образом. Сначала выполняется обычный поиск, в процессе которого накапливаются поиски по "Еще с сайта", которые запускаются без каких-либо вопросов сразу по окончании обычного поиска и обеспечивают существенно более полный сбор ссылок.
Для того, чтобы обратиться к глубокому поиску задайте в "Золотом ключике" запрос на языке запросов Яндекса и пропишите ему исполнение на глубоком поиске в Яндексе. Для этого используйте пункт меню "Поиск+Еще с сайта", который размещен на кнопке со значком "||".
Можно, не обращаяясь к меню, прямо с клавиатуры набрать: "Запрос на языке запросов Яндекса" || Yandex.Deep=1000
Эту функцию можно применять в пакетах и пакетах с параметрами.

В результате выполнения глубокого поиска для Яндекса СайтСпутник соберет все ссылки из обычного поиска и все ссылки из всех списков "Еще с сайта".

tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Для: Alexei Mylnikov
Отличная новость!!! :uraaaa:

Планируется ли в будущем реализовать:
- сбор сгруппированных ссылок с других поисковиков?
- специальную функцию сбора сгруппированных ссылок в Мастере подключения поисковиков?
- регулирование глубины сбора сгруппированных ссылок? Например,
. || Yandex=7.2 ^^ Сбор ссылок с поисковика на 7 страниц в глубину и из сгруппированных ссылок на 2 страницы в глубину
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Да, планируется. Сначала посмотрите как это работает для Яндекса.
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

Alexei Mylnikov написал:
[q]
Сначала выполняется обычный поиск, в процессе которого накапливаются поиски по "Еще с сайта", которые запускаются без каких-либо вопросов сразу по окончании обычного поиска и обеспечивают существенно более полный сбор ссылок.
[/q]

А в каком порядке собираются ссылки:
1. Сначала все ссылки с указанного количества страниц поисковика, затем все сгруппированные ссылки с найденных ссылок?
2. Сначала все ссылки с первой страницы поисковика, затем все сгруппированные ссылки с нее. Потом все ссылки со второй страницы поисковика и все сгруппированные ссылки на 2й странице и т.д.?
3. Первая ссылка, затем все сгруппированные с ней ссылки, вторая ссылка, затем все сгруппированные с ней ссылки, и т.д. до конца первой страницы. Затем то же самое на второй странице?

К "правильному ручному поиску", наверное будет ближе алгоритм 3.
С точки зрения скорости работы, возможно оптимальным будет алгоритм 2.
Про алгоритм 1 пока ничего не могу сказать.
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Я выбрал 1-ый алгоритм: сначала поиск вширь, затем в глубину.
<<Назад  Страницы: 1 * 2
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Предложения по программе для допроса Интернета СайтСпутник »   Обсуждение нереализованной функции: автоматический сбор ссыл
RSS

Последние RSS
Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей

Самые активные 20 тем RSS