Сбор и хранение информации при помощи программы SiteSputnik

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Сбор и хранение информации при помощи программы SiteSputnik
RSS

Сбор и хранение информации при помощи программы SiteSputnik

<<Назад  Вперед>>Страницы: 1 * 2 3 4
Печать
 
petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009

vbl написал:
[q]

Рискну поспорить СайтСпутник собирает ведь некоторое количество страниц выдачи поисковика, и, что самое главное, далеко не все. Это не недостаток програмы, а специфика работы поисковой системы. Т.е. он приносит несколько десятков - сотен страниц выдачи начиная с первой по релевантности.
[/q]

Хм. Так я же специально использую глубокий поиск в запросах. То есть, программа мало того, что, допустим, скачивает одну релевантную ссылку с сайта Роскосмоса, но потом еще автоматически осуществляет процедуру раскрывания гиперссылки "Еще с сайта" , появляющейся под каждой строкой выдачи. То есть, если Юрчихин упомянут на 10 разных страницах сайта Роскосмоса, то, если они проиндексированы Яндексом, СайтСпутник покажет мне 10 ссылок на разные страницы сайта Роскосмоса. Или нет?
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Спасибо, Дмиртий.

petryashov написал:
[q]
б. во- вторых, создается список "Новые", в который попадают ссылки, не попавшие в список при предыдущем сканировании
[/q]

Маленькая, но важная поправка. В конце цитаты: при предыдущих сканированиях. Количество сканирований прописано в "Настройках". Оно изменяется от 1 до 99, по умолчанию 90. Это практически обеспечивает попадание в список "Новые" только тех ссылок, которые еще не были найдены. При необходимости, можно сделать более, чем 99 сканирований, но пока этого никто не запрашивал.

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]
Так я же специально использую глубокий поиск в запросах. То есть, программа мало того, что, допустим, скачивает одну релевантную ссылку с сайта Роскосмоса, но потом еще автоматически осуществляет процедуру раскрывания гиперссылки "Еще с сайта" , появляющейся под каждой строкой выдачи. То есть, если Юрчихин упомянут на 10 разных страницах сайта Роскосмоса, то, если они проиндексированы Яндексом, СайтСпутник покажет мне 10 ссылок на разные страницы сайта Роскосмоса. Или нет?
[/q]

Да.

vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 170
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009

petryashov написал:
[q]
Так я же специально использую глубокий поиск в запросах. То есть, программа мало того, что, допустим, скачивает одну релевантную ссылку с сайта Роскосмоса, но потом еще автоматически осуществляет процедуру раскрывания гиперссылки "Еще с сайта" , появляющейся под каждой строкой выдачи. То есть, если Юрчихин упомянут на 10 разных страницах сайта Роскосмоса, то, если они проиндексированы Яндексом, СайтСпутник покажет мне 10 ссылок на разные страницы сайта Роскосмоса. Или нет?
[/q]


А причем тут разные страницы одного и того же сайта. С этим не спорю.

Может я не до конца ухватил суть вопроса, но давай предположим, что по нашему запросу существует не 1000 страниц и соответственно, 20 000 ссылок, а скажем хотя бы тысяч 100 ссылок. Я так понимаю, что в данном случае СайтСпутник исправно принесет запрашиваемые 1000 страниц, чего честно говоря у меня ни разу не было. Еще раз отмечу, не по вине программы, а в связи с особенностью работы поисковиков.

А мы знаем, что при сортировке по релевантности не все вновь проиндексированные страницы попадут в эту 1000, по крайней мере теоретически. Соответственно, что-то из вновь проиндексированного не попадет. А в моем же случае мы 100%-о выловим все вновь проиндексированные страницы. Или я не прав?

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 170
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009

Alexei Mylnikov написал:
[q]
Маленькая, но важная поправка. В конце цитаты: при предыдущих сканированиях. Количество сканирований прописано в "Настройках". Оно изменяется от 1 до 99, по умолчанию 90. Это практически обеспечивает попадание в список "Новые" только тех ссылок, которые еще не были найдены. При необходимости, можно сделать более, чем 99 сканирований, но пока этого никто не запрашивал.
[/q]


Алексей, а можно об этом рассказать поподробнее. Я вот не совсем понял, При последующем подобном запросе, Сайт спутник ведь будет "просматривать" то же количество страниц выдачи по релевантности, начиная с первой. Соответственно, если новые страницы не поднялись в выдаче, то мы их все равно не увидим, если не сделаем сортировку по дате?

А что подразумевается под сканированиями?

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

vbl написал:
[q]
Алексей, а можно об этом рассказать поподробнее. Я вот не совсем понял, При последующем подобном запросе, Сайт спутник ведь будет "просматривать" то же количество страниц выдачи по релевантности, начиная с первой. Соответственно, если новые страницы не поднялись в выдаче, то мы их все равно не увидим, если не сделаем сортировку по дате?

А что подразумевается под сканированиями?
[/q]

Под сканированием (термин применил Дмитрий) я думаю, что подразумевается выполнение пакета запросов.
Если поисковик хранит в БД более, грубо говоря, 1000 ссылок, то он уже завтра принесет другую выдачу, так как поисковик постоянно обновляет свою БД.

Что касается Вашего спора с Дмитрием. Если не очень хочется исследовать как ведут себя оба запроса, то можно Ваш запрос добавить в пакет Дмитрия. СайтСпутнику все равно сколько убирать повторов ссылок 1000 или 2000.

vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 170
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009

Alexei Mylnikov написал:
[q]
поисковик постоянно обновляет свою БД.
[/q]


А по какому принципу он ее обновляет?


Alexei Mylnikov написал:
[q]
Если не очень хочется исследовать
[/q]


В принципе, идеальный вариант, эксперимент. Завтра попробую поэксперементировать.


Alexei Mylnikov написал:
[q]
СайтСпутнику все равно сколько убирать повторов ссылок 1000 или 2000.
[/q]


Оно понятно, кто бы сомневался. :smile:

Меня скорее заботит полнота поиска и, соответственно, моей информированности. Здесь ведь Сайтспутник выступает как инструмент и как его настроить зависит от оператора. А соответственно, настроить можно правильно, а можно не совсем :smile:

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

vbl написал:
[q]
А по какому принципу он ее обновляет?
[/q]

Думаю, что паук переходит от ссылки к ссылке по алгоритму, реализованному разработчиками, ...

vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 170
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009

Alexei Mylnikov написал:
[q]

Думаю, что паук переходит от ссылки к ссылке по алгоритму, реализованному разработчиками
[/q]


Ну, это то понятно :smile:
А вновь найденные ссылки, с совершенно новых сайтов относительно этого запроса, в какую часть выдачи попадают. Если отбор идет по релевантности, то они могут попасть как на первую страницу выдачи, так и на 1101-ю. В последнем случае мы их скорее всего не увидим. Так ведь?

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

vbl написал:
[q]
вновь найденные ссылки, с совершенно новых сайтов относительно этого запроса, в какую часть выдачи попадают. Если отбор идет по релевантности, то они могут попасть как на первую страницу выдачи, так и на 1101-ю. В последнем случае мы их скорее всего не увидим. Так ведь?
[/q]

Вполне возможно, что так.

<<Назад  Вперед>>Страницы: 1 * 2 3 4
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Сбор и хранение информации при помощи программы SiteSputnik
RSS

Последние RSS
Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Лог-файл в программе СайтСпутник
шантаж, угрозы по Интернету

Самые активные 20 тем RSS