Сбор и хранение информации при помощи программы SiteSputnik

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Сбор и хранение информации при помощи программы SiteSputnik
RSS

Сбор и хранение информации при помощи программы SiteSputnik

<<Назад  Вперед>>Страницы: 1 2 3 4
Печать
 
petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Одной из задач маркетолога является работа с информацией. Данный процесс часто организован не оптимально:

А. на поиск информации тратится масса времени. Нужно "вручную" просмотреть многие страницы выдачи нескольких поисковых систем, скачать их и поместить в какое-то хранилище. Если объектов поиска много, и важно отслеживать все вновь появляющиеся материалы, подобной работой, и только ей, может заниматься специально выделенный человек, а то и целый отдел.

Б. пропускаются важные данные. Часто важная информация может находиться среди сотен уже просмотренных страниц и никак не выделяться визуально. Уставший или невнимательный аналитик сможет ее не заметить.

В. система хранения найденной информации не продумана. Часто найденная информация используется один раз и никуда не архивируется. При следующем поиске информации ее нужно будет находить заново. Распечатка найденного материала и хранение его в папках загромождает пространство и усложняет поиск; сохранение электронных копий страниц на жестком диске компьютера без системы быстрого поиска информации также требует массы времени на последующий поиск.

Можно ли как-то автоматизировать данный процесс, сократив тем самым нерациональные трудозатраты? Да, можно. Уже существует специальное программное обеспечение, призванное упростить даную работу. Одной из таких программ является СайтСпутник.

В данной статье мы поговорим о том, каким образом можно организовать базу данных для хранения найденной СайтСпутником информации.

Рассмотрим несложный пример. Допустим, нам необходимо собрать как можно больше информации в Интернете про космонавта Федора Юрчихина, рассортировать ее по рубрикам и сохранить ее в базе для добавления новых материалов.

Прежде чем перейдем к описанию процедуры, дадим несколько пояснений.

1. Выбор именно Федора Юрчихина в качестве примера объясняется глубоким уважением, которое автор статьи испытывает к этому космонавту и популяризатору космических исследований;

2. Описанная методика использования программы не предполагает поиска какой-либо закрытой информации. Вся рассматриваемая информация, в которой упоминается Федор Юрчихин, на момент написания статьи (28.07.10) была доступна любому пользователю Интернета, обладающему начальными навыками работы с поисковыми системами Yandex, Rambler и Google

Приступим к поиску.

Для этого необходимо сделать следующую последовательность действий:

Открываем программу SiteSputnik, нажимаем на "Золотой ключик". Откроется следующее окно, в которое мы вбиваем название запроса "Федор Юрчихин":

Marketinginform.ru- создаем пакет в СайтСпутнике


Затем нажимаем на кнопку "Пакет"

Откроется следующее окно, в которое мы вносим условия запроса на языках поисковых систем Яндекс, Гугл и Рамблер:


Затем нам надо указать системе, на какую глубину каждая поисковая система будет искать информацию. Для этого жмем значок "||", показанный на скриншоте выше. Откроется следующее окно:


Marketinginform.ru Выбираем сценарии поиска в программе SiteSputnik


Переходим ко второй, а затем к третьей строке запроса, аналогичным образом подключаем сценарии поиска Google и Rambler. Должно получиться вот что:

Нажимаем кнопку "Совместно" и идем пить кофе.

Программа найдет упоминания Ф. Юрчихина на разных сайтах, выбросит все дубли, а результаты выдаст в виде списка найденных страниц со сниппетами:


Далее нашей задачей является выбрать из найденного материала только то, что мы хотим забросить в базу данных. Для этого мы просматриваем список и нажимаем на серые шарики напротив нужных нам материалов:

Затем жмем на большой зеленый шарик справа (см скриншот выше)

После того, как система сохранит отмеченные пункты, наступает следующий этап: нам нужно, чтобы система открыла найденные ссылки. Для этого нажимаем шарик со стрелкой (см скриншот):

После того, как система откроет все ссылки, переходим к следующему этапу: нам необходимо дать краткие описания найденным материалам. Для этого нажимаем на каждую строку в перечне отмеченных файлов и в графе "Комментарии" даем краткое описание увиденному:


После этого приступаем к созданию Ящика "Федор Юрчихин" и системы тематических вложенных ящиков, в которые мы будем записывать найденные результаты. Для этого в дереве каталогов программы находим каталог "Ссылки открытые".

Нажимаем на нем правую кнопку мыши и выбираем пункт "Создать новый подобный ящик". Откроется следующее окно:

После ввода названия ставим отметку "Вложенный ящик" и нажимаем на кнопку "Создание". Затем нам необходимо вставить строку с описанием ящика (см. скриншот)



Затем нажимаем правую кнопку мышки на строке "Федор Юрчихин", выбираем "Создать новый подобный ящик" и создаем необходимое количество вложенных Ящиков. Результат будет выглядеть приблизительно так:


Затем в дереве каталогов нажимаем на строку "Ссылки открытые". Откроется список всех отмеченных пунктов.

Ориентируясь на описания, перетаскиваем эти строки мышкой в соответствующие Ящики. Вот, к примеру, как примерно будет выглядеть ящик "выход в космос":


Все, первоначальная база готова. Теперь достаточно пакет запросов "Федор Юрчихин" запускать с нужной периодичностью, выбирать новые записи, открывать их и перетаскивать в созданные ранее папки. Кроме того, в любой момент можно создавать новые папки и перетаскивать информацию туда.

Таким образом, мы достигли поставленные цели: нашли необходимую информацию про космонавта и создали систему хранения этой информации. И все это при помощи одной- единственной программы!
Sprinter
Участник
Скептик
Откуда: Откуда и все
Всего сообщений: 90
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
24 июня 2009
Отличная пошаговая инструкция получилась. Тебе бы Дим договориться с Мыльниковым по написанию инструкций в Сайт Спутнику :)

PS
[q]
Для этого жмем значок "=", показанный на скриншоте выше.
[/q]


Реально там нашел только такой значок "||" :smile:
vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 170
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009

petryashov написал:
[q]
Теперь достаточно пакет запросов "Федор Юрчихин" запускать с нужной периодичностью, выбирать новые записи,
[/q]


Дим, позволь тебя немного дополнить. Чтобы выбирать новые записи, после первого прохода по твоему тестовому запросу, лучше его немного модернизировать.

Имеет смысл первоначальный запрос, например для Яндекса: "Федор /1 Юрчихин" слегка изменить на вот этот [ Федор /1 Юрчихин date="*" ], что обеспечит сортировку при поиске по дате и тогда мы действительно будем видеть в первую очередь новые ссылки.

P.S. А за обзор спасибо, весьма полезно.

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Sprinter и vbl, спасибо за отзывы!


Sprinter написал:
[q]

Реально там нашел только такой значок "||"
[/q]
Ага, спасибо, поправил
petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009

vbl написал:
[q]

petryashov написал:
[q]
Теперь достаточно пакет запросов "Федор Юрчихин" запускать с нужной периодичностью, выбирать новые записи,
[/q]
Дим, позволь тебя немного дополнить. Чтобы выбирать новые записи, после первого прохода по твоему тестовому запросу, лучше его немного модернизировать. Имеет смысл первоначальный запрос, например для Яндекса: "Федор /1 Юрчихин" слегка изменить на вот этот [ Федор /1 Юрчихин date="*" ], что обеспечит сортировку при поиске по дате и тогда мы действительно будем видеть в первую очередь новые ссылки. P.S. А за обзор спасибо, весьма полезно.
[/q]


Борь, а это непринципиально. Дело в том, что СайтСпутник имеет целых две системы индикации появившихся новых сообщений:

а. во-первых, в списке "Объединенные..." он выделяет новую информацию цветом;
б. во- вторых, создается список "Новые", в который попадают ссылки, не попавшие в список при предыдущем сканировании

Так что найти новые ссылки особого труда не представляет
vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 170
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009
Рискну поспорить :smile:

СайтСпутник собирает ведь некоторое количество страниц выдачи поисковика, и, что самое главное, далеко не все. Это не недостаток програмы, а специфика работы поисковой системы. Т.е. он приносит несколько десятков - сотен страниц выдачи начиная с первой по релевантности. Да и Яндекс отдает далеко не то количество страниц, которые у него по этому запросу есть.

А вновь индексированные страницы далеко не всегда достаточно быстро попадут (да, в принципе, могут и вообще не попасть) в то количество страниц результата поиска, которые Яндекс захочет отдать, а СайтСпутник сможет принести.

По этому, на мой взгляд, если мы хотим своевременно и в полном объеме видеть вновь появляющиеся в поисковике материалы по интересующему вопросу, то лучше второй и остальные повторы интересующего запроса делать с сортировкой по дате. Как-то так :smile:

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009

vbl написал:
[q]

Рискну поспорить СайтСпутник собирает ведь некоторое количество страниц выдачи поисковика, и, что самое главное, далеко не все. Это не недостаток програмы, а специфика работы поисковой системы. Т.е. он приносит несколько десятков - сотен страниц выдачи начиная с первой по релевантности.
[/q]

Хм. Так я же специально использую глубокий поиск в запросах. То есть, программа мало того, что, допустим, скачивает одну релевантную ссылку с сайта Роскосмоса, но потом еще автоматически осуществляет процедуру раскрывания гиперссылки "Еще с сайта" , появляющейся под каждой строкой выдачи. То есть, если Юрчихин упомянут на 10 разных страницах сайта Роскосмоса, то, если они проиндексированы Яндексом, СайтСпутник покажет мне 10 ссылок на разные страницы сайта Роскосмоса. Или нет?
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Спасибо, Дмиртий.

petryashov написал:
[q]
б. во- вторых, создается список "Новые", в который попадают ссылки, не попавшие в список при предыдущем сканировании
[/q]

Маленькая, но важная поправка. В конце цитаты: при предыдущих сканированиях. Количество сканирований прописано в "Настройках". Оно изменяется от 1 до 99, по умолчанию 90. Это практически обеспечивает попадание в список "Новые" только тех ссылок, которые еще не были найдены. При необходимости, можно сделать более, чем 99 сканирований, но пока этого никто не запрашивал.

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]
Так я же специально использую глубокий поиск в запросах. То есть, программа мало того, что, допустим, скачивает одну релевантную ссылку с сайта Роскосмоса, но потом еще автоматически осуществляет процедуру раскрывания гиперссылки "Еще с сайта" , появляющейся под каждой строкой выдачи. То есть, если Юрчихин упомянут на 10 разных страницах сайта Роскосмоса, то, если они проиндексированы Яндексом, СайтСпутник покажет мне 10 ссылок на разные страницы сайта Роскосмоса. Или нет?
[/q]

Да.

vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 170
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009

petryashov написал:
[q]
Так я же специально использую глубокий поиск в запросах. То есть, программа мало того, что, допустим, скачивает одну релевантную ссылку с сайта Роскосмоса, но потом еще автоматически осуществляет процедуру раскрывания гиперссылки "Еще с сайта" , появляющейся под каждой строкой выдачи. То есть, если Юрчихин упомянут на 10 разных страницах сайта Роскосмоса, то, если они проиндексированы Яндексом, СайтСпутник покажет мне 10 ссылок на разные страницы сайта Роскосмоса. Или нет?
[/q]


А причем тут разные страницы одного и того же сайта. С этим не спорю.

Может я не до конца ухватил суть вопроса, но давай предположим, что по нашему запросу существует не 1000 страниц и соответственно, 20 000 ссылок, а скажем хотя бы тысяч 100 ссылок. Я так понимаю, что в данном случае СайтСпутник исправно принесет запрашиваемые 1000 страниц, чего честно говоря у меня ни разу не было. Еще раз отмечу, не по вине программы, а в связи с особенностью работы поисковиков.

А мы знаем, что при сортировке по релевантности не все вновь проиндексированные страницы попадут в эту 1000, по крайней мере теоретически. Соответственно, что-то из вновь проиндексированного не попадет. А в моем же случае мы 100%-о выловим все вновь проиндексированные страницы. Или я не прав?

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 170
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009

Alexei Mylnikov написал:
[q]
Маленькая, но важная поправка. В конце цитаты: при предыдущих сканированиях. Количество сканирований прописано в "Настройках". Оно изменяется от 1 до 99, по умолчанию 90. Это практически обеспечивает попадание в список "Новые" только тех ссылок, которые еще не были найдены. При необходимости, можно сделать более, чем 99 сканирований, но пока этого никто не запрашивал.
[/q]


Алексей, а можно об этом рассказать поподробнее. Я вот не совсем понял, При последующем подобном запросе, Сайт спутник ведь будет "просматривать" то же количество страниц выдачи по релевантности, начиная с первой. Соответственно, если новые страницы не поднялись в выдаче, то мы их все равно не увидим, если не сделаем сортировку по дате?

А что подразумевается под сканированиями?

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

vbl написал:
[q]
Алексей, а можно об этом рассказать поподробнее. Я вот не совсем понял, При последующем подобном запросе, Сайт спутник ведь будет "просматривать" то же количество страниц выдачи по релевантности, начиная с первой. Соответственно, если новые страницы не поднялись в выдаче, то мы их все равно не увидим, если не сделаем сортировку по дате?

А что подразумевается под сканированиями?
[/q]

Под сканированием (термин применил Дмитрий) я думаю, что подразумевается выполнение пакета запросов.
Если поисковик хранит в БД более, грубо говоря, 1000 ссылок, то он уже завтра принесет другую выдачу, так как поисковик постоянно обновляет свою БД.

Что касается Вашего спора с Дмитрием. Если не очень хочется исследовать как ведут себя оба запроса, то можно Ваш запрос добавить в пакет Дмитрия. СайтСпутнику все равно сколько убирать повторов ссылок 1000 или 2000.

vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 170
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009

Alexei Mylnikov написал:
[q]
поисковик постоянно обновляет свою БД.
[/q]


А по какому принципу он ее обновляет?


Alexei Mylnikov написал:
[q]
Если не очень хочется исследовать
[/q]


В принципе, идеальный вариант, эксперимент. Завтра попробую поэксперементировать.


Alexei Mylnikov написал:
[q]
СайтСпутнику все равно сколько убирать повторов ссылок 1000 или 2000.
[/q]


Оно понятно, кто бы сомневался. :smile:

Меня скорее заботит полнота поиска и, соответственно, моей информированности. Здесь ведь Сайтспутник выступает как инструмент и как его настроить зависит от оператора. А соответственно, настроить можно правильно, а можно не совсем :smile:

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

vbl написал:
[q]
А по какому принципу он ее обновляет?
[/q]

Думаю, что паук переходит от ссылки к ссылке по алгоритму, реализованному разработчиками, ...

vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 170
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009

Alexei Mylnikov написал:
[q]

Думаю, что паук переходит от ссылки к ссылке по алгоритму, реализованному разработчиками
[/q]


Ну, это то понятно :smile:
А вновь найденные ссылки, с совершенно новых сайтов относительно этого запроса, в какую часть выдачи попадают. Если отбор идет по релевантности, то они могут попасть как на первую страницу выдачи, так и на 1101-ю. В последнем случае мы их скорее всего не увидим. Так ведь?

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

vbl написал:
[q]
вновь найденные ссылки, с совершенно новых сайтов относительно этого запроса, в какую часть выдачи попадают. Если отбор идет по релевантности, то они могут попасть как на первую страницу выдачи, так и на 1101-ю. В последнем случае мы их скорее всего не увидим. Так ведь?
[/q]

Вполне возможно, что так.

vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 170
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009
Алексей, стал, как и собирался, эксперементировать и понял, что не знаю как заставить сайт спутник приносить выдачу Яндекса с сортировкой по дате. Не на конкретную дату и не в диапазоне дат, а именно как отсортированные по дате. Оператор date="*" , указанный у Вас в Универсальном поиске, работает только с конкретной датой или с диапазоном дат.

Подскажите, пожалуйста, как это сделать?

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

vbl написал:
[q]
Алексей, стал, как и собирался, эксперементировать и понял, что не знаю как заставить сайт спутник приносить выдачу Яндекса с сортировкой по дате. Не на конкретную дату и не в диапазоне дат, а именно как отсортированные по дате.

Подскажите, пожалуйста, как это сделать?
[/q]

Не знаю, что у Вас в "Настройке происка" есть по Яндексу. У меня есть актуальный сценарий:
|| YANDEX->Дата=10
который формирует выдачу в хронологическом порядке (по дате). Если у Вас устаревшая "Настройка поиска", то можете подклють Яндекс "по дате" через Мастер или импортируйте прикрепленный к этому сообщению файл. Хотя, у Вас должен быть этот сценарий - Вы совсем недавно обновляли вариант СайтСпутника.

Прикрепленный файл (Поисковик~YA, 659 байт, скачан: 705 раз)
vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 170
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009
Алексей, спасибо за ответ. Нашел этот сценарий. Просто еще не до конца просмотрел все новшества последнего обновления.

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 170
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009
Отчет о проведенном эксперименте:

Изначально провел поиск по запросу Дмитрия: Федор /1 Юрчихин || Yandex.Deep=1000

по нему СайтСпутник принес 4364 уникальные ссылки

Затем провел поиск по следующему запросу: Федор /1 Юрчихин || YANDEX->Дата=100 (т.е. попросил СайтСпутник принести мне ссылки с первых 100 страниц выдачи Яндекса отсортированной по дате)

по нему СайтСпутник принес 516 уникальных ссылок. Далее, произведя Аналитическое объединение получил общее количество уникальных ссылок равное 4817

И понял, что пересечение этих двух запросов составило всего 63 уникальные ссылки, а, соответственно 453 уникальные ссылки мы, если ограничимся лишь первым вариантом поискового запроса, скорее всего никогда не увидим.

Так что, на мой взгляд, применительно к нашему с Дмитрием небольшому спору, все же лучше будет последующие после первого запуска СайтСпутника по интересующему нас запросу проводить с сортировкой по дате. Тогда мы действительно будем получать по большей части новые материалы. В первом же случае новых ссылок будет гораздо меньше.

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009

vbl написал:
[q]
Так что, на мой взгляд, применительно к нашему с Дмитрием небольшому спору, все же лучше будет последующие после первого запуски СайтСпутника по интересующему нас запросу проводить с сортировкой по дате. Тогда мы действительно будем получать по большей части новые материалы. В первом же случае новых ссылок будет гораздо меньше.
[/q]


Убедил!
vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 170
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009

petryashov написал:
[q]
Убедил!
[/q]


Ну, и хорошо :smile:

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]

vbl написал:
[q]
Так что, на мой взгляд, применительно к нашему с Дмитрием небольшому спору, все же лучше будет последующие после первого запуски СайтСпутника по интересующему нас запросу проводить с сортировкой по дате. Тогда мы действительно будем получать по большей части новые материалы. В первом же случае новых ссылок будет гораздо меньше.
[/q]


Убедил!
[/q]

По запросу Бориса (vbl) "проще" и эффективнее искать новые ссылки.

Запрос Дмитрия (petryashov) ориентирован на поиск "незнакомых" ссылок (уникальная возможность СайтСпутника) - тех ссылок, которые еще ни разу не попадали в поле зрения исследователя. В разряд незнакомых ссылок будут попадать как новые, так и "старые" ссылки, ранее неприносимые по запросу. Это тоже может быть интересно и важно.

Если в пакет поставить оба запроса: первым запрос Бориса, вторым запрос Дмитрия, - то такой пакет запросов просуммирует преимущества обоих запросов:

Федор /1 Юрчихин || YANDEX->Дата=5
Федор /1 Юрчихин || Yandex.Deep=1000

В первом запросе уменьшина глубина поиска, так как далее, чем на 5-ой странице врядли будет что-то новое.

Для того, чтобы уменьшить вероятность попадания на антиробот Яндекса между этими запросами вставил бы поиск по Google и Рамблеру и получил бы следующий пакет:

Федор /1 Юрчихин || YANDEX->Дата=5
"Федор Юрчихин" || Google.Deep=1000
"Федор Юрчихин" || Rambler.Deep=1000
Федор /1 Юрчихин || Yandex.Deep=1000

vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 170
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009

Alexei Mylnikov написал:
[q]
Для того, чтобы уменьшить вероятность попадания на антиробот Яндекса
[/q]


Мы на антиробот яндекса все равно в данном случае попадаем.

Я когда эксперементировал на запросе Федор /1 Юрчихин || Yandex.Deep=1000 даже со значением паузы 20 не смог пройти дальше 402 страницы

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

vbl написал:
[q]
даже со значением паузы 20 не смог пройти дальше 402 страницы
[/q]
Alexei Mylnikov, а можно в пакете менять паузы?
Например, сначала внутри пакета задаем паузу 5 сек., потом 20 сек., потом снова меняем на 5 сек.? Таким образом можно перед Яндекс.Запросом делать паузы побольше, а на остальных поисковиках собирать ссылки побыстрее.
vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 170
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009

tungus1973 написал:
[q]
Alexei Mylnikov, а можно в пакете менять паузы?
Например, сначала внутри пакета задаем паузу 5 сек., потом 20 сек., потом снова меняем на 5 сек.? Таким образом можно перед Яндекс.Запросом делать паузы побольше, а на остальных поисковиках собирать ссылки побыстрее.
[/q]


А еще было бы лучше, чтобы СайтСпутник при появлении первой страницы с "Ой А не робот ли Вы Введите код" останавливался, ждал, когда пользователь введет код и только после этого шел дальше

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Согласен. В этом случае остановка программы очень бы помогла. И еще система должна выдать какой-то сигнал (звук, всплывающее окно) о том, что появился антиробот.
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

tungus1973 написал:
[q]
А еще было бы лучше, чтобы СайтСпутник при появлении первой страницы с "Ой А не робот ли Вы Введите код" останавливался, ждал, когда пользователь введет код и только после этого шел дальше
[/q]

В вестии 6.4.4.1 встроена именно такая обработка капчи для Яндекса.
Она невечная, так как иногда содержание страницы с капчей изменяется разработчиками.
Возникнут проблемы - буду вносить изменения в программу, сохраняя предыдущие варианты обработки.

vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 170
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009

Alexei Mylnikov написал:
[q]
В вестии 6.4.4.1 встроена именно такая обработка капчи для Яндекса.
Она невечная, так как иногда содержание страницы с капчей изменяется разработчиками.
Возникнут проблемы - буду вносить изменения в программу, сохраняя предыдущие варианты обработки.
[/q]


Большое спасибо, работает.

Но, сходу появился один нюансик. Если свернуть окно программы, как наверное многие обычно делают, то при срабатывании данной функции, как и положено, вылетает запланированная табличка "Введите код указанный на каптче и нажмите ОК". Вот тут большая проблема появляется, ибо программа разворачиваться не желает, а не открыв ее, каптчи не видно, приходится нажимать "Cancel" и соответственно все насмарку. :blush:

Можно ли это как-то исправить?

---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

vbl написал:
[q]
Но, сходу появился один нюансик. Если свернуть окно программы, как наверное многие обычно делают, то при срабатывании данной функции, как и положено, вылетает запланированная табличка "Введите код указанный на каптче и нажмите ОК". Вот тут большая проблема появляется, ибо программа разворачиваться не желает, а не открыв ее, каптчи не видно, приходится нажимать "Cancel" и соответственно все насмарку.
Можно ли это как-то исправить?
[/q]

Спасибо, исправил, подкачайтесь.

vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 170
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009

Alexei Mylnikov написал:
[q]
исправил, подкачайтесь.
[/q]


Спасибо, все отлично работает. Вот теперь реально выкачивается 1000 страниц Я-н-д-е-к-с-а :yahoo:



---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Для: Alexei Mylnikov, спасибо большое! :hi:
petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Ура, работает! Алексей, спасибо!
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Начиная с версии 6.4.4.3, можно задавать дополнительно следующие операторы:

^^Пауза.Yandex=3
^^Пауза.Google=4
^^Пауза.Yahoo=5

Это приведет к тому, что для любого поиска в Яндексе, Гугле, Яху будут возникать паузы, соответственно, в 3, 4, 5 секунд между обращениями к страницам поисковиков.

Максимальная пауза увеличена до 60 секунд.

Эти операторы сильнее оператора:

^^Пауза=6

Который, с свою очередь, сильнее паузы, задаваемой в "Настройки - Параметры - Интернет - Антиробот: пауза между открытиями страниц поисковиков (от 0 до 60 сек.)"

tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

Alexei Mylnikov написал:
[q]
Начиная с версии 6.4.4.3, можно задавать дополнительно следующие операторы:

^^Пауза.Yandex=3
^^Пауза.Google=4
^^Пауза.Yahoo=5
[/q]
А вот это уже совсем замечательно! :good:
Еще раз спасибо!!!
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5563
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009
Вот тут у меня в комментариях мысль высказана на счет "сервиса для хороших роботов" Яндекса. Какие по этому поводу есть мысли?

yushchuk.livejournal.com/245943.html?nc=4


lukamud
А своего "ужа" c этим "ежом" они скрещивать не пробовали?

yushchuk
А там же, насколько я помню, надо постоянный IP-адрес иметь. С этим и затык. По количеству запросов мы обычно укладываемся, но по адресу - проблема.


lukamud
IP должен быть постоянным во время осуществления запросов. А при его изменении пользователь должен ввести новый в соответствующей форме.

Если разработчики согласятся показывать контекстную рекламу в программе, то ограничение в 1000 запросов в сутки снимается. Мне кажется, что при этом Яндекс выплачивает какую-то долю и владельцу. Посоветуйте разработчикам пообщаться с Яндексом, там весьма интересные и адекватные ребята работают.

yushchuk
Спасибо. Я отправлю ссылку Алексею Мыльникову.


---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

CI-KP написал:
[q]
Вот тут у меня в комментариях мысль высказана на счет "сервиса для хороших роботов" Яндекса. Какие по этому поводу есть мысли?
[/q]

Спасибо. Сервис интересный. Взаимодействие с готовыми приложениями, написанными на нем, вполне возможны.

CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5563
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Alexei Mylnikov написал:
[q]
Взаимодействие с готовыми приложениями, написанными на нем, вполне возможны.
[/q]

Это с какими, например?

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

CI-KP написал:
[q]

Alexei Mylnikov написал:
[q]
Взаимодействие с готовыми приложениями, написанными на нем, вполне возможны.
[/q]

Это с какими, например?
[/q]

Например, с Нигмoй, поиск в которой реализован с использованием Яндекс.XML. Этот метапоисковик уже подключен в одном из сценариев САйтСпутник(а).

<<Назад  Вперед>>Страницы: 1 2 3 4
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Сбор и хранение информации при помощи программы SiteSputnik
RSS

Последние RSS
Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Лог-файл в программе СайтСпутник
шантаж, угрозы по Интернету

Самые активные 20 тем RSS