Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » Сбор и хранение информации при помощи программы SiteSputnik |
![]() |
<<Назад Вперед>> | Страницы: 1 2 3 4 | Печать |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 28 июля 2010 20:43 Сообщение отредактировано: 28 июля 2010 21:49
Одной из задач маркетолога является работа с информацией. Данный процесс часто организован не оптимально: А. на поиск информации тратится масса времени. Нужно "вручную" просмотреть многие страницы выдачи нескольких поисковых систем, скачать их и поместить в какое-то хранилище. Если объектов поиска много, и важно отслеживать все вновь появляющиеся материалы, подобной работой, и только ей, может заниматься специально выделенный человек, а то и целый отдел. Б. пропускаются важные данные. Часто важная информация может находиться среди сотен уже просмотренных страниц и никак не выделяться визуально. Уставший или невнимательный аналитик сможет ее не заметить. В. система хранения найденной информации не продумана. Часто найденная информация используется один раз и никуда не архивируется. При следующем поиске информации ее нужно будет находить заново. Распечатка найденного материала и хранение его в папках загромождает пространство и усложняет поиск; сохранение электронных копий страниц на жестком диске компьютера без системы быстрого поиска информации также требует массы времени на последующий поиск. Можно ли как-то автоматизировать данный процесс, сократив тем самым нерациональные трудозатраты? Да, можно. Уже существует специальное программное обеспечение, призванное упростить даную работу. Одной из таких программ является СайтСпутник. В данной статье мы поговорим о том, каким образом можно организовать базу данных для хранения найденной СайтСпутником информации. Рассмотрим несложный пример. Допустим, нам необходимо собрать как можно больше информации в Интернете про космонавта Федора Юрчихина, рассортировать ее по рубрикам и сохранить ее в базе для добавления новых материалов. Прежде чем перейдем к описанию процедуры, дадим несколько пояснений. 1. Выбор именно Федора Юрчихина в качестве примера объясняется глубоким уважением, которое автор статьи испытывает к этому космонавту и популяризатору космических исследований; 2. Описанная методика использования программы не предполагает поиска какой-либо закрытой информации. Вся рассматриваемая информация, в которой упоминается Федор Юрчихин, на момент написания статьи (28.07.10) была доступна любому пользователю Интернета, обладающему начальными навыками работы с поисковыми системами Yandex, Rambler и Google Приступим к поиску. Для этого необходимо сделать следующую последовательность действий: Открываем программу SiteSputnik, нажимаем на "Золотой ключик". Откроется следующее окно, в которое мы вбиваем название запроса "Федор Юрчихин": Затем нажимаем на кнопку "Пакет" Откроется следующее окно, в которое мы вносим условия запроса на языках поисковых систем Яндекс, Гугл и Рамблер: Затем нам надо указать системе, на какую глубину каждая поисковая система будет искать информацию. Для этого жмем значок "||", показанный на скриншоте выше. Откроется следующее окно: Переходим ко второй, а затем к третьей строке запроса, аналогичным образом подключаем сценарии поиска Google и Rambler. Должно получиться вот что: ![]() Программа найдет упоминания Ф. Юрчихина на разных сайтах, выбросит все дубли, а результаты выдаст в виде списка найденных страниц со сниппетами: Далее нашей задачей является выбрать из найденного материала только то, что мы хотим забросить в базу данных. Для этого мы просматриваем список и нажимаем на серые шарики напротив нужных нам материалов: ![]() После того, как система сохранит отмеченные пункты, наступает следующий этап: нам нужно, чтобы система открыла найденные ссылки. Для этого нажимаем шарик со стрелкой (см скриншот): ![]() После этого приступаем к созданию Ящика "Федор Юрчихин" и системы тематических вложенных ящиков, в которые мы будем записывать найденные результаты. Для этого в дереве каталогов программы находим каталог "Ссылки открытые". Нажимаем на нем правую кнопку мыши и выбираем пункт "Создать новый подобный ящик". Откроется следующее окно:
![]() Затем нажимаем правую кнопку мышки на строке "Федор Юрчихин", выбираем "Создать новый подобный ящик" и создаем необходимое количество вложенных Ящиков. Результат будет выглядеть приблизительно так: ![]() Затем в дереве каталогов нажимаем на строку "Ссылки открытые". Откроется список всех отмеченных пунктов. Все, первоначальная база готова. Теперь достаточно пакет запросов "Федор Юрчихин" запускать с нужной периодичностью, выбирать новые записи, открывать их и перетаскивать в созданные ранее папки. Кроме того, в любой момент можно создавать новые папки и перетаскивать информацию туда. Таким образом, мы достигли поставленные цели: нашли необходимую информацию про космонавта и создали систему хранения этой информации. И все это при помощи одной- единственной программы! |
Sprinter
Участник
Скептик Откуда: Откуда и все Всего сообщений: 90 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 24 июня 2009 |
Отличная пошаговая инструкция получилась. Тебе бы Дим договориться с Мыльниковым по написанию инструкций в Сайт Спутнику :) PS Для этого жмем значок "=", показанный на скриншоте выше. Реально там нашел только такой значок "||" ![]() |
vbl
Модератор форума
Откуда: Нижний Новгород Всего сообщений: 170 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 10 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 28 июля 2010 21:18 Сообщение отредактировано: 28 июля 2010 21:20 petryashov написал: Теперь достаточно пакет запросов "Федор Юрчихин" запускать с нужной периодичностью, выбирать новые записи, Дим, позволь тебя немного дополнить. Чтобы выбирать новые записи, после первого прохода по твоему тестовому запросу, лучше его немного модернизировать. Имеет смысл первоначальный запрос, например для Яндекса: "Федор /1 Юрчихин" слегка изменить на вот этот [ Федор /1 Юрчихин date="*" ], что обеспечит сортировку при поиске по дате и тогда мы действительно будем видеть в первую очередь новые ссылки. P.S. А за обзор спасибо, весьма полезно. ---
Non progredi est regredi http://www.informnn.ru Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 28 июля 2010 21:37 Сообщение отредактировано: 28 июля 2010 21:43
Sprinter и vbl, спасибо за отзывы! Sprinter написал: Ага, спасибо, поправил |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
vbl написал:
Борь, а это непринципиально. Дело в том, что СайтСпутник имеет целых две системы индикации появившихся новых сообщений: а. во-первых, в списке "Объединенные..." он выделяет новую информацию цветом; б. во- вторых, создается список "Новые", в который попадают ссылки, не попавшие в список при предыдущем сканировании Так что найти новые ссылки особого труда не представляет |
vbl
Модератор форума
Откуда: Нижний Новгород Всего сообщений: 170 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 10 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 28 июля 2010 21:54 Сообщение отредактировано: 28 июля 2010 21:57
Рискну поспорить ![]() СайтСпутник собирает ведь некоторое количество страниц выдачи поисковика, и, что самое главное, далеко не все. Это не недостаток програмы, а специфика работы поисковой системы. Т.е. он приносит несколько десятков - сотен страниц выдачи начиная с первой по релевантности. Да и Яндекс отдает далеко не то количество страниц, которые у него по этому запросу есть. А вновь индексированные страницы далеко не всегда достаточно быстро попадут (да, в принципе, могут и вообще не попасть) в то количество страниц результата поиска, которые Яндекс захочет отдать, а СайтСпутник сможет принести. По этому, на мой взгляд, если мы хотим своевременно и в полном объеме видеть вновь появляющиеся в поисковике материалы по интересующему вопросу, то лучше второй и остальные повторы интересующего запроса делать с сортировкой по дате. Как-то так ![]() ---
Non progredi est regredi http://www.informnn.ru Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
vbl написал:
Хм. Так я же специально использую глубокий поиск в запросах. То есть, программа мало того, что, допустим, скачивает одну релевантную ссылку с сайта Роскосмоса, но потом еще автоматически осуществляет процедуру раскрывания гиперссылки "Еще с сайта" , появляющейся под каждой строкой выдачи. То есть, если Юрчихин упомянут на 10 разных страницах сайта Роскосмоса, то, если они проиндексированы Яндексом, СайтСпутник покажет мне 10 ссылок на разные страницы сайта Роскосмоса. Или нет? |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Спасибо, Дмиртий. petryashov написал: б. во- вторых, создается список "Новые", в который попадают ссылки, не попавшие в список при предыдущем сканировании Маленькая, но важная поправка. В конце цитаты: при предыдущих сканированиях. Количество сканирований прописано в "Настройках". Оно изменяется от 1 до 99, по умолчанию 90. Это практически обеспечивает попадание в список "Новые" только тех ссылок, которые еще не были найдены. При необходимости, можно сделать более, чем 99 сканирований, но пока этого никто не запрашивал. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
petryashov написал: Так я же специально использую глубокий поиск в запросах. То есть, программа мало того, что, допустим, скачивает одну релевантную ссылку с сайта Роскосмоса, но потом еще автоматически осуществляет процедуру раскрывания гиперссылки "Еще с сайта" , появляющейся под каждой строкой выдачи. То есть, если Юрчихин упомянут на 10 разных страницах сайта Роскосмоса, то, если они проиндексированы Яндексом, СайтСпутник покажет мне 10 ссылок на разные страницы сайта Роскосмоса. Или нет? Да. |
vbl
Модератор форума
Откуда: Нижний Новгород Всего сообщений: 170 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 10 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 28 июля 2010 22:24 Сообщение отредактировано: 28 июля 2010 22:33 petryashov написал: Так я же специально использую глубокий поиск в запросах. То есть, программа мало того, что, допустим, скачивает одну релевантную ссылку с сайта Роскосмоса, но потом еще автоматически осуществляет процедуру раскрывания гиперссылки "Еще с сайта" , появляющейся под каждой строкой выдачи. То есть, если Юрчихин упомянут на 10 разных страницах сайта Роскосмоса, то, если они проиндексированы Яндексом, СайтСпутник покажет мне 10 ссылок на разные страницы сайта Роскосмоса. Или нет? А причем тут разные страницы одного и того же сайта. С этим не спорю. Может я не до конца ухватил суть вопроса, но давай предположим, что по нашему запросу существует не 1000 страниц и соответственно, 20 000 ссылок, а скажем хотя бы тысяч 100 ссылок. Я так понимаю, что в данном случае СайтСпутник исправно принесет запрашиваемые 1000 страниц, чего честно говоря у меня ни разу не было. Еще раз отмечу, не по вине программы, а в связи с особенностью работы поисковиков. А мы знаем, что при сортировке по релевантности не все вновь проиндексированные страницы попадут в эту 1000, по крайней мере теоретически. Соответственно, что-то из вновь проиндексированного не попадет. А в моем же случае мы 100%-о выловим все вновь проиндексированные страницы. Или я не прав? ---
Non progredi est regredi http://www.informnn.ru Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka |
vbl
Модератор форума
Откуда: Нижний Новгород Всего сообщений: 170 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 10 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 28 июля 2010 22:29 Сообщение отредактировано: 28 июля 2010 22:32 Alexei Mylnikov написал: Маленькая, но важная поправка. В конце цитаты: при предыдущих сканированиях. Количество сканирований прописано в "Настройках". Оно изменяется от 1 до 99, по умолчанию 90. Это практически обеспечивает попадание в список "Новые" только тех ссылок, которые еще не были найдены. При необходимости, можно сделать более, чем 99 сканирований, но пока этого никто не запрашивал. Алексей, а можно об этом рассказать поподробнее. Я вот не совсем понял, При последующем подобном запросе, Сайт спутник ведь будет "просматривать" то же количество страниц выдачи по релевантности, начиная с первой. Соответственно, если новые страницы не поднялись в выдаче, то мы их все равно не увидим, если не сделаем сортировку по дате? А что подразумевается под сканированиями? ---
Non progredi est regredi http://www.informnn.ru Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
vbl написал: Алексей, а можно об этом рассказать поподробнее. Я вот не совсем понял, При последующем подобном запросе, Сайт спутник ведь будет "просматривать" то же количество страниц выдачи по релевантности, начиная с первой. Соответственно, если новые страницы не поднялись в выдаче, то мы их все равно не увидим, если не сделаем сортировку по дате? Под сканированием (термин применил Дмитрий) я думаю, что подразумевается выполнение пакета запросов. Если поисковик хранит в БД более, грубо говоря, 1000 ссылок, то он уже завтра принесет другую выдачу, так как поисковик постоянно обновляет свою БД. Что касается Вашего спора с Дмитрием. Если не очень хочется исследовать как ведут себя оба запроса, то можно Ваш запрос добавить в пакет Дмитрия. СайтСпутнику все равно сколько убирать повторов ссылок 1000 или 2000. |
vbl
Модератор форума
Откуда: Нижний Новгород Всего сообщений: 170 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 10 июня 2009 |
Alexei Mylnikov написал: поисковик постоянно обновляет свою БД. А по какому принципу он ее обновляет? Alexei Mylnikov написал: Если не очень хочется исследовать В принципе, идеальный вариант, эксперимент. Завтра попробую поэксперементировать. Alexei Mylnikov написал: СайтСпутнику все равно сколько убирать повторов ссылок 1000 или 2000. Оно понятно, кто бы сомневался. ![]() Меня скорее заботит полнота поиска и, соответственно, моей информированности. Здесь ведь Сайтспутник выступает как инструмент и как его настроить зависит от оператора. А соответственно, настроить можно правильно, а можно не совсем ![]() ---
Non progredi est regredi http://www.informnn.ru Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
vbl написал: А по какому принципу он ее обновляет? Думаю, что паук переходит от ссылки к ссылке по алгоритму, реализованному разработчиками, ... |
vbl
Модератор форума
Откуда: Нижний Новгород Всего сообщений: 170 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 10 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 28 июля 2010 22:59 Сообщение отредактировано: 28 июля 2010 22:59 Alexei Mylnikov написал:
Ну, это то понятно ![]() А вновь найденные ссылки, с совершенно новых сайтов относительно этого запроса, в какую часть выдачи попадают. Если отбор идет по релевантности, то они могут попасть как на первую страницу выдачи, так и на 1101-ю. В последнем случае мы их скорее всего не увидим. Так ведь? ---
Non progredi est regredi http://www.informnn.ru Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
vbl написал: вновь найденные ссылки, с совершенно новых сайтов относительно этого запроса, в какую часть выдачи попадают. Если отбор идет по релевантности, то они могут попасть как на первую страницу выдачи, так и на 1101-ю. В последнем случае мы их скорее всего не увидим. Так ведь? Вполне возможно, что так. |
vbl
Модератор форума
Откуда: Нижний Новгород Всего сообщений: 170 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 10 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 28 июля 2010 23:56 Сообщение отредактировано: 29 июля 2010 0:25
Алексей, стал, как и собирался, эксперементировать и понял, что не знаю как заставить сайт спутник приносить выдачу Яндекса с сортировкой по дате. Не на конкретную дату и не в диапазоне дат, а именно как отсортированные по дате. Оператор date="*" , указанный у Вас в Универсальном поиске, работает только с конкретной датой или с диапазоном дат. Подскажите, пожалуйста, как это сделать? ---
Non progredi est regredi http://www.informnn.ru Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
vbl написал: Алексей, стал, как и собирался, эксперементировать и понял, что не знаю как заставить сайт спутник приносить выдачу Яндекса с сортировкой по дате. Не на конкретную дату и не в диапазоне дат, а именно как отсортированные по дате. Не знаю, что у Вас в "Настройке происка" есть по Яндексу. У меня есть актуальный сценарий: || YANDEX->Дата=10 который формирует выдачу в хронологическом порядке (по дате). Если у Вас устаревшая "Настройка поиска", то можете подклють Яндекс "по дате" через Мастер или импортируйте прикрепленный к этому сообщению файл. Хотя, у Вас должен быть этот сценарий - Вы совсем недавно обновляли вариант СайтСпутника. Прикрепленный файл (Поисковик~YA, 659 байт, скачан: 705 раз) |
vbl
Модератор форума
Откуда: Нижний Новгород Всего сообщений: 170 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 10 июня 2009 |
Алексей, спасибо за ответ. Нашел этот сценарий. Просто еще не до конца просмотрел все новшества последнего обновления. ---
Non progredi est regredi http://www.informnn.ru Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka |
vbl
Модератор форума
Откуда: Нижний Новгород Всего сообщений: 170 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 10 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 29 июля 2010 8:48 Сообщение отредактировано: 29 июля 2010 10:42
Отчет о проведенном эксперименте: Изначально провел поиск по запросу Дмитрия: Федор /1 Юрчихин || Yandex.Deep=1000 по нему СайтСпутник принес 4364 уникальные ссылки Затем провел поиск по следующему запросу: Федор /1 Юрчихин || YANDEX->Дата=100 (т.е. попросил СайтСпутник принести мне ссылки с первых 100 страниц выдачи Яндекса отсортированной по дате) по нему СайтСпутник принес 516 уникальных ссылок. Далее, произведя Аналитическое объединение получил общее количество уникальных ссылок равное 4817 И понял, что пересечение этих двух запросов составило всего 63 уникальные ссылки, а, соответственно 453 уникальные ссылки мы, если ограничимся лишь первым вариантом поискового запроса, скорее всего никогда не увидим. Так что, на мой взгляд, применительно к нашему с Дмитрием небольшому спору, все же лучше будет последующие после первого запуска СайтСпутника по интересующему нас запросу проводить с сортировкой по дате. Тогда мы действительно будем получать по большей части новые материалы. В первом же случае новых ссылок будет гораздо меньше. ---
Non progredi est regredi http://www.informnn.ru Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
vbl написал: Так что, на мой взгляд, применительно к нашему с Дмитрием небольшому спору, все же лучше будет последующие после первого запуски СайтСпутника по интересующему нас запросу проводить с сортировкой по дате. Тогда мы действительно будем получать по большей части новые материалы. В первом же случае новых ссылок будет гораздо меньше. Убедил! |
vbl
Модератор форума
Откуда: Нижний Новгород Всего сообщений: 170 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 10 июня 2009 |
petryashov написал: Убедил! Ну, и хорошо ![]() ---
Non progredi est regredi http://www.informnn.ru Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
petryashov написал:
По запросу Бориса (vbl) "проще" и эффективнее искать новые ссылки. Запрос Дмитрия (petryashov) ориентирован на поиск "незнакомых" ссылок (уникальная возможность СайтСпутника) - тех ссылок, которые еще ни разу не попадали в поле зрения исследователя. В разряд незнакомых ссылок будут попадать как новые, так и "старые" ссылки, ранее неприносимые по запросу. Это тоже может быть интересно и важно. Если в пакет поставить оба запроса: первым запрос Бориса, вторым запрос Дмитрия, - то такой пакет запросов просуммирует преимущества обоих запросов: Федор /1 Юрчихин || YANDEX->Дата=5 Федор /1 Юрчихин || Yandex.Deep=1000 В первом запросе уменьшина глубина поиска, так как далее, чем на 5-ой странице врядли будет что-то новое. Для того, чтобы уменьшить вероятность попадания на антиробот Яндекса между этими запросами вставил бы поиск по Google и Рамблеру и получил бы следующий пакет: Федор /1 Юрчихин || YANDEX->Дата=5 "Федор Юрчихин" || Google.Deep=1000 "Федор Юрчихин" || Rambler.Deep=1000 Федор /1 Юрчихин || Yandex.Deep=1000 |
vbl
Модератор форума
Откуда: Нижний Новгород Всего сообщений: 170 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 10 июня 2009 |
Alexei Mylnikov написал: Для того, чтобы уменьшить вероятность попадания на антиробот Яндекса Мы на антиробот яндекса все равно в данном случае попадаем. Я когда эксперементировал на запросе Федор /1 Юрчихин || Yandex.Deep=1000 даже со значением паузы 20 не смог пройти дальше 402 страницы ---
Non progredi est regredi http://www.informnn.ru Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
vbl написал: Alexei Mylnikov, а можно в пакете менять паузы? даже со значением паузы 20 не смог пройти дальше 402 страницы Например, сначала внутри пакета задаем паузу 5 сек., потом 20 сек., потом снова меняем на 5 сек.? Таким образом можно перед Яндекс.Запросом делать паузы побольше, а на остальных поисковиках собирать ссылки побыстрее. |
vbl
Модератор форума
Откуда: Нижний Новгород Всего сообщений: 170 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 10 июня 2009 |
tungus1973 написал: Alexei Mylnikov, а можно в пакете менять паузы? А еще было бы лучше, чтобы СайтСпутник при появлении первой страницы с "Ой А не робот ли Вы Введите код" останавливался, ждал, когда пользователь введет код и только после этого шел дальше ---
Non progredi est regredi http://www.informnn.ru Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Согласен. В этом случае остановка программы очень бы помогла. И еще система должна выдать какой-то сигнал (звук, всплывающее окно) о том, что появился антиробот. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
tungus1973 написал: А еще было бы лучше, чтобы СайтСпутник при появлении первой страницы с "Ой А не робот ли Вы Введите код" останавливался, ждал, когда пользователь введет код и только после этого шел дальше В вестии 6.4.4.1 встроена именно такая обработка капчи для Яндекса. Она невечная, так как иногда содержание страницы с капчей изменяется разработчиками. Возникнут проблемы - буду вносить изменения в программу, сохраняя предыдущие варианты обработки. |
vbl
Модератор форума
Откуда: Нижний Новгород Всего сообщений: 170 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 10 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 2 августа 2010 20:51 Сообщение отредактировано: 2 августа 2010 20:52 Alexei Mylnikov написал: В вестии 6.4.4.1 встроена именно такая обработка капчи для Яндекса. Большое спасибо, работает. Но, сходу появился один нюансик. Если свернуть окно программы, как наверное многие обычно делают, то при срабатывании данной функции, как и положено, вылетает запланированная табличка "Введите код указанный на каптче и нажмите ОК". Вот тут большая проблема появляется, ибо программа разворачиваться не желает, а не открыв ее, каптчи не видно, приходится нажимать "Cancel" и соответственно все насмарку. ![]() Можно ли это как-то исправить? ---
Non progredi est regredi http://www.informnn.ru Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
vbl написал: Но, сходу появился один нюансик. Если свернуть окно программы, как наверное многие обычно делают, то при срабатывании данной функции, как и положено, вылетает запланированная табличка "Введите код указанный на каптче и нажмите ОК". Вот тут большая проблема появляется, ибо программа разворачиваться не желает, а не открыв ее, каптчи не видно, приходится нажимать "Cancel" и соответственно все насмарку. Спасибо, исправил, подкачайтесь. |
vbl
Модератор форума
Откуда: Нижний Новгород Всего сообщений: 170 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 10 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 3 августа 2010 9:42 Сообщение отредактировано: 3 августа 2010 9:42 Alexei Mylnikov написал: исправил, подкачайтесь. Спасибо, все отлично работает. Вот теперь реально выкачивается 1000 страниц Я-н-д-е-к-с-а ![]() ---
Non progredi est regredi http://www.informnn.ru Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 3 августа 2010 12:58 Сообщение отредактировано: 3 августа 2010 12:59
Для: Alexei Mylnikov, спасибо большое! ![]() |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Ура, работает! Алексей, спасибо! |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Начиная с версии 6.4.4.3, можно задавать дополнительно следующие операторы: ^^Пауза.Yandex=3 ^^Пауза.Google=4 ^^Пауза.Yahoo=5 Это приведет к тому, что для любого поиска в Яндексе, Гугле, Яху будут возникать паузы, соответственно, в 3, 4, 5 секунд между обращениями к страницам поисковиков. Максимальная пауза увеличена до 60 секунд. Эти операторы сильнее оператора: ^^Пауза=6 Который, с свою очередь, сильнее паузы, задаваемой в "Настройки - Параметры - Интернет - Антиробот: пауза между открытиями страниц поисковиков (от 0 до 60 сек.)" |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Alexei Mylnikov написал: А вот это уже совсем замечательно! Начиная с версии 6.4.4.3, можно задавать дополнительно следующие операторы: ![]() Еще раз спасибо!!! |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5563 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 5 августа 2010 21:28 Сообщение отредактировано: 5 августа 2010 21:31
Вот тут у меня в комментариях мысль высказана на счет "сервиса для хороших роботов" Яндекса. Какие по этому поводу есть мысли? yushchuk.livejournal.com/245943.html?nc=4 lukamud А своего "ужа" c этим "ежом" они скрещивать не пробовали? yushchuk А там же, насколько я помню, надо постоянный IP-адрес иметь. С этим и затык. По количеству запросов мы обычно укладываемся, но по адресу - проблема. lukamud IP должен быть постоянным во время осуществления запросов. А при его изменении пользователь должен ввести новый в соответствующей форме. Если разработчики согласятся показывать контекстную рекламу в программе, то ограничение в 1000 запросов в сутки снимается. Мне кажется, что при этом Яндекс выплачивает какую-то долю и владельцу. Посоветуйте разработчикам пообщаться с Яндексом, там весьма интересные и адекватные ребята работают. yushchuk Спасибо. Я отправлю ссылку Алексею Мыльникову. ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
CI-KP написал: Вот тут у меня в комментариях мысль высказана на счет "сервиса для хороших роботов" Яндекса. Какие по этому поводу есть мысли? Спасибо. Сервис интересный. Взаимодействие с готовыми приложениями, написанными на нем, вполне возможны. |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5563 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
Alexei Mylnikov написал: Взаимодействие с готовыми приложениями, написанными на нем, вполне возможны. Это с какими, например? ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
CI-KP написал:
Например, с Нигмoй, поиск в которой реализован с использованием Яндекс.XML. Этот метапоисковик уже подключен в одном из сценариев САйтСпутник(а). |
<<Назад Вперед>> | Страницы: 1 2 3 4 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » Сбор и хранение информации при помощи программы SiteSputnik |
![]() |
Самые активные 20 тем |
![]() |