Форум Сообщества Практиков Конкурентной разведки (СПКР) » Библиотека источников и иструменты её создания и ведения » Мастер подключения поисковиков, сайтов и RSS-потоков |
Вперед>> | Страницы: 1 2 3 4 5 6 * 7 8 9 | Печать |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Алексей Мыльников написал: в качестве признака следующей страницы указывайте: Можно ли ограничить количество прокручиваемых страниц? Например, нужно прокрутить вниз только 2 страницы, или только 10, или прокрутить все? |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
tungus1973 написал: Можно ли ограничить количество прокручиваемых страниц? Например, нужно прокрутить вниз только 2 страницы, или только 10, или прокрутить все? Да, можно. В Мастере есть параметр "Максимальная глубина поиска в страницах". Это и есть количество прокруток страницы вниз. |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Спасибо! |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Выше в сообщении #55 прикреплен поиск в Твиттере по "Тор". Есть ещё (спасибо Игорю Нежданову за подсказку) поиск по "All". Он прикреплен к данному сообщению и доступен из версии 8.2.1.3. Прикрепленный файл (Поисковик~%D, 571 байт, скачан: 595 раз) |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Переход к следующей странице с помощью прокрутки, например, в Твиттере рассмотрен в сообщении #55 этой темы. Есть ещё источники, в которых чтобы "углубиться" (перейти к следуюшим сниппетам или страницам) нужно кликнуть на кнопку или ссылку. Примеры таких источников: Facebook и поиск по Новостям Mail.ru. В версии 8.4.1.9 от 12.03.2013 для того, чтобы обеспечить "углубление" поиска в подобных случаях, в поле "Признак следующей страницы" (в Мастере при подключении или живьем в "Настройке Поиска") следует указать название кнопки и справа к нему дописать >Клик<. Соответственно, для Facebook и Новости.Мэйл.Ру признаки будут таковы: Показать больше результатов>Клик< и Показать еще...>Клик< Оба поиска прикреплены к сообщению в упакованном файле. Прикрепленный файл (Поиск FB и НМР, 1245 байт, скачан: 413 раз) |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 12 марта 2013 14:20 Сообщение отредактировано: 12 марта 2013 14:21
Это очень хорошее дополнение! Алексей Мыльников написал: На практике мне приходилось встречаться также с кнопками-картинками и кнопками-ссылками. Можно ли при помощи нового функционала СайтСпутника работать и с ними? ...следует указать название кнопки и справа к нему дописать >Клик<. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
100% уверенности нет, "захват" веб-территории процесс не имеющий границ. Если что не получится присылайте или выкладывайте. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 12 марта 2013 16:28 Сообщение отредактировано: 12 марта 2013 16:35
Бывают случаи, когда мы хотим снять информации с источника за последний промежуток времени, например 3 дня. Источник дает такую возможность, но в URL явно прописывает даты, а именно, если мы сегодня подключаем источник, то в его URL пропишутся даты: 10.03.2013 и 12.03.2013. Примеры. 1. Ставим на WebSpider=1 страницу из Портала госзакупок. Например, эту: _http://zakupki.gov.ru/pgz/public/action/search/extended/rss?c0=true&a=true&c=AP&c=CW&d=%D0%BF%D0%BE%D0%B6%D0%B0%D1%80&_e=on&_f=on&_g=on&h=&j=true&_j=on&k=&l=&m=&n=&o=&i=&p=&q=10.03.2013&r=12.03.2013&s=&b8=true&t=&customer.organizationId=&u=5277377&v=5277383&_w=on&x=&y=&_z=on&a0=&sellerOrganizationId=&b7=false&f_MP=c&f_NU=c&f_OLIMPSTROI=c&b6=true&f_UG=c&f_IN=c&f_RM=c&b9=true&a1=&a2=&a4=&a5=&a6=&a7=&b5=&a8=&_a9=on&lotView=false&b0=&b1=true&_b1=on&_b2=on&_b3=on&_b4=on&ext=e19dcce83bf39ff961edda63513ebdd2 Она отслеживает появление на _http://zakupki.gov.ru/ новых аукционов (тендеров) в Свердловской области на тему "Пожары" за последние 3 дня. Красным выцвечены фиксированные даты, которые сайт прописал на наш запрос сегодня. 2. Подключаем поиск в блогах Google за последние три дня по запросу. URL имеет вид: _https://www.google.ru/search?q=2***&hl=ru&newwindow=1&biw=1282&bih=1261&sa=X&ei=BybUUPbUHsX-4QTL84HACw&ved=0CCUQpwUoBw&source=lnt&tbs=cdr%3A1%2Ccd_min%3A10.03.2013%2Ccd_max%3A12.03.2013&tbm=blg Красным выцвечены фиксированные даты, которые возвращает нам Google. В обоих случаях, если мы завтра или через неколько дней задействум в Проекте эти источники, то получим сведения не за 3 последних дня, а за период от 10.03.2013 до 12.03.2013. В настоящий момент можно для достижения требуемой цели (получения сведений за N последних дней в автоматическом режиме) использовать внешнюю функцию date(Х). в её аргументе указывается Х - число. Функция вернет и поставит вместо себя дату со сдвигом на Х дней. Например, если мы напишем Date(0), то сегодня это будет 12.03.2013, а завтра 13.03.2013, если Date(-3), то сегодня это будет 09.03.2013, а завтра 10.03.2013. Соответственно, нужные нам URL будут иметь вид: _http://zakupki.gov.ru/pgz/public/action/search/extended/rss?c0=true&a=true&c=AP&c=CW&d=%D0%BF%D0%BE%D0%B6%D0%B0%D1%80&_e=on&_f=on&_g=on&h=&j=true&_j=on&k=&l=&m=&n=&o=&i=&p=&q=fun(Date,-2)&r=fun(Date,0)&s=&b8=true&t=&customer.organizationId=&u=5277377&v=5277383&_w=on&x=&y=&_z=on&a0=&sellerOrganizationId=&b7=false&f_MP=c&f_NU=c&f_OLIMPSTROI=c&b6=true&f_UG=c&f_IN=c&f_RM=c&b9=true&a1=&a2=&a4=&a5=&a6=&a7=&b5=&a8=&_a9=on&lotView=false&b0=&b1=true&_b1=on&_b2=on&_b3=on&_b4=on&ext=e19dcce83bf39ff961edda63513ebdd2 _https://www.google.ru/search?q=2***&hl=ru&newwindow=1&biw=1282&bih=1261&sa=X&ei=BybUUPbUHsX-4QTL84HACw&ved=0CCUQpwUoBw&source=lnt&tbs=cdr%3A1%2Ccd_min%3Afun(Date,-2)%2Ccd_max%3Afun(Date,0)&tbm=blg Механизм работы следующий. Увидев в URL-ке из "Настройка поиска" или в любом месте тела Пакета эту функцию, программа SiteSputnik вызовет её, а функция сделает свою работу - заменит себя на нужную дату. Чтобы применить функцию, её следует поместить в папку Exe. Взять её можно отсюда. Поиск по блогам Google за последние 3 дня прикреплён. Прикрепленный файл (Поисковик~GOOGLE~Google - Блоги , 718 байт, скачан: 400 раз) |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Некоторые RSS- потоки при попытке подключения "подвисают", в диспетчере задач видно, как СайтСпутник забирает все больше памяти и 50% мощности процессора. Операционная система Win XP SP3. После долгого ожидания приходится аварийно завершать работу программы. Вот примеры: _ttp://www.chelgumr.ru/purchase.do?category=0&cache=1 _ttp://zakupki.rosatom.ru/Web.aspx?node=currentorders Как с этим бороться? |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
petryashov написал: _ttp://www.chelgumr.ru/purchase.do?category=0&cache=1 Если Вы имели ввиду эти RSS: _http://www.chelgumr.ru/rss/0 _http://zakupki.rosatom.ru/?node=currentorders&mode=order&action=rssfeed&ostate=&ptype=&cust= то они содержат не 10-25 сниппетов как обычные RSS, а 1000 и на моем компе (16 гб оперативки и Win 7) обрабатывались долго (первый минуты 3-4, второй минут 15), но нормально завершились. Посмотрю на предмет оптимизации, но не в срочном режиме, потому что эти RSS подключаются и работают. Здесь пока придется подождать, пока окончится обработка. |
Вперед>> | Страницы: 1 2 3 4 5 6 * 7 8 9 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Библиотека источников и иструменты её создания и ведения » Мастер подключения поисковиков, сайтов и RSS-потоков |
Самые активные 20 тем | |