Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » Поиск на тематических сайтах и форумах |
<<Назад Вперед>> | Страницы: 1 2 3 4 | Печать |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
Постановка проблемы. Помимо собственно поисковых систем типа Гугла, Яндекса и т.д. есть периодически потребность поискать информацию на разных форумах или тематических сайтах (например, поиска работы), которые поисковики не всегда быстро просматривают. Например, нужно оперативно отследить, не появилась ли на сайте купли-продажи объявление с интересующим телефоном. С помощью поисковиков такое объявление заметишь только через несколько дней, а то и больше... В СайтСпутнике есть мастер подключения новых поисковиков. Можно на примере job.ru или чего-то еще популярного показать, как добавить поиск по нему в список поисковиков ? |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
Посмотрел я на инструкцию по добавлению новых поисковиков на ab.vlink.ru/FFF/Help/SSInstr/SSMaster.htm и решил попробовать сам |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
Начнем с onlinejobs.ru 1. Пытаемся делать, как написано в инструкции Мыльникова - идем на форму, вбиваем слово "сайт". 2. Копируем URL из браузера в СайтСпутник (я считаю, что вы уже открыли экранную форму для добавления нового поисковика - "Интернет/Мастер подключения новых поисковиков"), нажимаем на "Открыть" 3. В СайтСпутник открывается в правой части окна страница с резюме соискателей, найденными по ключевому слову "cайт" 4. Переходим на вторую закладку в форме подключения нового поисковика и нажимаем "Автоматически" в разделе "Распознать признак начала пункта" (п.1 на скриншоте), видим, что что-то появилось в окне, проверяем правильность - нажимаем "№" (п.2 на скриншоте). Видим, что обнаружено 10 мест с такими ссылками, что соответствует реальному количеству ссылок на странице (резюме выдаются по 10 - две страницы, так как обнаружено 19 резюме). Потом аналогично нажимаем "Автоматически" в другом разделе (п.3) и проверяем, что ссылка найдена правильно - нажимаем "№" (п.4) |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
5. Переходим на третью закладку и проверяем работоспособность сделанных на предыдущем шаге настроек - делаем тестовый поисковый запрос (я выбрал другое слово "программист"). Сначала проверяем, сколько на самом деле должно быть результатов - 61 (см. скриншот) |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
6. Потом увеличиваем глубину поиска до 100 страниц. Понятно, что в таких системах результатов могут быть десятки и 40 результатов (4 страницы по 10 результатов) будет маловато :smile3: 7. Запускаем тестирование поиска по тому же слову "программист" в SS и видим, что число найденных ссылок не совпадает. Причина становится понятна после анализа сообщения в правом нижнем углу - неправильно определен признак следующей страницы. |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
8. Значит надо вернуться к первой закладке, снова нажать на кнопку "Открыть", дождаться загрузки страницы с результатами поиска (я не дождался и остановил вручную, нажав на красный шарик в нижнем правом углу) и перейти на вторую закладку. Что-то кнопка "Автоматически " не работает. Пробуем делать по подсказке. Для этого: 1) выделить справа на странице мышкой одно резюме из списка 2) нажать кнопку "По подсказке" 3) увидеть, что в левом поле появились теги 4) проверить, что по такому признаку нашлось столько ссылок, сколько должно быть на странице (в данном случае - 10) |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
А вот с признаком следующей страницы - проблемы, так как ни автоматическое обнаружение ни обнаружение с помощью подсказки не позволяет найти правильный признак. С помощью этих способов находится только одна ссылка (как правило, на вторую или последнюю страницу результатов), но нам-то нужно получить ссылки и на другие страницы результатов Для случая со словом "программист" их будет семь... Попробуем ручной поиск - нажимаем кнопку "Вручную". в Notepad открывается исходный текст веб-страницы. С помощью поиска строки "Страница:" (она визуально на той же строке страницы, что и ссылки на другие страницы результатов) находим теги со ссылками. |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
Пробуем другой вариант |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
Но попытка проверить поиск приводит к его зацикливанию (снова и снова читаются одни и та же страницы результатов) Увы, но и этот сайт нельзя подключить к SS, так как он рассчитан на то, что в списке ссылок присутствует в той или иной форме ссылка на следующую страницу результатов. А здесь есть только ссылки на первую и последнюю страницу и ссылки на конкретные страницы результатов |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
Следующий сайт - www.rabota.ru Вроде здесь есть ссылка на следующую страницу с результатами - посмотрим... С учетом печального опыта используем вариант по подсказке и там и там (стрелками показано, что я выделял в качестве образца). Если с первого нажатия на кнопку нужный текст не появляется, жмите на нее еще раз (словом, пока не появится) и, конечно, проверьте корректность признаков. посмотрев найденное число ссылок с ними |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
Теперь проверяем правильность поиска с помощью слова "программист" (найдено 513 результатов). Но учтите число страниц, которые вы указали в описании поисковика (их всего 4) SS честно обошел все страницы но нашел всего 4 ссылки Стало понятно, что без ручного варианта не обойтись. Посмотрев собранные 4 ссылки и исходный текст страницы, я понял причину ошибки SS - он хватал первую попавшуюся ссылку в тексте страницы после сигнатуры. А надо было брать вторую ссылку Поэтому я несколько изменил сигнатуру |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
Вот что получилось. Забыл в предыдущем сообщении сказать, что в таких случаях надо в браузере смотреть правильную ссылку на чье-то резюме, открывать исходный текст страницы и выбирать в качестве признака что-то непосредственно перед этой ссылкой (и проверять в SS, что находится нужное количество ссылок - в данном случае 20) |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
Дальнейшие шаги не привожу - скажу только, что для 4 страниц по умолчанию было найдено 60 ссылок Наконец, хоть что-то удалось подключить к SS |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
Следующий сайт - www.jobster.ru/ Тут только вакансии, но давайте посмотрим и его. Задаю в качестве тестового слово "сайт" - получается 41 вакансия (5 страницы). ссылка на следующую страницу тоже присутствует Не дожидаюсь завершения загрузки и жму красный шарик в нижнем правом углу. Автоматически режим успеха не принес, поэтому в обоих случаях я выделял нужный текст (стрелки с номерами 1 и 2 соответственно) и щелкал по "По подсказке". Проверка с помощью "№" показала, что вроде бы все найдено правильно. |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
Проверка "на лету" с помощью слова "программист" (должно выдать 49 вакансий) показала, что SS нашел правильное число результатов. Дальнейшие шаги не описываю, так как они стандартные |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
Следующий сервер - www.rjb.ru/ Выбираем в качестве тестового слова - "я". Здесь пришлось все делать вручную - результаты на скриншоте. Но на самом деле ничего сложного - нужно выбрать какую-нибудь ссылку на само резюме и скопировать ее в браузере. Потом в исходном тексте страницы поискать ее как строку (полностью или частично - тут я выбрал код резюме и искал только его), а потом взять тег, непосредственно перед тегом ссылки. Ошиблись (если находится не то число ссылок с помощью "№"), можно немного поиграться |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
Следующий - superjob.ru Тестовое слово - "сайт". На странице с результатами присутствует ссылка "Следующая". Чтобы не рисковать, делаю все по подсказке - см. скриншот. |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
Последний сайт - www.job.ru/ Тестовое слово - "сайт" (нашлось 531 вакансия) Снова делаю все по подсказке. Обратите внимание на то, что выделяется непосредственно то, что обведено кругом, так как попытка выделить всю строку привела к ошибочному признаку. А в качестве признака следующей страницы используется символ >. Так как ссылки на другие страницы есть и вверху и внизу, то он обнаруживается два раза (все нормально). |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
В заключение хочу сформулировать общие правила, выработанные в ходе описанных выше экспериментов 1) при заполнении полей поисковой формы на тематическом сайте сразу указывайте нужные вам параметры (регион, диапазон дат для поиска и т.д.), так как URL, который потом будет использовать SS, будет сформирован на ее основе. 2) при возникновении проблем с тестовыми русскими словами пробуйте английские 3) всегда выделяйте признак следующей страницы либо по подсказке либо вручную 4) проверяйте правильность полученных признаков с помощью кнопки "№" 5) при задании параметров сценария (на третьей вкладке) выбирайте нужное число страниц (а не 4 по умолчанию) Вот, пожалуй и все пока |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Коллеги, а ни кто случаем не подключал этот ресурс _ttp://hh.ru/ ? ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
А не получится У него нет ссылки для следующей страницы -а прямые ссылки на 2,3,4 и т.д. страницы Так что максимум 2-3 страницы схватит |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
а-а-а...... понятно. Спасибо! ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
Ну дык модель нужна другая (а точнее две модели - с указанием ссылки на следующую страницу и с указанием номеров страниц выдачи) И ведь поисковых систем с указанием только номеров страниц много... |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 28 мая 2010 18:30 Сообщение отредактировано: 28 мая 2010 18:32 Иоанн написал: Коллеги, а ни кто случаем не подключал этот ресурс _ttp://hh.ru/ ? У меня в Волгограде подключилось без проблем. Адрес 1-ой страницы - rostov.hh.ru/applicant/searchvacancyresult.xml?text=%D1%81%D0%B0%D0%B9%D1%82&professionalAreaId=0&desireableCompensation=&compensationCurrencyCode=RUR Признак начала страницы: <DIV class=b-vacancy-list-name> Признак следующей страницы: >2</A> Подключал, используя слово - сайт В Москве и других городах в Адресе 1-ой страницы, видимо будет не rostov, а свое значение. Поэтому сделайте так. Откройте hh.ru в браузере IE или другом, введите слово сайт и нажмите кнопку "Найти работу", скопируйте из адресной строки полученную ссылку (она в Вашем регионе будет отличаться от приведенной выше), откройте СайтСпутник, в нем Мастер, в Адрес 1-ой страницы вставьте скопированную ссылку, в Признак начала страницы и в Признак следующей страницы указанные выше значения и выполните действия на вкладках 3 и 4 Мастера. |
Web-Alexander |
Народ, может это какая то недароботка, может мои руки кривоваты, но у меня совем не получается подключить форумы, а именно (forum.searchengines.ru, mastertalk.ru, maultalk.com) , не получается настроить адекватную выдачу. Другие сайты без проблем, а вот с форумами беда. Может кто сталкивался с такой проблемой? |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Web-Alexander написал: Народ, может это какая то недароботка, может мои руки кривоваты, но у меня совем не получается подключить форумы, а именно (forum.searchengines.ru, mastertalk.ru, maultalk.com) , не получается настроить адекватную выдачу. Другие сайты без проблем, а вот с форумами беда. А вы как их пробуете "подключать"? Через встроенный поисковик форума? Или через новостной поток форума? ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
Web-Alexander |
Пробовал подключать через "мастер подключения новых поисковиков" Версия моей программы - FileForFiles & SiteSputnik v 6.5.4.3 |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Видимо я не совсем корректно задал вопрос - меня интересует какую из возможностей исследуемого форума вы задействуете для изучения, а не СайтСпутника? Встроенный поисковик форума или новостной поток форума? Или можно начать "от печки" - зачем вам эти форумы? ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 10 мая 2011 12:43 Сообщение отредактировано: 10 мая 2011 12:44 Web-Alexander написал: не получается подключить форумы, а именно (forum.searchengines.ru, mastertalk.ru, maultalk.com) , не получается настроить адекватную выдачу. Другие сайты без проблем, а вот с форумами беда. В прикрепленном файле подключение RSS-потоков с указанных в цитате трёх источников. Использовалась версия 7.1.5. Прикрепленный файл (Сценарий~SEO-RSS.txt, 1088 байт, скачан: 553 раза) |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
В прикрепленном файле подключен поиск по форумам (а не RSS-потоки как в предыдущем топике) для указанных выше трех сайтов (для первого надо авторизоваться в IE). В них применена пока ещё недекларированная и недобавленная в Мастер возможность подключения источников, в которых для передачи данных применяется POST-метод. Поэтому Web-Alexander и не смог подключить поиски по этим форумам. Сам факт реализации подключения подобных источников позволит довести программу СайтСпутник до состоятия: "можно подключить практически всё", а не около 80% источников, как это происходит сейчас. Доработка Мастера для нового метода будет сделана в ближайшее время. Прикрепленный файл (Сценарий~SEO-%, 1919 байт, скачан: 480 раз) |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Алексей Мыльников написал: Ждём с нетерпением, Алексей Борисович! Очень нужная функция! В них применена ... возможность подключения источников, в которых для передачи данных применяется POST-метод. Сам факт реализации подключения подобных источников позволит довести программу СайтСпутник до состоятия: "можно подключить практически всё", а не около 80% источников, как это происходит сейчас. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 13 мая 2011 13:33 Сообщение отредактировано: 20 мая 2011 8:29
Пока можно попробовать на версии 7.1.5.1 выполнить сценарий из прикрепленного файла. В нем поиски по различным ресурсам, а именно: nalog.ru - ФНС rnp-gz.fas.gov.ru - ФАС (недобросовестные поставщики) forum.rufront.ru - форум ОГФ forum.vlz.ru - Волжский форум ru.euronews.net - EURONEWS ras.arbitr.ru - Арбитражный суд (поиск по документам) kad.arbitr.ru - Арбитражный суд (поиск по делам) arbitr.ru/search - Арбитражный суд (ещё поиск по документам) r-techno.com/rtechno/online-services/webinsight/ - поисковый сервис Web Insight advertology.ru - сайт наука о рекламе scan-interfax.ru - интерфакс Прикрепленный файл (Сценарий~ПостТест.txt, 4387 байт, скачан: 551 раз) |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Надо полагать, в дальнейшем в программе можно будет реализовать поиск одновременно по нескольким полям? Например, на том же Арбитраже - по участнику дела, по номеру дела и т.д. |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 13 мая 2011 15:43 Сообщение отредактировано: 13 мая 2011 15:44
Поиск по "Арб-жКартотека" выдает ошибку: Сообщение от SiteSputnik - совпадение URL cледующей и предыдущей страниц. URL="http://kad.arbitr.ru/#" |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Это не ошибка, а сообщение о том, что запрос прошел на всю глубину: далее страниц с информацией нет. Издержки автоматизации. Вы этот же запрос выполните из браузера и посмотрите что будет найдено. |
<<Назад Вперед>> | Страницы: 1 2 3 4 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » Поиск на тематических сайтах и форумах |
Самые активные 20 тем | |