Поиск на тематических сайтах и форумах

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Поиск на тематических сайтах и форумах
RSS

Поиск на тематических сайтах и форумах

<<Назад  Вперед>>Страницы: 1 2 3 4
Печать
 
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Постановка проблемы. :blush: Помимо собственно поисковых систем типа Гугла, Яндекса и т.д. есть периодически потребность поискать информацию на разных форумах или тематических сайтах (например, поиска работы), которые поисковики не всегда быстро просматривают.
Например, нужно оперативно отследить, не появилась ли на сайте купли-продажи объявление с интересующим телефоном. :cool:
С помощью поисковиков такое объявление заметишь только через несколько дней, а то и больше... :wonder1:

В СайтСпутнике есть мастер подключения новых поисковиков.
Можно на примере job.ru или чего-то еще популярного показать, как добавить поиск по нему в список поисковиков ? :capitulati:

Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Посмотрел я на инструкцию по добавлению новых поисковиков на ab.vlink.ru/FFF/Help/SSInstr/SSMaster.htm :crazy:
и решил попробовать сам :blush:
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Начнем с onlinejobs.ru :blush:


1. Пытаемся делать, как написано в инструкции Мыльникова - идем на форму, вбиваем слово "сайт".
2. Копируем URL из браузера в СайтСпутник (я считаю, что вы уже открыли экранную форму для добавления нового поисковика - "Интернет/Мастер подключения новых поисковиков"), нажимаем на "Открыть"
3. В СайтСпутник открывается в правой части окна страница с резюме соискателей, найденными по ключевому слову "cайт"
4. Переходим на вторую закладку в форме подключения нового поисковика и нажимаем "Автоматически" в разделе "Распознать признак начала пункта" (п.1 на скриншоте), видим, что что-то появилось в окне, проверяем правильность - нажимаем "№" (п.2 на скриншоте). Видим, что обнаружено 10 мест с такими ссылками, что соответствует реальному количеству ссылок на странице (резюме выдаются по 10 - две страницы, так как обнаружено 19 резюме). Потом аналогично нажимаем "Автоматически" в другом разделе (п.3) и проверяем, что ссылка найдена правильно - нажимаем "№" (п.4)


Прикрепленный файл (c9.jpg, 269778 байт, скачан: 838 раз)
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
5. Переходим на третью закладку и проверяем работоспособность сделанных на предыдущем шаге настроек - делаем тестовый поисковый запрос (я выбрал другое слово "программист").

Сначала проверяем, сколько на самом деле должно быть результатов - 61 (см. скриншот)

Прикрепленный файл (c10.jpg, 257803 байт, скачан: 819 раз)
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
6. Потом увеличиваем глубину поиска до 100 страниц. Понятно, что в таких системах результатов могут быть десятки и 40 результатов (4 страницы по 10 результатов) будет маловато :smile3:

7. Запускаем тестирование поиска по тому же слову "программист" в SS и видим, что число найденных ссылок не совпадает.
Причина становится понятна после анализа сообщения в правом нижнем углу - неправильно определен признак следующей страницы.

Прикрепленный файл (c11.jpg, 245682 байт, скачан: 834 раза)
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
8. Значит надо вернуться к первой закладке, снова нажать на кнопку "Открыть", дождаться загрузки страницы с результатами поиска (я не дождался и остановил вручную, нажав на красный шарик в нижнем правом углу) и перейти на вторую закладку.
Что-то кнопка "Автоматически " не работает. Пробуем делать по подсказке. Для этого:
1) выделить справа на странице мышкой одно резюме из списка
2) нажать кнопку "По подсказке"
3) увидеть, что в левом поле появились теги
4) проверить, что по такому признаку нашлось столько ссылок, сколько должно быть на странице (в данном случае - 10)

Прикрепленный файл (c12.jpg, 247555 байт, скачан: 833 раза)
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
А вот с признаком следующей страницы - проблемы, так как ни автоматическое обнаружение ни обнаружение с помощью подсказки не позволяет найти правильный признак. С помощью этих способов находится только одна ссылка (как правило, на вторую или последнюю страницу результатов), но нам-то нужно получить ссылки и на другие страницы результатов
Для случая со словом "программист" их будет семь...

Попробуем ручной поиск - нажимаем кнопку "Вручную". в Notepad открывается исходный текст веб-страницы. С помощью поиска строки "Страница:" (она визуально на той же строке страницы, что и ссылки на другие страницы результатов) находим теги со ссылками.

Прикрепленный файл (c13.jpg, 394976 байт, скачан: 833 раза)
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Пробуем другой вариант


Прикрепленный файл (c14.jpg, 220949 байт, скачан: 829 раз)
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Но попытка проверить поиск приводит к его зацикливанию (снова и снова читаются одни и та же страницы результатов)

Увы, но и этот сайт нельзя подключить к SS, так как он рассчитан на то, что в списке ссылок присутствует в той или иной форме ссылка на следующую страницу результатов. А здесь есть только ссылки на первую и последнюю страницу и ссылки на конкретные страницы результатов :goodbuy:
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Следующий сайт - www.rabota.ru

Вроде здесь есть ссылка на следующую страницу с результатами - посмотрим... :blush:

С учетом печального опыта используем вариант по подсказке и там и там (стрелками показано, что я выделял в качестве образца).

Если с первого нажатия на кнопку нужный текст не появляется, жмите на нее еще раз (словом, пока не появится) :yes:

и, конечно, проверьте корректность признаков. посмотрев найденное число ссылок с ними :binocular:

Прикрепленный файл (c15.jpg, 249639 байт, скачан: 866 раз)
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Теперь проверяем правильность поиска с помощью слова "программист" (найдено 513 результатов). Но учтите число страниц, которые вы указали в описании поисковика (их всего 4)
SS честно обошел все страницы но нашел всего 4 ссылки :wonder1:

Стало понятно, что без ручного варианта не обойтись. Посмотрев собранные 4 ссылки и исходный текст страницы, я понял причину ошибки SS - он хватал первую попавшуюся ссылку в тексте страницы после сигнатуры. А надо было брать вторую ссылку :wink:
Поэтому я несколько изменил сигнатуру

Прикрепленный файл (c16.jpg, 433146 байт, скачан: 691 раз)
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Вот что получилось. Забыл в предыдущем сообщении сказать, что в таких случаях надо в браузере смотреть правильную ссылку на чье-то резюме, открывать исходный текст страницы и выбирать в качестве признака что-то непосредственно перед этой ссылкой (и проверять в SS, что находится нужное количество ссылок - в данном случае 20)

Прикрепленный файл (c17.jpg, 237253 байт, скачан: 789 раз)
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Дальнейшие шаги не привожу - скажу только, что для 4 страниц по умолчанию было найдено 60 ссылок :good:

Наконец, хоть что-то удалось подключить к SS :beer2:
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Следующий сайт - www.jobster.ru/ Тут только вакансии, но давайте посмотрим и его.
Задаю в качестве тестового слово "сайт" - получается 41 вакансия (5 страницы). ссылка на следующую страницу тоже присутствует :yahoo:

Не дожидаюсь завершения загрузки и жму красный шарик в нижнем правом углу.
Автоматически режим успеха не принес, поэтому в обоих случаях я выделял нужный текст (стрелки с номерами 1 и 2 соответственно) и щелкал по "По подсказке". Проверка с помощью "№" показала, что вроде бы все найдено правильно.

Прикрепленный файл (c18.jpg, 240261 байт, скачан: 821 раз)
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Проверка "на лету" с помощью слова "программист" (должно выдать 49 вакансий) показала, что SS нашел правильное число результатов.

Дальнейшие шаги не описываю, так как они стандартные
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Следующий сервер - www.rjb.ru/
Выбираем в качестве тестового слова - "я".

Здесь пришлось все делать вручную - результаты на скриншоте.
Но на самом деле ничего сложного - нужно выбрать какую-нибудь ссылку на само резюме и скопировать ее в браузере.
Потом в исходном тексте страницы поискать ее как строку (полностью или частично - тут я выбрал код резюме и искал только его), а потом взять тег, непосредственно перед тегом ссылки. Ошиблись (если находится не то число ссылок с помощью "№"), можно немного поиграться :cool:

Прикрепленный файл (c19.jpg, 312477 байт, скачан: 798 раз)
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Следующий - superjob.ru

Тестовое слово - "сайт". На странице с результатами присутствует ссылка "Следующая". :yahoo:

Чтобы не рисковать, делаю все по подсказке - см. скриншот.

Прикрепленный файл (c20.jpg, 234565 байт, скачан: 819 раз)
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Последний сайт - www.job.ru/

Тестовое слово - "сайт" (нашлось 531 вакансия)

Снова делаю все по подсказке. Обратите внимание на то, что выделяется непосредственно то, что обведено кругом, так как попытка выделить всю строку привела к ошибочному признаку.
А в качестве признака следующей страницы используется символ >. Так как ссылки на другие страницы есть и вверху и внизу, то он обнаруживается два раза (все нормально).

Прикрепленный файл (c21.jpg, 236482 байт, скачан: 816 раз)
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
В заключение хочу сформулировать общие правила, выработанные в ходе описанных выше экспериментов :tuktuk:

1) при заполнении полей поисковой формы на тематическом сайте сразу указывайте нужные вам параметры (регион, диапазон дат для поиска и т.д.), так как URL, который потом будет использовать SS, будет сформирован на ее основе.
2) при возникновении проблем с тестовыми русскими словами пробуйте английские
3) всегда выделяйте признак следующей страницы либо по подсказке либо вручную
4) проверяйте правильность полученных признаков с помощью кнопки "№"
5) при задании параметров сценария (на третьей вкладке) выбирайте нужное число страниц (а не 4 по умолчанию)

Вот, пожалуй и все пока :hi:
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Коллеги, а ни кто случаем не подключал этот ресурс _ttp://hh.ru/ ?

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
А не получится :wink:
У него нет ссылки для следующей страницы -а прямые ссылки на 2,3,4 и т.д. страницы
Так что максимум 2-3 страницы схватит :wonder1:

Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
а-а-а...... понятно.
Спасибо!

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Ну дык модель нужна другая (а точнее две модели - с указанием ссылки на следующую страницу и с указанием номеров страниц выдачи)
И ведь поисковых систем с указанием только номеров страниц много... :pozdravlyaj
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Иоанн написал:
[q]
Коллеги, а ни кто случаем не подключал этот ресурс _ttp://hh.ru/ ?
[/q]

У меня в Волгограде подключилось без проблем.

Адрес 1-ой страницы - rostov.hh.ru/applicant/searchvacancyresult.xml?text=%D1%81%D0%B0%D0%B9%D1%82&professionalAreaId=0&desireableCompensation=&compensationCurrencyCode=RUR

Признак начала страницы: <DIV class=b-vacancy-list-name>

Признак следующей страницы: >2</A>

Подключал, используя слово - сайт

В Москве и других городах в Адресе 1-ой страницы, видимо будет не rostov, а свое значение. Поэтому сделайте так. Откройте hh.ru в браузере IE или другом, введите слово сайт и нажмите кнопку "Найти работу",
скопируйте из адресной строки полученную ссылку (она в Вашем регионе будет отличаться от приведенной выше), откройте СайтСпутник, в нем Мастер, в Адрес 1-ой страницы вставьте скопированную ссылку, в Признак начала страницы и в Признак следующей страницы указанные выше значения и выполните действия на вкладках 3 и 4 Мастера.

Web-Alexander
Новичок

Всего сообщений: 2
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
9 мар. 2011
Народ, может это какая то недароботка, может мои руки кривоваты, но у меня совем не получается подключить форумы, а именно (forum.searchengines.ru, mastertalk.ru, maultalk.com) , не получается настроить адекватную выдачу. Другие сайты без проблем, а вот с форумами беда. :reful:
Может кто сталкивался с такой проблемой?
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

Web-Alexander написал:
[q]
Народ, может это какая то недароботка, может мои руки кривоваты, но у меня совем не получается подключить форумы, а именно (forum.searchengines.ru, mastertalk.ru, maultalk.com) , не получается настроить адекватную выдачу. Другие сайты без проблем, а вот с форумами беда. :reful:
Может кто сталкивался с такой проблемой?
[/q]

А вы как их пробуете "подключать"? Через встроенный поисковик форума? Или через новостной поток форума?

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Web-Alexander
Новичок

Всего сообщений: 2
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
9 мар. 2011
Пробовал подключать через "мастер подключения новых поисковиков" Версия моей программы - FileForFiles & SiteSputnik v 6.5.4.3
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Видимо я не совсем корректно задал вопрос - меня интересует какую из возможностей исследуемого форума вы задействуете для изучения, а не СайтСпутника? Встроенный поисковик форума или новостной поток форума? Или можно начать "от печки" - зачем вам эти форумы?

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Web-Alexander написал:
[q]
не получается подключить форумы, а именно (forum.searchengines.ru, mastertalk.ru, maultalk.com) , не получается настроить адекватную выдачу. Другие сайты без проблем, а вот с форумами беда.
Может кто сталкивался с такой проблемой?
[/q]

В прикрепленном файле подключение RSS-потоков с указанных в цитате трёх источников. Использовалась версия 7.1.5.

Прикрепленный файл (Сценарий~SEO-RSS.txt, 1088 байт, скачан: 543 раза)
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
В прикрепленном файле подключен поиск по форумам (а не RSS-потоки как в предыдущем топике) для указанных выше трех сайтов (для первого надо авторизоваться в IE).

В них применена пока ещё недекларированная и недобавленная в Мастер возможность подключения источников, в которых для передачи данных применяется POST-метод.
Поэтому Web-Alexander и не смог подключить поиски по этим форумам.

Сам факт реализации подключения подобных источников позволит довести программу СайтСпутник до состоятия: "можно подключить практически всё", а не около 80% источников, как это происходит сейчас.
Доработка Мастера для нового метода будет сделана в ближайшее время.

Прикрепленный файл (Сценарий~SEO-%, 1919 байт, скачан: 473 раза)
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

Алексей Мыльников написал:
[q]
В них применена ... возможность подключения источников, в которых для передачи данных применяется POST-метод. Сам факт реализации подключения подобных источников позволит довести программу СайтСпутник до состоятия: "можно подключить практически всё", а не около 80% источников, как это происходит сейчас.
[/q]
Ждём с нетерпением, Алексей Борисович! Очень нужная функция! :good:
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Пока можно попробовать на версии 7.1.5.1 выполнить сценарий из прикрепленного файла.

В нем поиски по различным ресурсам, а именно:

nalog.ru - ФНС
rnp-gz.fas.gov.ru - ФАС (недобросовестные поставщики)
forum.rufront.ru - форум ОГФ
forum.vlz.ru - Волжский форум
ru.euronews.net - EURONEWS
ras.arbitr.ru - Арбитражный суд (поиск по документам)
kad.arbitr.ru - Арбитражный суд (поиск по делам)
arbitr.ru/search - Арбитражный суд (ещё поиск по документам)
r-techno.com/rtechno/online-services/webinsight/ - поисковый сервис Web Insight
advertology.ru - сайт наука о рекламе
scan-interfax.ru - интерфакс

Прикрепленный файл (Сценарий~ПостТест.txt, 4387 байт, скачан: 543 раза)
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Надо полагать, в дальнейшем в программе можно будет реализовать поиск одновременно по нескольким полям? Например, на том же Арбитраже - по участнику дела, по номеру дела и т.д. :smile:
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Поиск по "Арб-жКартотека" выдает ошибку:
Сообщение от SiteSputnik - совпадение URL cледующей и предыдущей страниц.
URL="http://kad.arbitr.ru/#"
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Это не ошибка, а сообщение о том, что запрос прошел на всю глубину: далее страниц с информацией нет. Издержки автоматизации. Вы этот же запрос выполните из браузера и посмотрите что будет найдено.

<<Назад  Вперед>>Страницы: 1 2 3 4
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Поиск на тематических сайтах и форумах
RSS

Последние RSS
Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей

Самые активные 20 тем RSS