Советы по разработке шаблона тонкой настройки

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Форум программы для мониторинга Интернета - Аваланч »   Советы по разработке шаблона тонкой настройки
RSS

Советы по разработке шаблона тонкой настройки

<<Назад  Вперед>>Страницы: 1 2 3 4 5 6
Печать
 
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
тут на картинке показано, почему выбрана вторая часть шаблона.
Я посмотрел сначала по тексту (не по исходному), где заканчивается новость что везде идет фраза "все цитаты сюжета" и в исходном тексте посмотрел теги в ее окрестностях. Я выбрал этот тег - длинный, нигде больше не встречается.
Но можно было выбрать и другие - например, <a class="quote-link"


Прикрепленный файл (c26.jpg, 290170 байт, скачан: 267 раз)
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Ну и напоследок сегодня сайт www.sсandaly.ru

Его формат простой - шаблон ссылки на новость имеет вид <a href=(url)><h2 class=rightheadstyle>(title)</h2></a>
а шаблон новости - <h2 class=rightheadstyle>(text)<!-- RLE code START -->
kyraless
Новичок (писатель)

Всего сообщений: 20
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
29 июля 2009
Уважаемый Vinni, не затруднит ли Вас разобрать сайт "Из рук в руки"?

Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Попробую.
Итак - сайт _ttp://www.irr.ru/
У него есть расширенный поиск, в котором можно задать временной интервал появления объявлений.
Выбираю - "за сегодня". Вижу, что параметры поиска передаются прямо в URL и в качестве ссылки на сайт в Аваланче нужно указывать _ttp://irr.ru/searchads/search/currency=RUR/date_create=today/

В качестве шаблона получился такой
<div class="txt-tb">(...)<a href="(url)">(title)</a>

но дело в том, что выдача результатов - многостраничная, и спайдер возьмет только первую страницу :wonder1:

Но спайдер не скачивает ни одного файла. Оказывается, что сайт пытается аутентифицировать пользователя и перебрасывает его через другой сайт по HTTPS. Прокси у спайдера работает только для HTTP, а HTTPS-запросы посылаются напрямую.
Так что с моей корпоративной проксей получить доступ к такому сайту не получится.






kyraless
Новичок (писатель)

Всего сообщений: 20
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
29 июля 2009
Vinni большое СПАСИБО. С шаблоном я оказывается почти сам справился. А вот причину - прокси - я и не помыслил.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5730
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Vinni написал:
[q]
Оказывается, что сайт пытается аутентифицировать пользователя
[/q]

А что именно он пытается так узнать?

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Да просто понять кто это смотрит объявления (куку назначает)
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5730
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Vinni написал:
[q]

куку назначает
[/q]

Понял. Спасибо.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
dan76
Новичок (писатель)

Всего сообщений: 10
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
14 июля 2010
Уважаемый Vinni а не могли бы Вы помочь с сайтами Одноклассники и В контакте?
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Так там требуется аутентификация, а Аваланч, насколько я знаю, не поддерживает такие сайты :wonder1:
Надо свой бот для мониторинга писать :wink:
<<Назад  Вперед>>Страницы: 1 2 3 4 5 6
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Форум программы для мониторинга Интернета - Аваланч »   Советы по разработке шаблона тонкой настройки
RSS

Последние RSS
Open Source Intelligence (OSINT) Tools and Resources Handbook
Top tips on gathering information about companies by using free online sources
Новое на блоге HRразведка
Безопасность данных в MS Access
Слово как улика
20 Recon and Intel Gathering Tools used by InfoSec Professionals
What’s Changed?
10 альтернативных поисковиков
Ситуационный центр главы Республики Коми
Развёртывание ситуационных центров на базе технологии Avalanche
Как принимать сложные решения. Советы бывшего оперативника ЦРУ.
Открытая информация о "Новичке" из сети интернет.
Ген. директор "ОЗХО" Ахмет Узюмдж о "Новичке" и хим. атаке в Сирии
Онлайн-сервисы для Twitter
Коллекция для Twitter
Приложение Opera VPN закрывается
О работе разведки
Deep web и 11 поисковиков по нему
Об изначальной "лживости" любых документов
Обновление на блоге HRазведка

Самые активные 20 тем RSS
Стандартные источники информации в СайтСпутнике
Слово как улика
Open Source Intelligence (OSINT) Tools and Resources Handbook