Советы по разработке шаблона тонкой настройки

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Форум программы для мониторинга Интернета - Аваланч »   Советы по разработке шаблона тонкой настройки
RSS

Советы по разработке шаблона тонкой настройки

<<Назад  Вперед>>Страницы: 1 2 3 4 5 6
Печать
 
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
и картинка , показывающая выбор строки после текста. Опять же работает простой принцип - смотрим первый попавшийся тег подлиннее и проверяем, что он больше нигде в тексте HTML-страницы не встречается

Прикрепленный файл (c8.jpg, 151359 байт, скачан: 280 раз)
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Теперь попробуем www.gazeta.ru. При первом взгляде на исходный текст главной страницы глаза разбегаются от обилия форматов.

Я решил сделать так - открыть текстовый редактор и копировать туда все строчки, где встречается URL новостей, чтобы легче было найти сходство и составить шаблон.
То, что получилось - на картинке.
Не забудьте проверить - последовательно найти все вхождения строки в исходном тексте и каждый раз проверять, что нет пропущенных новостей.

Я выбрал в качестве шаблона <h4 class="mb02"><a href="(url)" class="dg">(title)</a></h4>

Правда, пришлось пожертвовать заглавной новостью, но для нее можно сделать еще один отдельный шаблон

Прикрепленный файл (c22.jpg, 175737 байт, скачан: 254 раза)
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Теперь собственно новость - и тут возникают проблемы, так как получается несколько форматов :cactus5:

Для основного формата новостей подходит шаблон <div class="article">(text)<div class=mb20></div>
Ничего сложного, поэтому картинку не делаю.

Запускаем спайдер и обнаруживаем, что для нескольких новостей текст новости является пустым (можно перепроверить себя - зайти в поддиректорию html (или куда вы ее разместили при настройке) в аваланче, найти директорию, созданную только что (для последнего сеанса спайдера) и посмотреть файлы с расширением txt - часть из них имеет нулевую длину)

Определяем ссылки проблемных новостей
Смотрим, например, www.gazeta.ru/financial/2009/03/20/2961206.shtml
Ищем строку в шаблоне, предшестувющую тексту новости - она есть, а вот строки, которая была указана в шаблоне как ограничитель текста новости - поэтому текст и не нашелся.

Вернее, она есть, но слегка модифицированная - <div class="mb12"></div>
Изменился класс и вокруг него появились кавычки... :binocular:

Попытка сделать еще один шаблон, указав тот же шаблон для ссылки на новость, оказалась неудачной - видимо, если ссылка отобрана по первому шаблону, она уже не обрабатывается другими шаблонами...

Автоматическое выделение новости тоже не сработало.. :sad:
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Пробую использовать еще одну возможность языка шаблонов - (...)
Меняю шаблон текста новости на <div class="article">(text)<div class=(...)></div>

Часть новостей, которая не распознавалась, стала выделяться, но наоборот другие новости перестали находиться... :wonder1:
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Более удачным оказался другой вариант - был выбран тег чуть подальше от текста - шаблон получился таким <div class="article"
>(text)<div style="clear: both"></div>

Но все равно не все новости видны
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Анализ показывает, что новости в разделе "Комментарии" имеют немного другой шаблон текста новости ..
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Чтобы в первом приближении завершить работу с этим сайтом, давайте попробуем разобрать левый столбец с колонкой самых свежих новостей.

Анализ исходного текста показывает, что и тут царит разнообразие форматов :reful:
Ссылки в подразделе "Хроника дня" имеют один формат, а в тематических разделах - другой.

Поэтому получается еще два шаблона (правда, формат шаблона собственно текста сообщения у них одинаков :wink: )
1) "Хроника дня"
<p class="news_text mb12"><a href="(url)" class="dg">(title)</a></p>
и
<p class="cap0 mb04" align="left">(text)<div class="mb08"></div>

2) тематические разделы
<p class="mb12"><a href="(url)" class="dg">(title)</a></p>
и
<p class="cap0 mb04" align="left">(text)<div class="mb08"></div>

На этом анализ этого сайта заканчиваю - желающие могут потренироваться на нем и добавить отдельные шаблоны для упущенных разделов сайта :hi:
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Следующим рассмотрим простой сайт - www.k2kapital.com/news/

Шаблон ссылки на новость находится достаточно просто - <div><span>(...)</span> <a href="(url)">(title)</a></div>
Так как между тегами идет постоянно меняющийся текст (дата-время новости), надо использовать метасимвол (...)



Прикрепленный файл (c23.jpg, 365832 байт, скачан: 263 раза)
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
С шаблоном самой новости сложнее - рядом нет удобных тегов, за которые можно зацепиться
Шаблон новости - <span class="k2text">(text)Оглавление раздела

Если перед текстом можно использовать тег SPAN, то после текста я вынужден использовать слова "Оглавление раздела"


Прикрепленный файл (c24.jpg, 367493 байт, скачан: 288 раз)
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Посмотрим новости Яндекса. рассмотрю один тип - по формату остальные вроде бы похожи (можете проверить меня сами :wink: )

Итак, смотрим news.yandex.ru/Russia/internet.html
Шаблон ссылки на новость простой - <a class="title" href="(url)" onclick="(...)">(title)</a>

Я старался выбрать как можно более компактно его и обратил внимание, что в теге <a строка class="title" нигде в других местах не встречается. Увы, пришлось применить метасимвол (...), так как в onclick каждый раз указывался свой текст.

Шаблон собственно новости тоже простой - <p class="text">(text)<dl class="b-story-title-list">

Прикрепленный файл (c25.jpg, 182345 байт, скачан: 277 раз)
<<Назад  Вперед>>Страницы: 1 2 3 4 5 6
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Форум программы для мониторинга Интернета - Аваланч »   Советы по разработке шаблона тонкой настройки
RSS

Последние RSS
Open Source Intelligence (OSINT) Tools and Resources Handbook
Top tips on gathering information about companies by using free online sources
Новое на блоге HRразведка
Безопасность данных в MS Access
Слово как улика
20 Recon and Intel Gathering Tools used by InfoSec Professionals
What’s Changed?
10 альтернативных поисковиков
Ситуационный центр главы Республики Коми
Развёртывание ситуационных центров на базе технологии Avalanche
Как принимать сложные решения. Советы бывшего оперативника ЦРУ.
Открытая информация о "Новичке" из сети интернет.
Ген. директор "ОЗХО" Ахмет Узюмдж о "Новичке" и хим. атаке в Сирии
Онлайн-сервисы для Twitter
Коллекция для Twitter
Приложение Opera VPN закрывается
О работе разведки
Deep web и 11 поисковиков по нему
Об изначальной "лживости" любых документов
Обновление на блоге HRазведка

Самые активные 20 тем RSS
Стандартные источники информации в СайтСпутнике
Слово как улика
Open Source Intelligence (OSINT) Tools and Resources Handbook