Советы по разработке шаблона тонкой настройки

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Форум программы для мониторинга Интернета - Аваланч »   Советы по разработке шаблона тонкой настройки
RSS

Советы по разработке шаблона тонкой настройки

<<Назад  Вперед>>Страницы: 1 2 3 4 5 6
Печать
 
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Алгоритм примерно такой для любого сайта:

  • лезем на главную страницу и открываем в FF3 ее исходный текст
  • потом идем по ссылке на пару-тройку новостей на главной странице и тоже открываем исходные тексты страниц для них
  • ищем в исходном тексте главной страницы строку, содержащую название новости (нажать Control-F и скопировать заголовок новости, потом нажать "Следующее" и так несколько раз, пока не увидим текста собственно новости)


Для понимания

Алгоритм поиска новости в Аваланче примерно такой (это мои догадки :wink: )
  • cкачивается главная страница
  • в ней ищется строка, указанная в параметре "Обрабатывать документ, начиная со строки", а потом ищется строка, указанная в параметре "Не обрабатывать документ после строки"
  • выделяется часть страницы между этим двумя строками
  • в ней ищутся ссылки на новости в формате, заданном в параметре "Шаблон ссылки на новость" (в шаблоне должно быть указано, где находится заголовок новости - без этого экранная форма не даст сохранить настройки )
  • в ней ищутся просто все ссылки, и если глубина сбора для источника больше 1, то скачиваются и эти страницы и для каждой из них повторяется алгоритм, описанный выше.


Потом для каждой ссылки на новость делается следующее:
  • скачивается страница по ссылке
  • на странице ищется шаблон текста новости - если находится, то выделяется текст новости (должно быть указано в шаблоне, где находится текст новости)


Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Давайте продолжим на примере www.computerra.ru

Видно, что страница визуально состоит из нескольких частей - слева внизу блок новостей, сверху - самые новые (?) статьи и внизу остальные новые статьи.

Просмотр исходного текста страницы приводит к выводу, что и ссылки в этих частях тоже разные.
Давайте начнем с раздела сверху. На картинке видны ссылки на две новости из этого раздела и строки с тегами, смежные с ними (и которые могут быть использованы в шаблоне ссылки на новость этого типа) обведены карандашом.
Я проверил с помощью поиска этой строки в исходном тексте страницы (Crtl-F и указания строки перед ссылкой), что она встречается только перед ссылками нигде еще - действительно только четыре раза (контролирую себя, смотря на названия новостей на странице).


Прикрепленный файл (c1.jpg, 94899 байт, скачан: 275 раз)
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
После этого обращаю внимание, что <div style="height: 30px;" valign=top> и тег <a находятся на разных строках - значит, между ними есть еще символ начала строки (хотя он и не виден). Я сделал картинку специально из-за этого (стрелками показал эти символы при просмотре текстового файла в шестнадцатиричном виде в текстовом просмотрщике в Far Manager) и приложил ее к следующему сообщению
В шаблоне, если строки находятся визуально на разных строках в исходном тексте, надо вставлять между ними строку "\n"

Прикрепленный файл (c2.jpg, 167803 байт, скачан: 281 раз)
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Итого, шаблон ссылки на страницу имеет вид <div style="height: 30px;" valign=top>\n<a href="(url)" >(title)</a>\n</div>
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Теперь открываем две новости из верхнего раздела и для каждой открываем просмотр ее исходного текста.

Ищем в исходном тексте, где начинается собственно текст новости и видим (на картинке я обвел нужные теги)


Прикрепленный файл (c3.jpg, 125180 байт, скачан: 273 раза)
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Аналогично, ищем, где он заканчивается

После того, как выбрали строку кандидата для начала и для конца проверяем, что строка начала встречается только перед нвоостью и нигде еще в странице (тот же Ctrl-F).


Прикрепленный файл (c4.jpg, 160722 байт, скачан: 259 раз)
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Замечаем, что строка с тегами перед началом новости разбита на две строчки и вставляем в шаблоне между ними "\n"

Итого получается, шаблон для текста новости
<div style="color: black; font-family: Tahoma; font-size: 11px;">\n</div>(text)<div style="padding-top: 5px;" align=center>
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Итак, продолжим - новости, занимающие основную часть страницы. Берем для примера верхнюю левую, ищем ее заголовок в исходном тексте страницы и делаем шаблон ссылки. Опять же видим, что </div> идет с новой строки и вставляем "\n" в шаблон
Получается <div class="article-header"><a href="(url)">(title)</a>\n</div>


С шаблоном текста новости все просто - он такой же.

Прикрепленный файл (c5.jpg, 140888 байт, скачан: 260 раз)
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
С третьим типом новостей выходит так (я просто выбрал следующий после текста заголовка тег span, чтобы было за что "зацепиться")
<a style="color: black; font-size: 11px;" target=_blank href="(url)">(title)<span style="text-decoration:none;">

Прикрепленный файл (c6.jpg, 168845 байт, скачан: 282 раза)
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
С текстом новости - увы, придется делать новый шаблон, так как видно, что старый не подходит (то, что строка перед началом текста разбита на две части настораживает, но сохранение исходного текста страницы и просмотр ее в Far Manager в шестандцатиричном виде позволяет сказать, что это просто перенос длинной строки при просмотре исходного кода и никаких лишних символов там нет)
<div class="newstext block" style='width: 600px;'>(text)<div class="ad" style="float:left; margin: 0 20px 20px 0;">

Прикрепленный файл (c7.jpg, 185196 байт, скачан: 294 раза)
<<Назад  Вперед>>Страницы: 1 2 3 4 5 6
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Форум программы для мониторинга Интернета - Аваланч »   Советы по разработке шаблона тонкой настройки
RSS

Последние RSS
Open Source Intelligence (OSINT) Tools and Resources Handbook
Top tips on gathering information about companies by using free online sources
Новое на блоге HRразведка
Безопасность данных в MS Access
Слово как улика
20 Recon and Intel Gathering Tools used by InfoSec Professionals
What’s Changed?
10 альтернативных поисковиков
Ситуационный центр главы Республики Коми
Развёртывание ситуационных центров на базе технологии Avalanche
Как принимать сложные решения. Советы бывшего оперативника ЦРУ.
Открытая информация о "Новичке" из сети интернет.
Ген. директор "ОЗХО" Ахмет Узюмдж о "Новичке" и хим. атаке в Сирии
Онлайн-сервисы для Twitter
Коллекция для Twitter
Приложение Opera VPN закрывается
О работе разведки
Deep web и 11 поисковиков по нему
Об изначальной "лживости" любых документов
Обновление на блоге HRазведка

Самые активные 20 тем RSS
Стандартные источники информации в СайтСпутнике
Слово как улика
Open Source Intelligence (OSINT) Tools and Resources Handbook