Портал Expert.ru

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Форум программы для мониторинга Интернета - Аваланч »   Портал Expert.ru
RSS

Портал Expert.ru

<<Назад  Вперед>>Печать
 
petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Коллеги, у кого-нибудь получилось настроиться на статьи портала expert.ru? Лично я бился полчаса, но что-то не получается.
Формат несколько необычный.

Во-первых, в названии статей часть слов может быть одновременно быть и гиперссылкой, а нам нужно сделать так, чтобы Аваланч и название статью полностью прочитал, и гиперссылку корректно прочитал.
во-вторых, к части статей также идут комментарии, их тоже нужно прочитать.

в третьих, нужно вытащить весь архив статей и комментариев без мусора.

Сам раздел сайта вот: www.expert.ru/topics/strategy/
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Ну, во-первых, там многостраничная выдача. Поэтому по определению весь архив не соберешь - только ботом типа того, что я тебе писал для других сайтов :wink:

На странице два типа блоков текста - начинаются с <div class="book"> и <div class="pub">
В рамках одного правила тонкой настройки (ну зачем они убрали возможность нескольких правил :reful: )
оба типа не выцепить

Хорошо. Берем основной тип - pub. Анализ показывает, что и внутри него два подтипа информационных блоков, визуально отличимых по наличию либо только даты перед названием статьи, либо даты и названия выпуска журнала .
Если для второго типа шаблон еще можно попробовать сделать, то для первого нужен некоторый неестественный интеллект от робота :diablo:

Так что, увы, но Аваланч в текущем виде для этого веб-сайта не годится... :goodbuy:
<<Назад  Вперед>>Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Форум программы для мониторинга Интернета - Аваланч »   Портал Expert.ru
RSS

Последние RSS
Open Source Intelligence (OSINT) Tools and Resources Handbook
Top tips on gathering information about companies by using free online sources
Новое на блоге HRразведка
Безопасность данных в MS Access
Слово как улика
20 Recon and Intel Gathering Tools used by InfoSec Professionals
What’s Changed?
10 альтернативных поисковиков
Ситуационный центр главы Республики Коми
Развёртывание ситуационных центров на базе технологии Avalanche
Как принимать сложные решения. Советы бывшего оперативника ЦРУ.
Открытая информация о "Новичке" из сети интернет.
Ген. директор "ОЗХО" Ахмет Узюмдж о "Новичке" и хим. атаке в Сирии
Онлайн-сервисы для Twitter
Коллекция для Twitter
Приложение Opera VPN закрывается
О работе разведки
Deep web и 11 поисковиков по нему
Об изначальной "лживости" любых документов
Обновление на блоге HRазведка

Самые активные 20 тем RSS
Стандартные источники информации в СайтСпутнике
Слово как улика
Open Source Intelligence (OSINT) Tools and Resources Handbook