Мониторинг региональных СМИ на примере Челябинской области

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Мониторинг региональных СМИ на примере Челябинской области
RSS

Мониторинг региональных СМИ на примере Челябинской области

Пример применения программы SiteSputnik News

<<Назад  Вперед>>Страницы: 1 2
Печать
 
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
На видеоролике продемонстрировано как программу SiteSputnik News можно использовать для Мониторинга региональных СМИ.

В качестве региона выбрана Челябинская область.

В качестве объектов мониторинга выбраны четыре парламентские партии: "Единая Россия", КПРФ, ЛДПР, "Справедливая Россия".

Для демонстрации возможностей мониторинга в ролике задействованы:
- 8 челябинских источников информации,
- по 10 новых ссылок из каждого источника,
- 4 Рубрики для сбора нужной информации.

В реальной работе можно задействовать сотни источников, тысячи ссылок, сотни рубрик, в каждой из которых десятки и сотни правил.

В общем случае, в качестве источников могут быть выбранны не только сайты СМИ, но и другие сайты.

При подготовке видеоролика использовались материалы Андрея Осипова из Челябинской области, применяющего SiteSputnik News для нужд своей организации.

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Подробнее о том, что можно увидеть на ролике из первого сообщения, и как это работает.

В процессе мониторинга автоматически выполняются следующие шаги.

Шаг 1. Открытие региональных источников, а именно:

- Новости Уральского региона - uralpress.ru,
- Экспертный информационный канал УралПолит - uralpolit.ru,
- Российское информационное агентство (поиск по Челябинской области) - ura.ru,
- Новости Челябинской области - dostup1.ru,
- Новый регион (Челябинская область) - nr2.ru,
- эксклюзивные новости Челябинска и Южного Урала - mediazavod.ru,
- Персональный блог в ЖЖ - podoprigora74.livejournal.com,
- RSS поток с "Вечернего Челябинска" - vecherka.su/news.xml

В качестве "фильтра грубой очистки" в источниках, подключенных как поиски, взято ключевое слово "партия"

Шаг 2. Удаление ссылок, которые были обработаны ранее (час назад, вчера, неделю назад, ...) при мониторинге на данную тему.
Шаг 3. Скачивание полученных на шаге 2 новых ссылок.
Шаг 4. Выделение собственно новости - отделение новостного контента из скачанных ссылок от окружающего его мусора.
Шаг 5. Удаление новостей с одинаковым по смыслу контентом.
Шаг 6. Расскладывание новостей по Рубрикам (ниже приведены четыре Рубрики и правила попадания в них новостного контента).


1."Единая Россия"

Единая /1 Россия
Единороссы
партия /1 власти
Борис /2 Грызлов

2. "КПРФ"

КПРФ
Компартия
коммунистическая /1 партия
Геннадий /2 Зюганов

3. "ЛДПР"

ЛДПР
Либерально /1 демократическая /1 партия /1 России
Владимир /2 Жириновский

4. "Справедливая Россия"

Справедливая /1 Россия
Справедливороссы
Сергей /2 Миронов


Например, первая строка первого правила: Единая /1 Россия
означает, что словоформы от слов "Единая" и "Россия" должны в контенте новостей находиться рядом: на расстоянии одного пробела друг от друга.
Строки в правиле соединяются через логическое "ИЛИ".
Подробнее о правилах на ссылке.

Шаг 7. Построение четырёх полнотекстовых тематических новостных лент, называемых "Всё по Рубрике".
Шаг 8. Построение одной обобщенной полнотекстовой новостной ленты, называемой "Новости".
Шаг 9. Построение списков "Правило-ссылки" и "Ссылка-правила". Один из них, в частности, показывает на каких ссылках упомянуты все четыре партии.

На этом процесс мониторинга завершается.
Можно многократно выполнять его через любые промежутоки времени следующими способами:
- вручную,
- автоматически по расписанию, прописанному в Планировщике задач.

Об аналитике.

Один из аналитических результатов мониторинга следующий.
Всего на обработку в данном примере отобрано 80 новостей.
С уникальным контентом - 80 новостей.
Единая Россия упомянута на 15 из них,
КПРФ - на 8,
ЛДПР - на 7,
Справедливая Россия - на 6 новостях.
Неимеющих отношения к теме новостей - 59. Это более 70% от общего количества новостей, несмотря на то, что для шести источников из восьми использовался фильтр грубой очистки.
Одно ошибочное попадание: новость, связанная с Компартий Китая попала в Рубрику КПРФ. Точнее было бы во второй строке второго правила прописать не "Компартия", а "Компартия Россия"
На 4 новостях упомянуты все четыре партии. На нескольких - две или три партии.

Для уменьшения погрешности приведенного аналитического результата следует:
- задействовать больше источников информации,
- просмотреть их на большую глубину,
- провести многодневное и многократное исследование.

Другие аналитические результаты, например, позитивный и негативных характер упоминаний парламентских партий требуют более детального подхода к организации мониторинга. В целом, добываемая и размещаемая в базе данных и папках информация может послужить для дальнейших аналитических исследований.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Алексей, расскажите, пожалуйста, подробно, как Вы RSS- потоки с Livejournal подключаете? Тема очень актуальная

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]
Алексей, расскажите, пожалуйста, подробно, как Вы RSS- потоки с Livejournal подключаете? Тема очень актуальная
[/q]

Через Мастер подключения новых источников.
Используйте правую кнопку мышки на кнопке "Открыть".
Иногда в качестве признака начала сниппета следует указать:
<li> <
(между знаками > и < нужен знак пробела)

Квазиморда
Новичок

Всего сообщений: 4
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
16 июня 2009
В RSS потоках подключение идет через Мастер и правую кнопку.
Прописывается только начало пункта и следующая страница.
Затем уже фильтр рубрики выбирает по ключевым словам признак нужной информации.

Алексей, сорри что влез.

Я делал мониторинг ЖЖ политбомонда прям отдельным сценарием т.к. их уже много таких кто в "тренде", а поскольку фильтр контента не часто распространенный (конкретные интересующие ФИО, места и события) мусора валится в рубрики не так уж и много.
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Квазиморда написал:
[q]
Алексей, сорри что влез.
[/q]
Спасибо, что "влез".

Квазиморда написал:
[q]
Я делал мониторинг ЖЖ политбомонда прям отдельным сценарием т.к. их уже много таких кто в "тренде", а поскольку фильтр контента не часто распространенный (конкретные интересующие ФИО, места и события) мусора валится в рубрики не так уж и много.
[/q]

Да, новостной и другой "отраслевой" контент тем и хорош, что если написано Сергей Иванов, то это тот, который Борисыч, а не из 9-го "Б".
Для того, чтобы меньше мусора попадало в Рубрики, Вам следует тщательнее формулировать правила попадания в Рубрики, а мне совершенствовать эти правила.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Попытался свой ЖЖ подключить как сайт, вроде получилось (см. приложенный сценарий поиска по блогу petryashov.livejournal.com- там надо расширение на txt поменять). В СайтСпутник попадают все нужные посты в количестве более ста.

Но вылез один маленький нюанс: программа не раскрывает так называемые каты (тег lj-cut часто используется для скрытия части текста), в результате часть текста, причем часто важного, в СайтСпутник не попадает...

С этим как-нибудь бороться можно?

Прикрепленный файл (Поисковик~RS, 567 байт, скачан: 252 раза)
petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Попытался подключить RSS своего блога. Признаком начала снипета поставил те знаки, которые написал Алексей. Получилось как-то странно- выдает максимум 25 сообщений из Ленты и все... см. приложенный файл

UPD: понял, почему. Дело в том, что блог в ЖЖ отдает в ленту ограниченное число постов. По- моему, как раз 25. В этом можно убедиться, пройдя по ссылке: petryashov.livejournal.com/data/rss

Если все правильно, то тогда мониторить ЖЖ таким образом можно только в плане появления новых постов. При этом если ЖЖ обновляется активно (тот же Бигдан, например), а мониторится он нечасто, есть риск непопадания в ленту части постов. Ну а раз так, мониторить ЖЖ по RSS- ленте- не самая удачная идея, ИМХО...

UPD1: та же ситуация и с Вордпрессом- в RSS- поток отдаются лишь последние посты

Прикрепленный файл (Поисковик~RS, 514 байт, скачан: 253 раза)
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]
Но вылез один маленький нюанс: программа не раскрывает так называемые каты (тег lj-cut часто используется для скрытия части текста), в результате часть текста, причем часто важного, в СайтСпутник не попадает...
С этим как-нибудь бороться можно?
[/q]

Можно. Бросьте мне ссылку, где lj-cat не раскрылся.

petryashov написал:
[q]
Ну а раз так, мониторить ЖЖ по RSS- ленте- не самая удачная идея, ИМХО...
[/q]

Не самая. Бывает, что RSS вообще нет на странице.
Для этого есть встроенный поиск, можно подключить главную или другую более нужную страницу.

Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

petryashov написал:
[q]
Если все правильно, то тогда мониторить ЖЖ таким образом можно только в плане появления новых постов. При этом если ЖЖ обновляется активно (тот же Бигдан, например), а мониторится он нечасто, есть риск непопадания в ленту части постов. Ну а раз так, мониторить ЖЖ по RSS- ленте- не самая удачная идея, ИМХО...
[/q]


Да - RSS для отслеживания новостей, а не для показа всего контента.
Средняя частота опроса RSS - 1 час. Как правило, даже большие сайты хранят информацию в RSS-ленте за неделю и их ленты имеют сотни элементов.
В блоге 25 новостей - разумное число, так как публикаций в блоге обычно мало. :laugh:

Попробуйте, например, поработать с RSS в Outlook2007 :wink: и увидите что никаких потерь новостей нет (я сам сего помощью смотрю десятки лент). Кстати, в Outlook2007 есть даже рубрикация есть с помощью встроенных правил.

<<Назад  Вперед>>Страницы: 1 2
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Мониторинг региональных СМИ на примере Челябинской области
RSS

Последние RSS
Не все VPN-сервисы одинаково полезны
«Яндекс» научился выдавать в поиске не скрытые Google-документы. Правда лавочку
War and marketing: 1937 July 7th vs. 2018 July 1st
Историческое. Агентурная разведка
Open Source Intelligence (OSINT) Tools and Resources Handbook
Top tips on gathering information about companies by using free online sources
Новое на блоге HRразведка
Безопасность данных в MS Access
Слово как улика
20 Recon and Intel Gathering Tools used by InfoSec Professionals
What’s Changed?
10 альтернативных поисковиков
Ситуационный центр главы Республики Коми
Развёртывание ситуационных центров на базе технологии Avalanche
Как принимать сложные решения. Советы бывшего оперативника ЦРУ.
Открытая информация о "Новичке" из сети интернет.
Ген. директор "ОЗХО" Ахмет Узюмдж о "Новичке" и хим. атаке в Сирии
Онлайн-сервисы для Twitter
Коллекция для Twitter
Приложение Opera VPN закрывается

Самые активные 20 тем RSS
Новости блогов
Не все VPN-сервисы одинаково полезны