Рубрики в СайтСпутник(е).

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Рубрики в СайтСпутник(е).
RSS

Рубрики в СайтСпутник(е).

<<Назад  Вперед>>Страницы: 1 2 3 4 5 6 7 8 9
Печать
 
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 816
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
О рубриках в программе SiteSputnik


1. Предположим, что Вы систематически выполняете мониторинг электронных СМИ и новостных источников и собираете информацию на заданную тему или о заданном объекте. Как это можно сделать в программе SiteSputnik описано здесь на форуме - forum.razved.info/index.php?t=894

2. Усовершенствуем один из демонстрационных примеров из указанного описания, а именно, "Прогнозы аналитиков".
В новом демонстрационном примере, Прогнозы аналитиков 2 (ссылка будет ниже) можно ознакомиться с Рубриками.

3. Рубрики - это иерархическая структура (тематическое дерево), создаваемая пользователем под свои задачи.
Каждый узел и лист этой структуры - отдельная Рубрика.

4. У каждой Рубрики существует "Правило попадания информации в рубрику". Оно, в частности, может быть сформулировано при создании рубрики.
На картинке ниже



правило обведено желтой линией. Оно означает следующее.
В Рубрику с именем Акции будут попадать те ссылки, которые:
а) или содержат словоформы от всех 4-х слов: "накапливать", "покупать", "держать", "акции" и не содержат словоформы от слова "политическая";
б) или содержат словоформы от всех 3-х слов: "котировки", "ценные", "бумаги", причем две последние словоформы находятся рядом,
в) или словоформы от слов Анатолий и Чубайс, находящиеся где-то в тексте рядом или на расстоянии двух пробелов.


5. Формально "Правило попадания информации в рубрику" таково:
1) каждая строка - набор ключевых слов, которые обязательно все должны присутствовать в содержании ссылки (логическое "И");
2) строк с ключевыми словами может быть несколько (логическое "ИЛИ" между строками);
3)~слово - эта конструкция означает, что слово в содержании ссылки должно отсутствовать (логическое "НЕТ");
4) 'точная фраза' заключается в одинарные кавычки;
5) перечень всех правил ведется в инструкции.

6. В качестве задач, для которых целесообразно создавать Рубрики, могут выступать аналитические отчеты, оглавления книг, диссертаций или дипломов, любые другие документы или произвольные структуры для произвольных задач.

Структура Рубрики "Прогнозы", разработанной для данного демонстрационного примера, выглядит следующим образом:



На картинке выше она обведена красной линией.
Для входящей в ее состав рубрики "Россия" на зеленом фоне подсвечено правило попадания информации: если ссылка содержит слова "индекс ММВБ" или "индекс РТС", то ее содержание попадет в эту рубрику.

Подобных структур можно создать любое количество.


7. Любая Рубрика может быть подключена к любому пакету запросов. Для этого в тексте пакета достаточно набрать имя рубрики. Для нашего случая в пакете должна быть следующая строка:

^^Рубрики\Прогнозы

Далее, Вы работаете в программе: выполняете пакетный поиск, открытие ссылок, - а СайтСпутник заполняет указанные в пакете рубрики нужной информацией в нужном месте,
другими словами, раскладывает информацию по подготовленным Вами полочкам.
Пока (в настоящей версии программы) в пакете запросов можно прописать только одну рубрику.

Попробуйте на практике убедиться в том, что написано выше.
Для этого ознакомьтесь и выполните действия, описанные в следующем пункте.



8. Демонстрационный пример

Для того, чтобы вживую опробовать функцию Рубрики, "полазить" по тематическому дереву, посмотреть на пакет запросов и подключенные источники информации, - сделайте следующее:

1) скачайте файл – sitesputnik.ru/Files/ZPrognoz2.rar , размером около 2 мб
2) распакуйте его в любом месте, откройте папку FileForFiles;
3) откройте файл FileForFiles.exe из этой папки;
4) на верхней панели инструментов открывшейся программы нажмите на иконку «Золотой ключик»;
5) дождитессь окончания процесса поиска и обработки информации по запросу "Прогнозы аналитиков".

Первый поиск принесет большое количество ссылок. Сбор информации происходит из 11 источников, а именно:
- РБК (rbc.ru),
- c•news (cnews.ru),
- газета.ru (gazeta.ru),
- Яндекс.Новости (news.yandex.ru),
- Google.Новости (news.google.ru),
- ВЕСТИ (vesti.ru),
- Коммерсант.ru (www.kommersant.ru),
- ДНИ.РУ (dni.ru),
- ФССП Росиии (fssprus.ru),
- NEWSru.com (newsru.ru),
- LENTA•RU (lenta.ru)

Глубина поиска - одна страница.

Для того, чтобы быстро перейти и ознакомиться с содержимым Рубрик, можно на списке "Новости" нажать на кнопку "Переход к рубрикам".

Далее периодически, например, три раза в сутки, выполняйте пункт 4) и собирайте только новые прогнозы аналитиков по различным темам-рубрикам (реализация в ближайшем будущем диспетчера позволит автоматизировать эту работу).
Количество обрабатываемых ссылок значительно уменьшится - на предмет попадания в Рубрики будут анализироваться только те ссылки, которые отсутствовали во всех предыдущих поисках.

Для того, чтобы в демонстрационной версии программы добавить свои Рубрики или изменить Правила для существующих рубрик, используйте пункты меню "Создать новую Рубрику..." и "Изменить правило для рубрики".
Эти пункты доступны по правой кнопке мышки на древовидной структуре Рубрики.
На картинке ниже красной и синей галочкой отмечены упомянутые пункты меню.



В промышленной версии программы SiteSputnik Pro+News можно составлять и подключать не только Рубрики, но и свои источники информации и пакеты запросов.

Манипулирование:
- ссылки, попавшие в Рубрики, можно редактировать прямо в окне встроенного браузера,
- можно перетаскивать их из Рубрики в Рубрику,
- ненужные или ссылки с похожим содержанием можно "мгновенно" удалять,
- допускается перетаскивание всей Рубрики, включая вложенные в нее Рубрики.

Клиентские папки:
содержание Рубрик может быть отправлено в клиентские папки, а именно: папки локального компьютера, локальной сети, по E-mail адресам, в папки сайтов. Примеры клиентских папок приведены на картинке ниже.



Подробнее о Рубриках здесь - sitesputnik.ru/Help/SSRubriki.htm

petryashov
Администратор

Откуда: Москва
Всего сообщений: 489
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Вот это вообще великолепная штука! Фактически это авторубрикатор найденной информации, то есть функция, позволяющая в разы уменьшить время аналитиков на сортировку информации. В предыдущей теме forum.razved.info/index.php?t=1044 я описал ручную рубрикацию, теперь же Вы разработали авторубрикацию.

По опыту работы с программами, использующими авторубрикацию, могу дать пару рекомендаций, которые, возможно, Вам пригодятся при дальнейшем совершенствовании продукта:

1. Желательно предусмотреть как авторубрикацию, так и возможность ручной корректировки атрибута "рубрика" каждой записи;

2. Желательно предусмотреть возможность присваивания одной записи нескольких атрибутов "рубрика". То есть, если на странице идет речь о золоте Колчака, система должна присвоит записи два атрибута "Золото" и "Колчак", а пользователь, если это ему это будет нужно, имел бы возможность присваивать этой записи иные атрибуты.
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 816
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]
Вот это вообще великолепная штука! Фактически это авторубрикатор найденной информации, то есть функция, позволяющая в разы уменьшить время аналитиков на сортировку информации. В предыдущей теме forum.razved.info/index.php?t=1044 я описал ручную рубрикацию, теперь же Вы разработали авторубрикацию.
[/q]

Да. Вы можете перетащить "Юрчихин" в "Рубрики" и прописать правила попадания контента ссылки в каждую вложенную в "Юрчихин" папку (БД). Потребуется определенная доработка программы для адаптации к Yandex, Google, Rambler..., которые не относятся к новостным.

petryashov написал:
[q]
1. Желательно предусмотреть как авторубрикацию, так и возможность ручной корректировки атрибута "рубрика" каждой записи;
[/q]

Авто - есть, ручная - есть, не понял, что желательно предусмотреть?

petryashov написал:
[q]
2. Желательно предусмотреть возможность присваивания одной записи нескольких атрибутов "рубрика". То есть, если на странице идет речь о золоте Колчака, система должна присвоит записи два атрибута "Золото" и "Колчак", а пользователь, если это ему это будет нужно, имел бы возможность присваивать этой записи иные атрибуты.
[/q]

Про систему понятно, она это делает, а про пользователя не понял.

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 816
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Попросил меня вчера Алексей Си...ев, зарабатыющийся на хлеб куплей-продажей б/у предметов, "направить" СайтСпутник на доски объявлений и применить к ним процедуры, затронутые в этой теме и в теме "Мониторинг электронных СМИ и новостных источников" , а именно, выполннить за один проход следующее:

- поиск по нескольким источникам (задействовать доски: molotok.ru, irr.ru, avito.ru, oxl.ru, russia.slando.ru, ... );
- открытие всех найденных ссылок, удовлетворяющих поисковому запросу;
- выделение значимого контента (текстов объявлений);
- оформление выдачи (ленты) из текстов всех найденных объявлений;
- разнесение контента отдельных объявлений по Рубрикам.

Результат применения оказался достаточно хорошим: удалось подключить 8 из 10 досок, выдача с них получилась довольно-таки хорошего качества, с разнесением по рубрикам проблем нет и не будет в любых приложениях. Это приложение позволяет в разы быстрее ознакомиться с новыми объявлениями на заданную тему. Если выдачей с досок объявлений заняться "персонально", то можно довести ее до очень хорошего качества, подобного качеству выдачи при работе со СМИ и новостными источниками.

Таким образом, применением данного алгоритма является не только работа со СМИ и новостными источниками, но и другими источниками и, соответственно, другими приложениями. В идеале можно стремиться к работе с выдачей из поисковиков, но для поисковиков в общем случае качество выделения значимого контента найденных ссылок не может быть очень хорошим.

Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Работает стабильно. Пользоваться удобно. Возникло два вопроса.

1 При описании правил попадания материала в рубрику так понимаю словоформы не работают. По этой причине нужно писать слова без окончаний. Или как то по другому? Возможно ли использование символов "*" и "?" для обозначения пропущенных символов?

2 При работе с рубриками, особенно при создании новых, возникает необходимость "перерубрицировать" уже имеющиеся материалы. Т.е. разложить по новым рубрикам то, что уже есть. В ручную это долго, особенно при больших объемах. Нужен автоматический механизм. Есть ли такая возможность в СайтСпутнике?

И еще момент. Когда из раздела "Рубрики" пытаешься запустить поиск, то прога выдает сообщение о переходе в раздел "Поиск", но ничего не происходит. Нужно перейти в "Поиск" в ручную и только затем запускать поиск. В принципе не страшно, но тогда нужно отключить возможность поиска из раздела "Рубрики" - чтоб не провоцировать.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 816
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Иоанн написал:
[q]
1 При описании правил попадания материала в рубрику так понимаю словоформы не работают. По этой причине нужно писать слова без окончаний. Или как то по другому? Возможно ли использование символов "*" и "?" для обозначения пропущенных символов?
[/q]
Словоформы работают, окончания опускать не следует. * и ? использовать нельзя. Они пока не реализованы.

Иоанн написал:
[q]
2 При работе с рубриками, особенно при создании новых, возникает необходимость "перерубрицировать" уже имеющиеся материалы. Т.е. разложить по новым рубрикам то, что уже есть. В ручную это долго, особенно при больших объемах. Нужен автоматический механизм. Есть ли такая возможность в СайтСпутнике?
[/q]
Возможности перерубрикации нет /замечание от 22.04.11: в настоящее время перерубрикация реализована/. Для того, чтобы сделать ее вся информация в базах данных СайтсСпутника есть.

Иоанн написал:
[q]
Когда из раздела "Рубрики" пытаешься запустить поиск, то прога выдает сообщение о переходе в раздел "Поиск", но ничего не происходит. Нужно перейти в "Поиск" в ручную и только затем запускать поиск. В принципе не страшно, но тогда нужно отключить возможность поиска из раздела "Рубрики" - чтоб не провоцировать.
[/q]
Можно и так как Вы написали.


Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 816
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Если в правиле попадания в Рубрику имеется конструкция, например:

//2

то это означает, что в Рубрику попадут те новости, в контенте которых встретилось не менее двух слов, написанных с использованием и русских, и латинский букв одновременно. Пример такого слова:

kосtромской

Правило:

Сергей /1 Иванов //3

означает, что если в контенте новости имеются по соседству слововормы от слова Сергей и слова Иванов, а также не менее трёх слов, набранных и русскими и латинскими буквами, то эта новость попадет в Рубрику.

Правило:

Василий /1 Теркин //4
Александр /2 Твардовский //5

означает, что если в контенте новости имеются по соседству слововормы от слова Василий и слова Теркин, а также не менее четырех слов, набранных и русскими и латинскими буквами, или в контенте новости имеются слофоформы от Александр и Твардовский, находящиеся на расстоянии не более одного слова, и не менее пяти слов, набранных и русскими и латинскими буквами, то эта новость попадет в Рубрику.

Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Коллеги, не так давно возникла необходимость сделать для одной Рубрики более двухсот условий - реализовал , работает. На днях добавил еще около сотни условий - работает без проблем. Для исключения двусмысленности - одно условие по отношению к Рубрикам в СайтСпутнике это одна строка в Правилах попадания новости в Рубрику.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Докладываю - за три месяца работы появилось четыре рубрики с условиями в несколько сотен строк (одна - 650 строк условий). Работает устойчиво.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
petryashov
Администратор

Откуда: Москва
Всего сообщений: 489
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Алексей, у меня как-то некорректно работает рубрикация при обработке названий городов. Пока выделилось два класса ошибок:

{Неверная обработка падежей

В рубрику Кострома попадают слово костров - вообще грамматически неправильно, так как в слове Кострома корень костром-, а не костр-
В Рубрику Воронеж попадает слово Воронцов- грамматически неправильно, так как в слове Воронеж корень воронеж-, а не ворон-
В рубрику Ярославль попадает Ярослав- у слова Ярославль нет такого падежного окончания
В рубрику Иваново попадает Ивановна- ну это еще хоть как-то можно объяснить


В следующих случаях некорректно работает отсечение слева:

В рубрику Орел попадает Горелово -
В рубрику Рязань попадает Новорязанское
В рубрику Тверь попадает слово подтверждаем, четвертое, утверждает, твердый
В рубрику область попадает Ленобласть

Мне кажется, при запросе Тверь должны попадать варианты Тверь, Твери, Тверью, Тверской, тверской, тверская и т.п., то есть если слово начинается с корня (в данном случае твер-), то и все варианты должны начинаться с корня без каких- либо приставок или других букв перед корнем, а также могут иметь разные варианты суффиксов и окончаний.

Можете поправить алгоритм? Очень много мусора появляется при рубрикации, а прописывать все возможные падежи и формы слов по каждой рубрике в кавычках- адский труд

<<Назад  Вперед>>Страницы: 1 2 3 4 5 6 7 8 9
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Рубрики в СайтСпутник(е).
RSS

Последние RSS
«Скелеты в шкафу есть у каждого. Научитесь с ними работать, пока их не нашли кон
New citizens of Malta - searchable database for investigators and analysts
Study and comparison of the unique selling propositions (USPs) of free-to-use mu
Обновление на блоге HRazvedka
Куда исчезают отрицательные отзывы с сайтов-отзовиков?
Конвертация выдачи в формат JSON, её отправка на API
Агрегатор новостей по ИБ
Like...
Сервис для вызова такси Uber позволял сотрудникам шпионить за клиентами.
В Uber создали "Hell" для слежки за водителями конкурента.
Конкурентная разведка в Uber – игры в спецслужбы могут плохо закончиться для так
HOW EMAIL OPEN TRACKING QUIETLY TOOK OVER THE WEB
Инструмент для выявления утечек при использовании VPN
Конкурентная разведка в Uber
Журнал ошибок и предупреждений
ЕГР ЗАГС
О стратегической разведке
Вебинар по визуализации больших объемов данных с помощью связки программ Tableau
Руководство по верификации для журналистских расследований
SiteSputnik PostQuery: Запрос + Пост-запрос

Самые активные 20 тем RSS
Сервис по проверке контрагентов
Study and comparison of the unique selling propositions (USPs) of free-to-use mu
New citizens of Malta - searchable database for investigators and analysts
«Скелеты в шкафу есть у каждого. Научитесь с ними работать, пока их не нашли кон
Журнал ошибок и предупреждений
Список пожеланий, Обновлен 23.04.13