| Объявление форума | |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » Рубрики в СайтСпутник(е). |
![]() |
| <<Назад Вперед>> | Печать |
| Alexei Mylnikov
Почетный участник
Откуда: Волгоград Всего сообщений: 178 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 22 июня 2009 |
О рубриках в программе SiteSputnik 1. Предположим, что Вы систематически выполняете мониторинг электронных СМИ и новостных источников и собираете информацию на заданную тему или о заданном объекте. Как это можно сделать в программе SiteSputnik описано здесь на форуме - forum.razved.info/index.php?t=894 2. Усовершенствуем один из демонстрационных примеров из указанного описания, а именно, "Прогнозы аналитиков". В новом демонстрационном примере, Прогнозы аналитиков 2 (ссылка будет ниже) можно ознакомиться с Рубриками. 3. Рубрики - это иерархическая структура (тематическое дерево), создаваемая пользователем под свои задачи. Каждый узел и лист этой структуры - отдельная Рубрика. 4. У каждой Рубрики существует "Правило попадания информации в рубрику". Оно, в частности, может быть сформулировано при создании рубрики. На картинке ниже правило обведено желтой линией. Оно означает следующее. В Рубрику с именем Акции будут попадать те ссылки, которые: а) или содержат словоформы от всех 4-х слов: "накапливать", "покупать", "держать", "акции" и не содержат словоформы от слова "политическая"; б) или содержат словоформы от всех 3-х слов: "котировки", "ценные", "бумаги". 5. Формально "Правило попадания информации в рубрику" таково: 1) каждая строка - набор ключевых слов, которые обязательно все должны присутствовать в содержании ссылки (логическое "И"); 2) строк с ключевыми словами может быть несколько (логическое "ИЛИ" между строками); 3)~слово - эта конструкция означает, что слово в содержании ссылки должно отсутствовать (логическое "НЕТ"). 6. В качестве задач, для которых целесообразно создавать Рубрики, могут выступать аналитические отчеты, оглавления книг, диссертаций или дипломов, любые другие документы или произвольные структуры для произвольных задач. Структура Рубрики "Прогнозы", разработанной для данного демонстрационного примера, выглядит следующим образом: На картинке выше она обведена красной линией. Для входящей в ее состав рубрики "Россия" на зеленом фоне подсвечено правило попадания информации: если ссылка содержит слова "индекс ММВБ" или "индекс РТС", то ее содержание попадет в эту рубрику. Подобных структур можно создать любое количество. 7. Любая Рубрика может быть подключена к любому пакету запросов. Для этого в тексте пакета достаточно набрать имя рубрики. Для нашего случая в пакете должна быть следующая строка: ^^Рубрики\Прогнозы Далее, Вы работаете в программе: выполняете пакетный поиск, открытие ссылок, - а СайтСпутник заполняет указанные в пакете рубрики нужной информацией в нужном месте, другими словами, раскладывает информацию по подготовленным Вами полочкам. Пока (в настоящей версии программы) в пакете запросов можно прописать только одну рубрику. Попробуйте на практике убедиться в том, что написано выше. Для этого ознакомьтесь и выполните действия, описанные в следующем пункте. 8. Демонстрационный пример Для того, чтобы вживую опробовать функцию Рубрики, "полазить" по тематическому дереву, посмотреть на пакет запросов и подключенные источники информации, - сделайте следующее: 1) скачайте файл – sitesputnik.ru/Files/ZPrognoz2.rar , размером около 2 мб 2) распакуйте его в любом месте, откройте папку FileForFiles; 3) откройте файл FileForFiles.exe из этой папки; 4) на верхней панели инструментов открывшейся программы нажмите на иконку «Золотой ключик»; 5) дождитессь окончания процесса поиска и обработки информации по запросу "Прогнозы аналитиков". Первый поиск принесет большое количество ссылок. Сбор информации происходит из 11 источников, а именно: - РБК (rbc.ru), - c•news (cnews.ru), - газета.ru (gazeta.ru), - Яндекс.Новости (news.yandex.ru), - Google.Новости (news.google.ru), - ВЕСТИ (vesti.ru), - Коммерсант.ru (www.kommersant.ru), - ДНИ.РУ (dni.ru), - ФССП Росиии (fssprus.ru), - NEWSru.com (newsru.ru), - LENTA•RU (lenta.ru) Глубина поиска - одна страница. Для того, чтобы быстро перейти и ознакомиться с содержимым Рубрик, можно на списке "Новости" нажать на кнопку "Переход к рубрикам". Далее периодически, например, три раза в сутки, выполняйте пункт 4) и собирайте только новые прогнозы аналитиков по различным темам-рубрикам (реализация в ближайшем будущем диспетчера позволит автоматизировать эту работу). Количество обрабатываемых ссылок значительно уменьшится - на предмет попадания в Рубрики будут анализироваться только те ссылки, которые отсутствовали во всех предыдущих поисках. Для того, чтобы в демонстрационной версии программы добавить свои Рубрики или изменить Правила для существующих рубрик, используйте пункты меню "Создать новую Рубрику..." и "Изменить правило для рубрики". Эти пункты доступны по правой кнопке мышки на древовидной структуре Рубрики. На картинке ниже красной и синей галочкой отмечены упомянутые пункты меню. В промышленной версии программы SiteSputnik Pro+News можно составлять и подключать не только Рубрики, но и свои источники информации и пакеты запросов. Манипулирование: - ссылки, попавшие в Рубрики, можно редактировать прямо в окне встроенного браузера, - можно перетаскивать их из Рубрики в Рубрику, - ненужные или ссылки с похожим содержанием можно "мгновенно" удалять, - допускается перетаскивание всей Рубрики, включая вложенные в нее Рубрики. Подробнее о Рубриках здесь - sitesputnik.ru/Help/SSRubriki.htm ---
www.sitesputnik.ru |
| petryashov
Администратор
Откуда: Москва Всего сообщений: 172 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Вот это вообще великолепная штука! Фактически это авторубрикатор найденной информации, то есть функция, позволяющая в разы уменьшить время аналитиков на сортировку информации. В предыдущей теме forum.razved.info/index.php?t=1044 я описал ручную рубрикацию, теперь же Вы разработали авторубрикацию. По опыту работы с программами, использующими авторубрикацию, могу дать пару рекомендаций, которые, возможно, Вам пригодятся при дальнейшем совершенствовании продукта: 1. Желательно предусмотреть как авторубрикацию, так и возможность ручной корректировки атрибута "рубрика" каждой записи; 2. Желательно предусмотреть возможность присваивания одной записи нескольких атрибутов "рубрика". То есть, если на странице идет речь о золоте Колчака, система должна присвоит записи два атрибута "Золото" и "Колчак", а пользователь, если это ему это будет нужно, имел бы возможность присваивать этой записи иные атрибуты. |
| Alexei Mylnikov
Почетный участник
Откуда: Волгоград Всего сообщений: 178 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 22 июня 2009 |
petryashov написал: Вот это вообще великолепная штука! Фактически это авторубрикатор найденной информации, то есть функция, позволяющая в разы уменьшить время аналитиков на сортировку информации. В предыдущей теме forum.razved.info/index.php?t=1044 я описал ручную рубрикацию, теперь же Вы разработали авторубрикацию. Да. Вы можете перетащить "Юрчихин" в "Рубрики" и прописать правила попадания контента ссылки в каждую вложенную в "Юрчихин" папку (БД). Потребуется определенная доработка программы для адаптации к Yandex, Google, Rambler..., которые не относятся к новостным. petryashov написал: 1. Желательно предусмотреть как авторубрикацию, так и возможность ручной корректировки атрибута "рубрика" каждой записи; Авто - есть, ручная - есть, не понял, что желательно предусмотреть? petryashov написал: 2. Желательно предусмотреть возможность присваивания одной записи нескольких атрибутов "рубрика". То есть, если на странице идет речь о золоте Колчака, система должна присвоит записи два атрибута "Золото" и "Колчак", а пользователь, если это ему это будет нужно, имел бы возможность присваивать этой записи иные атрибуты. Про систему понятно, она это делает, а про пользователя не понял. ---
www.sitesputnik.ru |
| Alexei Mylnikov
Почетный участник
Откуда: Волгоград Всего сообщений: 178 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Попросил меня вчера Алексей Си...ев, зарабатыющийся на хлеб куплей-продажей б/у предметов, "направить" СайтСпутник на доски объявлений и применить к ним процедуры, затронутые в этой теме и в теме "Мониторинг электронных СМИ и новостных источников" , а именно, выполннить за один проход следующее: - поиск по нескольким источникам (задействовать доски: molotok.ru, irr.ru, avito.ru, oxl.ru, russia.slando.ru, ... ); - открытие всех найденных ссылок, удовлетворяющих поисковому запросу; - выделение значимого контента (текстов объявлений); - оформление выдачи (ленты) из текстов всех найденных объявлений; - разнесение контента отдельных объявлений по Рубрикам. Результат применения оказался достаточно хорошим: удалось подключить 8 из 10 досок, выдача с них получилась довольно-таки хорошего качества, с разнесением по рубрикам проблем нет и не будет в любых приложениях. Это приложение позволяет в разы быстрее ознакомиться с новыми объявлениями на заданную тему. Если выдачей с досок объявлений заняться "персонально", то можно довести ее до очень хорошего качества, подобного качеству выдачи при работе со СМИ и новостными источниками. Таким образом, применением данного алгоритма является не только работа со СМИ и новостными источниками, но и другими источниками и, соответственно, другими приложениями. В идеале можно стремиться к работе с выдачей из поисковиков, но для поисковиков в общем случае качество выделения значимого контента найденных ссылок не может быть очень хорошим. ---
www.sitesputnik.ru |
| Иоанн
Модератор форума
Прагматик. Член СПКР. Откуда: Советский Союз Всего сообщений: 503 Рейтинг пользователя: 1 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Работает стабильно. Пользоваться удобно. Возникло два вопроса. 1 При описании правил попадания материала в рубрику так понимаю словоформы не работают. По этой причине нужно писать слова без окончаний. Или как то по другому? Возможно ли использование символов "*" и "?" для обозначения пропущенных символов? 2 При работе с рубриками, особенно при создании новых, возникает необходимость "перерубрицировать" уже имеющиеся материалы. Т.е. разложить по новым рубрикам то, что уже есть. В ручную это долго, особенно при больших объемах. Нужен автоматический механизм. Есть ли такая возможность в СайтСпутнике? И еще момент. Когда из раздела "Рубрики" пытаешься запустить поиск, то прога выдает сообщение о переходе в раздел "Поиск", но ничего не происходит. Нужно перейти в "Поиск" в ручную и только затем запускать поиск. В принципе не страшно, но тогда нужно отключить возможность поиска из раздела "Рубрики" - чтоб не провоцировать. |
| Alexei Mylnikov
Почетный участник
Откуда: Волгоград Всего сообщений: 178 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Иоанн написал: 1 При описании правил попадания материала в рубрику так понимаю словоформы не работают. По этой причине нужно писать слова без окончаний. Или как то по другому? Возможно ли использование символов "*" и "?" для обозначения пропущенных символов?Словоформы работают, окончания опускать не следует. * и ? использовать нельзя. Они пока не реализованы. Иоанн написал: 2 При работе с рубриками, особенно при создании новых, возникает необходимость "перерубрицировать" уже имеющиеся материалы. Т.е. разложить по новым рубрикам то, что уже есть. В ручную это долго, особенно при больших объемах. Нужен автоматический механизм. Есть ли такая возможность в СайтСпутнике?Возможности перерубрикации нет. Для того, чтобы сделать ее вся информация в базах данных СайтсСпутника есть. Иоанн написал: Когда из раздела "Рубрики" пытаешься запустить поиск, то прога выдает сообщение о переходе в раздел "Поиск", но ничего не происходит. Нужно перейти в "Поиск" в ручную и только затем запускать поиск. В принципе не страшно, но тогда нужно отключить возможность поиска из раздела "Рубрики" - чтоб не провоцировать.Можно и так как Вы написали. ---
www.sitesputnik.ru |
| <<Назад Вперед>> | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » Рубрики в СайтСпутник(е). |
![]() |
| Последние |
![]() |
| Выставка Infobez-2010 Как надо правильно ездить на "Калинах" Свердловская милиция двинулась в интернет Шпионские авторучки Тюменские водители устроили на Урале настоящий дорожный бесп | |