Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » SiteSputnik. Коллективный сбор и мониторинг информации |
<<Назад Вперед>> | Страницы: 1 2 | Печать |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 17 октября 2011 22:05 Сообщение отредактировано: 17 октября 2011 22:06
В версию 7.3.1 от 17.10.11 программы SiteSputnik News добавлены с целью предварительного ознакомления и опробации первые элементы нового варианта программы, рабочее название которого SiteSputnik Station. Функциональное назначение и организация работы SiteSputnik Station.
Участниками и создателями такой сети являются сотрудники корпорации, члены профессионального сообщества или группы по интересам. Географическое расположение участников не имеет значение. Далее участников будем называть клиентами.
Это увеличивает производительность и надежность, позволяет выполнить работу на одну заданную тему с нескольких компьютеров. Организация сети и параллельной работы.
Под сбором, мониторингом и анализом потоков информации понимается следующее.
а) встроенных в сайты поисков; б) RSS-потоков; в) произвольных страниц сайтов, на которых периодически появляется новая информация (эмуляция RSS-потоков). Это, своего рода, фильтр грубой очистки (термин Нежданова И.Ю.): из огромного информационного потока Интернета формируется составляющая, в которой содержится нужная информация.
а) выделение новой информации из потока; б) выделение значимого контента ссылки (очистка её от окружающего мусора); в) удаление неоднократно повторяющегося контента из потока; г) удаление контента, который присутствовал в предыдущих потоках (уже был получен ранее в предыдущих поисках на заданную тему). Этот процесс можно рассматривать как процесс «промежуточной» очистки информационного потока от ненужной информации, а сам поток будем называть чистым потоком.
На этом этапе сформированные чистые потоки раскладываются на тематические потоки (по Рубрикам согласно специальным Правилам попадания информации в Рубрику).
анализ своих и чужих чистых потоков происходит на компьютере конкретного клиента. Цель данного способа обработки информации – совместить четыре трудносовместимые вещи, а именно: полноту, точность, оперативность и надёжность процесса сбора, мониторинга и анализа информации. Настройки программы SiteSputnik Station, способы обработки потоков. В настоящей реализации (пока или уже) имеются следующие возможности. Открыв из главного меню программы «Параметры – Настройки - Вкладку Station», можно увидеть приведенную ниже картинку.
которые прописываются в окне, размещённом сразу под этим переключателем. На картинке прописаны четыре КП: первая в локальной сети корпорации, вторая папка на Рабочем столе компьютера клиента, третья и четвертая – на корпоративном сайте sitesputnik.ru. Именно во все эти четыре папки будут экспортироваться все чистые потоки, формируемые на данном компьютере. Переключатель ”Включить импорт потоков из прописанных ниже клиентских папок” – включает или отключает импорт чистых потоков из КП, прописанных в окне, размещённом сразу под этим переключателем. На картинке прописаны три КП: две первые на корпоративном сайте sitesputnik.ru, третья в папке на Рабочем столе компьютера клиента. Именно из всех этих трёх папок будут импортироваться сформированные на чужих компьютерах и переданные в эти папки чистые потоки. Количество КП - теоретически не ограничено. Количество компьютеров - теоретически не ограничено. Обращаю Ваше внимание, что в КП экспортируются, а из КП импортируются не Рубрики, а чистые потоки. На формирование чистых потоков ориентировочно затрачивается около 99% времени и других потребляемых ресурсов. Чистые потоки, содержат больше информации, чем Рубрики. Следующий параметр – переключатель ”Раздельный учёт импортируемых потоков для каждого пакета и базы данных”. Если галочка установлена, то каждый импортируемый чистый поток будет использован по одному разу для каждого пакета и базы данных (задания). Отсутствие галочки означает, что каждый чистый поток на компьютере клиента будет использован только один раз. Опрос на наличие ещё не использованных чистых потоков происходит на заключительной стадии выполнения каждого пакета. Следующий параметр – ”Максимальный размер базы данных импортируемых потоков”. Он устанавливается в диапазоне от 10 до 1000 потоков. Это чисто технический параметр. Он предназначен для предотвращения неконтролируемого разрастания базы чистых потоков и автоматически удаляет самый старый поток из базы, если достигнут её максимальный размер. В настоящей реализации программы SiteSputnik Station экспортируются и импортируются потоки информации только в формате программы SiteSputnik. Экспорт и импорт в другие форматы – чисто техническая задача, которая будет решаться в процессе разработки и совершенствования программы SiteSputnik. Применение настоящей реализации SiteSputnik Station. Настоящая реализация программы уже сейчас может пригодиться в следующих случаях.
Для этого достаточно экспорту и импорту потоков прописать одну и туже папку на локальном диске своего компьютера.
Скорость в идеальном случае будет прямо пропорциональна количеству запущенных экземпляров программы СайтСпутник. Задание нужно разбить на N частей, выполнить части отдельно на N компьютерах и получить тот же результат, что и при выполнении одного большого задания на одном компьютере.
Каждый из них ориентирован на сбор, мониторинг и анализ информации на заданную тему для конкретной группы сотрудников. Для этого на конкретном рабочем месте СайтСпутник использует свои источники информации, свои обращения к ним, свои Рубрики, своё расписание работ. Но вероятность того, что в источниках группы А «проходит» информация, интересующая группу Б, и наоборот, и так далее, - больше нуля. Поэтому применение СайтСпутника позволит полнее собрать информацию. Точность практически не пострадает.
потому что отказ одного СайтСпутника по техническим или другим причинам приводит к некоторому уменьшению количества собранной информации, а не к её полному отсутствию в случае применения одного экземпляра программы.
когда требуется сделать какое-либо усовершенствование процесса обработки информации, например, подключить новый источник или при сбое аппаратно-программного обеспечения. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
В версии 7.4.1 от 14.11.11 программы SiteSputnik Station реализована новая функция, позволяющая огранизовать круглосоточный мониторинг появления новой информации на заданные темы с использованием нескольких компьютеров. Эта функция увеличивает производительность и надежность процесса обработки информации и практически обеспечивающает его неуязвимость при нападении и различных атаках. Новая функция реализуется при помощи двух операторов, применяемых в пакетах запросов (заданиях на выполнение мониторинга). 1. Оператор ^^Экспорт; Он выполняет передачу (экспорт) чистых потоков, формируемых на конкретном компьютере, в папки локальной или глобальной сети интернета, прописанные в настройках. Толстая синяя стрелка на картинке (см. предыдушее сообщение) указывает на окно, в котором прописываются экспортные папки. Третья и четвертая папки расположены в глобальной сети. Пояснение. Чистый поток - это полнотекстовая, очищенная от мусора новостная лента, сформированная из новой информации, появившейся на задействованных в пакете источниках (сайтах). Чистый поток становится доступным на других компьютерах. На его формирование уходит примерно 99% времени и других ресурсов. Демонстрационные примеры чистых потоков на различные темы приведены на ссылках: "Прогнозы аналитиков", новости с "ТВ и Радио" источников, "банки, финансы, кредиты", "Владимир Путин". 2. Оператор ^^Импорт; Он выполняет на конкретном компьютере прием (импорт) и передачу на анализ чистых потоков, сформированных при помощи оператора ^^Экспорт; на других компьютерах. Импорт происходит из папок локальной сети или глобальной сети интернета, прописанных в настройках. Толстая зеленая стрелка указывает на окно, в котором прописываются папки для импорта. Результаты импорта и анализа (раскладывания по Рубрикам), приведенных выше потоков, представлены на ссылках: "Сколково", "Алексей Кудрин", "СургутНефтеГаз", "индексы Dow Jones и NASDAQ", "Альфа-Банк". Пояснение. Папки могут быть произвольные. Местоположение компьютеров не имеет значения. Приоритет Операторы ^^Экспорт; и ^^Импорт; "сильнее" переключателей "Включить экспорт потоков ..." (тонкая синяя стрелка) и "Выключить экспорт потоков ..." (тонкая зелёная стрелка). Это означает, что импорт и экспорт, прописанные в пакете, будут выполнены, независимо от того, установлена или не установлена в настройках галочка для этих параметров. Планы на будущее Реализация прописки папок для импорта и экспорта прямо в пакете, а не только в настройках программы. Это увеличит количество вариантов обмена информацией. Что дают эти операторы Примеры организации мониторинга. Вариант 1. Упрощённое применение: десять для одного. Предположим, что у Вас 11 СайтСпутников. Разобъём одну сложную задачу на 10 подзадач примерно одинаковых по времени выполнения. Пропишем для 10 СайтСпутников решение по 1 подзадаче, экспорт чистых потоков в одну папку "А" и старт в 03:00. 11-ому СайтСпутнику пропишем старт перед Вашим приходом на работу в 07:30 и импорт из папки "А". Вариант 2. Для группы по интересам: один для десяти. Возьмем сообщество СПКР. Предположим, что 10 членов сообщества имеют по одному СайтСпутнику. Выбирается папка на сайте сообщества. Она прописывается в настройках каждого СайтСпутника и в экспорте, и в импорте. В пакетах с "несекретным" мониторингом (источниками и запросами) прописываются операторы и ^^Экспорт; и ^^Импорт;. В "секретных" пакетах можно прописать только оператор ^^Импорт;. В результате такой организации работ каждый член сообщества будет практически "бесплатно" получать дополнительную информацию для мониторинга от своих коллег. Вариант 3. Общий случай: десять для десяти. Предположим, что Вам надо решать одну или несколько задач мониторинга появления новой информации, и в Вашем распоряжении имеется 10 компьютеров, оснащенных программой SiteSputnik Station. Применив Планировщик задач, Вы поручаете в течение недели каждому компьютеру в заданное время один или неколько раз в сутки выполнять один или несколько пакетов. В каждом пакете Вы прописываете экспорт, импорт или и экспорт и импорт чистых потоков в заданные в настройках папки. Количество папок - неограничено. Обмен информацией между компьютерами и пакетами прописан Вами. Организовав подобным образом работу компьютеров, можно обеспечить круглосуточный сбор, мониторинг и анализ информации для поставленных задач. Чтобы не заглядывать "внутрь" программ, результаты анализа информации (дайджесты) можно отправлять в клиентские папки, размещенные в локальной или глобальной сети интернета, или автоматически рассылать их по e-mail адресам. Образно говоря, каждый из 10 СайтСпутников будет вращаться по своей орбите и передавать на Землю (в клиентские папки) собранную информацию. Настоящая реализация программы SiteSputnik Station позволяет организовать указанные варианты работ. Перерубрикация. Экспортируя все чистые потоки в дополнительную архивную папку, можно в любое время проанализировать и разложить по любым Рубрикам новым и старым, собранную в сохранённых чистых потоках информацию. Рекомендуется сделать копию архивной папки, так как, параметр "Максимальный размер базы данных импортируемых потоков" (серая тонкая стрелка) "следит" за тем, чтобы базы данных потоков не разрастались ни в локальной, ни в глобальной сети и систематически удаляет устаревшую информацию. Пакет для перерубрикации будет иметь вид: ^^Новости; ^^Импорт; ^^Рубрики\Путь1 ^^Рубрики\Путь2 ... ... ... ^^Рубрики\ПутьN Прописывать источники не обязательно. Не забудьте перед запуском пакета указать в настройках в качестве импортируемой папки имя копии архивной папки. Большое значение в данном случае имеет способность программы СайтСпутник удалять дубли по контенту. Возможно, Вы придумаете свою "импровизацию", подобную перерубрикации, на тему применения SiteSputnik Station. Применение SiteSputnik Station. О применении программы достаточно подробно написано в первом сообщения из этой темы. Подробнее о неуязвимости. При помощи программы SiteSputnik Station можно решать достаточно серьёзные и ответственные задачи информационного обеспечения предприятия или другого объекта. Неуязвимость функционирования построенного программно-технического комплекса обеспечивается тем, что нет цели для атаки. Цель "размыта", она не сконцентрирована на одном сайте, сервере или компьютере. Папок импорта-экспорта может быть несколько, их несложно перемещать в веб-пространстве. |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5563 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
Спасибо. Верно ли я понял, что таким образом может формироваться единая база данных для всего предприятия? Если да - то сколько времени займет при работе в локальной сети "выравнивание" информации на всех задействованных машинах? Что произойдет, если два компьютера посчитают новой одну и ту же ссылку, ввиду того, что базы не обновились своевременно? ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
CI-KP написал: Спасибо. Верно ли я понял, что таким образом может формироваться единая база данных для всего предприятия? Если да - то сколько времени займет при работе в локальной сети "выравнивание" информации на всех задействованных машинах? Здесь речь может идти о единой базе данных новостей, далее ЕБДН, собираемых на предприятии или объекте другого вида. Если, смотрите сообщение #2, Вы работаете по Варианту 1 (все на одного): десять СайтСпутников собирают новости (формируют чистые потоки), а потом передают их на одиннадцатый, то ЕБДН формируется на одной машине (одиннадцатой), которая называется "СайтСтанцией". Соответственно, на "СайтСтанции" всё "выравнено" и своевременно обновлено. На десяти машинах "СайтСпутниках" ведутся локальные базы данных новостей (ЛБДН). ЛБДН нужны для того, чтобы облегчить работу "СайтСтанции", - с использованием ЛБДН, в частности, поисходит отсев дублей новостей с одинаковым контентом в рамках одного компьютера. При работе по Варианту 3 (все для всех), БД будут разными, в зависимости от настроек, прописанных аналитиком, а именно: смотря что на каждом компьютере прописано на экспорт, что на импорт. Соответственно, информация сформированная на конкретной машине и импортируемая ею и будет попадать в БД. Работа по Варианту 2 (каждый на себя), похожа на Вариант 3, только каждый "сам себе аналитик" - экспортирует то, что считает нужным, импортирует то, что можно (другие экспортировали) и нужно самому. Рационально, конечно, спланировать совместную работу независимых пользователей. |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5563 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 15 ноября 2011 9:53 Сообщение отредактировано: 15 ноября 2011 9:54
Алексей, спасибо. Но Вы, по сути, повторили то, что написано в инструкции. Мой вопрос возник как раз по мотивам ее прочтения и является попыткой "синхронизировать" ситуацию с проблематикой, которую мне приходилось видеть. Дело в том, что я, к сожалению, не занимаюсь лично ни одним из описанных Вами мероприятий, поэтому не могу оценить практическую полезность предложенного решения. А мне бы хотелось это сделать. Если мне кто-то объяснит, какие проблемы и почему это решает - я бы мог сделать пост в своем блоге, рассказав о нововведениях программы. Т.е., я понимаю. что раз это сделали, то это, наверное, хорошо, но мне не понятно - когда и почему это востребовано. ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
CI-KP написал: Если мне кто-то объяснит, какие проблемы и почему это решает
|
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5563 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
А что - есть проблема, что СайтСпутник не успевает обработать источники? А как тогда потом за ним аналитик успевает? Про нападения я, честно говоря. вообще не понял. Мне кажется, что если есть угроза нападения (виртуального, как я понимаю) - надо переставить комп за пределы корпоративной сети и никто даже не узнает, куда нападать. ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
CI-KP написал: А что - есть проблема, что СайтСпутник не успевает обработать источники? В процессе работы СайтСпутник открывает поисковые страницы, RSS-потоки, произвольные страницы (эмуляция RSS-потоков). Есть пользователи, у которых их сотни. Затем реально скачивает страницы - их бывает тысячи. Затем идет выделение контента ссылок, отсев неуникальных контентов, раскладывание по Рубрикам. Рубрик бывает сотни, в некоторых Рубриках бывает более 100 правил. На все это требуется время. Есть предприятия, оставляющие работать СайтСпутник на всю ночь. В процессе работы появляется необходимость в подключении новых источников, задании новых запросов, в создании новых Рубрик. Поэтому скоростью надо заниматься - это актуально практически в любой системе. Аналитик уже работает с информацией, оформленной в тематические новостные ленты, их можно назвать дайджестами, только каждая новость полнотекстовая. Успеваемость аналитика зависит от количества собранной информации, её чистоты (минимизации мусора и дублирования информации), от темы, по которой он работает и других составляющих. Поэтому я не понял вопрос: "... как потом за ним успевает аналитик". По нападению. Кроме компьютеров нападению еще может подвергнуться сайт. Если Вы имеете online-систему, то есть, работаете через сайт, то при атаке на сайт Ваша работа может быть парализована. При подходе, примененным в СайтСпутнике, как Вы правильно заметили, компьютеры можно вынести за пределы корпорации. Именно это я и имел ввиду. Также можно вынести и область обмена информацией за пределы корпоративного сайта и никто не узнает куда нападать. |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5563 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
Понятно теперь. Спасибо. ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
В версии 7.4.1.5 от 28.11.11 можно будет получать "Статистику по пакету" подобную той, что изображена на картинке ниже. Строки Таблички - Рубрики, задействованные в пакете (в задании на мониторинг источников информации). Столбцы Таблички - даты выполнения мониторинга. В нашем случае пакет выполнял мониторинг новостей по 50 источникам из сценария "ТВ и РАДИО станции", описанного здесь на форуме - forum.razved.info/index.php?t=2292 В Рубрики попадала информация об упоминании в источниках четырех парламентских партий: "Единая Россия", КПРФ, ЛДПР, "Справедливая Россия". Табличка показывает динамику упоминаний этих партий в задействованнах источниках в период с 18.11.11 по сегодняшнее число в фиксированные моменты времени. В общем случае, источники и Рубрики определяются пользователем, то есть могут быть произвольными. Данная табличка носит чисто демонстрационный характер. Для аналитика, думаю что, - это инстумент для решения своих исследовательских задач. Чтобы опробовать данную функцию в SiteSputnik News следует установить галочку в параметре "Собрать статистику по пакету в Рубриках" (см. тонкую красную стрелку на картинке из первого сообщения данной темы) |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
2 Алексей Мыльников Отличная функция, спасибо! Вопросы вот какие возникли: 1. есть ли какие-то ограничения на количество столбцов и строк в этом отчете? 2. можно ли как-то задавать параметры отчета (например, чтобы в него попали только данные за определенный период времени)? |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
petryashov написал: 1. есть ли какие-то ограничения на количество столбцов и строк в этом отчете? Нет. petryashov написал: 2. можно ли как-то задавать параметры отчета (например, чтобы в него попали только данные за определенный период времени)? Пока нет, но это не проблема. Буду делать оператор: ^^Отчет; Прямо в нем или в файле, который будет связан с этим оператром, можно будет задавать параметры, например: ^^Отчет Дата>25.11.2011; или ^^Отчет Дата: за 7 дней; Возможно, доживём до Мастера формирования отчетов. |
<<Назад Вперед>> | Страницы: 1 2 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » SiteSputnik. Коллективный сбор и мониторинг информации |
Самые активные 20 тем | |