Версия для печати
- Форум Сообщества Практиков Конкурентной разведки (СПКР) http://forum.razved.info/
-- Библиотека источников и иструменты её создания и ведения http://forum.razved.info//index.php?f=79
--- SiteSputnik Local: локальные источники информации http://forum.razved.info//index.php?t=5791
-- Алексей Мыльников написал 17 марта 2016 17:20
Локальные источники информации в СайтСпутнике
По смыслу данная публикация дополняет SiteSputnik Local (http://sitesputnik.ru/Help/I/i_SiteSputnik_Local.docx) и наоборот.
Определение
• Локальные источники информации (ЛИИ) – это файлы локального компьютера или локальной сети, в содержании которых находятся ссылки на файлы глобальной сети интернета или на ЛИИ.
• В отличии от файлов-источников глобальной сети, имя которых начинается с префикса http:// или https://, файлы-источники локального компьютера начинаются с префикса file:///, а файлы, размещенные в локальной сети с префикса file://///.
• Это единственное отличие применения ЛИИ от «традиционных» источников, размещенных в интернете. В остальном применение всех трех видов источников практически идентично.
• Начиная с SiteSputnik Local версии 9.1.2 и выше, можно в одном Проекте применять все три вида Источников.
• Ограничение. На момент публикации в качестве ЛИИ допускаются только html-файлы или текстовые файлы. Но это не проблема, потому что на этапе рубрикации реализована работа с более широким списком форматов файлов.
Как это выглядит на практике
o file:///d:/WorkFilder/myname.htm – это файл-источник, размещенный на локальном компьютере. Будут обработаны все ссылки на файлы, находящиеся в его контенте.
o file:///c:/My/file01.txt +.htm; -site – здесь на обработку попадут ссылки на html-файлы, несодержащие в своем имени лексему site.
o file://///alex-1/ShareDocs/for.html +news – это источник, размещенный в локальной сети. На обработку попадут ссылки на файлы, содержащие лексему news в имени.
Важное пояснение.
• Ничего сложного здесь нет. Если после имени файла через пробел идет +лексема, то из содержащихся в контенте файла ссылок, попадают на обработку только те ссылки, в имени которых есть эта лексема. Если далее через пробел написано: –лексема, то ссылка, её содержащая, игнорируется.
• Подробнее об этом уже пояснялось для источников из глобальной сети - на ссылке (http://forum.razved.info/index.php?t=4407&p=47398).
Как «поставить» на мониторинг локальную папку
• Это можно сделать, например, следующим образом:
folder:///E:/BM/Help +.htm +forum;
Пояснение.
folder:///E:/BM/Help – это абсолютно все файлы из папки Help и вложенных в неё папок.
folder:///E:/BM/Help +.htm – это фильтр: только html-файлы останутся в работе
folder:///E:/BM/Help +.htm +forum – это из каждого оставшегося в работе html-файла на обработку отправляются только ссылки, содержащие лексему forum. Такой процесс может быть продолжен. Другими словами, это в своем роде «очень специальный» спайдер. Это тоже уже было сделано для глобальной сети, подробнее – на ссылке (http://forum.razved.info/index.php?t=5460).
Где это можно применить.
o Для глобальных файлов – это прежде всего подключение не отдельного Источника, а целого списка Источников, находящегося в интернете. Теперь подобный список может быть размещен и на локальном компьютере или в локальной сети.
o Не важно каким образом были сделаны изменения в источнике: руками, другим программным комплексом или самим СайтСпутников, важно каким типом Проекта он наблюдается. Если это Проект типа News, то на обработку попадут только новые ссылки, относительно всех предыдущих обращений к Источнику, если это тип +WebSpider, то все ссылки будут проанализированы по группе критериев на предмет их обновления относительно последнего их состояния.
Пример проекта с упомянутыми источниками:
(http://sitesputnik.ru/Help/Pic/F/i_Sputnik_LocSource.jpg)
• В него добавлен для разнообразия глобальный источник:
o sitesputnik.ru/Public.htm +.doc;.htm;.xls;.pdf; – это наблюдение за появлением новых публикаций о СайтСпутнике на сайте автора,
o и анализ (рубрикация) материалов из всех Источников по правилам, прописанным в двух Рубриках и вложенных в них Рубрик.
• Любой или все источники из этого Проекта могут быть добавлены в Проект из этой публикации (http://sitesputnik.ru/Help/I/i_SiteSputnik_Local.docx) и наоборот.
• Материалы из данной публикации относятся к варианту комплектации SiteSputnik Pro+News+Local.
Этот форум работает на скрипте Intellect Board
© 2004-2007, 4X_Pro, Объединенный Открытый Проект