Версия для печати
- Форум Сообщества Практиков Конкурентной разведки (СПКР) http://forum.razved.info/
-- Библиотека источников и иструменты её создания и ведения http://forum.razved.info//index.php?f=79
--- Индивидуальная настройка сайтов, ресурсов и папок http://forum.razved.info//index.php?t=2581
-- Алексей Мыльников написал 12 января 2012 0:51
В версии 7.4.4 от 12.01.12 программы SiteSputnik News (http://sitesputnik.ru/Help/SSNews.htm) реализована новая функция, позволяющая прописывать "индивидуальные" настройки для ссылок, найденных в процессе мониторинга источников информации (сайтов).
Настройки предназначены для выбора из содержания ссылок значимой информации.
Они применяются, когда автоматический выбор какого-то фрагмента значимой информации невозможен.
Настройки могут быть прописаны сайтам, ресурсах или принадлежащим им папкам, в которые "попадают" ссылки.
Они принадлежат к контекстно-зависимому типу.
Описание новой функции.
К значимой информации относятся: очищенное от мусора смысловое содержание ссылки (контент), дата публикации, автор контента, источник.
По мере развития программы SiteSputnik News этот список будет расширяться.
В настоящей версии программы реализованы следующие контекстно-зависимые условия выбора значимой информации.
- Начало контента (новости) - часть тега, тег или несколько тегов, размещенных перед началом значимого контента.
Как правило, началом значимого контента является заголовок новости, статьи или сообщения, но можно практически прописать любое "место" в ссылке.
- Окончание контента (новости) - тег или фраза, следущие после значимого контента.
В качестве признака окончания контента можно брать стандартные фразы, следующие за новостью, например, "Ещё материалы по теме".
- Удалить с (в значимый контент иногда вставляют незначимый, например, рекламу) - тег или фраза, с которой начинается этот ненужный фрагмент.
- Удалить до - тег или фраза, которой оканчивается ненужный фрагмент.
- Пройти по ссылке, дата выхода (сделано), автор (сделано), источник и другие поля зарезервированны под будущую разработку программного обеспечения.
На картинке ниже приведен фрагмент базы данных "Настройка сайтов" (красная стрелка). Она вложена в базу данных "Настройка поиска".
(http://sitesputnik.ru/Help/Pic/FSiteDB.GIF)
Значения настроек можно прямо живьём вводить в таблицы базы данных.
Для этого используйте иконки, на которые указывает синяя стрелка: левый плюсик - создать строку в верхней таблице, правый - в нижней.
Можно для ввода и редактирования настроек воспользоваться иконками, на которые указывает зеленая стрелка. В этом случае появится картинка, размещенная ниже.
(http://sitesputnik.ru/Help/Pic/FSitePic.GIF)
Особенности работы с контекстно-зависимыми настройками.
- С каждой строкой верхней таблицы связано несколько строк нижней таблицы.
- Обязательным для заполнения столбцом верхней таблицы является только столбец Сайт, ресурс, папка сайта.
На первой картинке - он третий.
Програма СайтСпутник при выполнении мониторинга выбирает нужные настройки следующим образом. Из адреса ссылки выделяется самая глубокая папка.
Если она присутствует в верхней таблице, то осуществляется переход к работе с соответствующими настройками, имеющимися в нижней таблице.
Если папка в столбце не обнаружена, то выделяется папка, в которую она вложена, и проверяется её присутствие в верхней таблице.
Этот процесс продолжается до тех пор, пока не будет обработан сайт или ресурс, которому ссылка принадлежит.
- В нижней таблице заполняются только те ячейки, которые необходимы: может быть заполнена только одна ячейка, могут быть заполнены все ячейки.
Может быть только одна строка, может быть несколько строк.
Настроек Начало контента (новости) и Окончание контента (новости) может быть сколько угодно. Они не спарены, то есть, работают независимо друг от друга.
Как правило, для Начало контента (новости) достаточно одной настройки.
Настроек Удалить с и Удалить до может быть также сколько угодно, но они спарены,
то есть, из значимого контента ссылки, выделенного автоматически или при помощи настроек из предыдущего пункта,
удаляются только фрагменты, заключенные в теги или фразы, размещенные в одной строке нижней таблицы.
- В обеих таблицах есть столбец "Использовать ...". Если в нем прописать значение "Нет", то соответствующие настройки использоваться не будут.
- Чтобы отключить или включить применение всех "Настроек сайтов" воспользуйтесь параметром "Включить "Настройку сайтов"",
который доступен из главного меню: "Настройки - Параметры - вкладка News".
Отладка настроек.
Для того, чтобы правильно определить значения настроек, используйте специальный режим отладки. Он не влияет на результаты основной работы программы.
Для его включения в "Настройки - Параметры - вкладка News" установите галочку для параметра "Создавать отладочные файлы на рабочем столе для "Настройка сайтов"".
Параметр размещён в правом нижнем углу вкладки.
Это приведет к тому, что на рабочем столе перед моментом выделения значимого контента ссылок создастся папка с именем "SiteSputnik Work",
в которую будут записываться контенты ссылок. Именно в них рационально искать настройки сайтов.
Например, если начало новости в автоматическом режиме определено неправильно, то Вам следует найти её заголовок в тексте,
затем взять впереди стоящий тег, его часть или несколько тегов, проверить является ли эта конструкция единственной до заголовка и перекопировать её в
столбец Начало контента (новости).
Смысл отладочного режима в следующем. Текст новости уже упрощён.
Он пошёл предварительную обработку, в частности, приведен к единой читабельной кодировке на русском языке, несодержащей аброкадабр.
Знание языка html не требуется - понимать смысл конструкций этого языка при определении настроек нет необходимости.
Искать настройки следует только в программе "Блокнот". Другие программы могут "приукрашивать" (искажать) реальный html-код текста.
Подробнее на ссылке о настройке сайтов в СайтСпутнике (http://sitesputnik.ru/Help/SSNewsFS.htm).
Структура базы данных "Настройка сайтов" с несколькими настройками прикреплена к сообщению. Поместите ее в папку "Alias\Internet\Настройка поиска" и обновите структуру: "Ящик - Иерархия Ящиков - Обновить". Это можно сделать пользователям, у которых +News уже установлена и работает. В дальнейшем эта база данных будет находиться в дистрибутиве на своем месте.
Этот форум работает на скрипте Intellect Board
© 2004-2007, 4X_Pro, Объединенный Открытый Проект