Индивидуальная настройка сайтов, ресурсов и папок

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Библиотека источников и иструменты её создания и ведения »   Индивидуальная настройка сайтов, ресурсов и папок
RSS

Индивидуальная настройка сайтов, ресурсов и папок

<<Назад  Вперед>>Печать
 
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 872
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
В версии 7.4.4 от 12.01.12 программы SiteSputnik News реализована новая функция, позволяющая прописывать "индивидуальные" настройки для ссылок, найденных в процессе мониторинга источников информации (сайтов).

Настройки предназначены для выбора из содержания ссылок значимой информации.
Они применяются, когда автоматический выбор какого-то фрагмента значимой информации невозможен.

Настройки могут быть прописаны сайтам, ресурсах или принадлежащим им папкам, в которые "попадают" ссылки.
Они принадлежат к контекстно-зависимому типу.


Описание новой функции.

К значимой информации относятся: очищенное от мусора смысловое содержание ссылки (контент), дата публикации, автор контента, источник.
По мере развития программы SiteSputnik News этот список будет расширяться.



В настоящей версии программы реализованы следующие контекстно-зависимые условия выбора значимой информации.

  • Начало контента (новости) - часть тега, тег или несколько тегов, размещенных перед началом значимого контента.
    Как правило, началом значимого контента является заголовок новости, статьи или сообщения, но можно практически прописать любое "место" в ссылке.

  • Окончание контента (новости) - тег или фраза, следущие после значимого контента.
    В качестве признака окончания контента можно брать стандартные фразы, следующие за новостью, например, "Ещё материалы по теме".

  • Удалить с (в значимый контент иногда вставляют незначимый, например, рекламу) - тег или фраза, с которой начинается этот ненужный фрагмент.

  • Удалить до - тег или фраза, которой оканчивается ненужный фрагмент.

  • Пройти по ссылке, дата выхода (сделано), автор (сделано), источник и другие поля зарезервированны под будущую разработку программного обеспечения.


На картинке ниже приведен фрагмент базы данных "Настройка сайтов" (красная стрелка). Она вложена в базу данных "Настройка поиска".



Значения настроек можно прямо живьём вводить в таблицы базы данных.
Для этого используйте иконки, на которые указывает синяя стрелка: левый плюсик - создать строку в верхней таблице, правый - в нижней.
Можно для ввода и редактирования настроек воспользоваться иконками, на которые указывает зеленая стрелка. В этом случае появится картинка, размещенная ниже.





Особенности работы с контекстно-зависимыми настройками.


  • С каждой строкой верхней таблицы связано несколько строк нижней таблицы.

  • Обязательным для заполнения столбцом верхней таблицы является только столбец Сайт, ресурс, папка сайта.
    На первой картинке - он третий.

    Програма СайтСпутник при выполнении мониторинга выбирает нужные настройки следующим образом. Из адреса ссылки выделяется самая глубокая папка.
    Если она присутствует в верхней таблице, то осуществляется переход к работе с соответствующими настройками, имеющимися в нижней таблице.
    Если папка в столбце не обнаружена, то выделяется папка, в которую она вложена, и проверяется её присутствие в верхней таблице.
    Этот процесс продолжается до тех пор, пока не будет обработан сайт или ресурс, которому ссылка принадлежит.

  • В нижней таблице заполняются только те ячейки, которые необходимы: может быть заполнена только одна ячейка, могут быть заполнены все ячейки.
    Может быть только одна строка, может быть несколько строк.

    Настроек Начало контента (новости) и Окончание контента (новости) может быть сколько угодно. Они не спарены, то есть, работают независимо друг от друга.
    Как правило, для Начало контента (новости) достаточно одной настройки.

    Настроек Удалить с и Удалить до может быть также сколько угодно, но они спарены,
    то есть, из значимого контента ссылки, выделенного автоматически или при помощи настроек из предыдущего пункта,
    удаляются только фрагменты, заключенные в теги или фразы, размещенные в одной строке нижней таблицы.

  • В обеих таблицах есть столбец "Использовать ...". Если в нем прописать значение "Нет", то соответствующие настройки использоваться не будут.

  • Чтобы отключить или включить применение всех "Настроек сайтов" воспользуйтесь параметром "Включить "Настройку сайтов"",
    который доступен из главного меню: "Настройки - Параметры - вкладка News".




Отладка настроек.


    Для того, чтобы правильно определить значения настроек, используйте специальный режим отладки. Он не влияет на результаты основной работы программы.
    Для его включения в "Настройки - Параметры - вкладка News" установите галочку для параметра "Создавать отладочные файлы на рабочем столе для "Настройка сайтов"".
    Параметр размещён в правом нижнем углу вкладки.

    Это приведет к тому, что на рабочем столе перед моментом выделения значимого контента ссылок создастся папка с именем "SiteSputnik Work",
    в которую будут записываться контенты ссылок. Именно в них рационально искать настройки сайтов.
    Например, если начало новости в автоматическом режиме определено неправильно, то Вам следует найти её заголовок в тексте,
    затем взять впереди стоящий тег, его часть или несколько тегов, проверить является ли эта конструкция единственной до заголовка и перекопировать её в
    столбец Начало контента (новости).

    Смысл отладочного режима в следующем. Текст новости уже упрощён.
    Он пошёл предварительную обработку, в частности, приведен к единой читабельной кодировке на русском языке, несодержащей аброкадабр.
    Знание языка html не требуется - понимать смысл конструкций этого языка при определении настроек нет необходимости.

    Искать настройки следует только в программе "Блокнот". Другие программы могут "приукрашивать" (искажать) реальный html-код текста.


Подробнее на ссылке о настройке сайтов в СайтСпутнике.

Структура базы данных "Настройка сайтов" с несколькими настройками прикреплена к сообщению. Поместите ее в папку "Alias\Internet\Настройка поиска" и обновите структуру: "Ящик - Иерархия Ящиков - Обновить". Это можно сделать пользователям, у которых +News уже установлена и работает. В дальнейшем эта база данных будет находиться в дистрибутиве на своем месте.

Прикрепленный файл (Настройка сайтов.rar, 9259 байт, скачан: 377 раз)
<<Назад  Вперед>>Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Библиотека источников и иструменты её создания и ведения »   Индивидуальная настройка сайтов, ресурсов и папок
RSS

Последние RSS
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей
Лог-файл в программе СайтСпутник

Самые активные 20 тем RSS