Индивидуальная настройка сайтов, ресурсов и папок

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Библиотека источников и иструменты её создания и ведения »   Индивидуальная настройка сайтов, ресурсов и папок
RSS

Индивидуальная настройка сайтов, ресурсов и папок

<<Назад  Вперед>>Печать
 
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
В версии 7.4.4 от 12.01.12 программы SiteSputnik News реализована новая функция, позволяющая прописывать "индивидуальные" настройки для ссылок, найденных в процессе мониторинга источников информации (сайтов).

Настройки предназначены для выбора из содержания ссылок значимой информации.
Они применяются, когда автоматический выбор какого-то фрагмента значимой информации невозможен.

Настройки могут быть прописаны сайтам, ресурсах или принадлежащим им папкам, в которые "попадают" ссылки.
Они принадлежат к контекстно-зависимому типу.


Описание новой функции.

К значимой информации относятся: очищенное от мусора смысловое содержание ссылки (контент), дата публикации, автор контента, источник.
По мере развития программы SiteSputnik News этот список будет расширяться.



В настоящей версии программы реализованы следующие контекстно-зависимые условия выбора значимой информации.

  • Начало контента (новости) - часть тега, тег или несколько тегов, размещенных перед началом значимого контента.
    Как правило, началом значимого контента является заголовок новости, статьи или сообщения, но можно практически прописать любое "место" в ссылке.

  • Окончание контента (новости) - тег или фраза, следущие после значимого контента.
    В качестве признака окончания контента можно брать стандартные фразы, следующие за новостью, например, "Ещё материалы по теме".

  • Удалить с (в значимый контент иногда вставляют незначимый, например, рекламу) - тег или фраза, с которой начинается этот ненужный фрагмент.

  • Удалить до - тег или фраза, которой оканчивается ненужный фрагмент.

  • Пройти ссылке, дата, автор, источник и другие поля зарезервированны под будущую разработку программного обеспечения.


На картинке ниже приведен фрагмент базы данных "Настройка сайтов" (красная стрелка). Она вложена в базу данных "Настройка поиска".



Значения настроек можно прямо живьём вводить в таблицы базы данных.
Для этого используйте иконки, на которые указывает синяя стрелка: левый плюсик - создать строку в верхней таблице, правый - в нижней.
Можно для ввода и редактирования настроек воспользоваться иконками, на которые указывает зеленая стрелка. В этом случае появится картинка, размещенная ниже.





Особенности работы с контекстно-зависимыми настройками.


  • С каждой строкой верхней таблицы связано несколько строк нижней таблицы.

  • Обязательным для заполнения столбцом верхней таблицы является только столбец Сайт, ресурс, папка сайта.
    На первой картинке - он третий.

    Програма СайтСпутник при выполнении мониторинга выбирает нужные настройки следующим образом. Из адреса ссылки выделяется самая глубокая папка.
    Если она присутствует в верхней таблице, то осуществляется переход к работе с соответствующими настройками, имеющимися в нижней таблице.
    Если папка в столбце не обнаружена, то выделяется папка, в которую она вложена, и проверяется её присутствие в верхней таблице.
    Этот процесс продолжается до тех пор, пока не будет обработан сайт или ресурс, которому ссылка принадлежит.

  • В нижней таблице заполняются только те ячейки, которые необходимы: может быть заполнена только одна ячейка, могут быть заполнены все ячейки.
    Может быть только одна строка, может быть несколько строк.

    Настроек Начало контента (новости) и Окончание контента (новости) может быть сколько угодно. Они не спарены, то есть, работают независимо друг от друга.
    Как правило, для Начало контента (новости) достаточно одной настройки.

    Настроек Удалить с и Удалить до может быть также сколько угодно, но они спарены,
    то есть, из значимого контента ссылки, выделенного автоматически или при помощи настроек из предыдущего пункта,
    удаляются только фрагменты, заключенные в теги или фразы, размещенные в одной строке нижней таблицы.

  • В обеих таблицах есть столбец "Использовать ...". Если в нем прописать значение "Нет", то соответствующие настройки использоваться не будут.

  • Чтобы отключить или включить применение всех "Настроек сайтов" воспользуйтесь параметром "Включить "Настройку сайтов"",
    который доступен из главного меню: "Настройки - Параметры - вкладка News".




Отладка настроек.


    Для того, чтобы правильно определить значения настроек, используйте специальный режим отладки. Он не влияет на результаты основной работы программы.
    Для его включения в "Настройки - Параметры - вкладка News" установите галочку для параметра "Создавать отладочные файлы на рабочем столе для "Настройка сайтов"".
    Параметр размещён в правом нижнем углу вкладки.

    Это приведет к тому, что на рабочем столе перед моментом выделения значимого контента ссылок создастся папка с именем "SiteSputnik Work",
    в которую будут записываться контенты ссылок. Именно в них рационально искать настройки сайтов.
    Например, если начало новости в автоматическом режиме определено неправильно, то Вам следует найти её заголовок в тексте,
    затем взять впереди стоящий тег, его часть или несколько тегов, проверить является ли эта конструкция единственной до заголовка и перекопировать её в
    столбец Начало контента (новости).

    Смысл отладочного режима в следующем. Текст новости уже упрощён.
    Он пошёл предварительную обработку, в частности, приведен к единой читабельной кодировке на русском языке, несодержащей аброкадабр.
    Знание языка html не требуется - понимать смысл конструкций этого языка при определении настроек нет необходимости.

    Искать настройки следует только в программе "Блокнот". Другие программы могут "приукрашивать" (искажать) реальный html-код текста.


Подробнее на ссылке о настройке сайтов в СайтСпутнике.

Структура базы данных "Настройка сайтов" с несколькими настройками прикреплена к сообщению. Поместите ее в папку "Alias\Internet\Настройка поиска" и обновите структуру: "Ящик - Иерархия Ящиков - Обновить". Это можно сделать пользователям, у которых +News уже установлена и работает. В дальнейшем эта база данных будет находиться в дистрибутиве на своем месте.

Прикрепленный файл (Настройка сайтов.rar, 9259 байт, скачан: 162 раза)
<<Назад  Вперед>>Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Библиотека источников и иструменты её создания и ведения »   Индивидуальная настройка сайтов, ресурсов и папок
RSS

Последние RSS
Не все VPN-сервисы одинаково полезны
«Яндекс» научился выдавать в поиске не скрытые Google-документы. Правда лавочку
War and marketing: 1937 July 7th vs. 2018 July 1st
Историческое. Агентурная разведка
Open Source Intelligence (OSINT) Tools and Resources Handbook
Top tips on gathering information about companies by using free online sources
Новое на блоге HRразведка
Безопасность данных в MS Access
Слово как улика
20 Recon and Intel Gathering Tools used by InfoSec Professionals
What’s Changed?
10 альтернативных поисковиков
Ситуационный центр главы Республики Коми
Развёртывание ситуационных центров на базе технологии Avalanche
Как принимать сложные решения. Советы бывшего оперативника ЦРУ.
Открытая информация о "Новичке" из сети интернет.
Ген. директор "ОЗХО" Ахмет Узюмдж о "Новичке" и хим. атаке в Сирии
Онлайн-сервисы для Twitter
Коллекция для Twitter
Приложение Opera VPN закрывается

Самые активные 20 тем RSS
Новости блогов
Не все VPN-сервисы одинаково полезны