SiteSputnik News. Внешние функции для Рубрик

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   SiteSputnik News. Внешние функции для Рубрик
RSS

SiteSputnik News. Внешние функции для Рубрик

Расширение возможностей рубрикации материалов

<<Назад  Вперед>>Страницы: 1 2
Печать
 
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
В версии 8.4.1 от 18.02.13 программы SiteSputnik реализованы новые возможности рубрикации материалов .
Они получили название ВФ-технологии и доступны в вариантах SiteSputnik News, WebSpider и Station .

Назначение и суть ВФ-технологии "на пальцах"

Для того, чтобы выделить нужную информацию из потока, в программе SiteSputnik применяются Правила попадания в Рубрику .

Упрощённо, с точки зрения Пользователя, Правило является последовательностью слов или фраз, которые должны присутствовать в контенте ссылки. С точки зрения математического обеспечения программы, Правило - это логическое выражение. Если оно принимает значение истина, то считается, что ссылка содержит нужную информацию и попадает в Рубрику.

В новой версии программы SiteSputnik в Правилах попадания в Рубрику можно прописывать обращения к внешним логическим функциям (сокращенно ВФ-функциям ).Обращений может быть несколько, помещены они могут быть в разные части Правила, сами ВФ-функции могут быть тоже разные.

ВФ-функция
может быть написана на любом языке программирования. Она получает от программы SiteSputnik контент ссылки, производит свою работу и возвращает в Правило одно из двух значений: "Да" - критерий, который проверяет функция, выполнен или "Нет" - критерий не выполнен.

О главном.
Сообщение о результате работы ВФ-функции принимается в том и только в том месте Правила, из которого она была вызвана.
Это важный момент технологии: ВФ-функции не просто "подвешены на ссылке" (такая технология применяется при реализации обычных плагинов), а "органически" встроены в Правила попадания в Рубрику, участвуют в его логической работе.

Что это дает.
    Можно расширить Правила попадания в Рубрики своими Правилами, под свои потребности.
    В этом процессе участие разработчика программы не является необходимым, достаточно обратиться к программисту.
    При этом функциональное расширение может осуществлять сложную, произвольную работу: от анализа контента ссылки на негатив, до работы с базами данных и выхода в интернет за информацией.
    При этом в синтакис Правил не вносится большое количество синтаксических конструкций.
    Достаточно только одной конструкции - синтаксического определения ВФ-функции.

Продолжение следует ...

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Перечень ВФ-функций на момент публикации

На момент публикации в рамках программы SiteSputnik реализованы следующие 12 функций.
Некоторые из них носят демонстрационный характер.
На их примере продемонстрированы возможности ВФ-технологии.
Функции осуществляют достаточно сложную символьную обработку,
есть функции, которые выполняют сравнения чисел и дат, встречающихся внутри контента ссылок.

    1. Поиск 10-значного номера телефона - функция TelephoneNumber10

    Эта функция возвращает значение "Да", говоря на языке Пользователя, находит ссылки, в которых присутствует хотя бы один любой
    10-значный номер телефона, в том числе не только в стандартном виде, но и в зашифрованном.
    Пример зашифрованного номера телефона: "9о7-1Ч4 два 8-семерка 6".
    В расшифрованном виде это - 9071442876.


    Прописав в Правиле: (Госзакупки | государственные /1 закупки) fun(TelephoneNumber10)

    мы получим ссылки, на которых упоминаются госзакупки и присутствует телефон (зашифрованный или незашифрованный).
    Это наглядная демонстрация упомянутой выше "встроенности" ВФ-функции в Правило: функция работает совместно с другими его конструкциями.
    Параметров у этой функции нет.

    2. Поиск конкретного номера телефона - функция TelephoneNumber10Search

    Находятся ссылки, в которых присутствует конкретный 10-значный номер телефона, в том числе не только в стандартном виде, но и в зашифрованном.
    Искомый номер телефона передается функции как параметр.
    Он прописывается как 10-значное число (в незашифрованном виде). Например:

    fun(TelephoneNumber10Search,9071442876)


    3. Любые символы вместо знака вопроса - AnyOfCharacters

    Например, если в качестве параметра этой функции прописать А???МР, то будут найдены ссылки, на которых упомянут хотя бы один
    VIP-номер автомобиля. Диапазон удовлетворяющих поиску номеров от A001MP до А999МР. Чтобы учесть и эту форму записи номера и другую с пробелами: A 001 MP, - нужно прописать два обращения к функции через логическое "ИЛИ":

    ( fun(AnyOfCharacters,А???МР) | fun(AnyOfCharacters,А?????МР) )



    4. Адрес федеральной почты России - PostAddress

    Находятся ссылки, в которых упомянут хотя бы один адрес федеральной почты России.
    Учитываются практически все варианты записи адресов.
    Например: "... происшествие произошло в г. Волгограде, на ул. Космонавтов рядом с домом 8 ..."

    5. Российский номер автомобиля - RussiaCarNumber

    Находятся ссылки, в которых упомянут хотя бы один российский номер автомобиля.
    Это следующие два варианта: БЦЦЦББ или Б ЦЦЦ ББ,
    где Б - буква: пересечение латинских и русских букв (учитываются их набор и на кириллице, и на латинице, и на верхнем, и на нижнем регистре),
    Ц - цифра любая из десяти.


    6. Слово с учетом регистра - SensitiveSearch

    Чувствительный к регистру поиск: РФ, ОРТ, КамАЗ, СайтСпутник.
    Искомое слово передается в качестве параметра.

    7. Число рядом со словом - NumberNearWord

    Реализована для маркетологов по заявке Игоря Нежданова.
    Рядом с "нужным" словом (первый параметр) расположено любое число на расстоянии не более фиксированного количества символов (второй параметр).
          Примеры контентов, удовлетворяющих правилу, для слов: терминал, автомат или касса.
          "... 10 терминалов, ...",
          "... автоматов в количестве 20 тыс. штук...",
          "... касса номер девять ..."

    Функция "реагирует" на нормальные числа, числа записанные прописью и жаргон: червонец, четвертак, лимон, ... .

    8. Сравнение с числом, размещенным рядом со словом - CompareWithNumber (!)

    Позволяет находить ссылки, внутри контентов которых есть числа, удовлетворяющие критериям.

    Например, если в Правиле есть обращение к этой функции со следующими параметрами:
    сумма, >, 8млн ,
    то критерию поиска удовлетворит ссылка, в контенте которой содержится, например, следующий текст:
    "... сумма долга - 10 миллионов рублей ...".

    Пояснение:
    в контенте ссылки есть слово "сумма" и стоящее рядом с ним число "10 миллионов",
    которое больше, чем 8 миллионов.
    По этой причине ссылка будет удовлетворять критерию поиска.
    Если в Правиле кроме этой функции прописано конкретное предприятие, то останутся только те ссылки, в которых оно упомянуто.

    9. Длина контента ссылки - LongOfNew

    Можно различать ссылки по длине их значимого контента (по количеству символов в контенте), например, отбрасывать очень длинные и/или очень короткие ссылки.
    Для того, чтобы указать диапазон значений, в Правиле следует прописать два обращения к этой функции через логическое "И".
    Длина и знак сравнения прописываются как параметры этой функции.

    10. Количество конкретных слов в контенте ссылки - CountOfWords

    Можно указать, что Пользователя интересуют только те ссылки, в которых, например,
    Путин упомянут более 7 раз,
    а Медведев не менее 5 раз.
    У функции три параметра: слово, знак сравнения и число. Прописав в Правиле оба условия:
    fun(CountOfWords,Путин,>,7) fun(CountOfWords,Медведев,>=,5)
    будем получать ссылки, на которых одновременно много и Путина, и Медведева.

    11. Сравнение дат - IncludesDate (!)

    Позволяет находить ссылки, внутри контентов которых есть даты, удовлетворяющие критериям.
    Например:
    >=14.02.13 (в контенте ссылки есть дата 14 февраля 2013г. или более поздняя),
    <22.01.2013 (ранее, чем 22 января 2013г), =26.03.13 (именно 26 марта 2013г),
    =сегодня (имеется ввиду не слово "сегодня", а присутствие в контенте текушей даты), =вчера,
    >=неделя (неделю назад и позднее), >месяц (позднее, чем месяц назад),
    =завтра, >завтра (послезавтра и позднее), >=-7 - через неделю и позднее (будущее время),
    >-365 - через год с лишним, =-14 ровно через 2 недели,
    <=14 - раньше, чем 2 недели назад (в прошлом), <год (ранее, чем год назад),
    =понедельник - в любой понедельник из прошлого или будущего,
    <=36525 - ранее, чем 100 лет назад.

    В контенте ссылки даты вида: "16 февраля 2013 года", - распознаются и анализируются.
    Если после месяца нет года, то подразумевается текущий год.
    Даты на английском и других языках в данной реализации функции не рассматриваются.
    Параметров два: знак сравнения и дата.

    12. Сравнение дат публикации - DateOfEvent

    Эта ВФ-функция во многом аналогична предыдущей. Отличие в том, что действия производятся над датами публикации ссылки,
    а не над всеми датами, употребляемыми внутри контента ссылок. Параметры те же: знак сравнения и дата.

Продолжение следует ...

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Создание и применение собственных ВФ-функций

Инструкция программисту по разработке ВФ-функций - в стадии написания.

Инструкция Пользователя по применению ВФ-функций.
    1. Параметры прописываются через запятую сразу после имени ВФ-функции. Например:
    fun(IncludesDate,>,16.02.13)

    2. Обновитесь до версии 8.4.1.
    3. Скачайте архив ВФ-функций отсюда и перепишите хранящиеся в нем функции в папку Exe (буквы латинские).


    Далее, в зависимости от обратной связи от Пользователей, ВФ-функции будут включены в дистрибутив SiteSputnik News, WebSpider и Station,
    или Пользователи самостоятельно будут подгружать нужные ВФ-функции.

Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Подтверждаю - отличный функционал! Активно использую NumberNearWord и DateOfEvent .

DateOfEvent - для отбора только новых материалов по ряду тем(там где важно ТОЛЬКО новое видеть).

NumberNearWord - для отбора материалов о конкурентах с указанием числовых значений. Это указания на эх объемы, доходы, численность и т.п.. Думаю нет нужды объяснять зачем :) Второе направление - сбор разных исследований рынка.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Вчера по просьбе Пользователя (скорее всего, на этом форуме он не присутствует) сделал 13-ю ВФ-функцию.

    13. Поиск слова в якоре ссылки - AnchorWord

    Эта ВФ-функция имеет один параметр - искомое слово. Оно ищется во всех "якорях" значимого контента ссылки.
    Если слово (точнее лексема) находится, то функция возвращает значение "Да" (истина).
    Особенность реализации - 100% совпадение, без дополнительного анализа слова, поэтому окончания рекомендуется отбрасывать.

    Например, правило:

    fun(AnchorWord,Путин)
    fun(AnchorWord,Янукович)
    fun(AnchorWord,Лукашенко)
    fun(AnchorWord,Серге) fun(AnchorWord,Иванов)
    !Путин* fun(AnchorWord,Един) fun(AnchorWord,Росси)

    обеспечит попадание в Рубрику тех ссылок, в якоре которых прописан хотя бы один из трёх президентов: Путин, Лукашенко или Янукович, или Сергей Иванов, или в любом месте ссылки упомянут Путин, а в якоре есть Единая Россия.

Чтобы воспользоваться ею обновитесь до SiteSputnik 8.4.1.2 и перепишите функцию AnchorWord отсюда в папку Exe.

tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 784
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Чрезвычайно полезный функционал! :good:
Алексей Борисович, а когда примерно можно ожидать инструкцию для программиста? Много времени займёт её написание?
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Написание займет дня 2-4. Сделаю, когда увижу устойчивую обратную связь.
У Вас есть конкретные, реальные потребности? Какие?

tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 784
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Для: Алексей Мыльников
Через ВФ-функции можно много чего делать. :smile:

Например, можно сотворить парсеры контактов.
Допустим, нужно собрать все e-mail организации "Аэрофлот", чтобы потом мониторить их. Делаем модуль, который будет искать в текстах @aeroflot.ru, извлекать e-mail и складывать их в файл. Каждый найденный e-mail проверяется на наличие в этом списке и, если мейл новый, то ВФ-модуль добавляет его в список. Остаётся поставить этот файл с мейлами на мониторинг - как только в нём произойдут изменения, смотрим, какой мейл появился, и добавляем его к общему мониторингу "Аэрофлота".
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

tungus1973 написал:
[q]
Через ВФ-функции можно много чего делать.
[/q]
А ещё поконкретнее можно?

Касательно сбора е-майлов для организации, предложенного в предыдущем сообщении, можно применить следующую ВФ-функцию.

    14. Поиск Е-майлов корпоративных (по домену) - ParserForEmail

    Эта ВФ-функция имеет от одного до трех параметров.
    1-ый параметр обязательный. В нём указывается какие Е-майлы мы ищем, например, @aeroflot.ru.
    2-й параметр, если он задан и равен 0 или false, обеспечивает возврат в Правило попадания в Рубрику значения "Нет" при любых обстоятельствах. Иначе функция работает логически: вернет "Да", если искомый E-майл в ссылке найден, "Нет", если не найден
    3-й параметр, если он задан, укажет в какую папку помещать найденные е-майлы. Иначе адреса попадут в папку Mails, вложенную в корневую папку программы. Папки предварительно создавать не обязятельно.

    Например, если мы работаем по Роснано, то правило:

    ( fun(ParserForEmail,@rusnano.com) | Чубайс | Роснано )

    обеспечит попадание в Рубрику даже тех ссылок, в которых нет Чубайса или Роснано, но есть фирменный роснановский е-майл.

    Если мы напишем так (2-му параметру присвоим 0):

    ( fun(ParserForEmail,@rusnano.com,0) | Чубайс | Роснано )

    то фирменный е-майл не отправит ссылку в Рубрику, но своё основное дело сделает: роснановские е-майлы "выцарапаны" будут.

    Если мы напишем так:
    fun(ParserForEmail,@yandex.ru,0,F:\Майлы)
    fun(ParserForEmail,@mail.ru,0,F:\Майлы\Mail)
    fun(ParserForEmail,@gmail.com,0,f:\Майлы)
    fun(ParserForEmail,@yahoo.com,0,F:\Майлы)
    fun(ParserForEmail,@rambler.ru,0,f:\Майлы)
    ( fun(ParserForEmail,@rusnano.com) | Чубайс | Роснано )

    то кроме работы по Роснано, будем попутно собирать "встретившиеся" е-майлы с yandex.ru, mail.ru, gmail.com, yahoo.com, rambler.ru.

    Напомню, что строки в Правиле соединяются через логическое "Или".

Чтобы воспользоваться этой ВФ-функцией обновитесь до SiteSputnik 8.4.1.3 и перепишите ParserForEmail отсюда в папку Exe.

tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 784
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

Алексей Мыльников написал:
[q]
А ещё поконкретнее можно?
[/q]

Функционал ВФ позволяет пользователю, знакомому с любым языком программирования (!), писать модули обмена информацией между программами. Пожалуй, никто из присутствующих не будет со мной спорить, если я скажу, что НЕ существует универсальной программы для КР, которая умела бы делать абсолютно ВСЁ. Однако механизм ВФ позволяет, при желании, использовать достоинства всех этих программ.
Например, результаты работы СайтСпутника можно автоматически выгружать для обработки в другие программы. Пользователи давно уже просят механизм для занесения новостей, собранных "СайтСпутником", в их внутренние базы данных. Базы данных могут быть разных форматов, от Cronos до Oracle. Написать модули для переноса данных в базы ВСЕХ форматов не получится. Вы же не знаете, в какие таблицы и в какие поля таблиц нужно заносить данные. Однако, пользователи, умеющие программировать или имеющие знакомого программиста, могут сами сделать модуль для выгрузки данных в базу любого формата.
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

tungus1973 написал:
[q]
Написать модули для переноса данных в базы ВСЕХ форматов не получится.
[/q]


Ну почему же - есть стандарт текстового файла для импорта-экспорта в базы данных - CSV.

А для прямого чтения содержимого таблиц Paradox можно использовать утилиту командной строки PdxHakView - _ttp://pdxhak.sourceforge.net/ :wink:

Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
На самом деле функция экспорта в БД у СайтСпутника уже есть.
В настройках Рубрики (которую хотите экспортировать) указываете папку и формат экспортируемого файла (таблица). Результат по данной Рубрике будет выложен в указанную папку в табличной форме. Далее указываете вашей БД откуда импортировать данные и собственно всё.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

Игорь Нежданов написал:
[q]
Результат по данной Рубрике будет выложен в указанную папку в табличной форме.
[/q]


То есть там уже CSV? Здорово! :good:
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Ещё одна логическая ВФ-функция.

    15. Количество комментариев к ссылке - NumberOfComments

    Эта ВФ-функция имеет два параметра - знак сравнения и число, например >,10.
    Если количество комментариев к ссылке удовлетворяет условию, заданному в параметрах, то функция возвращает значение "Да" (истина).

    Например, правило:

    Дмитрий /1 Медведев fun(NumberOfComments,>=,100)

    обеспечит попадание в Рубрику тех ссылок, в которых упоминается Дмитрий Медведев и количество комментариев к которым не менее 100.

Чтобы воспользоваться ею обновитесь до SiteSputnik 8.4.1.4 и перепишите функцию NumberOfComments отсюда в папку Exe.

<<Назад  Вперед>>Страницы: 1 2
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   SiteSputnik News. Внешние функции для Рубрик
RSS

Последние RSS
Не все VPN-сервисы одинаково полезны
«Яндекс» научился выдавать в поиске не скрытые Google-документы. Правда лавочку
War and marketing: 1937 July 7th vs. 2018 July 1st
Историческое. Агентурная разведка
Open Source Intelligence (OSINT) Tools and Resources Handbook
Top tips on gathering information about companies by using free online sources
Новое на блоге HRразведка
Безопасность данных в MS Access
Слово как улика
20 Recon and Intel Gathering Tools used by InfoSec Professionals
What’s Changed?
10 альтернативных поисковиков
Ситуационный центр главы Республики Коми
Развёртывание ситуационных центров на базе технологии Avalanche
Как принимать сложные решения. Советы бывшего оперативника ЦРУ.
Открытая информация о "Новичке" из сети интернет.
Ген. директор "ОЗХО" Ахмет Узюмдж о "Новичке" и хим. атаке в Сирии
Онлайн-сервисы для Twitter
Коллекция для Twitter
Приложение Opera VPN закрывается

Самые активные 20 тем RSS
Новости блогов
Не все VPN-сервисы одинаково полезны