Регулярные выражения в Рубриках программы SiteSputnik

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Регулярные выражения в Рубриках программы SiteSputnik
RSS

Регулярные выражения в Рубриках программы SiteSputnik

Регулярные выражения как логические величины в Правилах попадания в Рубрики

<<Назад  Вперед>>Страницы: 1 2
Печать
 
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    В программе SiteSputnik версии 8.8.1 от 11.09.14 в Рубриках наравне и совместно с другими конструкциями (логическими величинами) можно примененять регулярные выражения, далее РВ.


      Некоторые обозначения для РВ

        \s - любой "пробельный" символ,
        | - операция логическое ИЛИ,
        подробнее про РВ здесь ....
        В СайтСпутнике РВ заключаются в фигурные скобки {РВ}


    Примеры Регулярных выражений.

    {201[0-2]} - где-то в контенте ссылки должно быть хотя бы одно из: 2010, 2011, 2012. Учитываются: 20111, 42012, 720109.
    {\s201[0-2]\s} - должно быть в контенте хотя бы одно число из: 2010, 2011, 2012. Не учитываются: 20111, 42012, 720109, так как применен пробельный символ.
    {\s201[0-2]\s(год|г\.)} - те же числа, но за числом обязательно должно следовать слово, начинающееся с год, или г.
    ~{\s201[0-2]\s(год|г\.)} - в контенте не должны встретиться эти годы, а именно: ни 2010 год или г., ни 2011 год или г., ни 2012 год или г.

    {Путин(а|у|ым|е|\s)} - удовлетворяют 5 падежей от слова Путин, а именно: Путина, Путину, Путиным, Путине, Путин, а также из-за того, что нет пробельного символа слева, удовлетворяют Распутина, Распутину, ..., но не удовлетворяют: Путинская, Путины, Распутинка.
    {(В\.Путин.{1,}){12,}} - В.Путин должен встретиться в контенте не менее 12 раз, учитываются слова В.В.Путин, В.Путина, А.В.Путиной, не учитываются Путин, Путин В.В., А.Путин, пропутинский, В.Распутин, путинка. Удобно при помощи такого РВ искать интервью с В.Путиным.
    {(Путин\s.{1,}){4,10}} - Путин в именительном падеже должен встретиться не менее 4 раз, но не более 10 раз, не учитываются пропутинский, путинка, но учитывается Распутин.
    {(\sПутин\s.{1,}){4,10}} - аналогично предыдущему, но Распутин не учитывается.

    (Украина | 'ДНР' | 'ЛНР') {(\sПутин\s.{1,}){3,}} - удовлетворяют контенты ссылок, в которых речь идет об Украине, или ДНР или ЛНР и Путин в именительном падеже упомянут не менее 3-х раз. Здесь одно РВ применено совместно с обычными величинами.
    (Украина | {(\s|")(Д|Л)НР(\s|")}) {(\sПутин\s.{1,}){3,}} - тот же самый результат, но задействованы два РВ. Вместо 'ДНР' | 'ЛНР' использовано {(\s|")(Д|Л)НР(\s|")}.

    {\s[7-9]\s[0-9]{3}\s(кг|куб\sсм)} от 7 000 до 9 999 кг или от 7 000 до 9 999 куб см - хотя бы одна такая комбинация должна быть в контенте.
    {[^0-9]\s[0-9]{2,3}\s[0-9]{3}\s(руб\.|р\.)} от 10 000 до 999 999 руб. или от 10 000 до 999 999 р.

    Два последних примера позволяют задавать диапазон чисел, то есть, можно теперь без применения поиска по источнику по диапазону чисел (если он есть), выбирать актуальный для фирмы уровень стоимости контракта, товара или числовые диапазоны другого типа.
    Целесообразно "привязываться" к впереди или позади стоящим от числа символам как это сделано выше, чтобы иногда не "попадаться" на номера телефонов, почтовые индексы или другие неинтересующие Вас числа.

    {[0-9a-z_\-\.]+@[0-9a-z_\-^\.]+\.[a-z]{2,4}} - в контенте есть е-майл адрес абсолютно любой.
    {[0-9a-z_\-\.]+@rosnano.ru} - в контенте есть любой е-майл адрес c домена rosnano.ru

    То есть, теперь можно искать контенты, содержащие е-майлы. Может пригодиться для того, чтобы делать целевые рассылки по е-майлу. Цель формируется в Правилах попадания в Рубрики и, возможно, в запросе, если источник поисковик или встроенный в ресурс поиск.

    {\s([+][7]|[7]|[8]|)(\s|\-|\s[(]|[(]|)[0-9]{3}([)]|[)]\-|[)]\s|\-|\s|)[0-9]{3}((\s|\-|)[0-9]{2}){2}} - есть любой российский телефон в основных стандартных формах записи.
    {\s([+][7]|[7]|[8]|)(\s|\-|\s[(]|[(]|)[0-9]{3}([)]|[)]\-|[)]\s|\-|\s|)[0-9]{3}(\s|\-|)44(\s|\-|)25} - российские телефоны, оканчивающиеся на 44 25, 44-25, 4425.

    Это позволяет искать сообщения на заданную тему, в которых указан любой российский телефон (или часть российских телефонов).

РВ рекомендуется применять при необходимости. Мощность и универсальность оплачиваются ресурсами: на проверку шаблонов требуется чуть больше времени, чем на обычные правила, но замедление только на этапе Рубрикации и совсем не критическое, также не реализовано расстояние в словах для РВ, но "логическое НЕ" можно применять.

Шаблоны бывают простые и сложные. Совсем не обязательно их писать самому. Обращайтесь на форум, думаю, что здесь есть кому помочь.

Благодарю Дмитрия Владимирова из Владивостока за содействие при реализации регулярных выражений в Рубриках программы SiteSputnik.

tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Алексей Борисович, супер! :good:
Регулярные выражения хоть и не просты для начинающих, но позволяют очень гибко выполнять поиск в тексте практически любых слов и фраз. При должных навыках работы с регулярками в рубрики будет попадать именно то, что нужно, без мусора.

Дополнительный вопрос.
Иногда может быть очень удобным использовать в одной строке одновременно регулярное выражение и простой запрос СайтСпутника. Например, нам нужно найти дату "24 марта", но в 2009 году или ранее, то есть не в 2010, 2011, 2012, 2013 или 2014 годах. В таком случае можно было бы эффективно сочетать стандартные правила рубрик с регулярным выражением:

'24 марта' /1 {\s201[0-4]\s}

Таким образом затраты ресурсов компьютера на обработку регулярок будут минимальными - точечно и только там, где это действительно необходимо.
Можно ли реализовать это?
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

tungus1973 написал:
[q]
'24 марта' /1 {\s201[0-4]\s}
[/q]

В первом топике я написал, что "логическое НЕ" есть, использовать в одной строке одновременно регулярное выражение и простой запрос можно, но расстояние в словах пока не реализовано. В Вашем случае можно получить нужный результат, используя возможности самих РВ. Будет это выглядеть так:

{\s24\sмарта\s[1800-2009]\s} - проще, но не учтены даты ранее 1800 года

или так:

'24 марта' ~{\s24\sмарта\s[201[0-4]\s} - посложнее, учтены даты до 1800 года, но если год в контенте не указап, то правило сработает,

тогда:

{/s24\sмарта\s([0-9]} ~{\s24\sмарта\s[201[0-4]\s} - практически учтет всё, вплоть до 24 марта 533 года до н. э. Мусор останется, если, например: "24 марта 1500 самураев перешли границу вдоль реки", - но они не так часто это делали. Но и Ваше Правило здесь принесет мусор.

Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Очень хороший инструмент. Можно тонко настроится на довольно сложные конструкции.

Спасибо!

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Коллеги, вчера спешил, а сегодня готов чуть шире высказаться по поводу регулярных выражений (как мы их используем). Самое очевидное - выявление сущностей. Самых разных. От упоминания людей или организаций, до всевозможных дат, адресов, телефонов, цен и т.п..

Например, вы наблюдаете некоего человека (организацию) и хотите, не просто быть в курсе всего происходящего вокруг наблюдаемого, но и знать КТО появился рядом с ним. Настраиваете регулярные выражения для выявления имен собственных и получаете каждый день перечень упоминаемых. Далее сравниваете его с предыдущими (это легко автоматизируется) и получаете список НОВЫХ. Этот список можно подгружать в БД.

А можно сложнее задачку решить - выявлять новые события вокруг объекта. Например приобретение имущества (в т.ч. акции, доли). В рубрике с упоминанием Объекта настраиваете ряд регулярных выражений, предназначенных для выявления конструкций, описывающих именно приобретение (покупку). Понимаю, что нужно "попотеть". вначале выявляя устойчивые конструкции, а затем их описывая. Зато в результате получаете оповещалку. которая вас информирует об интересующем вас событии.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Для: Игорь Нежданов
А можно привести какой-нибудь несложный пример?
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

Алексей Мыльников написал:
[q]
Шаблоны бывают простые и сложные.
[/q]

угу. а еще есть утилиты для контроля - например мне нравится RegexCoach. задаешь строку, РВ и его опции и смотришь - находит ли РВ то, что нужно. при необходимости корректируешь РВ...

кстати. а какой стандарт РВ поддерживается PCRE или классический?. далее буду в PCRE писать.


Игорь Нежданов написал:
[q]
Настраиваете регулярные выражения для выявления имен собственных
[/q]


ну это-то понятно - собственные имена начинаются с большой буквы - то есть фраза "Иванов встретился с Петровым", а не фраза "Иванов пошел домой" можно описать так

Иванов\s+(\S+\s+){1,5}([А-Я]\S+)

Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Другое дело, что я использовал еще одну возможность РВ - не только проверки соответствия строки шаблону, а и выделения нужной подстроки из строки - круглые скобки.
если в СС поддерживается и это (как переменная, которую можно вставить в отчет или как-то так), то можно сразу узнать, о ком речь и как-то автоматизировать сохранение этйо информации, а не смотреть вручную, с кем он там взаимодействовал :preved:
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Vinni написал:
[q]
угу. а еще есть утилиты для контроля - например мне нравится RegexCoach. задаешь строку, РВ и его опции и смотришь - находит ли РВ то, что нужно. при необходимости корректируешь РВ...
[/q]

Утилиты просто не искал, мне они в данном случае не нужны: задать строку, отдать её на РВ и посмотреть что оно вернет - это один оператор в программе. Но посмотреть - находит ли РВ то что нужно, это только, грубо говоря, одна десятая часть дела, даже меньшая, надо ещё определить находит ли РВ то, что не нужно. Поэтому если есть нормальный инстумент для отладки РВ, то подскажите Пользователям, если нет, то, со временем, при реальной необходимости сделаю сам и встрою с СайтСпутник. Но думаю, что уже есть готовые решения.

Vinni написал:
[q]
какой стандарт РВ поддерживается PCRE или классический?.
[/q]

PCRE

Vinni написал:
[q]
Другое дело, что я использовал еще одну возможность РВ - не только проверки соответствия строки шаблону, а и выделения нужной подстроки из строки - круглые скобки.
если в СС поддерживается и это (как переменная, которую можно вставить в отчет или как-то так), то можно сразу узнать, о ком речь и как-то автоматизировать сохранение этйо информации, а не смотреть вручную, с кем он там взаимодействова
[/q]

Да, поддерживается, плюс нужные подстроки выделяются цветом.

Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

tungus1973 написал:
[q]
Для: Игорь Нежданов
А можно привести какой-нибудь несложный пример?
[/q]

Можно, но он вряд ли поможет в случае с СайтСпутником - мы используем другой семантический движок. А пример правила вот:

Для выявления указаний на человека (ФИО, ФИ, Ф, И, ИО) с использованием (или без) разного рода обращений
ProperName -> Word<h-reg1>+;
Person -> ProperName | 'человек';
FormOfAddress -> 'товарищ' | 'мистер' | 'господин' | 'сэр' | 'сударь' | 'госпожа' | 'мадам' | 'сударыня'; // тут целый словарь вариантов обращений, в том числе сокращенных, неуважительных и т.п..
AdjCoord -> Adj;
AdjCoord -> AdjCoord<gnc-agr[1]> ',' Adj<gnc-agr[1]>;
AdjCoord -> AdjCoord<gnc-agr[1]> 'и' Adj<gnc-agr[1]>;
S -> Adj+ (FormOfAddress) Person;
S -> AdjCoord (FormOfAddress) Person;

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Физическое лицо и только физическое лицо регулярным выражением из текста не выделишь. Как фильтр грубой очисти РВ для этого пригодно, но не более того.

Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

Алексей Мыльников написал:
[q]
Поэтому если есть нормальный инстумент для отладки РВ, то подскажите Пользователям,
[/q]


Хм. Я как раз рекомендовал инструмент для отладки РВ. Вы его сначала посмотрите, а потом уж делайте выводы :wink:

Семёныч
Модератор форума
Городской Охотник
Всего сообщений: 926
Рейтинг пользователя: 10


Ссылка


Дата регистрации на форуме:
8 июня 2009
Если честно, то я себя считал знатоком программы СайтСпутник по уровню чуть выше среднего.
Но вот после таких запросов (Украина | {(\s|")(Д|Л)НР(\s|")}) {(\sПутин\s.{1,}){3,}} у меня зубы морщатся и морда чешется.
Знаете, что мне это напоминает? Вот есть спортивный болид, есть на него гонщик и есть группа механиков. Кто-то отвечает за подвеску, кто-то за настройку коробки передач, кто-о за систему впрыска и т.д. Но есть один супер механик - "дядя Вася" (в нашем случае это Алексей мыльников), который может через воздушный фильтр влезть, пробраться через двигатель и топливную систему, а из выхлопной трубы вылезть. И счастье гонщика, что такой д.Вася в его команде и всегда под рукой.
Простите, что так из далека захожу, но в нашем случае разработчик программы не будет каждому помогать составлять эти РВ. Даже, наверняка, не проблема их составить, проблема правильно их составить, а в приведённом мной выше примере пропуск какого-нибудь значка приведёт к хреновому результату или к никакому.
Когда появились пакеты запросов, то в скором времени появились и стандартные пакеты запросов. Может и с РВ они в скорости появятся. Я реально сомневаюсь, что эта тема под силу малоопытному пользователю СайтСпутника. И даже опытному ошибиться в составлении - пара пустяков.

---
Нет такой безвыходной ситуации,в которую невозможно вляпаться... (с)
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Семёныч написал:
[q]
разработчик программы не будет каждому помогать составлять эти РВ
[/q]

1. Почему не будет помогать, - помогу я или, надеюсь, другие. Не думаю, что в день будет по 5 запросов на новые сложные РВ. У Вас есть хоть один?

2. РВ бывают не только сложные, но и простые.

3. Никто никого не принуждает писать РВ, Вы же как-то жили без этого. Всё что было ранее - работает. Никто ничего не отменял.

4. Кстати, есть и более сложные чем РВ вещи в СайтСпутнике - это Внешние функции, и есть Пользователи, которые их применяют.

Мне как сделать одну кнопку на программе, Вы нажмете на неё и получите то, что Вам нужно в данный момент? Такая кнопка есть - это "Золотой ключик", но он позволяет получать простым способом только простые результаты.

Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

Семёныч написал:
[q]
Простите, что так из далека захожу, но в нашем случае разработчик программы не будет каждому помогать составлять эти РВ. Даже, наверняка, не проблема их составить, проблема правильно их составить, а в приведённом мной выше примере пропуск какого-нибудь значка приведёт к хреновому результату или к никакому.
[/q]


Да - с РВ ошибка в одном символе может дорого стоить. :goodbuy:
Поэтому я сам сначала беру несколько текстовых строк, на которых отлаживаю РВ в интерактивном режиме
И только потом использую полученное РВ.

На самом деле базовых конструкций РВ не так уж много - после некоторой практики (дорогу осилит идущий :wink: ) Вы освоите их и сможете легко использовать. :yes:

[q]

(Украина |ДНР |ЛНР) {(\sПутин\s.{1,}){3,}} - удовлетворяют контенты ссылок, в которых речь идет об Украине, или ДНР или ЛНР и Путин в именительном падеже упомянут не менее 3-х раз. Здесь одно РВ применено совместно с обычными величинами.
(Украина | {(\s|")(Д|Л)НР(\s|")}) {(\sПутин\s.{1,}){3,}} - тот же самый результат, но задействованы два РВ. Вместо 'ДНР' | 'ЛНР' использовано {(\s|")(Д|Л)НР(\s|")}.
[/q]


Давайте разберем на этом примере некоторые возможности.
Нам нужно найти тексты, в которых говорится об определенной тематике. В таких текстах будут использоваться определенные слова-маркеры (не обязательно все сразу).
Мы выбрали три таких слова - Украина, ЛНР и ДНР. Конструкция (Украина | 'ДНР' | 'ЛНР') означает, что в результате использования этого РВ будут возвращаться тексты, содержащие хотя бы одно из этих слов (символ | -это на самом деле ИЛИ). Круглые скобки - это ограничитель вариантов (надо же указать, где начало первого варианта и конец последнего).

так как слова ДНР и ЛНР похожи (отличаются на одну букву), то можно оптимизировать список вариантов и (ДНР|ЛНР) написать как ((Д|Л)НР). То есть бвудут искаться строки, начинающиеся либо с Л либо с Д, за которыми идет строка НР.

Еще одна возможность РВ - метасимволы и возможность указывать сразу группу символов при поиске в тексте. Обычно используют символ \s для описания символов-разделителей слов (пробел, табуляция и т.д.) и \S для описания букв и цифр (значимые символы).
Поэтому конструкция \sПутин\s означает отдельное слово Путин с пробелами или другими разделителями слов перед ним и после него, а не "Путина" и т.д.



Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Еще один популярный метасимвол - точка (.). Он обозначает любой символ. Плюс иногда используют \d - это любая цифра.
Символ + после метасимвола (или того, что заключено в круглые скобки) означает произвольное число повторений. \s+ -это и один пробел и десять пробелов
Конструкция {число,число} - это явное ограничение на число повторений метасимвола или какой-то конструкции. Первое число - минимальное число повторений, а второе максимальное.
\s{1,3} - это одного до трех пробелов .

Собственно вот и все возможности. которые были использованы в примере :wonder1:

Семёныч
Модератор форума
Городской Охотник
Всего сообщений: 926
Рейтинг пользователя: 10


Ссылка


Дата регистрации на форуме:
8 июня 2009
Благодарю! :hi:
Действительно, не так и много. Но выглядит - аж жуть!!!
Придётся "осиливать дорогу", а шо рабiць?

---
Нет такой безвыходной ситуации,в которую невозможно вляпаться... (с)
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Алексей Мыльников написал:
[q]
"Золотой ключик" позволяет получать простым способом простые результаты.
[/q]

Ещё несколько слов о простоте и мощности.

"Золотой ключик" можно применить как простое средство в SiteSputnik Pro.
Если же Вы работаете с новостями (в SiteSputnik Pro+News) и Вам нужен просто агрегатор, то окрываете новый новостной Проект и просто впишите в него нужные RSS-адреса. Всё агрегатор готов. Ничего сложного. Результаты агрегации в "Чистом потоке".

Если Вам нужно этот поток проанализировать на несколько тем, одна их которых Василий Шукшин, то создаете для этой темы Рубрику с правилом:

(Василий /2 Шукшин | 'Калина красная' кинофильм | ещё что-нибудь)

Сложнее? Да, но и выдача будет то, что нужно.
Если Вам нужно, чтобы публикация была именно о Шукшине, а не упоминание его вскользь, то можно как вариант добавить через "логическое И" РВ {(Шукшин.{1,}){7,}}. Это выдаст публикации, где Шукшин упомянут не менее 7 раз. Кое-что Vinni пояснил по работе РВ. Добалю от себя на популярном языке о работе этого РВ следующее. Оно ползёт по анализируемому тексту, попадает на Шукшин. Пока всё нормально. Далее видит .{1,} и понимает, что можно ползти далее и найти такую конструкцию нужно не менее 7 раз потому что на ней прописано {7,}. Если это удалось, то анализируемый текст удовлетворяет этому РВ.
Все правило будет выглядеть так: {(Шукшин.{1,}){7,}} (Василий /2 Шукшин | 'Калина красная' кинофильм | ещё что-нибудь)

Если Вам, чтобы сделать нужные выводы, надо что-то посмотреть в базе данных Кронос, или в Excel, или информация лежит на сайте и надо выйти через интернет на этот сайт..., в этом случае РВ Вам не помощник (оно не всемогуще) - то примените Внешние функции. Это ещё сложнее, но позволяет улучшить выдачу.

Если источник информации не RSS-поток, а там где речь идет об "очень интересных вещах", RSS-ок точно нет, то сэмумируйте поток без Мастера подключения источников. Это чуть сложнее, чем просто вписать адрес RSS, но потоки, попадающие на анализ улучшатся.
Если это не дает нужные ссылки, то примените Мастер. Это сложнее, но позволяет достать те данные, которые не достанешь через RSS и его эмуляцию.

Важно.
1. Всё, что в однокнопочных системах делаеся по одной кнопке в СайтСпутнике тоже делается по одной кнопке.
2. Да, где-то что-то в сложных случаях можно сделать проще, точнее кому-то это будет проще, кому-то нет. Этими вопросами занимаюсь постоянно. У Вас есть эти где-то и что-то? Если да, то пишите на форум или по е-майлу.

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Алексей Мыльников написал:
[q]
... со временем, при реальной необходимости, сделаю сам и встрою с СайтСпутник утилиту для проверки регулярных выражений ...
[/q]

    В программе SiteSputnik в версии 8.8.3.10 от 05.11.14 появилась утилита для проверки Регулярных выражений один-в-один как они интерпретируются СайтСпутником.

    К ней можно обратиться, находясь на вкладке "Рубрики", из подменю на правой кнопке: "Специальные функции - РегВыражения" или, как показано ниже, с самой картинки оформления Рубрики по кнопке "РВ" (см. черную стрелку):



    Кстати, еще сделал кнопку "ЭП" (элементарное правило). По ней можно сложное Правило попадания в Рубрики преобразовать к Элементарным правилам. Это помогает найти синтаксические и семантические ошибки в сложных Правилах, в частности, раскрываются круглые скобки, подставляются реальные значения из задействованных в Правиле словарей, ....

    Само окно проверки регулярных выражений таково:



    В первом окне можно задавать разные варианты текста, во втором разные варианты регулярных выражений и по кнопке "Применить" проверять: удовлетворяет ли заданный текст заданному регулярному выражению.

<<Назад  Вперед>>Страницы: 1 2
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Регулярные выражения в Рубриках программы SiteSputnik
RSS

Последние RSS
Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей

Самые активные 20 тем RSS