Версия для печати

-   Форум Сообщества Практиков Конкурентной разведки (СПКР) http://forum.razved.info/
--  Приемы работы с программой СайтСпутник (SiteSputnik) http://forum.razved.info//index.php?f=38
--- Рубрики в СайтСпутник(е). http://forum.razved.info//index.php?t=1045




-- Алексей Мыльников написал 28 июля 2010 22:00
О рубриках в программе SiteSputnik


1. Предположим, что Вы систематически выполняете мониторинг электронных СМИ и новостных источников и собираете информацию на заданную тему или о заданном объекте. Как это можно сделать в программе SiteSputnik описано здесь на форуме - forum.razved.info/index.php?t=894

2. Усовершенствуем один из демонстрационных примеров из указанного описания, а именно, "Прогнозы аналитиков".
В новом демонстрационном примере, Прогнозы аналитиков 2 (ссылка будет ниже) можно ознакомиться с Рубриками.

3. Рубрики - это иерархическая структура (тематическое дерево), создаваемая пользователем под свои задачи.
Каждый узел и лист этой структуры - отдельная Рубрика.

4. У каждой Рубрики существует "Правило попадания информации в рубрику". Оно, в частности, может быть сформулировано при создании рубрики.
На картинке ниже

(http://sitesputnik.ru/Help/Pic/SSRub.GIF)

правило обведено желтой линией. Оно означает следующее.
В Рубрику с именем Акции будут попадать те ссылки, которые:
а) или содержат словоформы от всех 4-х слов: "накапливать", "покупать", "держать", "акции" и не содержат словоформы от слова "политическая";
б) или содержат словоформы от всех 3-х слов: "котировки", "ценные", "бумаги", причем две последние словоформы находятся рядом,
в) или словоформы от слов Анатолий и Чубайс, находящиеся где-то в тексте рядом или на расстоянии двух пробелов.


5. Формально "Правило попадания информации в рубрику" таково:
1) каждая строка - набор ключевых слов, которые обязательно все должны присутствовать в содержании ссылки (логическое "И");
2) строк с ключевыми словами может быть несколько (логическое "ИЛИ" между строками);
3)~слово - эта конструкция означает, что слово в содержании ссылки должно отсутствовать (логическое "НЕТ");
4) 'точная фраза' заключается в одинарные кавычки;
5) перечень всех правил ведется в инструкции (http://sitesputnik.ru/Help/SSRubriki.htm).

6. В качестве задач, для которых целесообразно создавать Рубрики, могут выступать аналитические отчеты, оглавления книг, диссертаций или дипломов, любые другие документы или произвольные структуры для произвольных задач.

Структура Рубрики "Прогнозы", разработанной для данного демонстрационного примера, выглядит следующим образом:

(http://sitesputnik.ru/Help/Pic/SSRubStr.GIF)

На картинке выше она обведена красной линией.
Для входящей в ее состав рубрики "Россия" на зеленом фоне подсвечено правило попадания информации: если ссылка содержит слова "индекс ММВБ" или "индекс РТС", то ее содержание попадет в эту рубрику.

Подобных структур можно создать любое количество.


7. Любая Рубрика может быть подключена к любому пакету запросов. Для этого в тексте пакета достаточно набрать имя рубрики. Для нашего случая в пакете должна быть следующая строка:

^^Рубрики\Прогнозы

Далее, Вы работаете в программе: выполняете пакетный поиск, открытие ссылок, - а СайтСпутник заполняет указанные в пакете рубрики нужной информацией в нужном месте,
другими словами, раскладывает информацию по подготовленным Вами полочкам.
Пока (в настоящей версии программы) в пакете запросов можно прописать только одну рубрику.

Попробуйте на практике убедиться в том, что написано выше.
Для этого ознакомьтесь и выполните действия, описанные в следующем пункте.



8. Демонстрационный пример

Для того, чтобы вживую опробовать функцию Рубрики, "полазить" по тематическому дереву, посмотреть на пакет запросов и подключенные источники информации, - сделайте следующее:

1) скачайте файл – sitesputnik.ru/Files/ZPrognoz2.rar , размером около 2 мб
2) распакуйте его в любом месте, откройте папку FileForFiles;
3) откройте файл FileForFiles.exe из этой папки;
4) на верхней панели инструментов открывшейся программы нажмите на иконку «Золотой ключик»;
5) дождитессь окончания процесса поиска и обработки информации по запросу "Прогнозы аналитиков".

Первый поиск принесет большое количество ссылок. Сбор информации происходит из 11 источников, а именно:
- РБК (rbc.ru),
- c•news (cnews.ru),
- газета.ru (gazeta.ru),
- Яндекс.Новости (news.yandex.ru),
- Google.Новости (news.google.ru),
- ВЕСТИ (vesti.ru),
- Коммерсант.ru (www.kommersant.ru),
- ДНИ.РУ (dni.ru),
- ФССП Росиии (fssprus.ru),
- NEWSru.com (newsru.ru),
- LENTA•RU (lenta.ru)

Глубина поиска - одна страница.

Для того, чтобы быстро перейти и ознакомиться с содержимым Рубрик, можно на списке "Новости" нажать на кнопку "Переход к рубрикам".

Далее периодически, например, три раза в сутки, выполняйте пункт 4) и собирайте только новые прогнозы аналитиков по различным темам-рубрикам (реализация в ближайшем будущем диспетчера позволит автоматизировать эту работу).
Количество обрабатываемых ссылок значительно уменьшится - на предмет попадания в Рубрики будут анализироваться только те ссылки, которые отсутствовали во всех предыдущих поисках.

Для того, чтобы в демонстрационной версии программы добавить свои Рубрики или изменить Правила для существующих рубрик, используйте пункты меню "Создать новую Рубрику..." и "Изменить правило для рубрики".
Эти пункты доступны по правой кнопке мышки на древовидной структуре Рубрики.
На картинке ниже красной и синей галочкой отмечены упомянутые пункты меню.

(http://sitesputnik.ru/Help/Pic/SSRubMemu.GIF)

В промышленной версии программы SiteSputnik Pro+News можно составлять и подключать не только Рубрики, но и свои источники информации и пакеты запросов.

Манипулирование:
- ссылки, попавшие в Рубрики, можно редактировать прямо в окне встроенного браузера,
- можно перетаскивать их из Рубрики в Рубрику,
- ненужные или ссылки с похожим содержанием можно "мгновенно" удалять,
- допускается перетаскивание всей Рубрики, включая вложенные в нее Рубрики.

Клиентские папки:
содержание Рубрик может быть отправлено в клиентские папки, а именно: папки локального компьютера, локальной сети, по E-mail адресам, в папки сайтов. Примеры клиентских папок приведены на картинке ниже.

(http://sitesputnik.ru/Help/Pic/SSClientDir.GIF)

Подробнее о Рубриках здесь - sitesputnik.ru/Help/SSRubriki.htm


-- petryashov написал 28 июля 2010 23:10
Вот это вообще великолепная штука! Фактически это авторубрикатор найденной информации, то есть функция, позволяющая в разы уменьшить время аналитиков на сортировку информации. В предыдущей теме forum.razved.info/index.php?t=1044 я описал ручную рубрикацию, теперь же Вы разработали авторубрикацию.

По опыту работы с программами, использующими авторубрикацию, могу дать пару рекомендаций, которые, возможно, Вам пригодятся при дальнейшем совершенствовании продукта:

1. Желательно предусмотреть как авторубрикацию, так и возможность ручной корректировки атрибута "рубрика" каждой записи;

2. Желательно предусмотреть возможность присваивания одной записи нескольких атрибутов "рубрика". То есть, если на странице идет речь о золоте Колчака, система должна присвоит записи два атрибута "Золото" и "Колчак", а пользователь, если это ему это будет нужно, имел бы возможность присваивать этой записи иные атрибуты.


-- Алексей Мыльников написал 29 июля 2010 0:24

petryashov написал:
[q]
Вот это вообще великолепная штука! Фактически это авторубрикатор найденной информации, то есть функция, позволяющая в разы уменьшить время аналитиков на сортировку информации. В предыдущей теме forum.razved.info/index.php?t=1044 я описал ручную рубрикацию, теперь же Вы разработали авторубрикацию.
[/q]

Да. Вы можете перетащить "Юрчихин" в "Рубрики" и прописать правила попадания контента ссылки в каждую вложенную в "Юрчихин" папку (БД). Потребуется определенная доработка программы для адаптации к Yandex, Google, Rambler..., которые не относятся к новостным.

petryashov написал:
[q]
1. Желательно предусмотреть как авторубрикацию, так и возможность ручной корректировки атрибута "рубрика" каждой записи;
[/q]

Авто - есть, ручная - есть, не понял, что желательно предусмотреть?

petryashov написал:
[q]
2. Желательно предусмотреть возможность присваивания одной записи нескольких атрибутов "рубрика". То есть, если на странице идет речь о золоте Колчака, система должна присвоит записи два атрибута "Золото" и "Колчак", а пользователь, если это ему это будет нужно, имел бы возможность присваивать этой записи иные атрибуты.
[/q]

Про систему понятно, она это делает, а про пользователя не понял.


-- Алексей Мыльников написал 3 августа 2010 20:54
Попросил меня вчера Алексей Си...ев, зарабатыющийся на хлеб куплей-продажей б/у предметов, "направить" СайтСпутник на доски объявлений и применить к ним процедуры, затронутые в этой теме и в теме "Мониторинг электронных СМИ и новостных источников" (http://forum.razved.info/index.php?t=894&&st=0), а именно, выполннить за один проход следующее:

- поиск по нескольким источникам (задействовать доски: molotok.ru, irr.ru, avito.ru, oxl.ru, russia.slando.ru, ... );
- открытие всех найденных ссылок, удовлетворяющих поисковому запросу;
- выделение значимого контента (текстов объявлений);
- оформление выдачи (ленты) из текстов всех найденных объявлений;
- разнесение контента отдельных объявлений по Рубрикам.

Результат применения оказался достаточно хорошим: удалось подключить 8 из 10 досок, выдача с них получилась довольно-таки хорошего качества, с разнесением по рубрикам проблем нет и не будет в любых приложениях. Это приложение позволяет в разы быстрее ознакомиться с новыми объявлениями на заданную тему. Если выдачей с досок объявлений заняться "персонально", то можно довести ее до очень хорошего качества, подобного качеству выдачи при работе со СМИ и новостными источниками.

Таким образом, применением данного алгоритма является не только работа со СМИ и новостными источниками, но и другими источниками и, соответственно, другими приложениями. В идеале можно стремиться к работе с выдачей из поисковиков, но для поисковиков в общем случае качество выделения значимого контента найденных ссылок не может быть очень хорошим.


-- Игорь Нежданов написал 4 августа 2010 10:08
Работает стабильно. Пользоваться удобно. Возникло два вопроса.

1 При описании правил попадания материала в рубрику так понимаю словоформы не работают. По этой причине нужно писать слова без окончаний. Или как то по другому? Возможно ли использование символов "*" и "?" для обозначения пропущенных символов?

2 При работе с рубриками, особенно при создании новых, возникает необходимость "перерубрицировать" уже имеющиеся материалы. Т.е. разложить по новым рубрикам то, что уже есть. В ручную это долго, особенно при больших объемах. Нужен автоматический механизм. Есть ли такая возможность в СайтСпутнике?

И еще момент. Когда из раздела "Рубрики" пытаешься запустить поиск, то прога выдает сообщение о переходе в раздел "Поиск", но ничего не происходит. Нужно перейти в "Поиск" в ручную и только затем запускать поиск. В принципе не страшно, но тогда нужно отключить возможность поиска из раздела "Рубрики" - чтоб не провоцировать.


-- Алексей Мыльников написал 4 августа 2010 11:23

Иоанн написал:
[q]
1 При описании правил попадания материала в рубрику так понимаю словоформы не работают. По этой причине нужно писать слова без окончаний. Или как то по другому? Возможно ли использование символов "*" и "?" для обозначения пропущенных символов?
[/q]
Словоформы работают, окончания опускать не следует. * и ? использовать нельзя. Они пока не реализованы.

Иоанн написал:
[q]
2 При работе с рубриками, особенно при создании новых, возникает необходимость "перерубрицировать" уже имеющиеся материалы. Т.е. разложить по новым рубрикам то, что уже есть. В ручную это долго, особенно при больших объемах. Нужен автоматический механизм. Есть ли такая возможность в СайтСпутнике?
[/q]
Возможности перерубрикации нет /замечание от 22.04.11: в настоящее время перерубрикация реализована/. Для того, чтобы сделать ее вся информация в базах данных СайтсСпутника есть.

Иоанн написал:
[q]
Когда из раздела "Рубрики" пытаешься запустить поиск, то прога выдает сообщение о переходе в раздел "Поиск", но ничего не происходит. Нужно перейти в "Поиск" в ручную и только затем запускать поиск. В принципе не страшно, но тогда нужно отключить возможность поиска из раздела "Рубрики" - чтоб не провоцировать.
[/q]
Можно и так как Вы написали.




-- Алексей Мыльников написал 19 апреля 2011 11:14
Если в правиле попадания в Рубрику имеется конструкция, например:

//2

то это означает, что в Рубрику попадут те новости, в контенте которых встретилось не менее двух слов, написанных с использованием и русских, и латинский букв одновременно. Пример такого слова:

kосtромской

Правило:

Сергей /1 Иванов //3

означает, что если в контенте новости имеются по соседству слововормы от слова Сергей и слова Иванов, а также не менее трёх слов, набранных и русскими и латинскими буквами, то эта новость попадет в Рубрику.

Правило:

Василий /1 Теркин //4
Александр /2 Твардовский //5

означает, что если в контенте новости имеются по соседству слововормы от слова Василий и слова Теркин, а также не менее четырех слов, набранных и русскими и латинскими буквами, или в контенте новости имеются слофоформы от Александр и Твардовский, находящиеся на расстоянии не более одного слова, и не менее пяти слов, набранных и русскими и латинскими буквами, то эта новость попадет в Рубрику.


-- Игорь Нежданов написал 2 мая 2011 11:14
Коллеги, не так давно возникла необходимость сделать для одной Рубрики более двухсот условий - реализовал , работает. На днях добавил еще около сотни условий - работает без проблем. Для исключения двусмысленности - одно условие по отношению к Рубрикам в СайтСпутнике это одна строка в Правилах попадания новости в Рубрику.


-- Игорь Нежданов написал 6 августа 2011 16:24
Докладываю - за три месяца работы появилось четыре рубрики с условиями в несколько сотен строк (одна - 650 строк условий). Работает устойчиво.


-- petryashov написал 29 августа 2011 11:43
Алексей, у меня как-то некорректно работает рубрикация при обработке названий городов. Пока выделилось два класса ошибок:

{Неверная обработка падежей

В рубрику Кострома попадают слово костров - вообще грамматически неправильно, так как в слове Кострома корень костром-, а не костр-
В Рубрику Воронеж попадает слово Воронцов- грамматически неправильно, так как в слове Воронеж корень воронеж-, а не ворон-
В рубрику Ярославль попадает Ярослав- у слова Ярославль нет такого падежного окончания
В рубрику Иваново попадает Ивановна- ну это еще хоть как-то можно объяснить


В следующих случаях некорректно работает отсечение слева:

В рубрику Орел попадает Горелово -
В рубрику Рязань попадает Новорязанское
В рубрику Тверь попадает слово подтверждаем, четвертое, утверждает, твердый
В рубрику область попадает Ленобласть

Мне кажется, при запросе Тверь должны попадать варианты Тверь, Твери, Тверью, Тверской, тверской, тверская и т.п., то есть если слово начинается с корня (в данном случае твер-), то и все варианты должны начинаться с корня без каких- либо приставок или других букв перед корнем, а также могут иметь разные варианты суффиксов и окончаний.

Можете поправить алгоритм? Очень много мусора появляется при рубрикации, а прописывать все возможные падежи и формы слов по каждой рубрике в кавычках- адский труд



-- Алексей Мыльников написал 29 августа 2011 14:38
Замечание от 30.08.11
Далее можно не вдаваться в детали обсуждения,
а перейти в этой же теме на его результат: на сообщение #26 ( forum.razved.info/index.php?t=1045&p=21986#pp21986 )



petryashov написал:
[q]
Неверная обработка падежей
[/q]

Кострома
Воронеж
Ярославль
Иваново

Напишите в Рубрике, соответственно:

Кострома*
Воронеж**
Ярославль**
Иваново* ~Ивановна ~Иванович (но тогда Валентина Ивановна Матвиенко никогда не "обнаружится в г. Иваново или как Вы предлагаете: перечисляйте все точные фразы, опять же, если это возможно). С Иваново (город) и Иванов (фамилия), Владимир (город) и Владимир (имя собственное), конечно, нужны очень громоздкие и сложные алгоритмы (работа для целой фирмы на неопределённый промежуток времени). Поэтому без погрешности в данном случае не обойтись.

Уточняю правила при поиске по неточной фразе. Они таковы:
если слово имеет длину от 4 до 6 букв, то берется минус 1 буква,
если слово имеет длину от 7 до 9 букв, то берется минус 2 буквы,
если слово имеет длину более 10 букв, то берется минус 3 буквы,
если длина слова менее 4 букв, то оно берется как есть,

- и в тексте новости осуществляется поиск оставшихся после отсечения букв буквосочетаний.

Поэтому, если напишем так, как указано выше, то будут искаться производные от:

Костром
Воронеж
Ярославл
Иванов

После: Кострома - именно одна звёздочка (поставив её, мы получаем слово из 8 букв и буква "а" и звездочка "отлетают"), после Воронеж и Ярославль именно две звездочки (мы получаем слова из 9 и 10 букв и две звездочки для Воронежа и "ь" и две звездочки для Ярославля "отлетают").

В первых трех случаях всё пройдёт очень чисто. В четвёртом случае мне надо всё бросить и пару лет убить на Иванова и Владимира, чего, конечно, не имеет смысла делать.


petryashov написал:
[q]
отсечение слева
[/q]

Что касается отсечения слева. Сами слова типа: Новорязанское, подтверждаем, Ленобласть, ... - не являются условием попадания в Рубрику. Попадание произошло по другому признаку. Они только выделены цветом в тексте: пусть лучше будет избыточность, чем недостаток. "Гоняться" ради этого по великому и могучему (приставки, суффиксы, окончания, чередующиеся гласные и корни ...) не считаю рациональным.


-- petryashov написал 29 августа 2011 15:08

Алексей Мыльников написал:
[q]

Что касается отсечения слева. Сами слова типа: Новорязанское, подтверждаем, Ленобласть, ... - не являются условием попадания в Рубрику. Попадание произошло по другому признаку. Они только выделены цветом в тексте: пусть лучше будет избыточность, чем недостаток. "Гоняться" ради этого по великому и могучему (приставки, суффиксы, окончания, чередующиеся гласные и корни ...) не считаю рациональным
[/q]


Алексей, у меня при мониторинге новостей по строительству в Твери в рубрику Тверь попало 316 (!!!) записей, из них собственно к Твери относится только три (!!!) новости. Все остальное туда попало из-за того, что в текстах новостей по строительству в других регионах часто встречаются фразы типа "уТВЕРдил", "подТверждаем" , "чеТВЕРо" и прочие слова, в которых корень "Твер" стоит в центре.
Сами понимаете, для таких случаев рубрикация не только не работает, но и забивает время аналитиков на чтение незаказанной ими информации.

В этой связи предложение по смене алгоритма:

если в рубрике первая буква запроса Заглавная, например, Тверь,
то в рубрику должны попадать статьи, содержащие слова Тверь, тверской, тверичане, твердозуб (фиг с ним), но
НЕ ДОЛЖНЫ попадать слова утвердить, четверо, подтверждаем и так далее.

если в рубрике первая буква строчная, то пусть таскает все, как таскает сейчас (хотя, если честно, не понимаю, зачем вообще считать релевантным запросу слово, в котором есть в середине несколько соответствующих запросу букв)





-- Алексей Мыльников написал 29 августа 2011 15:20
В правиле замените Тверь на Тверь*.
Добавьте аналогичные правлила со словом Тверской. Лишних попаданий в Рубрику не будет: всё пройдет точно и полно.

petryashov написал:
[q]
зачем вообще считать релевантным запросу слово, в котором есть в середине несколько соответствующих запросу букв
[/q]

Релевантности запросу нет. Смотрите в предыдущее моё сообщение: вторую часть.


-- petryashov написал 29 августа 2011 15:30

Алексей Мыльников написал:
[q]
Что касается отсечения слева. Сами слова типа: Новорязанское, подтверждаем, Ленобласть, ... - не являются условием попадания в Рубрику. Попадание произошло по другому признаку
[/q]


Объясните, пожалуйста, по какому признаку они туда попали и для чего это нужно? Честно, не понимаю



-- Алексей Мыльников написал 29 августа 2011 16:03

petryashov написал:
[q]
Объясните, пожалуйста, по какому признаку они туда попали и для чего это нужно?
[/q]

Для этого я должен увидеть Правила попадания в Рубрику.

Выполните, пожалуйста:
Мыльников написал:
[q]
В правиле замените Тверь на Тверь*.
Добавьте аналогичные правила со словом Тверской. Лишних попаданий в Рубрику не будет: всё пройдет точно и полно.
[/q]

Если будет мусор, то я буду разбираться.


-- petryashov написал 29 августа 2011 16:36
По Тверь* вообще ничего не пришло;
По Кострома* пришло танкостроение , костров,
По Иваново* ~Ивановна ~Иванович пришла Ивановка


-- Алексей Мыльников написал 29 августа 2011 16:48
По Ивановка - так и должно быть.
По Кострома* - не верю.
По Тверь* - значит ничего не было.
Вы всё правильно указали?

Будьте добры:
- пакет,
- Правило попадания в Рубрику
- сценарий.


-- petryashov написал 29 августа 2011 18:17
пакет:

^^Новости;
^^Рубрики\проекты
строительство OR реконструкция OR модернизация ||News->GoogleNew=20
+(строительство | реконструкция | модернизация) || News->YandexNew=20




-- Алексей Мыльников написал 29 августа 2011 19:20
Судя по картинке вижу два варианта.
1. Невнимательность.
2. Невнимательность+.

Объясняю почему я так считаю.
У Вас на Картинке для новости про танк Т-90С стоит: 44 мин назад.
Я только что в 19:00 закончил выполнение пакета, цепляющий показанную ссылку. У меня время: 9 ч. назад.
То есть ВЫ, с очень большой вероятностью, на фоне старого запуска (без "Кострома*"), состоявшегося около 8 часов назад, показываете новое содержание Рубрики. Обратите внимание, что про "Кострома*" я написал в 14-40, то есть всего 4 часа 20 минут назад. Смотрите картинку.

(http://sitesputnik.ru/Help/Pic/F/Tank T-90C.GIF)

Что Вы на это скажите?


-- Алексей Мыльников написал 29 августа 2011 21:32
Для: petryashov
Открыл эту новость на REGNUM.
Там указано, что она Вышла 29.08.11 в 9:02.
Соответственно, Вы показываете результат поиска, состоявшийся примерно в 10-00.
Я про правило "Кострома*" сообщил в 14-40, то есть в 10-00 Вы ещё не знали о нём.
Но это правило стоит в окне "Изменение Рубрики" в "Правила попадания информации в Рубрику".
Что Вы можете ответить мне по этому поводу?


-- Игорь Нежданов написал 29 августа 2011 21:34

petryashov написал:
[q]
Алексей, у меня как-то некорректно работает рубрикация при обработке названий городов....
[/q]

А я то наивный думал, что эта проблема только у меня.... Теперь нас двое!


Алексей Мыльников написал:
[q]
Уточняю правила при поиске по неточной фразе....
[/q]

"Вот оно чё Михалыч" - а есть ли еще какие то правила обработки правил попадания в Рубрики материала?


-- Алексей Мыльников написал 29 августа 2011 21:38

Игорь Нежданов написал:
[q]
есть ли еще какие то правила обработки правил попадания в Рубрики материала?
[/q]

Больше правил нет.


-- Игорь Нежданов написал 29 августа 2011 21:45
Я имел ввиду порядок обработки этих правил программой. На подобии правил отсечения.


-- petryashov написал 29 августа 2011 22:07

[q=Алексей Мыльников написал:
[q]
То есть ВЫ, с очень большой вероятностью, на фоне старого запуска (без "Кострома*"), состоявшегося около 8 часов назад, показываете новое содержание Рубрики. Обратите внимание, что про "Кострома*" я написал в 14-40, то есть всего 4 часа 20 минут назад. Смотрите картинку.
[/q]


Судя по всему , так оно и было. Странно, был уверен, что делал перезапуск. Прошу прощения, что несознательно ввел в заблуждение. Завтра продолжу эксперименты




-- Алексей Мыльников написал 30 августа 2011 7:05
Думаю, что надо сделать так. Звёздочка (одна, не надо несколько) - это явное ограничение (отсечение) слова. Тогда в правилах, в тех случаях, когда это необходимо, можно будет написать:

Костром*
Ярославл*
Тверь*
Иванов*

А упомянутые выше правила отсечения останутся в силе, просто в конце слова можно ставить не звёздочку, а любой символ.


-- Алексей Мыльников написал 30 августа 2011 9:51
В версии 7.2.2.2 от 30.08.11 сделал так как написано в предыдущем сообщении:
звёзвочка в конце слова означает, что далее могут следовать любые символы.


-- petryashov написал 30 августа 2011 11:10
2 Алексей Мыльников
Алексей, Вы можете все эти правила с примерами внести в инструкцию и выложить сюда и на свой сайт?


-- Алексей Мыльников написал 30 августа 2011 11:14

petryashov написал:
[q]
Алексей, Вы можете все эти правила с примерами внести в инструкцию и выложить сюда и на свой сайт?
[/q]

Вот здесь инструкция и правила: sitesputnik.ru/Help/SSRubriki.htm


-- petryashov написал 30 августа 2011 11:26
ага, спасибо!


-- petryashov написал 30 августа 2011 12:41
Алексей, еще вопрос.
Мне нужно, чтобы у меня попали в рубрику материалы по следующим словам:

Орел; Орла; Орлу, Орле, Орловский, Орловских и так далее;
Орловская область; Орловской области и т.д.
Мне не нужны Староорловский, Новоорловский, Среднеорловский, Двуголовоорловский и прочие слова, у которых перед "Орлом что-то есть.

Пакет остался без изменений:

пакет:

^^Новости;
^^Рубрики\проекты
строительство OR реконструкция OR модернизация ||News->GoogleNew=20
+(строительство | реконструкция | модернизация) || News->YandexNew=20

Пишу следующие условия в рубрику

'Орел'
Орл*
Орловск* /2 област*

В результате вылазят и нужные мне варианты, и все эти Староорловские.

Вопрос: как сделать так, чтобы отсечь их?


-- Алексей Мыльников написал 30 августа 2011 13:07
Так: Орловск* /2 област* - необязательно, можно и
так: Орловская /2 область

Поскольку слово Орел не только короткое, но и еще и буква е "выпадает" в корне слова и остается только три буквы: ОРЛ, то вариант только один:

'Орел'
'Орла'
'Орлу'
'Орле'
'Орлом'
Орловск* /2 област*

Тут никуда не денешься - надо перечислить точные фразы.

Орл* - это правило принесет мусор.


-- petryashov написал 30 августа 2011 13:18
Алексей, очень Вас прошу, сделайте что-нибудь, какой-нибудь оператор, чтобы ПЕРЕД введенной словоформой никакие буквы не появлялись.

Ну если я ищу все формы Твери и вбиваю условие Твер* , ну зачем мне в выдаче оТВЕРстия ?;

Или Вы хотите, чтобы по слову "БИЛ" вылазили варианты с приставками : уБИЛ, приБИЛ, доБИЛ, разБИЛ ? Возможно, это и нужно кому-то, и именно ради этого сделан такой алгоритм. Если это так и это действительно кому-то нужно, предлагаю такой вариант запросов:

*БИЛ - уБИЛ, доБИЛ, приБИЛ и т.п. до Б может быть куча куча букв, после Л - ни одной
БИЛ* -БИЛет, БИЛо- до Б не может быть букв, после Л - куча.




-- Алексей Мыльников написал 30 августа 2011 13:44
В выдаче (в Рубрику) из-за слова "отверстия" ничего не попадет. Это слово будет только выделено цветом. Практически всегда нужно выделить стоящие впереди буквы:
Тверь - ГорТверьСправка.
Путин - пропутинский, антипутинский. Да, Распутин - не искомое слово, но оно не приведет к попаданию новости в Рубрику "Путин", а только будет выделено цветом, если в новости кроме Распутин, будет еще и слово Путин. Также и "отверстие" будет только выделено цветом в новости, в которой есть слово Тверь, а не будет причиной попадания новости в Рубрику.


-- petryashov написал 31 августа 2011 11:30

Алексей Мыльников написал:
[q]
Также и "отверстие" будет только выделено цветом в новости, в которой есть слово Тверь, а не будет причиной попадания новости в Рубрику.
[/q]


Вот еще примеры: Омск и Томск. В новости по Омску попадают новости по тОмску и дигОМСКому району. В тексте этих новостей Омск не упоминается: см. два первых примера из приложенного файла.

Текст рубрики Омск*

пакет:

^^Новости;
^^Рубрики\проекты
строительство OR реконструкция OR модернизация ||News->GoogleNew=20
+(строительство | реконструкция | модернизация) || News->YandexNew=20



-- Алексей Мыльников написал 31 августа 2011 11:38
Убедили. Сделаю и отсечение слева.

Пока задайте вместо Омск*

'Омск'
'Омский'
'Омская'
...
'Омское'






-- petryashov написал 31 августа 2011 11:41

Алексей Мыльников написал:
[q]
Убедили. Сделаю и отсечение слева.
[/q]

Спасибо, буду ждать!



-- Алексей Мыльников написал 31 августа 2011 16:01

petryashov написал:
[q]

Алексей Мыльников написал:
[q]
Убедили. Сделаю и отсечение слева.
[/q]


Спасибо, буду ждать!
[/q]

Сдалал. Выложил сегодня на сайте: версия 7.2.2.3.

Для Омска рационально написать так:

!Омск*

! - отсечение слева
* - удлиннение справа

Как правило, эти конструкции уместны на "коротких" словах. На длинных словах можно обойтись без них.


-- petryashov написал 7 сентября 2011 14:12
2 Алексей Мыльников

Спасибо!

И еще одно предложение: раскладывание найденных материалов по сетевым папкам не всегда удобно- нередко бывает так, что в крупных компаниях такие материалы будет удобнее получать по электронной почте. Сможете реализовать такой функционал?


-- Алексей Мыльников написал 7 сентября 2011 14:20

petryashov написал:
[q]
2 Алексей Мыльников

Спасибо!

И еще одно предложение: раскладывание найденных материалов по сетевым папкам не всегда удобно- нередко бывает так, что в крупных компаниях такие материалы будет удобнее получать по электронной почте. Сможете реализовать такой функционал?
[/q]

Уже практически сделал, на днях выложу.

Возможно, позднее сделаю ещё чтение из почтовых Ящиков и подключение считанной информации в формируемый СайтСпутником новостной поток.


-- Алексей Мыльников написал 8 сентября 2011 22:27

Алексей Мыльников написал:
[q]
petryashov написал:
[q]
2 Алексей Мыльников

Спасибо!

И еще одно предложение: раскладывание найденных материалов по сетевым папкам не всегда удобно- нередко бывает так, что в крупных компаниях такие материалы будет удобнее получать по электронной почте. Сможете реализовать такой функционал?
[/q]

Уже практически сделал, на днях выложу.
[/q]

Выложил: смотрите здесь на форуме - forum.razved.info/index.php?t=2046&p=22285#pp22285


-- petryashov написал 9 сентября 2011 9:11
2 Алексей Мыльников
Спасибо!


-- Алексей Мыльников написал 27 сентября 2011 21:15
Новое в Рубриках.
В версии 7.2.3.6 можно прописывать в одном задании (пакете) несколько Рубрик, а не одну, например:

^^Рубрики\Банки
^^Рубрики\Прогнозы\Финансы
^^Рубрики\Прогнозы\Отрасли\Энергетика
^^Рубрики\Правительство\МинФин
^^Рубрики\IT-технологии\Электронные платежи\WebMoney
...


-- Игорь Нежданов написал 28 сентября 2011 8:11
То есть результат будет раскладываться по очереди во все указанные рубрики?


-- Алексей Мыльников написал 28 сентября 2011 8:27

Игорь Нежданов написал:
[q]
То есть результат будет раскладываться по очереди во все указанные рубрики?
[/q]

Да.
Это удобно, когда Рубрики разрастаются в процессе эксплуатации СайтСпутника, и источников становится больше.


-- Игорь Нежданов написал 28 сентября 2011 20:42
Надо попробовать...


-- petryashov написал 9 ноября 2011 17:08
2 Алексей Мыльников
Столкнулся со сложностью: как при описании условий попадания в рубрику отделить Новости по словам "Новгород" и "Нижний Новгород"? С Нижним все ясно, а как сделать так, чтобы в рубрику "Новгород" не попадала информация по Нижнему Новгороду?


-- Алексей Мыльников написал 9 ноября 2011 23:06

petryashov написал:
[q]
как при описании условий попадания в рубрику отделить Новости по словам "Новгород" и "Нижний Новгород"
[/q]

Новгород ~Нижний

Ещё не помешает правило:
Новгород /1 Великий

Получится:
Новгород ~Нижний
Новгород /1 Великий


-- Алексей Мыльников написал 1 декабря 2011 22:03
В версию 7.4.2 от 01.12.2011г. в Рубрики добавлены девятое и десятое правила.


Подробнее в инструкции о Рубриках (http://sitesputnik.ru/Help/SSRubriki.htm)


-- petryashov написал 2 декабря 2011 15:21
[b2 ]Алексей Мыльников
Отлично, спасибо! Очень нужная штука


-- Алексей Мыльников написал 2 декабря 2011 20:39



-- Игорь Нежданов написал 3 декабря 2011 8:56
Скобки - очень полезный оператор - значительно более сложные конструкции можно создавать.

Использование списка условий (файл-вставка) сильно облегчит жизнь. По крайней мере мне - в тех Рубриках, где строк с условиями за полтысячи (есть у меня такие).

Спасибо!


-- petryashov написал 28 марта 2013 11:57
Для: Алексей Мыльников

В процессе работы с Рубриками столкнулся вот с какой проблемой.

Итак, есть Рубрика, в которую попадают все новости, содержащие в себе , допустим, слово "Космонавт" (далее- родительская рубрика). Эта рубрика содержит в себе ряд дочерних рубрик: Гагарин, Титов, Николаев, Попович, Быковский, Терешкова , в которые попадают уже только те новости, в которых есть слова "космонавт" и соответствующая фамилия. Рубрики по фамилиям периодически добавляются по мере изучения всех найденных новостей по слову "космонавтика". Дело долгое и нудное.

Возникло предложение по упрощению этой работы. Алексей, можно ли сделать так, чтобы в родительской рубрике помимо существующих там дочерних рубрик появилась еще одна рубрика, создающаяся автоматически, с названием "не попало в дочернюю рубрику", куда бы попадали все новости, содержащие условие родительской рубрики (космонавт), но не попавшие ни в одну из дочерних рубрик? Например, новость про космонавта Юрчихина попадет в рубрику "Космонавты/не попало в дочернюю рубрику", а новость про Быковского в рубрику "Космонавты/Быковский".

Соответственно, как только я создаю рубрику "Юрчихин" и провожу перерубрикацию, все новости про Юрчихина из рубрики "Космонавты/не попало в дочернюю рубрику" должны будут переписаться в рубрику "Космонавты/Юрчихин".

Это сильно бы облегчило работу аналитика при создании новых рубрик, особенно на этапе "вхождения в проблему"




-- Алексей Мыльников написал 28 марта 2013 13:59
Вот с Тунгусом вчера на очень похожую тему переписывались, в частности, о Рубрике с условным названием "Остальные". Сейчас приступил к другой большой работе, потом выполню пару обещаний, думаю, что такая возможность рубрикации материалов не помешает.


-- Игорь Нежданов написал 29 марта 2013 9:11
Такое лучше делать с возможностью включения/отключения наследования.
У меня, к примеру, есть ряд Рубрик и подрубрик, в которых наследование совсем не нужно. Но при наличии возможности наследования - есть где применить.

В связи с этим возникает вопрос - до какой глубины должно идти наследование? Или по другому наследование "внучатой" Рубрики должно содержать правила материнской и грэйт-материнской? Или только материнской? Или лучше сделать это тоже по выбору юзера?


-- Алексей Мыльников написал 14 мая 2013 16:32

Игорь Нежданов написал:
[q]
Такое лучше делать с возможностью включения/отключения наследования.
У меня, к примеру, есть ряд Рубрик и подрубрик, в которых наследование совсем не нужно. Но при наличии возможности наследования - есть где применить.
[/q]

В версии 8.5.2 от 14.05.13 для Рубрик (см. картинку) появился параметр: Искать только в родительской

(http://sitesputnik.ru/Help/Pic/SSRub.GIF)

Он работает следующим образом.
1) Если в дочерней Рубрике для параметра "Искать только в родительской" установлена галочка, то Рубрика будет иметь дело только с той информацией, которая попала в родительскую Рубрику.
2) Если у такой дочки, есть такая же дочка, то она будет иметь дело только с той информацией, которая останется у мамы от бабушки ... ... ...
3) Если Рубрика не имеет галочки в параметре "Искать только в родительской", то независимо от того, на какой глубине она расположена, а также есть или нет галочки у её родителя или прародителя, она будет имеет дело со всей собранной информацией.
4) Не ставьте галочку в Главных Рубриках Проекта (в самых старших Рубриках Проекта) - в этом случае они будут всегда пустыми, так как не имеют родителя и, соответственно, нет информации для рубрикации.



-- tungus1973 написал 14 мая 2013 17:43
Отлично реализовано! :good:


-- Алексей Мыльников написал 15 мая 2013 8:39
Для Петряшова
petryashov написал:
[q]
Итак, есть Рубрика, в которую попадают все новости, содержащие в себе , допустим, слово "Космонавт" (далее- родительская рубрика). Эта рубрика содержит в себе ряд дочерних рубрик: Гагарин, Титов, Николаев, Попович, Быковский, Терешкова , в которые попадают уже только те новости, в которых есть слова "космонавт" и соответствующая фамилия. Рубрики по фамилиям периодически добавляются по мере изучения всех найденных новостей по слову "космонавтика". Дело долгое и нудное.

Возникло предложение по упрощению этой работы. Алексей, можно ли сделать так, чтобы в родительской рубрике помимо существующих там дочерних рубрик появилась еще одна рубрика, создающаяся автоматически, с названием "не попало в дочернюю рубрику", куда бы попадали все новости, содержащие условие родительской рубрики (космонавт), но не попавшие ни в одну из дочерних рубрик?
[/q]

В версии 8.5.2.1 от 15.05.13 такая возможность появилась.

Для того, чтобы получить новостную ленту из ссылок, которые попали в родительскую, но не попали ни в одну из её дочерних Рубрик сделайте следующее.

1. Создайте (или используйте готовую) родительскую рубрику без параметра "Искать только в родительской" и с Правилом, например, "Космонавт".
2. Создайте в ней дочерние Рубрики с параметром "Искать только в родительской" и Правилами, например, "Гагарин", "Титов", "Терешкова", ...
3. Создайте в ней специальную дочернюю Рубрику с именем "Ящик остальные" без Правил (параметр "Искать только в родительской" может быть любой).

В этом случае в Рубрику из п.3 попадёт всё что попало в Рубрику из п.1 и не попало ни в одну из Рубрик из п.2.


-- petryashov написал 15 мая 2013 9:37
2 Алексей Мыльников

Спасибо, сейчас протестирую и по итогам напишу


-- petryashov написал 15 мая 2013 14:58

Алексей Мыльников написал:
[q]
1. Создайте (или используйте готовую) родительскую рубрику без параметра "Искать только в родительской" и с Правилом, например, "Космонавт".
[/q]


Вот тут есть сложность. У меня есть Пакет, в котором прописан ряд эмулированных RSS-потоков. По условиям, прописанным в Пакете, в родительскую Рубрику"Космонавты" попадает весь RSS- поток, который затем разбрасывается по дочерним Рубрикам. Не понимаю, какое Правило писать в родительской Рубрике




-- Алексей Мыльников написал 16 мая 2013 10:03

petryashov написал:
[q]
По условиям, прописанным в Пакете, в родительскую Рубрику"Космонавты"
[/q]

Космонавт


-- petryashov написал 16 мая 2013 11:46

Алексей Мыльников написал:
[q]
Космонавт
[/q]

Я пример неудачный привел. Поясню на другом примере. Итак, есть, к примеру, несколько блогеров, пишущих на разные темы, часть из которых мне интересна, а часть нет:

Блогер А: Котики-политика- космос- экономика-лытдыбр-новости
Блогер Б: лытдыбр- политика- космос-котики
Блогер В: котики
Блогер г: космос
Блогер Д: политика

При этом мы понимаем, что данный блогер может написать что-то интересное и в новой для себя тематике, поэтому нужно иметь механизм, позволяющий выявлять эти новые для блогеров темы.

КАК СДЕЛАНО СЕЙЧАС: Если блогеры вдруг начнут писать про Лохнесское чудовище, а соответствующее условие в родительской рубрике не прописано, то этот факт я не смогу обнаружить, так как по условиям, прописанным в родительской рубрике, данные новости в рубрику "Ящик остальные" просто не попадут.

КАК НУЖНО: Нужно, чтобы эти пять потоков попадали в полном объеме в одну материнскую рубрику "Блогеры" без каких-либо условий, а уже в ней они разбрасывались бы на дочерние рубрики: Котики, политика, космос, лытдыбр, новости и "Ящик остальные". Время от времени я хочу просматривать "Ящик остальные" и добавлять новые дочерние рубрики, если интересующие меня блогеры стали писать на новые темы.



-- Алексей Мыльников написал 16 мая 2013 12:17

petryashov написал:
[q]
Нужно, чтобы эти пять потоков попадали в полном объеме в одну материнскую рубрику "Блогеры" без каких-либо условий
[/q]

Поставьте следующее правило:

и | i

Пояснение: буква "и" всегда есть в текстах на русском языке, а буква "i" - в англоязычных, поэтому в материнскую Рубрику попадёт всё.


-- petryashov написал 16 мая 2013 13:36
2 Алексей Мыльников
Все получилось, спасибо!


-- Алексей Мыльников написал 16 мая 2013 14:51
С формальной точки зрения (по теории множеств) получилась операция разности между множеством ссылок из материнской рубрики и объединением ссылок из дочерних рубрик. Разность помещается в "Ящик остальные".

Операция "Аналитическое вычитание (http://forum.razved.info/index.php?t=950&p=14741#pp14741)" - это тоже разность, но она работает по ссылкам, найденным по запросам к источникам.

Здесь же получилось вычитание ссылок, найденных по запросам к сформированному информационному потоку (к "Чистому потоку" в терминалогии СайтСпутника), потому что каждая рубрика - это запрос к "Чистому потоку" (к контентам ссылок, найденных по запросам к источникам или взятых из RSS-потоков реальных или эмулированных).



-- petryashov написал 16 мая 2013 15:24
2 Алексей Мыльников
Проанализировал попавшие в "Ящик остальные" материалы, в итоге завел несколько новых рубрик и исправил ошибки в правилах попадания некоторых старых рубрик. Так что инструмент вовсю работает, спасибо!


-- petryashov написал 16 мая 2013 16:42
2 Алексей Мыльников
Создал новые Рубрики, провел перерубрикацию материнской рубрики, рассчитывая, что информация из рубрики "Ящик остальные" частично разбросается по новым рубрикам. Увы, ничего не произошло. Я что-то не так делаю, или такого функционала нет?


-- tungus1973 написал 16 мая 2013 17:13

petryashov написал:
[q]
Проанализировал попавшие в "Ящик остальные" материалы, в итоге завел несколько новых рубрик и исправил ошибки в правилах попадания некоторых старых рубрик
[/q]
Собственно, инструмент для этого и задумывался, чтобы всегда можно было: 1) проконтролировать качество правил в рубриках; 2) найти материалы, которые ранее не встречались в текстах (новые знания, новые понятия). Всё вместе это даёт аналитику качественно новую работу с поступающими материалами.

Алексею Борисовичу: Спасибо за реализацию! :hi: :good:


-- Алексей Мыльников написал 16 мая 2013 17:44

petryashov написал:
[q]
Создал новые Рубрики, провел перерубрикацию материнской рубрики, рассчитывая, что информация из рубрики "Ящик остальные" частично разбросается по новым рубрикам. Увы, ничего не произошло. Я что-то не так делаю, или такого функционала нет?
[/q]

Попробуйте встать не на материнскую, а на новую дочернюю Рубрику и перерубрицируйтесь для каждой из них. И ещё: рубрикация идет через "Загрузки", а не через "Рубрики".


-- Алексей Мыльников написал 16 мая 2013 18:06
Добавление: у дочерней рубрики при перерубрикации галочки у параметра "Искать только в родительской" быть не должно.


-- petryashov написал 16 мая 2013 18:15

Алексей Мыльников написал:
[q]
Попробуйте встать не на материнскую, а на новую дочернюю Рубрику и перерубрицируйтесь для каждой из них. И ещё: рубрикация идет через "Загрузки", а не через "Рубрики".
[/q]


Можно подробнее? Ничего не получается: перерубрикация дочерней рубрики работает только в том случае, когда я нажимаю на нее правой кнопкой мыши, при этом в нижнем меню автоматически производит перескок выделения на иконку "Рубрики". Когда ищу базу для перерубрикации (см. скриншот), то вижу только материнскую рубрику, без дочерних (в Проводнике появляется папка "Тендеры1", я в нее захожу, а там один- единственный файл F1.DB. При выборе этого файла и запуске происходит перерубрикация всей материнской рубрики, при этом материалы из рубрики в рубрику не перемещаются.






-- petryashov написал 16 мая 2013 18:17
Если я принудительно нажимаю на "Загрузки", то перерубрикацию вообще не провести, этот пункт в меню, вызываемом нажатием правой кнопки мыши, неактивен (см. скриншот)



-- Алексей Мыльников написал 16 мая 2013 22:43
Подробнее не могу. Могу только повторить всё в одном топике.

Встаньте не на материнскую, а на новую дочернюю Рубрику и перерубрицируйтесь. Проделайте это для каждой новой дочерней Рубрики. В настоящей версии при этом нужно у дочерней Рубрики снять галочку у параметра "Искать только в родительской", иначе в неё ничего не попадёт (на следующей неделе это устраню). После перерубрикации, если эта галочка нужна - установите её.

По перескоку. Да, Вы нажали на Рубрики и СайтСпутник к ним и перейдет. Так и должно быть. А как иначе?

Сначала встаньте не на "Ящик остальные"(его нельзя перерубрицировать - у него нет Правил, по которым информация попадает в Рубрики), а на те, что на картинке из топика #70 выше и относятся к новым, например, на "Контактор", если он новый и его надо перерубрицировать.

Да, если Вы перейдете в меню на "Загрузках" (картинка из топика #71), то пункт перерубрикации будет не доступен. Перерубрикация делается так: сначала выбирается Рубрика, которую Вы хотите перерубрицировть, затем нажимаете правую кнопку мышки и выбираете пункт: "Перерубрикация - Ссылки открытые - По всем строкам Ящика", затем идете к тому Яшику, по которому нужно сделать перерубрикацию (за материалом, на основе которого она делается). У вас это будет: "Ссылки открытые - Рубрики Ящик, где вы загрузили ссылки по этому проекту". То есть, Вы программе сказали: вот эту Рубрику я хочу перерубрицировать, а ссылки попадающие на Рубрикацию уже загружены и лежат вот в этом Ящике. Да, в этом случае выбирайте файл F1.

Повторюсь: не забудьте убрать галочку перед перерубрикацией у Рубрики "Контактор" (это можно устранить, но я это не предугадал при реализации задачи из топика #57).



-- Алексей Мыльников написал 17 мая 2013 14:33
В версии 8.5.2.2 от 17.05.13 сделано следующее:

1) не надо изменять параметр "Искать только в родительской" при перерубрикации,
2) изменен диалог выбора Ящиков, вложенных в "Ссылки открытые", по ссылкам которых проходит перерубрикация (без F1).

Замечание: выделение значимого контента ссылок при перерубрикации заблокировано по техническим причинам (требует очень тщательного анализа и тестирования). Перерубрикация проходит по полным контентам ссылок.


-- Алексей Мыльников написал 12 сентября 2013 16:17
В последней версии программы SiteSputnik в Правилах попадания в Рубрику можно применить следующие два оператора:
Например, Правило:
означает, что в Рубрику попадет информация о Дмитрии Медведеве только с сайта twitter.com, или со ссылок, адреса которых содержат слово comments или forum, или название источника (см. последний оператор), содержит слово blogs.

Напомню, что название источника прописывается при его подключении в Мастере (http://sitesputnik.ru/Help/SSMaster.htm) на третьей вкладке.

Сделано при реализации заявки Игоря Нежданова, связанной с потребностью разделения потока новостей, попадающих в Рубрики, на составные части такие как: СМИ, ИнформАгентства, Блоги, Микроблоги, Соцсети, Форумы, ПрофПорталы, ... в различных комбинациях. Для этих целей удобно саму тему описать в родительской рубрике, а в дочерних указать параметр "Искать только в родительской" и нужные операторы inurl: и insource:. Возможно, что найдется другое применение этих операторов.

Кроме разложения потока на составляющие, произойдет его упорядочивание по источникам. Порядок не алфавитный, а в соответствии с правилами из дочерних Рубриках.

Ограничение. Не реализовывал пока для этих операторов логическое "НЕ", например, ~inurl:news
Замечание от 22.10.13. В версии SiteSputnik 8.5.6.1 эту конструкцию применять можно, например, правило:

Оборонсервис ~inurl:war ~inurl:weapon ~inurl:arsenal.com/

означает, что содержащие информацию об Оборонсервисе новости, размещенные на ссылках, URL которых включает хотя бы одну из трех лексем не попадут в Рубрику.


-- Игорь Нежданов написал 12 сентября 2013 18:48
Работает эффективно. Уже сейчас делю поток по нужному Объекту на составляющие (СМИ и СоцМедиа). По некоторым Объектам деление будет глубже - СМИ, ИнформАгентства, ПрофПорталы, Блоги, Соцсети, МикроБлоги, Форумы.

Составлю словарь-список соответствющих площадок (т.к. этот список довольно длинный) и использую в правилах именно отсылку к этому списку. Так удобнее.


-- Алексей Мыльников написал 11 июня 2014 7:43



-- Алексей Мыльников написал 19 июня 2014 14:07




-- Игорь Нежданов написал 19 июня 2014 18:04
Полезный оператор - спасибо!


-- Алексей Мыльников написал 30 марта 2015 8:42



-- Алексей Мыльников написал 13 апреля 2015 9:46



-- tungus1973 написал 13 апреля 2015 11:14
Отлично! Рубрики СайтСпутника стали ещё более точными.
Теперь можно будет прописывать в рубриках меньшее число правил. Настройка рубрик станет более быстрой.


-- Игорь Нежданов написал 13 апреля 2015 15:02
Да - согласен - вложенные скобки позволяют делать более тонкую настройку.
Спасибо!


-- Алексей Мыльников написал 19 ноября 2015 12:50



-- Алексей Мыльников написал 19 ноября 2015 18:31



-- Алексей Мыльников написал 4 февраля 2016 10:10




-- Алексей Мыльников написал 15 февраля 2016 15:21



-- Алексей Мыльников написал 3 мая 2016 9:45



-- Алексей Мыльников написал 5 марта 2017 10:03



-- tungus1973 написал 5 марта 2017 15:28

Алексей Мыльников написал:
[q]
Сохранить отмеченное или Удалить его.
[/q]
Удаление сообщения из ленты необходимо в случаях:
1. Если одна и та же статья перепечатывается несколькими источниками.
2. Если правило попадания в рубрики несовершенно и собирает несоответствующие статьи.

Для второго случая можно ли предусмотреть исправление правила рубрики? То есть, если пользователь выделил сообщение на удаление, то программа предлагает ему откорректировать правило рубрики. В случае согласия, программа показывает правила, которым соответствовала статья. Пользователь может изменить эти правила, чтобы рубрикация стала более совершенной.

Такой же алгоритм возможен и для статей, которые не попали ни в одну рубрику, и были помещены в специальную папку. Пользователь просматривает такую папку, и, если какая-то статья содержит полезную информацию, может тут же выбрать (создать) для неё рубрику и правила попадания в эту рубрику.


-- Алексей Мыльников написал 5 марта 2017 16:30

tungus1973 написал:
[q]
1. Если одна и та же статья перепечатывается несколькими источниками.
[/q]

Для этого можно применить параметр: "Отслеживать новости с одинаковым значимым контентом".


tungus1973 написал:
[q]
2. Если правило попадания в рубрики несовершенно и собирает несоответствующие статьи.
Для второго случая можно ли предусмотреть исправление правила рубрики? То есть, если пользователь выделил сообщение на удаление, то программа предлагает ему откорректировать правило рубрики. В случае согласия, программа показывает правила, которым соответствовала статья. Пользователь может изменить эти правила, чтобы рубрикация стала более совершенной.
[/q]

Можно и без диалога перейти к Правилам и отредактировать их.


tungus1973 написал:
[q]
Такой же алгоритм возможен и для статей, которые не попали ни в одну рубрику, и были помещены в специальную папку. Пользователь просматривает такую папку, и, если какая-то статья содержит полезную информацию, может тут же выбрать (создать) для неё рубрику и правила попадания в эту рубрику.
[/q]

Это делается при помощи специальной рубрики "Ящик остальные". Подробнее выше в этой теме, а именно, здесь (http://forum.razved.info/index.php?t=1045&p=42626#pp42626). Увидев нужные контенты ссылок, создаете новую Рубрику или совершенствуете Правила уже существующих Рубрик. Переход к Рубрикам тоже без диалога.


-- Алексей Мыльников написал 5 января 2019 17:29



Этот форум работает на скрипте Intellect Board
© 2004-2007, 4X_Pro, Объединенный Открытый Проект