Рубрики в СайтСпутник(е).

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Рубрики в СайтСпутник(е).
RSS

Рубрики в СайтСпутник(е).

  Вперед>>Страницы: 1 * 2 3 4 5 6 7 8 9 10
Печать
 
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Если в правиле попадания в Рубрику имеется конструкция, например:

//2

то это означает, что в Рубрику попадут те новости, в контенте которых встретилось не менее двух слов, написанных с использованием и русских, и латинский букв одновременно. Пример такого слова:

kосtромской

Правило:

Сергей /1 Иванов //3

означает, что если в контенте новости имеются по соседству слововормы от слова Сергей и слова Иванов, а также не менее трёх слов, набранных и русскими и латинскими буквами, то эта новость попадет в Рубрику.

Правило:

Василий /1 Теркин //4
Александр /2 Твардовский //5

означает, что если в контенте новости имеются по соседству слововормы от слова Василий и слова Теркин, а также не менее четырех слов, набранных и русскими и латинскими буквами, или в контенте новости имеются слофоформы от Александр и Твардовский, находящиеся на расстоянии не более одного слова, и не менее пяти слов, набранных и русскими и латинскими буквами, то эта новость попадет в Рубрику.

Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Коллеги, не так давно возникла необходимость сделать для одной Рубрики более двухсот условий - реализовал , работает. На днях добавил еще около сотни условий - работает без проблем. Для исключения двусмысленности - одно условие по отношению к Рубрикам в СайтСпутнике это одна строка в Правилах попадания новости в Рубрику.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Докладываю - за три месяца работы появилось четыре рубрики с условиями в несколько сотен строк (одна - 650 строк условий). Работает устойчиво.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Алексей, у меня как-то некорректно работает рубрикация при обработке названий городов. Пока выделилось два класса ошибок:

{Неверная обработка падежей

В рубрику Кострома попадают слово костров - вообще грамматически неправильно, так как в слове Кострома корень костром-, а не костр-
В Рубрику Воронеж попадает слово Воронцов- грамматически неправильно, так как в слове Воронеж корень воронеж-, а не ворон-
В рубрику Ярославль попадает Ярослав- у слова Ярославль нет такого падежного окончания
В рубрику Иваново попадает Ивановна- ну это еще хоть как-то можно объяснить


В следующих случаях некорректно работает отсечение слева:

В рубрику Орел попадает Горелово -
В рубрику Рязань попадает Новорязанское
В рубрику Тверь попадает слово подтверждаем, четвертое, утверждает, твердый
В рубрику область попадает Ленобласть

Мне кажется, при запросе Тверь должны попадать варианты Тверь, Твери, Тверью, Тверской, тверской, тверская и т.п., то есть если слово начинается с корня (в данном случае твер-), то и все варианты должны начинаться с корня без каких- либо приставок или других букв перед корнем, а также могут иметь разные варианты суффиксов и окончаний.

Можете поправить алгоритм? Очень много мусора появляется при рубрикации, а прописывать все возможные падежи и формы слов по каждой рубрике в кавычках- адский труд

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Замечание от 30.08.11
Далее можно не вдаваться в детали обсуждения,
а перейти в этой же теме на его результат: на сообщение #26 ( forum.razved.info/index.php?t=1045&p=21986#pp21986 )



petryashov написал:
[q]
Неверная обработка падежей
[/q]

Кострома
Воронеж
Ярославль
Иваново

Напишите в Рубрике, соответственно:

Кострома*
Воронеж**
Ярославль**
Иваново* ~Ивановна ~Иванович (но тогда Валентина Ивановна Матвиенко никогда не "обнаружится в г. Иваново или как Вы предлагаете: перечисляйте все точные фразы, опять же, если это возможно). С Иваново (город) и Иванов (фамилия), Владимир (город) и Владимир (имя собственное), конечно, нужны очень громоздкие и сложные алгоритмы (работа для целой фирмы на неопределённый промежуток времени). Поэтому без погрешности в данном случае не обойтись.

Уточняю правила при поиске по неточной фразе. Они таковы:
если слово имеет длину от 4 до 6 букв, то берется минус 1 буква,
если слово имеет длину от 7 до 9 букв, то берется минус 2 буквы,
если слово имеет длину более 10 букв, то берется минус 3 буквы,
если длина слова менее 4 букв, то оно берется как есть,

- и в тексте новости осуществляется поиск оставшихся после отсечения букв буквосочетаний.

Поэтому, если напишем так, как указано выше, то будут искаться производные от:

Костром
Воронеж
Ярославл
Иванов

После: Кострома - именно одна звёздочка (поставив её, мы получаем слово из 8 букв и буква "а" и звездочка "отлетают"), после Воронеж и Ярославль именно две звездочки (мы получаем слова из 9 и 10 букв и две звездочки для Воронежа и "ь" и две звездочки для Ярославля "отлетают").

В первых трех случаях всё пройдёт очень чисто. В четвёртом случае мне надо всё бросить и пару лет убить на Иванова и Владимира, чего, конечно, не имеет смысла делать.


petryashov написал:
[q]
отсечение слева
[/q]

Что касается отсечения слева. Сами слова типа: Новорязанское, подтверждаем, Ленобласть, ... - не являются условием попадания в Рубрику. Попадание произошло по другому признаку. Они только выделены цветом в тексте: пусть лучше будет избыточность, чем недостаток. "Гоняться" ради этого по великому и могучему (приставки, суффиксы, окончания, чередующиеся гласные и корни ...) не считаю рациональным.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009

Алексей Мыльников написал:
[q]

Что касается отсечения слева. Сами слова типа: Новорязанское, подтверждаем, Ленобласть, ... - не являются условием попадания в Рубрику. Попадание произошло по другому признаку. Они только выделены цветом в тексте: пусть лучше будет избыточность, чем недостаток. "Гоняться" ради этого по великому и могучему (приставки, суффиксы, окончания, чередующиеся гласные и корни ...) не считаю рациональным
[/q]


Алексей, у меня при мониторинге новостей по строительству в Твери в рубрику Тверь попало 316 (!!!) записей, из них собственно к Твери относится только три (!!!) новости. Все остальное туда попало из-за того, что в текстах новостей по строительству в других регионах часто встречаются фразы типа "уТВЕРдил", "подТверждаем" , "чеТВЕРо" и прочие слова, в которых корень "Твер" стоит в центре.
Сами понимаете, для таких случаев рубрикация не только не работает, но и забивает время аналитиков на чтение незаказанной ими информации.

В этой связи предложение по смене алгоритма:

если в рубрике первая буква запроса Заглавная, например, Тверь,
то в рубрику должны попадать статьи, содержащие слова Тверь, тверской, тверичане, твердозуб (фиг с ним), но
НЕ ДОЛЖНЫ попадать слова утвердить, четверо, подтверждаем и так далее.

если в рубрике первая буква строчная, то пусть таскает все, как таскает сейчас (хотя, если честно, не понимаю, зачем вообще считать релевантным запросу слово, в котором есть в середине несколько соответствующих запросу букв)



Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
В правиле замените Тверь на Тверь*.
Добавьте аналогичные правлила со словом Тверской. Лишних попаданий в Рубрику не будет: всё пройдет точно и полно.

petryashov написал:
[q]
зачем вообще считать релевантным запросу слово, в котором есть в середине несколько соответствующих запросу букв
[/q]

Релевантности запросу нет. Смотрите в предыдущее моё сообщение: вторую часть.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009

Алексей Мыльников написал:
[q]
Что касается отсечения слева. Сами слова типа: Новорязанское, подтверждаем, Ленобласть, ... - не являются условием попадания в Рубрику. Попадание произошло по другому признаку
[/q]


Объясните, пожалуйста, по какому признаку они туда попали и для чего это нужно? Честно, не понимаю

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]
Объясните, пожалуйста, по какому признаку они туда попали и для чего это нужно?
[/q]

Для этого я должен увидеть Правила попадания в Рубрику.

Выполните, пожалуйста:
Мыльников написал:
[q]
В правиле замените Тверь на Тверь*.
Добавьте аналогичные правила со словом Тверской. Лишних попаданий в Рубрику не будет: всё пройдет точно и полно.
[/q]

Если будет мусор, то я буду разбираться.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
По Тверь* вообще ничего не пришло;
По Кострома* пришло танкостроение , костров,
По Иваново* ~Ивановна ~Иванович пришла Ивановка

  Вперед>>Страницы: 1 * 2 3 4 5 6 7 8 9 10
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Рубрики в СайтСпутник(е).
RSS

Последние RSS
Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей

Самые активные 20 тем RSS