Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » Рубрики в СайтСпутник(е). |
Вперед>> | Страницы: 1 * 2 3 4 5 6 7 8 9 10 | Печать |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Коллеги, не так давно возникла необходимость сделать для одной Рубрики более двухсот условий - реализовал , работает. На днях добавил еще около сотни условий - работает без проблем. Для исключения двусмысленности - одно условие по отношению к Рубрикам в СайтСпутнике это одна строка в Правилах попадания новости в Рубрику. ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Докладываю - за три месяца работы появилось четыре рубрики с условиями в несколько сотен строк (одна - 650 строк условий). Работает устойчиво. ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 29 августа 2011 11:43 Сообщение отредактировано: 29 августа 2011 12:05
Алексей, у меня как-то некорректно работает рубрикация при обработке названий городов. Пока выделилось два класса ошибок: {Неверная обработка падежей В рубрику Кострома попадают слово костров - вообще грамматически неправильно, так как в слове Кострома корень костром-, а не костр- В Рубрику Воронеж попадает слово Воронцов- грамматически неправильно, так как в слове Воронеж корень воронеж-, а не ворон- В рубрику Ярославль попадает Ярослав- у слова Ярославль нет такого падежного окончания В рубрику Иваново попадает Ивановна- ну это еще хоть как-то можно объяснить В следующих случаях некорректно работает отсечение слева: В рубрику Орел попадает Горелово - В рубрику Рязань попадает Новорязанское В рубрику Тверь попадает слово подтверждаем, четвертое, утверждает, твердый В рубрику область попадает Ленобласть Мне кажется, при запросе Тверь должны попадать варианты Тверь, Твери, Тверью, Тверской, тверской, тверская и т.п., то есть если слово начинается с корня (в данном случае твер-), то и все варианты должны начинаться с корня без каких- либо приставок или других букв перед корнем, а также могут иметь разные варианты суффиксов и окончаний. Можете поправить алгоритм? Очень много мусора появляется при рубрикации, а прописывать все возможные падежи и формы слов по каждой рубрике в кавычках- адский труд |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 29 августа 2011 14:38 Сообщение отредактировано: 30 августа 2011 10:00
Замечание от 30.08.11 Далее можно не вдаваться в детали обсуждения, а перейти в этой же теме на его результат: на сообщение #26 ( forum.razved.info/index.php?t=1045&p=21986#pp21986 ) petryashov написал: Неверная обработка падежей Кострома Воронеж Ярославль Иваново Напишите в Рубрике, соответственно: Кострома* Воронеж** Ярославль** Иваново* ~Ивановна ~Иванович (но тогда Валентина Ивановна Матвиенко никогда не "обнаружится в г. Иваново или как Вы предлагаете: перечисляйте все точные фразы, опять же, если это возможно). С Иваново (город) и Иванов (фамилия), Владимир (город) и Владимир (имя собственное), конечно, нужны очень громоздкие и сложные алгоритмы (работа для целой фирмы на неопределённый промежуток времени). Поэтому без погрешности в данном случае не обойтись. Уточняю правила при поиске по неточной фразе. Они таковы: если слово имеет длину от 4 до 6 букв, то берется минус 1 буква, если слово имеет длину от 7 до 9 букв, то берется минус 2 буквы, если слово имеет длину более 10 букв, то берется минус 3 буквы, если длина слова менее 4 букв, то оно берется как есть, - и в тексте новости осуществляется поиск оставшихся после отсечения букв буквосочетаний. Поэтому, если напишем так, как указано выше, то будут искаться производные от: Костром Воронеж Ярославл Иванов После: Кострома - именно одна звёздочка (поставив её, мы получаем слово из 8 букв и буква "а" и звездочка "отлетают"), после Воронеж и Ярославль именно две звездочки (мы получаем слова из 9 и 10 букв и две звездочки для Воронежа и "ь" и две звездочки для Ярославля "отлетают"). В первых трех случаях всё пройдёт очень чисто. В четвёртом случае мне надо всё бросить и пару лет убить на Иванова и Владимира, чего, конечно, не имеет смысла делать. petryashov написал: отсечение слева Что касается отсечения слева. Сами слова типа: Новорязанское, подтверждаем, Ленобласть, ... - не являются условием попадания в Рубрику. Попадание произошло по другому признаку. Они только выделены цветом в тексте: пусть лучше будет избыточность, чем недостаток. "Гоняться" ради этого по великому и могучему (приставки, суффиксы, окончания, чередующиеся гласные и корни ...) не считаю рациональным. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Алексей Мыльников написал:
Алексей, у меня при мониторинге новостей по строительству в Твери в рубрику Тверь попало 316 (!!!) записей, из них собственно к Твери относится только три (!!!) новости. Все остальное туда попало из-за того, что в текстах новостей по строительству в других регионах часто встречаются фразы типа "уТВЕРдил", "подТверждаем" , "чеТВЕРо" и прочие слова, в которых корень "Твер" стоит в центре. Сами понимаете, для таких случаев рубрикация не только не работает, но и забивает время аналитиков на чтение незаказанной ими информации. В этой связи предложение по смене алгоритма: если в рубрике первая буква запроса Заглавная, например, Тверь, то в рубрику должны попадать статьи, содержащие слова Тверь, тверской, тверичане, твердозуб (фиг с ним), но НЕ ДОЛЖНЫ попадать слова утвердить, четверо, подтверждаем и так далее. если в рубрике первая буква строчная, то пусть таскает все, как таскает сейчас (хотя, если честно, не понимаю, зачем вообще считать релевантным запросу слово, в котором есть в середине несколько соответствующих запросу букв) |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
В правиле замените Тверь на Тверь*. Добавьте аналогичные правлила со словом Тверской. Лишних попаданий в Рубрику не будет: всё пройдет точно и полно. petryashov написал: зачем вообще считать релевантным запросу слово, в котором есть в середине несколько соответствующих запросу букв Релевантности запросу нет. Смотрите в предыдущее моё сообщение: вторую часть. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 29 августа 2011 15:30 Сообщение отредактировано: 29 августа 2011 15:34 Алексей Мыльников написал: Что касается отсечения слева. Сами слова типа: Новорязанское, подтверждаем, Ленобласть, ... - не являются условием попадания в Рубрику. Попадание произошло по другому признаку Объясните, пожалуйста, по какому признаку они туда попали и для чего это нужно? Честно, не понимаю |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
petryashov написал: Объясните, пожалуйста, по какому признаку они туда попали и для чего это нужно? Для этого я должен увидеть Правила попадания в Рубрику. Выполните, пожалуйста: Мыльников написал: В правиле замените Тверь на Тверь*. Если будет мусор, то я буду разбираться. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
По Тверь* вообще ничего не пришло; По Кострома* пришло танкостроение , костров, По Иваново* ~Ивановна ~Иванович пришла Ивановка |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
По Ивановка - так и должно быть. По Кострома* - не верю. По Тверь* - значит ничего не было. Вы всё правильно указали? Будьте добры: - пакет, - Правило попадания в Рубрику - сценарий. |
Вперед>> | Страницы: 1 * 2 3 4 5 6 7 8 9 10 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » Рубрики в СайтСпутник(е). |
Самые активные 20 тем | |