Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » Рубрики в СайтСпутник(е). |
![]() |
Вперед>> | Страницы: 1 2 3 4 5 6 7 8 9 10 | Печать |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 875 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 29 августа 2011 14:38 Сообщение отредактировано: 30 августа 2011 10:00
Замечание от 30.08.11 Далее можно не вдаваться в детали обсуждения, а перейти в этой же теме на его результат: на сообщение #26 ( forum.razved.info/index.php?t=1045&p=21986#pp21986 ) petryashov написал: Неверная обработка падежей Кострома Воронеж Ярославль Иваново Напишите в Рубрике, соответственно: Кострома* Воронеж** Ярославль** Иваново* ~Ивановна ~Иванович (но тогда Валентина Ивановна Матвиенко никогда не "обнаружится в г. Иваново или как Вы предлагаете: перечисляйте все точные фразы, опять же, если это возможно). С Иваново (город) и Иванов (фамилия), Владимир (город) и Владимир (имя собственное), конечно, нужны очень громоздкие и сложные алгоритмы (работа для целой фирмы на неопределённый промежуток времени). Поэтому без погрешности в данном случае не обойтись. Уточняю правила при поиске по неточной фразе. Они таковы: если слово имеет длину от 4 до 6 букв, то берется минус 1 буква, если слово имеет длину от 7 до 9 букв, то берется минус 2 буквы, если слово имеет длину более 10 букв, то берется минус 3 буквы, если длина слова менее 4 букв, то оно берется как есть, - и в тексте новости осуществляется поиск оставшихся после отсечения букв буквосочетаний. Поэтому, если напишем так, как указано выше, то будут искаться производные от: Костром Воронеж Ярославл Иванов После: Кострома - именно одна звёздочка (поставив её, мы получаем слово из 8 букв и буква "а" и звездочка "отлетают"), после Воронеж и Ярославль именно две звездочки (мы получаем слова из 9 и 10 букв и две звездочки для Воронежа и "ь" и две звездочки для Ярославля "отлетают"). В первых трех случаях всё пройдёт очень чисто. В четвёртом случае мне надо всё бросить и пару лет убить на Иванова и Владимира, чего, конечно, не имеет смысла делать. petryashov написал: отсечение слева Что касается отсечения слева. Сами слова типа: Новорязанское, подтверждаем, Ленобласть, ... - не являются условием попадания в Рубрику. Попадание произошло по другому признаку. Они только выделены цветом в тексте: пусть лучше будет избыточность, чем недостаток. "Гоняться" ради этого по великому и могучему (приставки, суффиксы, окончания, чередующиеся гласные и корни ...) не считаю рациональным. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Алексей Мыльников написал:
Алексей, у меня при мониторинге новостей по строительству в Твери в рубрику Тверь попало 316 (!!!) записей, из них собственно к Твери относится только три (!!!) новости. Все остальное туда попало из-за того, что в текстах новостей по строительству в других регионах часто встречаются фразы типа "уТВЕРдил", "подТверждаем" , "чеТВЕРо" и прочие слова, в которых корень "Твер" стоит в центре. Сами понимаете, для таких случаев рубрикация не только не работает, но и забивает время аналитиков на чтение незаказанной ими информации. В этой связи предложение по смене алгоритма: если в рубрике первая буква запроса Заглавная, например, Тверь, то в рубрику должны попадать статьи, содержащие слова Тверь, тверской, тверичане, твердозуб (фиг с ним), но НЕ ДОЛЖНЫ попадать слова утвердить, четверо, подтверждаем и так далее. если в рубрике первая буква строчная, то пусть таскает все, как таскает сейчас (хотя, если честно, не понимаю, зачем вообще считать релевантным запросу слово, в котором есть в середине несколько соответствующих запросу букв) |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 875 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
В правиле замените Тверь на Тверь*. Добавьте аналогичные правлила со словом Тверской. Лишних попаданий в Рубрику не будет: всё пройдет точно и полно. petryashov написал: зачем вообще считать релевантным запросу слово, в котором есть в середине несколько соответствующих запросу букв Релевантности запросу нет. Смотрите в предыдущее моё сообщение: вторую часть. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 29 августа 2011 15:30 Сообщение отредактировано: 29 августа 2011 15:34 Алексей Мыльников написал: Что касается отсечения слева. Сами слова типа: Новорязанское, подтверждаем, Ленобласть, ... - не являются условием попадания в Рубрику. Попадание произошло по другому признаку Объясните, пожалуйста, по какому признаку они туда попали и для чего это нужно? Честно, не понимаю |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 875 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
petryashov написал: Объясните, пожалуйста, по какому признаку они туда попали и для чего это нужно? Для этого я должен увидеть Правила попадания в Рубрику. Выполните, пожалуйста: Мыльников написал: В правиле замените Тверь на Тверь*. Если будет мусор, то я буду разбираться. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
По Тверь* вообще ничего не пришло; По Кострома* пришло танкостроение , костров, По Иваново* ~Ивановна ~Иванович пришла Ивановка |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 875 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
По Ивановка - так и должно быть. По Кострома* - не верю. По Тверь* - значит ничего не было. Вы всё правильно указали? Будьте добры: - пакет, - Правило попадания в Рубрику - сценарий. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
пакет: ^^Новости; ^^Рубрики\проекты строительство OR реконструкция OR модернизация ||News->GoogleNew=20 +(строительство | реконструкция | модернизация) || News->YandexNew=20 |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 875 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Судя по картинке вижу два варианта. 1. Невнимательность. 2. Невнимательность+. Объясняю почему я так считаю. У Вас на Картинке для новости про танк Т-90С стоит: 44 мин назад. Я только что в 19:00 закончил выполнение пакета, цепляющий показанную ссылку. У меня время: 9 ч. назад. То есть ВЫ, с очень большой вероятностью, на фоне старого запуска (без "Кострома*"), состоявшегося около 8 часов назад, показываете новое содержание Рубрики. Обратите внимание, что про "Кострома*" я написал в 14-40, то есть всего 4 часа 20 минут назад. Смотрите картинку. Что Вы на это скажите? |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 875 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Для: petryashov Открыл эту новость на REGNUM. Там указано, что она Вышла 29.08.11 в 9:02. Соответственно, Вы показываете результат поиска, состоявшийся примерно в 10-00. Я про правило "Кострома*" сообщил в 14-40, то есть в 10-00 Вы ещё не знали о нём. Но это правило стоит в окне "Изменение Рубрики" в "Правила попадания информации в Рубрику". Что Вы можете ответить мне по этому поводу? |
Вперед>> | Страницы: 1 2 3 4 5 6 7 8 9 10 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » Рубрики в СайтСпутник(е). |
![]() |
Самые активные 20 тем |
![]() |