Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » Рубрики в СайтСпутник(е). |
Вперед>> | Страницы: 1 * 2 3 4 5 6 7 8 9 10 | Печать |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Попросил меня вчера Алексей Си...ев, зарабатыющийся на хлеб куплей-продажей б/у предметов, "направить" СайтСпутник на доски объявлений и применить к ним процедуры, затронутые в этой теме и в теме "Мониторинг электронных СМИ и новостных источников" , а именно, выполннить за один проход следующее: - поиск по нескольким источникам (задействовать доски: molotok.ru, irr.ru, avito.ru, oxl.ru, russia.slando.ru, ... ); - открытие всех найденных ссылок, удовлетворяющих поисковому запросу; - выделение значимого контента (текстов объявлений); - оформление выдачи (ленты) из текстов всех найденных объявлений; - разнесение контента отдельных объявлений по Рубрикам. Результат применения оказался достаточно хорошим: удалось подключить 8 из 10 досок, выдача с них получилась довольно-таки хорошего качества, с разнесением по рубрикам проблем нет и не будет в любых приложениях. Это приложение позволяет в разы быстрее ознакомиться с новыми объявлениями на заданную тему. Если выдачей с досок объявлений заняться "персонально", то можно довести ее до очень хорошего качества, подобного качеству выдачи при работе со СМИ и новостными источниками. Таким образом, применением данного алгоритма является не только работа со СМИ и новостными источниками, но и другими источниками и, соответственно, другими приложениями. В идеале можно стремиться к работе с выдачей из поисковиков, но для поисковиков в общем случае качество выделения значимого контента найденных ссылок не может быть очень хорошим. |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Работает стабильно. Пользоваться удобно. Возникло два вопроса. 1 При описании правил попадания материала в рубрику так понимаю словоформы не работают. По этой причине нужно писать слова без окончаний. Или как то по другому? Возможно ли использование символов "*" и "?" для обозначения пропущенных символов? 2 При работе с рубриками, особенно при создании новых, возникает необходимость "перерубрицировать" уже имеющиеся материалы. Т.е. разложить по новым рубрикам то, что уже есть. В ручную это долго, особенно при больших объемах. Нужен автоматический механизм. Есть ли такая возможность в СайтСпутнике? И еще момент. Когда из раздела "Рубрики" пытаешься запустить поиск, то прога выдает сообщение о переходе в раздел "Поиск", но ничего не происходит. Нужно перейти в "Поиск" в ручную и только затем запускать поиск. В принципе не страшно, но тогда нужно отключить возможность поиска из раздела "Рубрики" - чтоб не провоцировать. ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 4 августа 2010 11:23 Сообщение отредактировано: 22 апреля 2011 22:18 Иоанн написал: Словоформы работают, окончания опускать не следует. * и ? использовать нельзя. Они пока не реализованы. 1 При описании правил попадания материала в рубрику так понимаю словоформы не работают. По этой причине нужно писать слова без окончаний. Или как то по другому? Возможно ли использование символов "*" и "?" для обозначения пропущенных символов? Иоанн написал: Возможности перерубрикации нет /замечание от 22.04.11: в настоящее время перерубрикация реализована/. Для того, чтобы сделать ее вся информация в базах данных СайтсСпутника есть. 2 При работе с рубриками, особенно при создании новых, возникает необходимость "перерубрицировать" уже имеющиеся материалы. Т.е. разложить по новым рубрикам то, что уже есть. В ручную это долго, особенно при больших объемах. Нужен автоматический механизм. Есть ли такая возможность в СайтСпутнике? Иоанн написал: Можно и так как Вы написали. Когда из раздела "Рубрики" пытаешься запустить поиск, то прога выдает сообщение о переходе в раздел "Поиск", но ничего не происходит. Нужно перейти в "Поиск" в ручную и только затем запускать поиск. В принципе не страшно, но тогда нужно отключить возможность поиска из раздела "Рубрики" - чтоб не провоцировать. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Если в правиле попадания в Рубрику имеется конструкция, например: //2 то это означает, что в Рубрику попадут те новости, в контенте которых встретилось не менее двух слов, написанных с использованием и русских, и латинский букв одновременно. Пример такого слова: kосtромской Правило: Сергей /1 Иванов //3 означает, что если в контенте новости имеются по соседству слововормы от слова Сергей и слова Иванов, а также не менее трёх слов, набранных и русскими и латинскими буквами, то эта новость попадет в Рубрику. Правило: Василий /1 Теркин //4 Александр /2 Твардовский //5 означает, что если в контенте новости имеются по соседству слововормы от слова Василий и слова Теркин, а также не менее четырех слов, набранных и русскими и латинскими буквами, или в контенте новости имеются слофоформы от Александр и Твардовский, находящиеся на расстоянии не более одного слова, и не менее пяти слов, набранных и русскими и латинскими буквами, то эта новость попадет в Рубрику. |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Коллеги, не так давно возникла необходимость сделать для одной Рубрики более двухсот условий - реализовал , работает. На днях добавил еще около сотни условий - работает без проблем. Для исключения двусмысленности - одно условие по отношению к Рубрикам в СайтСпутнике это одна строка в Правилах попадания новости в Рубрику. ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Докладываю - за три месяца работы появилось четыре рубрики с условиями в несколько сотен строк (одна - 650 строк условий). Работает устойчиво. ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 29 августа 2011 11:43 Сообщение отредактировано: 29 августа 2011 12:05
Алексей, у меня как-то некорректно работает рубрикация при обработке названий городов. Пока выделилось два класса ошибок: {Неверная обработка падежей В рубрику Кострома попадают слово костров - вообще грамматически неправильно, так как в слове Кострома корень костром-, а не костр- В Рубрику Воронеж попадает слово Воронцов- грамматически неправильно, так как в слове Воронеж корень воронеж-, а не ворон- В рубрику Ярославль попадает Ярослав- у слова Ярославль нет такого падежного окончания В рубрику Иваново попадает Ивановна- ну это еще хоть как-то можно объяснить В следующих случаях некорректно работает отсечение слева: В рубрику Орел попадает Горелово - В рубрику Рязань попадает Новорязанское В рубрику Тверь попадает слово подтверждаем, четвертое, утверждает, твердый В рубрику область попадает Ленобласть Мне кажется, при запросе Тверь должны попадать варианты Тверь, Твери, Тверью, Тверской, тверской, тверская и т.п., то есть если слово начинается с корня (в данном случае твер-), то и все варианты должны начинаться с корня без каких- либо приставок или других букв перед корнем, а также могут иметь разные варианты суффиксов и окончаний. Можете поправить алгоритм? Очень много мусора появляется при рубрикации, а прописывать все возможные падежи и формы слов по каждой рубрике в кавычках- адский труд |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 29 августа 2011 14:38 Сообщение отредактировано: 30 августа 2011 10:00
Замечание от 30.08.11 Далее можно не вдаваться в детали обсуждения, а перейти в этой же теме на его результат: на сообщение #26 ( forum.razved.info/index.php?t=1045&p=21986#pp21986 ) petryashov написал: Неверная обработка падежей Кострома Воронеж Ярославль Иваново Напишите в Рубрике, соответственно: Кострома* Воронеж** Ярославль** Иваново* ~Ивановна ~Иванович (но тогда Валентина Ивановна Матвиенко никогда не "обнаружится в г. Иваново или как Вы предлагаете: перечисляйте все точные фразы, опять же, если это возможно). С Иваново (город) и Иванов (фамилия), Владимир (город) и Владимир (имя собственное), конечно, нужны очень громоздкие и сложные алгоритмы (работа для целой фирмы на неопределённый промежуток времени). Поэтому без погрешности в данном случае не обойтись. Уточняю правила при поиске по неточной фразе. Они таковы: если слово имеет длину от 4 до 6 букв, то берется минус 1 буква, если слово имеет длину от 7 до 9 букв, то берется минус 2 буквы, если слово имеет длину более 10 букв, то берется минус 3 буквы, если длина слова менее 4 букв, то оно берется как есть, - и в тексте новости осуществляется поиск оставшихся после отсечения букв буквосочетаний. Поэтому, если напишем так, как указано выше, то будут искаться производные от: Костром Воронеж Ярославл Иванов После: Кострома - именно одна звёздочка (поставив её, мы получаем слово из 8 букв и буква "а" и звездочка "отлетают"), после Воронеж и Ярославль именно две звездочки (мы получаем слова из 9 и 10 букв и две звездочки для Воронежа и "ь" и две звездочки для Ярославля "отлетают"). В первых трех случаях всё пройдёт очень чисто. В четвёртом случае мне надо всё бросить и пару лет убить на Иванова и Владимира, чего, конечно, не имеет смысла делать. petryashov написал: отсечение слева Что касается отсечения слева. Сами слова типа: Новорязанское, подтверждаем, Ленобласть, ... - не являются условием попадания в Рубрику. Попадание произошло по другому признаку. Они только выделены цветом в тексте: пусть лучше будет избыточность, чем недостаток. "Гоняться" ради этого по великому и могучему (приставки, суффиксы, окончания, чередующиеся гласные и корни ...) не считаю рациональным. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Алексей Мыльников написал:
Алексей, у меня при мониторинге новостей по строительству в Твери в рубрику Тверь попало 316 (!!!) записей, из них собственно к Твери относится только три (!!!) новости. Все остальное туда попало из-за того, что в текстах новостей по строительству в других регионах часто встречаются фразы типа "уТВЕРдил", "подТверждаем" , "чеТВЕРо" и прочие слова, в которых корень "Твер" стоит в центре. Сами понимаете, для таких случаев рубрикация не только не работает, но и забивает время аналитиков на чтение незаказанной ими информации. В этой связи предложение по смене алгоритма: если в рубрике первая буква запроса Заглавная, например, Тверь, то в рубрику должны попадать статьи, содержащие слова Тверь, тверской, тверичане, твердозуб (фиг с ним), но НЕ ДОЛЖНЫ попадать слова утвердить, четверо, подтверждаем и так далее. если в рубрике первая буква строчная, то пусть таскает все, как таскает сейчас (хотя, если честно, не понимаю, зачем вообще считать релевантным запросу слово, в котором есть в середине несколько соответствующих запросу букв) |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
В правиле замените Тверь на Тверь*. Добавьте аналогичные правлила со словом Тверской. Лишних попаданий в Рубрику не будет: всё пройдет точно и полно. petryashov написал: зачем вообще считать релевантным запросу слово, в котором есть в середине несколько соответствующих запросу букв Релевантности запросу нет. Смотрите в предыдущее моё сообщение: вторую часть. |
Вперед>> | Страницы: 1 * 2 3 4 5 6 7 8 9 10 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » Рубрики в СайтСпутник(е). |
Самые активные 20 тем | |