Рубрики в СайтСпутник(е).

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Рубрики в СайтСпутник(е).
RSS

Рубрики в СайтСпутник(е).

<<Назад  Вперед>>Страницы: 1 * 2 3 4 5 6 7 8 9 10
Печать
 
petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Вот это вообще великолепная штука! Фактически это авторубрикатор найденной информации, то есть функция, позволяющая в разы уменьшить время аналитиков на сортировку информации. В предыдущей теме forum.razved.info/index.php?t=1044 я описал ручную рубрикацию, теперь же Вы разработали авторубрикацию.

По опыту работы с программами, использующими авторубрикацию, могу дать пару рекомендаций, которые, возможно, Вам пригодятся при дальнейшем совершенствовании продукта:

1. Желательно предусмотреть как авторубрикацию, так и возможность ручной корректировки атрибута "рубрика" каждой записи;

2. Желательно предусмотреть возможность присваивания одной записи нескольких атрибутов "рубрика". То есть, если на странице идет речь о золоте Колчака, система должна присвоит записи два атрибута "Золото" и "Колчак", а пользователь, если это ему это будет нужно, имел бы возможность присваивать этой записи иные атрибуты.
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 870
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]
Вот это вообще великолепная штука! Фактически это авторубрикатор найденной информации, то есть функция, позволяющая в разы уменьшить время аналитиков на сортировку информации. В предыдущей теме forum.razved.info/index.php?t=1044 я описал ручную рубрикацию, теперь же Вы разработали авторубрикацию.
[/q]

Да. Вы можете перетащить "Юрчихин" в "Рубрики" и прописать правила попадания контента ссылки в каждую вложенную в "Юрчихин" папку (БД). Потребуется определенная доработка программы для адаптации к Yandex, Google, Rambler..., которые не относятся к новостным.

petryashov написал:
[q]
1. Желательно предусмотреть как авторубрикацию, так и возможность ручной корректировки атрибута "рубрика" каждой записи;
[/q]

Авто - есть, ручная - есть, не понял, что желательно предусмотреть?

petryashov написал:
[q]
2. Желательно предусмотреть возможность присваивания одной записи нескольких атрибутов "рубрика". То есть, если на странице идет речь о золоте Колчака, система должна присвоит записи два атрибута "Золото" и "Колчак", а пользователь, если это ему это будет нужно, имел бы возможность присваивать этой записи иные атрибуты.
[/q]

Про систему понятно, она это делает, а про пользователя не понял.

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 870
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Попросил меня вчера Алексей Си...ев, зарабатыющийся на хлеб куплей-продажей б/у предметов, "направить" СайтСпутник на доски объявлений и применить к ним процедуры, затронутые в этой теме и в теме "Мониторинг электронных СМИ и новостных источников" , а именно, выполннить за один проход следующее:

- поиск по нескольким источникам (задействовать доски: molotok.ru, irr.ru, avito.ru, oxl.ru, russia.slando.ru, ... );
- открытие всех найденных ссылок, удовлетворяющих поисковому запросу;
- выделение значимого контента (текстов объявлений);
- оформление выдачи (ленты) из текстов всех найденных объявлений;
- разнесение контента отдельных объявлений по Рубрикам.

Результат применения оказался достаточно хорошим: удалось подключить 8 из 10 досок, выдача с них получилась довольно-таки хорошего качества, с разнесением по рубрикам проблем нет и не будет в любых приложениях. Это приложение позволяет в разы быстрее ознакомиться с новыми объявлениями на заданную тему. Если выдачей с досок объявлений заняться "персонально", то можно довести ее до очень хорошего качества, подобного качеству выдачи при работе со СМИ и новостными источниками.

Таким образом, применением данного алгоритма является не только работа со СМИ и новостными источниками, но и другими источниками и, соответственно, другими приложениями. В идеале можно стремиться к работе с выдачей из поисковиков, но для поисковиков в общем случае качество выделения значимого контента найденных ссылок не может быть очень хорошим.

Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Работает стабильно. Пользоваться удобно. Возникло два вопроса.

1 При описании правил попадания материала в рубрику так понимаю словоформы не работают. По этой причине нужно писать слова без окончаний. Или как то по другому? Возможно ли использование символов "*" и "?" для обозначения пропущенных символов?

2 При работе с рубриками, особенно при создании новых, возникает необходимость "перерубрицировать" уже имеющиеся материалы. Т.е. разложить по новым рубрикам то, что уже есть. В ручную это долго, особенно при больших объемах. Нужен автоматический механизм. Есть ли такая возможность в СайтСпутнике?

И еще момент. Когда из раздела "Рубрики" пытаешься запустить поиск, то прога выдает сообщение о переходе в раздел "Поиск", но ничего не происходит. Нужно перейти в "Поиск" в ручную и только затем запускать поиск. В принципе не страшно, но тогда нужно отключить возможность поиска из раздела "Рубрики" - чтоб не провоцировать.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 870
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Иоанн написал:
[q]
1 При описании правил попадания материала в рубрику так понимаю словоформы не работают. По этой причине нужно писать слова без окончаний. Или как то по другому? Возможно ли использование символов "*" и "?" для обозначения пропущенных символов?
[/q]
Словоформы работают, окончания опускать не следует. * и ? использовать нельзя. Они пока не реализованы.

Иоанн написал:
[q]
2 При работе с рубриками, особенно при создании новых, возникает необходимость "перерубрицировать" уже имеющиеся материалы. Т.е. разложить по новым рубрикам то, что уже есть. В ручную это долго, особенно при больших объемах. Нужен автоматический механизм. Есть ли такая возможность в СайтСпутнике?
[/q]
Возможности перерубрикации нет /замечание от 22.04.11: в настоящее время перерубрикация реализована/. Для того, чтобы сделать ее вся информация в базах данных СайтсСпутника есть.

Иоанн написал:
[q]
Когда из раздела "Рубрики" пытаешься запустить поиск, то прога выдает сообщение о переходе в раздел "Поиск", но ничего не происходит. Нужно перейти в "Поиск" в ручную и только затем запускать поиск. В принципе не страшно, но тогда нужно отключить возможность поиска из раздела "Рубрики" - чтоб не провоцировать.
[/q]
Можно и так как Вы написали.


Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 870
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Если в правиле попадания в Рубрику имеется конструкция, например:

//2

то это означает, что в Рубрику попадут те новости, в контенте которых встретилось не менее двух слов, написанных с использованием и русских, и латинский букв одновременно. Пример такого слова:

kосtромской

Правило:

Сергей /1 Иванов //3

означает, что если в контенте новости имеются по соседству слововормы от слова Сергей и слова Иванов, а также не менее трёх слов, набранных и русскими и латинскими буквами, то эта новость попадет в Рубрику.

Правило:

Василий /1 Теркин //4
Александр /2 Твардовский //5

означает, что если в контенте новости имеются по соседству слововормы от слова Василий и слова Теркин, а также не менее четырех слов, набранных и русскими и латинскими буквами, или в контенте новости имеются слофоформы от Александр и Твардовский, находящиеся на расстоянии не более одного слова, и не менее пяти слов, набранных и русскими и латинскими буквами, то эта новость попадет в Рубрику.

Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Коллеги, не так давно возникла необходимость сделать для одной Рубрики более двухсот условий - реализовал , работает. На днях добавил еще около сотни условий - работает без проблем. Для исключения двусмысленности - одно условие по отношению к Рубрикам в СайтСпутнике это одна строка в Правилах попадания новости в Рубрику.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Докладываю - за три месяца работы появилось четыре рубрики с условиями в несколько сотен строк (одна - 650 строк условий). Работает устойчиво.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Алексей, у меня как-то некорректно работает рубрикация при обработке названий городов. Пока выделилось два класса ошибок:

{Неверная обработка падежей

В рубрику Кострома попадают слово костров - вообще грамматически неправильно, так как в слове Кострома корень костром-, а не костр-
В Рубрику Воронеж попадает слово Воронцов- грамматически неправильно, так как в слове Воронеж корень воронеж-, а не ворон-
В рубрику Ярославль попадает Ярослав- у слова Ярославль нет такого падежного окончания
В рубрику Иваново попадает Ивановна- ну это еще хоть как-то можно объяснить


В следующих случаях некорректно работает отсечение слева:

В рубрику Орел попадает Горелово -
В рубрику Рязань попадает Новорязанское
В рубрику Тверь попадает слово подтверждаем, четвертое, утверждает, твердый
В рубрику область попадает Ленобласть

Мне кажется, при запросе Тверь должны попадать варианты Тверь, Твери, Тверью, Тверской, тверской, тверская и т.п., то есть если слово начинается с корня (в данном случае твер-), то и все варианты должны начинаться с корня без каких- либо приставок или других букв перед корнем, а также могут иметь разные варианты суффиксов и окончаний.

Можете поправить алгоритм? Очень много мусора появляется при рубрикации, а прописывать все возможные падежи и формы слов по каждой рубрике в кавычках- адский труд

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 870
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Замечание от 30.08.11
Далее можно не вдаваться в детали обсуждения,
а перейти в этой же теме на его результат: на сообщение #26 ( forum.razved.info/index.php?t=1045&p=21986#pp21986 )



petryashov написал:
[q]
Неверная обработка падежей
[/q]

Кострома
Воронеж
Ярославль
Иваново

Напишите в Рубрике, соответственно:

Кострома*
Воронеж**
Ярославль**
Иваново* ~Ивановна ~Иванович (но тогда Валентина Ивановна Матвиенко никогда не "обнаружится в г. Иваново или как Вы предлагаете: перечисляйте все точные фразы, опять же, если это возможно). С Иваново (город) и Иванов (фамилия), Владимир (город) и Владимир (имя собственное), конечно, нужны очень громоздкие и сложные алгоритмы (работа для целой фирмы на неопределённый промежуток времени). Поэтому без погрешности в данном случае не обойтись.

Уточняю правила при поиске по неточной фразе. Они таковы:
если слово имеет длину от 4 до 6 букв, то берется минус 1 буква,
если слово имеет длину от 7 до 9 букв, то берется минус 2 буквы,
если слово имеет длину более 10 букв, то берется минус 3 буквы,
если длина слова менее 4 букв, то оно берется как есть,

- и в тексте новости осуществляется поиск оставшихся после отсечения букв буквосочетаний.

Поэтому, если напишем так, как указано выше, то будут искаться производные от:

Костром
Воронеж
Ярославл
Иванов

После: Кострома - именно одна звёздочка (поставив её, мы получаем слово из 8 букв и буква "а" и звездочка "отлетают"), после Воронеж и Ярославль именно две звездочки (мы получаем слова из 9 и 10 букв и две звездочки для Воронежа и "ь" и две звездочки для Ярославля "отлетают").

В первых трех случаях всё пройдёт очень чисто. В четвёртом случае мне надо всё бросить и пару лет убить на Иванова и Владимира, чего, конечно, не имеет смысла делать.


petryashov написал:
[q]
отсечение слева
[/q]

Что касается отсечения слева. Сами слова типа: Новорязанское, подтверждаем, Ленобласть, ... - не являются условием попадания в Рубрику. Попадание произошло по другому признаку. Они только выделены цветом в тексте: пусть лучше будет избыточность, чем недостаток. "Гоняться" ради этого по великому и могучему (приставки, суффиксы, окончания, чередующиеся гласные и корни ...) не считаю рациональным.

<<Назад  Вперед>>Страницы: 1 * 2 3 4 5 6 7 8 9 10
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Рубрики в СайтСпутник(е).
RSS

Последние RSS
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
ВС разрешил пропускать работу без разрешения работодателя
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей
Лог-файл в программе СайтСпутник
шантаж, угрозы по Интернету
Практически весь интернет становится русскоязычным

Самые активные 20 тем RSS
Книга "Нетворкинг для разведчиков"