Рубрики в СайтСпутник(е).

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Рубрики в СайтСпутник(е).
RSS

Рубрики в СайтСпутник(е).

<<Назад  Вперед>>Страницы: 1 2 3 4 5 6 7 8 9 10
Печать
 
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 835
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Замечание от 30.08.11
Далее можно не вдаваться в детали обсуждения,
а перейти в этой же теме на его результат: на сообщение #26 ( forum.razved.info/index.php?t=1045&p=21986#pp21986 )



petryashov написал:
[q]
Неверная обработка падежей
[/q]

Кострома
Воронеж
Ярославль
Иваново

Напишите в Рубрике, соответственно:

Кострома*
Воронеж**
Ярославль**
Иваново* ~Ивановна ~Иванович (но тогда Валентина Ивановна Матвиенко никогда не "обнаружится в г. Иваново или как Вы предлагаете: перечисляйте все точные фразы, опять же, если это возможно). С Иваново (город) и Иванов (фамилия), Владимир (город) и Владимир (имя собственное), конечно, нужны очень громоздкие и сложные алгоритмы (работа для целой фирмы на неопределённый промежуток времени). Поэтому без погрешности в данном случае не обойтись.

Уточняю правила при поиске по неточной фразе. Они таковы:
если слово имеет длину от 4 до 6 букв, то берется минус 1 буква,
если слово имеет длину от 7 до 9 букв, то берется минус 2 буквы,
если слово имеет длину более 10 букв, то берется минус 3 буквы,
если длина слова менее 4 букв, то оно берется как есть,

- и в тексте новости осуществляется поиск оставшихся после отсечения букв буквосочетаний.

Поэтому, если напишем так, как указано выше, то будут искаться производные от:

Костром
Воронеж
Ярославл
Иванов

После: Кострома - именно одна звёздочка (поставив её, мы получаем слово из 8 букв и буква "а" и звездочка "отлетают"), после Воронеж и Ярославль именно две звездочки (мы получаем слова из 9 и 10 букв и две звездочки для Воронежа и "ь" и две звездочки для Ярославля "отлетают").

В первых трех случаях всё пройдёт очень чисто. В четвёртом случае мне надо всё бросить и пару лет убить на Иванова и Владимира, чего, конечно, не имеет смысла делать.


petryashov написал:
[q]
отсечение слева
[/q]

Что касается отсечения слева. Сами слова типа: Новорязанское, подтверждаем, Ленобласть, ... - не являются условием попадания в Рубрику. Попадание произошло по другому признаку. Они только выделены цветом в тексте: пусть лучше будет избыточность, чем недостаток. "Гоняться" ради этого по великому и могучему (приставки, суффиксы, окончания, чередующиеся гласные и корни ...) не считаю рациональным.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009

Алексей Мыльников написал:
[q]

Что касается отсечения слева. Сами слова типа: Новорязанское, подтверждаем, Ленобласть, ... - не являются условием попадания в Рубрику. Попадание произошло по другому признаку. Они только выделены цветом в тексте: пусть лучше будет избыточность, чем недостаток. "Гоняться" ради этого по великому и могучему (приставки, суффиксы, окончания, чередующиеся гласные и корни ...) не считаю рациональным
[/q]


Алексей, у меня при мониторинге новостей по строительству в Твери в рубрику Тверь попало 316 (!!!) записей, из них собственно к Твери относится только три (!!!) новости. Все остальное туда попало из-за того, что в текстах новостей по строительству в других регионах часто встречаются фразы типа "уТВЕРдил", "подТверждаем" , "чеТВЕРо" и прочие слова, в которых корень "Твер" стоит в центре.
Сами понимаете, для таких случаев рубрикация не только не работает, но и забивает время аналитиков на чтение незаказанной ими информации.

В этой связи предложение по смене алгоритма:

если в рубрике первая буква запроса Заглавная, например, Тверь,
то в рубрику должны попадать статьи, содержащие слова Тверь, тверской, тверичане, твердозуб (фиг с ним), но
НЕ ДОЛЖНЫ попадать слова утвердить, четверо, подтверждаем и так далее.

если в рубрике первая буква строчная, то пусть таскает все, как таскает сейчас (хотя, если честно, не понимаю, зачем вообще считать релевантным запросу слово, в котором есть в середине несколько соответствующих запросу букв)



Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 835
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
В правиле замените Тверь на Тверь*.
Добавьте аналогичные правлила со словом Тверской. Лишних попаданий в Рубрику не будет: всё пройдет точно и полно.

petryashov написал:
[q]
зачем вообще считать релевантным запросу слово, в котором есть в середине несколько соответствующих запросу букв
[/q]

Релевантности запросу нет. Смотрите в предыдущее моё сообщение: вторую часть.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009

Алексей Мыльников написал:
[q]
Что касается отсечения слева. Сами слова типа: Новорязанское, подтверждаем, Ленобласть, ... - не являются условием попадания в Рубрику. Попадание произошло по другому признаку
[/q]


Объясните, пожалуйста, по какому признаку они туда попали и для чего это нужно? Честно, не понимаю

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 835
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]
Объясните, пожалуйста, по какому признаку они туда попали и для чего это нужно?
[/q]

Для этого я должен увидеть Правила попадания в Рубрику.

Выполните, пожалуйста:
Мыльников написал:
[q]
В правиле замените Тверь на Тверь*.
Добавьте аналогичные правила со словом Тверской. Лишних попаданий в Рубрику не будет: всё пройдет точно и полно.
[/q]

Если будет мусор, то я буду разбираться.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
По Тверь* вообще ничего не пришло;
По Кострома* пришло танкостроение , костров,
По Иваново* ~Ивановна ~Иванович пришла Ивановка

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 835
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
По Ивановка - так и должно быть.
По Кострома* - не верю.
По Тверь* - значит ничего не было.
Вы всё правильно указали?

Будьте добры:
- пакет,
- Правило попадания в Рубрику
- сценарий.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
пакет:

^^Новости;
^^Рубрики\проекты
строительство OR реконструкция OR модернизация ||News->GoogleNew=20
+(строительство | реконструкция | модернизация) || News->YandexNew=20


Прикрепленный файл (SiteSputnik.JPG, 236904 байт, скачан: 395 раз)
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 835
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Судя по картинке вижу два варианта.
1. Невнимательность.
2. Невнимательность+.

Объясняю почему я так считаю.
У Вас на Картинке для новости про танк Т-90С стоит: 44 мин назад.
Я только что в 19:00 закончил выполнение пакета, цепляющий показанную ссылку. У меня время: 9 ч. назад.
То есть ВЫ, с очень большой вероятностью, на фоне старого запуска (без "Кострома*"), состоявшегося около 8 часов назад, показываете новое содержание Рубрики. Обратите внимание, что про "Кострома*" я написал в 14-40, то есть всего 4 часа 20 минут назад. Смотрите картинку.



Что Вы на это скажите?

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 835
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Для: petryashov
Открыл эту новость на REGNUM.
Там указано, что она Вышла 29.08.11 в 9:02.
Соответственно, Вы показываете результат поиска, состоявшийся примерно в 10-00.
Я про правило "Кострома*" сообщил в 14-40, то есть в 10-00 Вы ещё не знали о нём.
Но это правило стоит в окне "Изменение Рубрики" в "Правила попадания информации в Рубрику".
Что Вы можете ответить мне по этому поводу?

<<Назад  Вперед>>Страницы: 1 2 3 4 5 6 7 8 9 10
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Рубрики в СайтСпутник(е).
RSS

Последние RSS
шантаж, угрозы по Интернету
Практически весь интернет становится русскоязычным
SiteSputnik. Об одном подходе к мониторингу Телеграм
Безопасность при работе на ПК
Книги о критическом мышлении
Наказывать за вмешательство в частную жизнь, Верховный суд
CI Academic Materials
CiMi.CON Evolution USA
Поиск в КЭШ поисковиков по запросу и пакету запросов
СайтСпутник: Многоязычность, Юникод, MS ACCESS
Новый курс OSINT от АИС
Год тюрьмы за отказ удалять
Книга "Строим доверие по методикам спецслужб"
аналог "Консультанта" о зарубежном законодательстве
Открытые данные ФНС
Получаем информацию по VIN
Competitive-Market Intelligence Conference, Berlin 2018
Не все VPN-сервисы одинаково полезны
«Яндекс» научился выдавать в поиске не скрытые Google-документы. Правда лавочку
War and marketing: 1937 July 7th vs. 2018 July 1st

Самые активные 20 тем RSS