Рубрики в СайтСпутник(е).

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Рубрики в СайтСпутник(е).
RSS

Рубрики в СайтСпутник(е).

<<Назад  Вперед>>Страницы: 1 2 3 4 5 6 7 8 9
Печать
 
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 829
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Замечание от 30.08.11
Далее можно не вдаваться в детали обсуждения,
а перейти в этой же теме на его результат: на сообщение #26 ( forum.razved.info/index.php?t=1045&p=21986#pp21986 )



petryashov написал:
[q]
Неверная обработка падежей
[/q]

Кострома
Воронеж
Ярославль
Иваново

Напишите в Рубрике, соответственно:

Кострома*
Воронеж**
Ярославль**
Иваново* ~Ивановна ~Иванович (но тогда Валентина Ивановна Матвиенко никогда не "обнаружится в г. Иваново или как Вы предлагаете: перечисляйте все точные фразы, опять же, если это возможно). С Иваново (город) и Иванов (фамилия), Владимир (город) и Владимир (имя собственное), конечно, нужны очень громоздкие и сложные алгоритмы (работа для целой фирмы на неопределённый промежуток времени). Поэтому без погрешности в данном случае не обойтись.

Уточняю правила при поиске по неточной фразе. Они таковы:
если слово имеет длину от 4 до 6 букв, то берется минус 1 буква,
если слово имеет длину от 7 до 9 букв, то берется минус 2 буквы,
если слово имеет длину более 10 букв, то берется минус 3 буквы,
если длина слова менее 4 букв, то оно берется как есть,

- и в тексте новости осуществляется поиск оставшихся после отсечения букв буквосочетаний.

Поэтому, если напишем так, как указано выше, то будут искаться производные от:

Костром
Воронеж
Ярославл
Иванов

После: Кострома - именно одна звёздочка (поставив её, мы получаем слово из 8 букв и буква "а" и звездочка "отлетают"), после Воронеж и Ярославль именно две звездочки (мы получаем слова из 9 и 10 букв и две звездочки для Воронежа и "ь" и две звездочки для Ярославля "отлетают").

В первых трех случаях всё пройдёт очень чисто. В четвёртом случае мне надо всё бросить и пару лет убить на Иванова и Владимира, чего, конечно, не имеет смысла делать.


petryashov написал:
[q]
отсечение слева
[/q]

Что касается отсечения слева. Сами слова типа: Новорязанское, подтверждаем, Ленобласть, ... - не являются условием попадания в Рубрику. Попадание произошло по другому признаку. Они только выделены цветом в тексте: пусть лучше будет избыточность, чем недостаток. "Гоняться" ради этого по великому и могучему (приставки, суффиксы, окончания, чередующиеся гласные и корни ...) не считаю рациональным.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009

Алексей Мыльников написал:
[q]

Что касается отсечения слева. Сами слова типа: Новорязанское, подтверждаем, Ленобласть, ... - не являются условием попадания в Рубрику. Попадание произошло по другому признаку. Они только выделены цветом в тексте: пусть лучше будет избыточность, чем недостаток. "Гоняться" ради этого по великому и могучему (приставки, суффиксы, окончания, чередующиеся гласные и корни ...) не считаю рациональным
[/q]


Алексей, у меня при мониторинге новостей по строительству в Твери в рубрику Тверь попало 316 (!!!) записей, из них собственно к Твери относится только три (!!!) новости. Все остальное туда попало из-за того, что в текстах новостей по строительству в других регионах часто встречаются фразы типа "уТВЕРдил", "подТверждаем" , "чеТВЕРо" и прочие слова, в которых корень "Твер" стоит в центре.
Сами понимаете, для таких случаев рубрикация не только не работает, но и забивает время аналитиков на чтение незаказанной ими информации.

В этой связи предложение по смене алгоритма:

если в рубрике первая буква запроса Заглавная, например, Тверь,
то в рубрику должны попадать статьи, содержащие слова Тверь, тверской, тверичане, твердозуб (фиг с ним), но
НЕ ДОЛЖНЫ попадать слова утвердить, четверо, подтверждаем и так далее.

если в рубрике первая буква строчная, то пусть таскает все, как таскает сейчас (хотя, если честно, не понимаю, зачем вообще считать релевантным запросу слово, в котором есть в середине несколько соответствующих запросу букв)



Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 829
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
В правиле замените Тверь на Тверь*.
Добавьте аналогичные правлила со словом Тверской. Лишних попаданий в Рубрику не будет: всё пройдет точно и полно.

petryashov написал:
[q]
зачем вообще считать релевантным запросу слово, в котором есть в середине несколько соответствующих запросу букв
[/q]

Релевантности запросу нет. Смотрите в предыдущее моё сообщение: вторую часть.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009

Алексей Мыльников написал:
[q]
Что касается отсечения слева. Сами слова типа: Новорязанское, подтверждаем, Ленобласть, ... - не являются условием попадания в Рубрику. Попадание произошло по другому признаку
[/q]


Объясните, пожалуйста, по какому признаку они туда попали и для чего это нужно? Честно, не понимаю

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 829
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]
Объясните, пожалуйста, по какому признаку они туда попали и для чего это нужно?
[/q]

Для этого я должен увидеть Правила попадания в Рубрику.

Выполните, пожалуйста:
Мыльников написал:
[q]
В правиле замените Тверь на Тверь*.
Добавьте аналогичные правила со словом Тверской. Лишних попаданий в Рубрику не будет: всё пройдет точно и полно.
[/q]

Если будет мусор, то я буду разбираться.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
По Тверь* вообще ничего не пришло;
По Кострома* пришло танкостроение , костров,
По Иваново* ~Ивановна ~Иванович пришла Ивановка

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 829
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
По Ивановка - так и должно быть.
По Кострома* - не верю.
По Тверь* - значит ничего не было.
Вы всё правильно указали?

Будьте добры:
- пакет,
- Правило попадания в Рубрику
- сценарий.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
пакет:

^^Новости;
^^Рубрики\проекты
строительство OR реконструкция OR модернизация ||News->GoogleNew=20
+(строительство | реконструкция | модернизация) || News->YandexNew=20


Прикрепленный файл (SiteSputnik.JPG, 236904 байт, скачан: 368 раз)
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 829
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Судя по картинке вижу два варианта.
1. Невнимательность.
2. Невнимательность+.

Объясняю почему я так считаю.
У Вас на Картинке для новости про танк Т-90С стоит: 44 мин назад.
Я только что в 19:00 закончил выполнение пакета, цепляющий показанную ссылку. У меня время: 9 ч. назад.
То есть ВЫ, с очень большой вероятностью, на фоне старого запуска (без "Кострома*"), состоявшегося около 8 часов назад, показываете новое содержание Рубрики. Обратите внимание, что про "Кострома*" я написал в 14-40, то есть всего 4 часа 20 минут назад. Смотрите картинку.



Что Вы на это скажите?

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 829
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Для: petryashov
Открыл эту новость на REGNUM.
Там указано, что она Вышла 29.08.11 в 9:02.
Соответственно, Вы показываете результат поиска, состоявшийся примерно в 10-00.
Я про правило "Кострома*" сообщил в 14-40, то есть в 10-00 Вы ещё не знали о нём.
Но это правило стоит в окне "Изменение Рубрики" в "Правила попадания информации в Рубрику".
Что Вы можете ответить мне по этому поводу?

<<Назад  Вперед>>Страницы: 1 2 3 4 5 6 7 8 9
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Рубрики в СайтСпутник(е).
RSS

Последние RSS
Книги о критическом мышлении
Наказывать за вмешательство в частную жизнь, Верховный суд
CI Academic Materials
CiMi.CON Evolution USA
Поиск в КЭШ поисковиков по запросу и пакету запросов
СайтСпутник: Многоязычность, Юникод, MS ACCESS
Новый курс OSINT от АИС
Год тюрьмы за отказ удалять
Книга "Строим доверие по методикам спецслужб"
аналог "Консультанта" о зарубежном законодательстве
Открытые данные ФНС
Получаем информацию по VIN
Competitive-Market Intelligence Conference, Berlin 2018
Не все VPN-сервисы одинаково полезны
«Яндекс» научился выдавать в поиске не скрытые Google-документы. Правда лавочку
War and marketing: 1937 July 7th vs. 2018 July 1st
Историческое. Агентурная разведка
Open Source Intelligence (OSINT) Tools and Resources Handbook
Top tips on gathering information about companies by using free online sources
Новое на блоге HRразведка

Самые активные 20 тем RSS
CI Academic Materials
Книги о критическом мышлении
Наказывать за вмешательство в частную жизнь, Верховный суд