Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » Site Sputnik для поиска лиц о которых пишут в сети... |
<<Назад Вперед>> | Страницы: 1 2 3 | Печать |
lukamud
Долгожитель форума
Всего сообщений: 494 Рейтинг пользователя: 8 Ссылка Дата регистрации на форуме: 15 окт. 2010 |
Можно ли с помощью этой программы получать список лиц упоминаемых в некотором потоке новостей, сообщений соцсетей и т.п. ---
С уважением, Лука Мудищев - дворянин! |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
lukamud написал: Можно ли с помощью этой программы получать список лиц упоминаемых в некотором потоке новостей, сообщений соцсетей и т.п. С ходу не могу сказать как это реализовать. Но вот механизмы все в СайтСпутнике есть: - собрать тексты новостей из определенных источников - это +News делает в СайтСпутнике; - выбрать из собранных текстов лиц, что там упоминаются - это +Obdject делает (он предназначен для выявления связей объекта). А вот как сработать это именно в такой последовательности нужно спросить у разработчика. ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Если это фиксированный список конкретных людей и фирм, то можно. При этом для каждого объекта будет подсчитано во сколько новостей он попал. Для этого нужно для каждого объекта создать Рубрику и прописать в ней, например: Дмитрий /2 Медведев. Смотрите картинку (это из моего чисто внутреннего тестового примера): Если же это общий вопрос: кто и сколько раз попал в поток новостей (какие Фамилия Имя Отчество, Имя Фамилия, Фамилия Имя, Фамилия, прозвища и другие способы дать имя человеку), тогда мне надо обеспечить вызов из +News модуль +Objects. Это сделать несложно. Намного труднее усовершенствовать модуль нахождения имён человека и определить что оно (имя) принадлежит одному человеку или разным (то что Сергей Васильевич Иванов в одной новости и Иванов Сергей в другой новости - это один и тот же человек или два разных человека). В настоящее время на таких новостных потоках будет очень много мусора. Этим заниматься буду , но сроки назвать пока затрудняюсь. |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Точно! - про такой вариант что-то и не подумал. ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
lukamud
Долгожитель форума
Всего сообщений: 494 Рейтинг пользователя: 8 Ссылка Дата регистрации на форуме: 15 окт. 2010 |
Для: Алексей Мыльников, спасибо за ответ. А наименования Юрлиц то же можно "выуживать" таким способом? ---
С уважением, Лука Мудищев - дворянин! |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
lukamud написал: А наименования Юрлиц то же можно "выуживать" таким способом? Да, можно. Постараюсь найти время в ближайшие дни и сделаю попытку прикрутить Objects к News (сейчас к нему можно только из SiteSputnik Pro обращаться). |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Таким способом можно наблюдать хоть людей, хоть организации, хоть темы (в т.ч. и сложные). ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Дополнительная возможность нахождения упоминаний объектов (ЮЛ и ФЛ). Реализована в SiteSputnik Objects 8.1.5 от 16.11.12. Вызывается из контекстного меню на нижней таблице (см. красную галочку): Можно искать объекты: - в "Чистом потоке", то есть в новостях (в выдаче SiteSputnik News), - в содержимом отдельных рубрик и "Всё по Рубрике", - в любой открытой ссылке, - в выдаче поисковиков или встроенных поисков. На картинке фрагмент результата поиска объектов: Это второй вариант нахождения упоминаний объектов - не из фиксированного списка, а тех объектов, которые присутствуют в выдаче. В настоящей реализации работает только для русскоязычных текстов. С ЮЛ мусора практически нет, выделить ФЛ сложнее, соответственно, мусора побольше. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Запустил поиск по себе, посмотрел, работает в основной своей массе хорошо, но встречаются ошибки. Условно из можно разделить на несколько групп: 1. некорректное разделение на лиц, когда они идут списком: Владимирович Янгорев Сергей; Дмитрий Владимирович Рогачева; Елена Юрьевна Семёркин Иван Валерьевич Петряшов 2. Некорректно выделяется фамилия: Дмитрий Владимирович Главный Дмитрий Владимирович Инженер Дмитрий Владимирович Пиарасы Дмитрий Владимирович Статьи 3. При отсутствии отчества в упоминании добавляется третье слово: Индастри» Петряшов Дмитрий Благодарность Дмитрию Петряшову 4. Вместо ФИО выделяются другие слова: Путина Википедия Самарского Маркетингового Клуба Электрик Индастри» |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 16 ноября 2012 10:48 Сообщение отредактировано: 16 ноября 2012 10:48
Алексей, и пара предложений по функционалу: 1. Можно ли сделать так, чтобы при нажатии на найденный объект открывался список новостей, в которых эти объекты найдены? 2. Можно ли сделать так, чтобы объекты выделялись не только по одному "прикрепленному файлу", но и по нескольким одновременно? Например, я ежедневно мониторю определенный круг новостей, потом запускаю поиск объектов во всем накопившемся архиве за месяц, а на выходе получаю табличку, в которой видно, сколько раз какой объект в течение месяца упоминался с разбивкой по дням |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Всё это прекрасно вижу и понимаю. Обдумаю и втором подходе к объектам сделаю. |
Семёныч
Модератор форума
Городской Охотник Всего сообщений: 926 Рейтинг пользователя: 10 Ссылка Дата регистрации на форуме: 8 июня 2009 |
petryashov написал: Дмитрий Владимирович Пиарасы некорректность подтверждаю! ---
Нет такой безвыходной ситуации,в которую невозможно вляпаться... (с) |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Семёныч написал: Вы предложите алгоритм распознавания ФИО, ИФ и ФИ, которые могут встретиться в текстах на великом и могучем русском языке. Можно алгоритм описать не в виде блок-схемы, а прямо на русском языке. Я его реализую и предоставлю возможность попользоваться. |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
Алексей Мыльников написал: Вы предложите алгоритм распознавания ФИО, ИФ и ФИ, которые могут встретиться в текстах на великом и могучем русском языке. Можно алгоритм описать не в виде блок-схемы, а прямо на русском языке. Я его реализую и предоставлю возможность попользоваться. Так сначала надо понять, по какому алгоритму идет работа сейчас. Судя по указанным ниже ошибкам: petryashov написал: но встречаются ошибки. Условно из можно разделить на несколько групп: игнорируются знаки препинания, разделяющие фио в списке
игнорируются теги - нужно не просто их удалять, а заменять минимум на запятую или другой разделитель и учитывать его
похоже что нет анализа смежных слов на принадлежность именам и отчествам
аналогично |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
В версии 8.1.5.1 знаки препинания - учел, теги тоже. Что касается списка имен (и отчеств) - это как бы белый список, то существует чёрный список. В новой версии обращение к черному списку доступно и из меню, которое приведено на картинке в сообщении #8 этой темы). Ранее он был доступен только с картинки, приведенной в другой теме про объекты на форуме, а именно: в сообщении - forum.razved.info/index.php?t=2970&p=31809#pp31809 красная стрелка показывает на панельку, на которой есть кнопка "-". На мой взгляд, черный список предпочтительней по следующим причинам: - белый список принесет мусора меньше, но и информации будет меньше (её потеря неизбежна - список имен, которые встречаются на ссылках, - это практически неисчерпаемый список), черный список принесет больше информации, но и мусора будет больше. - если объекты ищутся на конкретных страницах, то вычистить лишнее проще через черный список. - белый список в следующем подходе реализации объектов запланировано реализовать для наблюдения за конкретными объектами. |
vlas |
Профиль | Игнорировать
NEW! Сообщение отправлено: 19 ноября 2012 15:03 Сообщение отредактировано: 19 ноября 2012 15:09
[q=Алексей Мыльников]Можно искать объекты: - в "Чистом потоке", то есть в новостях (в выдаче SiteSputnik News), - в содержимом отдельных рубрик и "Всё по Рубрике", - в любой открытой ссылке, - в выдаче поисковиков или встроенных поисков.[/q] А можно ли "прикрутить" эту функцию для поиска во вложенных папках в папке "Поиск в Интернете" СайтСпутника версии Про? Или вся эта красота прежде всего для SiteSputnik News? |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
vlas написал:
Нужен +Objects. |
vlas |
[q=Алексей Мыльников]Нужен +Objects. [/q] Спасибо, понял. Есть такой зверь. НО, речь шла о том, чтобы можно было искать объекты во вложенных папках, а не только в файлах с результатами поиска: меня интересует конкретная фамилия и я хочу проверить есть ли она в моих результатах поиска (всех, что в Спутнике). Как поступить? Вероятно можно обучить Спутник "обойти" все файлы, которые находятся в строке "Объединение" всех поисков в папке, в которой запущена функция поиска Объектов, и сделать свое дело. А дальше - простым поиском по файлу. А если еще реализовать и вот это: [q=petryashov]1. Можно ли сделать так, чтобы при нажатии на найденный объект открывался список новостей, в которых эти объекты найдены? 2. Можно ли сделать так, чтобы объекты выделялись не только по одному "прикрепленному файлу", но и по нескольким одновременно? Например, я ежедневно мониторю определенный круг новостей, потом запускаю поиск объектов во всем накопившемся архиве за месяц, а на выходе получаю табличку, в которой видно, сколько раз какой объект в течение месяца упоминался с разбивкой по дням [/q] то, вероятно, и связи сразу можно смотреть... |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
vlas написал: меня интересует конкретная фамилия и я хочу проверить есть ли она в моих результатах поиска (всех, что в Спутнике). Задействуйте Архивариус напрямую или подключите его к СайтСпутнику через его Web-интерфейс и ищите. |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
Алексей Мыльников написал: Задействуйте Архивариус А еще есть Яндекс-Десктоп, который делает то же самое |
vlas |
[q=Алексей Мыльников]Задействуйте Архивариус напрямую или подключите его к СайтСпутнику через его Web-интерфейс и ищите.[/q] Оно то так, вот только связи с другими объектами не посмотришь. Или я не умею... (я в дополнение к Copernic Desktop Search Professional приобрел и Архивариус 3000. Вещь хорошая. Не хватает только статических адресов в выдаче веб-интерфейса Архивариуса - у каждого нового поиска новый адрес, что не позволяет делать аналитическое объединение средствами Спутника). [q=Vinni]А еще есть Яндекс-Десктоп, который делает то же самое [/q] Спасибо за подсказку! Вероятно попробую, если найду где его скачать: видать как и Гугловская локальная искалка, Яндекс-Десктоп умер и больше разработчиком не распространяется... |
Искендер
Администратор
Всего сообщений: 5925 Рейтинг пользователя: 43 Ссылка Дата регистрации на форуме: 7 июня 2009 |
vlas написал: если найду где его скачать Яндекс-Десктоп 2.6.0 сборка 1036 (последняя сборка) .exe 4,5Mb |
vlas |
[q=Искендер]Яндекс-Десктоп 2.6.0 сборка 1036 (последняя сборка) .exe 4,5Mb [/q] Спасибо! Ссылка, - пример "невидимого интернета" :) |
Искендер
Администратор
Всего сообщений: 5925 Рейтинг пользователя: 43 Ссылка Дата регистрации на форуме: 7 июня 2009 |
vlas написал: Спасибо! Не за что. vlas написал: Ссылка, - пример "невидимого интернета" :) Хотелось бы надуть щеки, но - нет, вполне всё видимое. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Алексей Мыльников написал: В версии 8.1.5.1 знаки препинания - учел, теги тоже. Еще раз запустил поиск по себе. Запятые в списках действительно стали отрабатываться, и теперь результатов типа "Евгений Леонидович Петряшов" не приходит. Но все остальные типы ошибок остались без изменений, в том числе и "Руководитель Аналитического Отдела", "Пресс-релизы Сообщества Практиков", "Агентство Бизнес Информации" и прочее. Насколько я понимаю, существующий алгоритм выделения фамилий, имен и обществ воспринимает как ФИО три подряд идущих слова, написанных с заглавных букв. Это чревато многочисленными ошибками |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
petryashov написал: воспринимает как ФИО три подряд идущих слова, написанных с заглавных букв. Это чревато многочисленными ошибками А нельзя добавить проверку на падеж слова - для ФИО слова должны быть в именительном падеже |
Ed
Модератор форума
Всего сообщений: 1782 Рейтинг пользователя: 28 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Vinni написал: для ФИО слова должны быть в именительном падеже Петренко, Долгих, Франко.. Элен Данте, Ку Инь Ли, Османзаде Сади Али оглы.. |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
Ed написал: Петренко, Долгих, Правильно - это же тоже упрощение. И либо надо будет вводить исключения из правила, либо усложнять модель |
<<Назад Вперед>> | Страницы: 1 2 3 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » Site Sputnik для поиска лиц о которых пишут в сети... |
Самые активные 20 тем | |