Определение тональности в текстах

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Управление информационными потоками »   Определение тональности в текстах
RSS

Определение тональности в текстах

<<Назад  Вперед>>Страницы: 1 2 3 4 5 6 7 8
Печать
 
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010
ну да... на что был примерно такой ответ:
[q]

причем понимая достаточно ответственно, что это просто "фишка". Но, почти любой договор на мониторинг содержит требование на подобные оценки. Если суточная выборка тысячи единиц, то визуально не отработать. Чем больше выборка, тем % погрешности более приемлем (теорема Чебышева в действии).
Если не требуется потекстовая расшифровка, то еще можно крутиться. А вот если нужна ... вот тут и нужно разбираться в алгоритмах
[/q]


Естественно, что при оценки тональности единичного текста заменить аналитика пока невозможно. (Я это и в предыдущее обсуждения говорил).
Но, хотелось бы усовершенствовать механизмы оценки в больших выборках, чтобы уменьшить общий процент погрешности. Тут есть что обсуждать.
Искендер
Администратор

Всего сообщений: 5925
Рейтинг пользователя: 43


Ссылка


Дата регистрации на форуме:
7 июня 2009

Sergey написал:
[q]
Но, хотелось бы усовершенствовать механизмы оценки в больших выборках, чтобы уменьшить общий процент погрешности. Тут есть что обсуждать.
[/q]

Когда-нибудь, наверное, AI таки создадут. :smile:

---
I`m not a Spy! I can do much better!
Информационные войны "под ключ"
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

Игорь Нежданов написал:
[q]

Смешение негатива и позитива или многомерные настроения: присутствие позитива и негатива в одном предложении (фразе). Пример: «Мне нравится астрономия, но меня раздражают слабые преподаватели».
[/q]

Это пример анализа текста целиком. Не определен объект исследования.
Если объект астрономия, то в отношении него - позитив.
Если объект преподаватели - негатив

Это оговаривалось "во первых строках письма" т.е. исследование всего контента, без уточнение отношения к определенному объекту/объектов смысла не имеет.

Игорь Нежданов написал:
[q]

Будущий негатив: это связано с действиями, которые могут произойти в будущем, а могут и не произойти. Пример: клиент не раздражен в данный момент, но говорит, что будет недоволен, если приобретенный товар выйдет из строя через несколько месяцев.
[/q]

В данном случае, если объект клиент или товар - негатив, не важно что "негатив отложенный"

Игорь Нежданов написал:
[q]

Сравнение — не прямой негатив, но вполне может иметь отрицательный окрас. Пример: «Я предпочитаю Андроид», что хорошо для Google, но не для MS или Apple.
[/q]

Один из самых сложных случаев. Алгоритмы тут с большой вероятностью дадут "нейтрально"


Игорь Нежданов написал:
[q]

Неоднозначные негативные слова: их смысл зависит от того, в «окружении» какого находиться фраза. Например: «Какой прыжок, с ума сойти!» можно истолковать как негатив или позитив в зависимости от окружающего текста. «Какой прыжок, с ума сойти! Как всё красиво, как весело – обязательно повторю.» или «Какой прыжок, с ума сойти! Тот что в оранжевом костюме вряд ли захочет повторить, а того что в синем до сих пор ищут.»
[/q]

Двусмысленность целостных, устоявшихся фраз решается путем создания словарей с заранее оговоренной трактовкой. Опять же, в примере должен быть объект. Основная сложность тут будет привязать объект исследования к фразеологизму, не спутав отношение фразеологизма к некому другому объекту.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

Искендер написал:
[q]

Когда-нибудь, наверное, AI таки создадут.
[/q]

"Они есть и их много". На форуме уже приводились некие продукты (не повторяю названия т.к. цель не реклама, а обсуждение принципов, теории).
Вопрос в другом. Как снизить% погрешности на выборку.
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009


Sergey написал:
[q]

Игорь Нежданов написал:
[q]

Смешение негатива и позитива или многомерные настроения: присутствие позитива и негатива в одном предложении (фразе). Пример: «Мне нравится астрономия, но меня раздражают слабые преподаватели».
[/q]

Это пример анализа текста целиком. Не определен объект исследования.
Если объект астрономия, то в отношении него - позитив.
Если объект преподаватели - негатив

Это оговаривалось "во первых строках письма" т.е. исследование всего контента, без уточнение отношения к определенному объекту/объектов смысла не имеет.
[/q]

А разве было обратное утверждение?



Sergey написал:
[q]

Игорь Нежданов написал:
[q]

Будущий негатив: это связано с действиями, которые могут произойти в будущем, а могут и не произойти. Пример: клиент не раздражен в данный момент, но говорит, что будет недоволен, если приобретенный товар выйдет из строя через несколько месяцев.
[/q]

В данном случае, если объект клиент или товар - негатив, не важно что "негатив отложенный"
[/q]

Почему? – ведь на данный момент клиент доволен.



Sergey написал:
[q]

Игорь Нежданов написал:
[q]

Сравнение — не прямой негатив, но вполне может иметь отрицательный окрас. Пример: «Я предпочитаю Андроид», что хорошо для Google, но не для MS или Apple.
[/q]

Один из самых сложных случаев. Алгоритмы тут с большой вероятностью дадут "нейтрально"
[/q]

А такого встречается достаточно много.



Sergey написал:
[q]

Игорь Нежданов написал:
[q]

Неоднозначные негативные слова: их смысл зависит от того, в «окружении» какого находиться фраза. Например: «Какой прыжок, с ума сойти!» можно истолковать как негатив или позитив в зависимости от окружающего текста. «Какой прыжок, с ума сойти! Как всё красиво, как весело – обязательно повторю.» или «Какой прыжок, с ума сойти! Тот что в оранжевом костюме вряд ли захочет повторить, а того что в синем до сих пор ищут.»
[/q]

Двусмысленность целостных, устоявшихся фраз решается путем создания словарей с заранее оговоренной трактовкой. Опять же, в примере должен быть объект. Основная сложность тут будет привязать объект исследования к фразеологизму, не спутав отношение фразеологизма к некому другому объекту.
[/q]

Только при условии, что фраза именно устоявшаяся. А в том и сложность языка, что фраза может быть и не устоявшаяся. Или есть словари со всеми вариантами сочетаний слов? – вряд ли.


В общем и целом – проблема пока что не решаема. Можно облегчить жизнь оператору, и то только до определенного уровня. Или полагаться на «авось». По принципу если определили 90% то ничего страшного в оставшихся 10% не будет.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Ed
Модератор форума

Всего сообщений: 1782
Рейтинг пользователя: 28


Ссылка


Дата регистрации на форуме:
7 июня 2009
Служба внешней разведки штурмует соцсети

Служба внешней разведки России серьезно озаботилась проблемой "массового распространения информационных сообщений в социальных сетях с целью формирования общественного мнения" и задумалась о создании методики мониторинга блогосферы. В январе-феврале 2012г. ведомство объявило три закрытых тендера на сумму свыше 30 млн руб. для реализации поставленных задач, пишет сегодня "Коммерсантъ".

В начале 2012г. государственный заказчик — ФКУ "Войсковая часть N54939" — запросил разработать программы для "исследования методов разведки интернет-центров и региональных сегментов социальных сетей", "исследования методов негласного управления в Интернете" и представить проект касательно "средств продвижения специальной информации в социальных сетях".

Указанные заказы пускай и разбиты на разные тендеры, но тесно связаны друг с другом, утверждает "Ъ". Ожидается, что вначале мониторить блогосферу будет система "Диспут", которая должна заниматься "исследованием процессов формирования сообществ интернет-центров, распространением информации в социальных сетях" и "определением факторов, влияющих на популярность и распространенность сведений". Полученную информацию будет анализировать система "Монитор-3", призванная разработать методы организации и управления в Интернете виртуальным сообществом привлеченных экспертов. Наконец, на основе полученных данных вбрасывать нужную информацию в соцсети будет система "Шторм-12".

Последняя программа, как следует из материалов тендера, должна иметь функционал по разработке "специального программного комплекса автоматизированного распространения информации в крупных социальных сетях и организации информационной поддержки мероприятий по подготовленным сценариям воздействия на заданную массовую аудиторию социальных сетей". Это позволит формировать общественное мнение посредством массового распространения информационных сообщений в выбранных социальных сетях, получать статистику относительно эффективности распространения информационной волны и анализировать пригодность "наиболее популярных сервисов социальных сетей для инициирования информационных волн различной тематической, социальной и прочей направленности".

Исполнителем заказа по всем трем тендерам стала компания "Итеранет", возглавляемая бывшим первым заместителем начальника Института криптографии, связи и информатики Академии ФСБ Игорем Мацкевичем. Ожидается, что первые две системы вступят в строй уже в 2012г., а "Шторм-12" поступит "на вооружение" в 2013г.

Источники "Ъ" в спецслужбах заявили, что указанная воинская часть, разместившая тендер, входит в систему Службы внешней разведки. В разведывательном ведомстве запрос газеты проигнорировали. Однако истинность предположения подтверждают два документа, имеющиеся в открытом доступе: приложение к приказу Министерства связи от 23 августа 1994г. и письмо управления городского заказа правительства Москвы "О льготах по оплате коммунальных услуг для кадровых сотрудников внешней разведки".

По словам источников издания в российских спецслужбах, после того, как программы будут готовы, СВР сможет применять их не только для воздействия на российскую, но и на внешнюю аудиторию. "После того как разработка завершится, начнутся предварительные испытания, которые должны будут доказать эффективность системы", — пояснил собеседник, который не исключил, что на первом этапе программы могут апробировать на странах Восточной Европы, ранее входивших в состав СССР. Указанные программы универсальны в своем применении, подчеркивают эксперты.

Известный блогер Антон Носик указывает, что в документе черным по белому сообщается о том, что миллионы рублей будут затрачены на создание системы вброса через заранее зарегистрированные в соцсетях аккаунты. Главным препятствием при реализации проекта выступают средства защиты соцсетей от спама, и часть денег будет потрачена на нейтрализацию защиты, полагает блогер.

Другой эксперт на условиях анонимности отмечает, что потенциальными "клиентами" программ могут стать российские социальные сети и их пользователи, а также зарубежные ресурсы, такие как Facebook и Google+. В настоящий момент российские спецслужбы не обладают контролем над указанными сайтами, однако проводить внешний мониторинг событий, а также искать "дырки" в защите ресурсов для борьбы с политической оппозицией они уже могут.

Отметим, ранее ряд СМИ сообщили о создании системы по отслеживанию социальных медиа, разработанной компанией "Медиалогия". Программа "Призма" якобы позволяет отслеживать отдельно стоящие блог-площадки и социальные сети, сканируя 60 млн источников и отслеживая тональность высказываний пользователей. Под "око" программы попали блоги пользователей LiveJournal, Twitter, YouTube, других порталов. Один из экземпляров программы якобы установлен в кабинете первого заместителя главы управления внутренней политики администрации президента Вячеслава Володина.
hound
Гость

Ссылка

В интернете весьма часто встречается такой оборот речи, как сарказм. Люди его, как правило, понимают. А вот интересно - есть ли роботы, способные определить сарказм?
Ну например:
Путинский суд дал пуськам 2 года. Какая прелесть!
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

Ed написал:
[q]

в документе черным по белому сообщается о том, что миллионы рублей будут затрачены на создание системы вброса через заранее зарегистрированные в соцсетях аккаунты.
[/q]

Следующим шагом будет ответный комплекс занимающийся вычисление аккаунтов созданных СВР. :smile:
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

hound написал:
[q]

В интернете весьма часто встречается такой оборот речи, как сарказм.
[/q]


Есть, но с определенной степенью точности на выборку текстов.
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

Ed написал:
[q]
Служба внешней разведки штурмует соцсети
[/q]


Глава "Итеранет" опроверг данные о работе по мониторингу соцсетей :wink:

[q]

...
"Разработкой систем мониторинга блогов и вброса информации в блогосферу мы не занимаемся... Таких контрактов, о которых пишет "Коммерсант", не было. Эти работы мы не выполняем", - заявил РИА Новости Мацкевич.
...
В ответ на вопрос о возможности выполнения подобных работ за указанные суммы Мацкевич подчеркнул, что речь идет об исследованиях. "Если вы посмотрите по названиям, то там идет речь об исследовании, а не разработке. Для исследования этого вполне достаточно. Разработка будет занимать, наверно, больше", - заявил РИА Новости гендиректор "Итеранет".
...

[/q]
<<Назад  Вперед>>Страницы: 1 2 3 4 5 6 7 8
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Управление информационными потоками »   Определение тональности в текстах
RSS

Последние RSS
Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей

Самые активные 20 тем RSS