IQBuzz (Айкубаз). Автоматизация мониторинга и анализа.

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Софт для конкурентной разведки »   IQBuzz (Айкубаз). Автоматизация мониторинга и анализа.
RSS

IQBuzz (Айкубаз). Автоматизация мониторинга и анализа.

<<Назад  Вперед>>Страницы: 1 2 3 4 5 6 7 8 ... 11 12 13 14 15 16
Печать
 
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Игорь Нежданов написал:
[q]
CI-KP написал:
[q]
Игорь Нежданов написал:
[q]

Поэтому не смотря ни на какие нюансы - не в состоянии машина понимать намеки, юмор, сарказм и прочие оттенки настроения человека, основываясь на его тексте.
[/q]

Не в состоянии.
[/q]

Вот и договорились о главном.
[/q]


Игорь, я уверен, что Вы согласитесь с тем, что "главное", все же, зависит от выполняемой задачи. Возможно, мы просто говорим несколько о разных вещах - т.е., видим перед глазами разную "картинку". Давайте попытаемся ее уравнять

Если работа идет по отдельному человеку - то главным становится факт, что машина не в состоянии обеспечить точности, близкой к 100 процентам. Это может сделать только человек. Полностью стопроцентной точности, правда, и человек не даст, но приблизиться к ней - может.

Если же работа идет по большому массиву - т.е. по трендам, то один человек вообще никакого значения не имеет. И тогда на первый план выходит именно физическая возможность обработки массива - хотя бы с вероятностью процентов в 80. Это наоборот человеку не по силам, а машина как раз может сделать.

P.S. Я там, кстати, написал, что человек также не в состоянии. И я тоже не в состоянии в ряде случаев понять - шутил человек или был серьезен. Да и Вы, я думаю, тоже.
Вы, насколько я понимаю, не спорите с этим? Это, на мой взгляд, немаловажно, т.к. при сравнении несовершенного и совершенного инструментов - выбор однозначен. А вот при наличии двух несовершенных инструментов - уже не столь очевиден.

Далее. Ув. hound, говоря вот это: "Поэтому мой вопрос к Вам - можно ли в этих целях использовать Айкубаз, разумеется, учитывая, что будет определенная, но не слишком большая погрешность, что позволит правильно определить общий тренд?" описывал совершенно реальную и часто встречающуюся в практике задачу. В его практике. И в моей.
Судя по Вашему ответу: "Нет - нельзя его использовать, по тому что всё равно нужно перечитывать -нет доверия результату, а значит выводы будут не просто не корректны, а будут просто обманом." - Вы этой практики не видели.
Это не хорошо и не плохо, это просто работа и задачи, требующие решения, у разных людей разные.

Я ведь приводил пример "толпы, идущей к Арбату". Это не обман только из-за того, что есть и люди, которые идут в другую сторону. Потому что, когда такая толпа начнет жечь на Арбате машины и бить окна - это будет суровой реальностью, в которой рассуждения на тему точности просто утонут.

Было на Манежке 10 563 человека или 8 996 человек - для практика, решающего проблему толпы на Манежке неинтересно. Потому что их было "примерно 10 тыс." и они продавили в один из моментов ОМОН.

А теперь представьте, что Вы придумали некий механизм, оказывающий на эту толпу воздействие. Вас на раннем этапе будет интересовать - насколько оно эффективно. Не потом, когда толпа начнет бить ОМОН, а заранее. Потому что Вам будет важно - продолжать это же воздействие или давать другое. Это и есть тот самый тренд, который не учитывает индивидуальности, а учитывает общие тенденции. И который при этом является не обманом, а очень полезной в практике штукой.

Я полагаю, когда Вы лично именно этой практикой займетесь - Вас станет интересовать практический результат, а не теория, и Вы услышите что сказал ув. hound. А до того момента Вам это будет не нужно и, возможно, неинтересно. Только и всего. Под разные ситуации нужен разный инструмент.

Однако если для вытаскивания машины из ямы пинцет не годится - это не недостаток пинцета. Просто пинцет для другого предназначен, а в данном случае нужен лом.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Игорь Нежданов написал:
[q]
CI-KP написал:
[q]
Теоретически, возможно настроить словарь на конкретного автора так, чтобы автомат ловил изменения тональности.
[/q]

Вот именно - теоритечески. Чтобы понять - нужно попробовать один раз полноценно составить такой словарь. После этого станет понятно, что занятие бессмысленное.
[/q]

Совершенно верно. Причем, я даже пробовать не стану - но по причине, которую я описал выше: значимый человек значим не тональностью, а идеями. А это уже не оценка внешних проявлений, а аналитика. Точнее - прогнозирование последствий воздействия его идей на его аудиторию.

Аналитику такого плана на сегодня машины, насколько мне известно, делать не умеют. А вот экспресс-анализ больших массивов текстов по "реперным точкам" не умеет делать человек, но умеет делать машина.
О чем, собственно, вся эта ветка.

Вообще, эта ветка похожа примерно на такой диалог:

- Мы придумали машину. Она может ускорить перевозку грузов из Екатеринбурга в Москву в пять тысяч раз.

- Но машина же не в пять тысяч раз быстрее лошади! Вы врете!

- Так она же намного грузоподъемнее, и ей не надо отдыхать.



Или:

- А если с машины что-то из груза упадет - водила даже не заметит!

- Так надо крепить груз.

- Как ни крепи - все равно может что-то иногда упасть! Особенно мелочевка.

- Да и хрен с ней. Зато в пять тысяч раз больше грузов ДОЕДЕТ до Москвы. Пусть даже что-то малозначительно и упадет.


Или:

- Машина же может застрять. Она и между деревьями-то не пролезет.

- Так по дороге поедет же, по ровной

- Это делает машину менее маневренной. И если она с дороги свернет - может застрять.



В принципе, оба гипотетических собеседника правы. Потому что задачи у них разные.
И машины, кстати, в результате делают разные. И даже лошади сохранились для некоторых целей.
Под задачу - и инструмент.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
hound
Гость

Ссылка

[q=Игорь Нежданов]Нет - нельзя его использовать, по тому что всё равно нужно перечитывать -нет доверия результату, а значит выводы будут не просто не корректны, а будут просто обманом.[/q]
Уважаемый Игорь, возможно, мы говорим о разных вещах. Я не думаю об абсолютно точном результате - меня интересует результат примерный. Я приведу конкретный пример.
Вот региональные выборы. Необходимо каждый день давать срез общественного мнения по модели "негатив-нейтрал-позитив" по "своему" кандидату и по основным конкурентам. Когда 10 лет назад инета, можно сказать, не было - отмониторить десяток газет вручную несложно. А сейчас - когда инет есть - вручную нереально. Это нужно сделать за час, максимум два, чтобы успеть к утренней летучке. Сажать кучу народа а потом сводить - никакой бюджет не позволит. да и люди ошибаются. 5% ошибка - к тетке не ходи, а то и все 10%. Так что если для такой задачи программа будет правильно определять не меньше 85% правильно - это нормально, и это - ОЧЕНЬ большое подспорье. Если меньше - тогда да, проблемы.
И в связи с этим у меня вопрос - в какой процент Вы определяете ошибку и на чем при этом основываетесь?
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

CI-KP написал:
[q]
Однако есть реперные слова, которыми можно оценивать изменения тональности отдельно взятого автора.
[/q]


Да, но проблема с определением тональности состоит в том, к чему относятся эти реперные слова.
Если в качестве таких используются универсальные реперные слова (прилагательные и т.д.), то есть риск того, что они могут относиться не к интересующему объекту.
А вот если реперное слово определяет тональность в рамках какого-то контекста (мебельшик в контексте армии носит явно негативный характер, но само по себе нейтрально), тогда тональность можно определить куда точнее :wink:
Выходит, нужны некие методические рекомендации по тому, как выбирать реперные слова в том или ином контексте, чтобы не было серьезных ошибок в определении тональности :crack:

Кстати, а ведь тут можно было бы сделать обучение (настройку) тональности в рамках того или иного контекста.
Берется тестовая выборка сообщений, вручную определяется их тональность и автоматически составляется список слов и групп 2-3 слов (с их частотами), которые употребляются в негативных и позитивных сообщениях (таким образом можно как раз опосредованно учесть жаргон, мемы или обороты речи, а не отдельные слова).
Тогда можно попробовать более-менее обоснованно выбрать, какие слова или обороты нужно использовать для определения тональности
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Плюс есть другой путь, но гораздо более ресурсоемкий - нужно парсить текст и по структуре предложений определять, к чему относится слово, определяющее тональность (к объекту исследования или нет). :crazy:
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

CI-KP написал:
[q]
Я полагаю, когда Вы лично именно этой практикой займетесь - Вас станет интересовать практический результат, а не теория, и Вы услышите что сказал ув. hound. А до того момента Вам это будет не нужно и, возможно, неинтересно.
[/q]

Не стройте предположений о том, чего не знаете, или как минимум не озвучивайте. Это больше походит на провокацию, а не на диалог. Ну или на очередное шоу. (хорошо что мы перешли на ВЫ - так правильнее) Полагаю на этом пора заканчивать общение. И не нужно пытаться преподнести не желание общаться как что то отличное от личных отношений.
________________________


hound написал:
[q]
Уважаемый Игорь, возможно, мы говорим о разных вещах. Я не думаю об абсолютно точном результате - меня интересует результат примерный. Я приведу конкретный пример.
[/q]

Да - скорее всего так и есть.


hound написал:
[q]
Вот региональные выборы. Необходимо каждый день давать срез общественного мнения по модели "негатив-нейтрал-позитив" по "своему" кандидату и по основным конкурентам. Когда 10 лет назад инета, можно сказать, не было - отмониторить десяток газет вручную несложно. А сейчас - когда инет есть - вручную нереально. Это нужно сделать за час, максимум два, чтобы успеть к утренней летучке. Сажать кучу народа а потом сводить - никакой бюджет не позволит. да и люди ошибаются. 5% ошибка - к тетке не ходи, а то и все 10%. Так что если для такой задачи программа будет правильно определять не меньше 85% правильно - это нормально, и это - ОЧЕНЬ большое подспорье. Если меньше - тогда да, проблемы.
[/q]

Повышение эффективности работы с помощью компьютеров я не оспариваю.


hound написал:
[q]
И в связи с этим у меня вопрос - в какой процент Вы определяете ошибку и на чем при этом основываетесь?
[/q]

50 на 50, а то и еще хуже, особенно хорошо видно на текущей ситуации, когда в каждом сообщении есть и про одного претендента, и про другого, и про третьего... и в разных витиеватых формах.

Определить общую тональность сообщения можно. С разным процентом ошибок, но можно и это делается. А вот как определить что негатив в каком то сообщении относиться именно к вашему объекту интереса? По наличию негатива и упоминания объекта? Но негатив может не относиться к объекту. По наличию негатива + упоминание объекта + расстояние в тексте от объекта до негатива? но это тоже не дает ничего, чему примеры приведены выше. Получается, что нельзя определить сообщение негативно или нет по отношению к конкретному объекту. Причем ни на уровне единичных сообщений, ни на уровне "потока" информации.

Если мы не можем определить негатив по отношению к объекту в единичном сообщении , то как определить негатив по отношению к объекту в потоке информации?







---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
hound
Гость

Ссылка

[q=Игорь Нежданов]50 на 50, а то и еще хуже[/q]
Спасибо, понятно. Я так понял, это не "из общих соображений", а Вы тестировали Айкубаз (возможно, и другие программы) по этому параметру. Не могли бы выложить соответствующий пример - ну, примерно так, как это сделал при тестировании Айкубаза уважаемый CI-KP.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Vinni написал:
[q]

Да, но проблема с определением тональности состоит в том, к чему относятся эти реперные слова.
Если в качестве таких используются универсальные реперные слова (прилагательные и т.д.), то есть риск того, что они могут относиться не к интересующему объекту.
А вот если реперное слово определяет тональность в рамках какого-то контекста (мебельшик в контексте армии носит явно негативный характер, но само по себе нейтрально), тогда тональность можно определить куда точнее :wink:
[/q]

Совершенно верно.
Однако это уже технический вопрос в рамках решения проблемы, а не огульное отрицание самой возможности решения.


Vinni написал:
[q]
Выходит, нужны некие методические рекомендации по тому, как выбирать реперные слова в том или ином контексте, чтобы не было серьезных ошибок в определении тональности :crack:
[/q]

На самом деле, не нужно никаких методических рекомендаций. Сама возможность составления такого словаря - безусловно, нужна, и она есть. А методические рекомендации - не нужны, потому что это софт не для кого угодно, а для специалиста, которых заведомо понимает, что он хочет и почему. Такой человек сам способен составлять методические рекомендации - для своих подчиненных (по той проблематике, с которой он работает). Ему не нужны чужие "универсальные" методички.


Vinni написал:
[q]
Кстати, а ведь тут можно было бы сделать обучение (настройку) тональности в рамках того или иного контекста.
Берется тестовая выборка сообщений, вручную определяется их тональность и автоматически составляется список слов и групп 2-3 слов (с их частотами), которые употребляются в негативных и позитивных сообщениях (таким образом можно как раз опосредованно учесть жаргон, мемы или обороты речи, а не отдельные слова).
Тогда можно попробовать более-менее обоснованно выбрать, какие слова или обороты нужно использовать для определения тональности
[/q]

Именно так и происходит. Это, кстати, типовая задача и при поиске в том же Гугле или Яндексе: сначала делается простой запрос, потом результаты корректируются с помощью его усложнения.

С Айкубазом и его аналогами та же суть: делается запрос по обычному словарю, который показывает, что не учтено или учтено неверно - и это корректируется с помощью словаря под конкретную ситуацию. (Например, очень часто слово "Утконос" применительно к почти любой компании - негатив).

При этом, заведомо известно, что стопроцентная точность недостижима. Но, поскольку она и не нужна - это устраивает практиков.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Семёныч
Модератор форума
Городской Охотник
Всего сообщений: 926
Рейтинг пользователя: 10


Ссылка


Дата регистрации на форуме:
8 июня 2009
В ситуации "совершенный инструмент - несовершенный инструмент - отсутствие инструмента" вижу следующее: совершенного инструмента нет, отсутствие инструмента - оно и есть отсутствие. Остаётся несовершенный инструмент. Если знать более-менее его "несовершенность", т.е. погрешность, хотя бы вилку (15-25%), то это уже инструмент и это лучше, чем ничего. Но если эта погрешность около 50%, то такой "несовершенный инструмент" что есть, что его нет - без разницы. Вот вычислить этот процент точности и тогда станет понятно - есть инструмент или есть иллюзия инструмента. Принцип "лучше хоть что-то, чем ничего" в данной ситуации, мне кажется не подходящим. При высоком проценте погрешности такой "инструмент" не только не поможет, но и навредит.

---
Нет такой безвыходной ситуации,в которую невозможно вляпаться... (с)
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010
Лично занимался проблемой тональности. Смотрели, что и как другие делают, что-то свое пробовали...
Все используемые алгоритмы (а по сути все используют одно и то же, но выдают за свое) очень условны.
Если нужна общая тональность, то достаточно просто читать пару новостных лент, чтобы самому понять общую тенденцию, без всякого шаманства и красивых фраз о автоматизации тональности.
Важна тональность не столько общая, это и так любой кто в теме примерно "на пальцах" определит. Важна тональность по изданиям, по регионам. Иначе, ни о каком контент-анализе не может и речи идти.
Более того, даже если "автомат" в среднем ошибаясь в ту или иную сторону дает "приблизительно что-то похожее", любой подобный программный продукт обязан дать по клику , к примеру, на кнопку "выдать весь негатив за сутки " - выдать именно негатив к исследуемому объекту, например гр-у Сидорову, а не "куча мала". И вот тут-то все и прокалываются т.к. именно "куча мала".
А насчет 1000 сообщений и невозможности их обработать... опять же все нет так и не разрешимо. По сути, из этой 1000 уникальных будет единицы, все остальное перепечатки и перетасовка слов. Достаточно иметь механизмы определения уникальности и идентичности. Группируем и получаем не 1000, а 10.
<<Назад  Вперед>>Страницы: 1 2 3 4 5 6 7 8 ... 11 12 13 14 15 16
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Софт для конкурентной разведки »   IQBuzz (Айкубаз). Автоматизация мониторинга и анализа.
RSS

Последние RSS
Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей

Самые активные 20 тем RSS