Форум Сообщества Практиков Конкурентной разведки (СПКР) » Софт для конкурентной разведки » IQBuzz (Айкубаз). Автоматизация мониторинга и анализа. |
<<Назад Вперед>> | Страницы: 1 2 3 4 5 6 7 8 ... 11 12 13 14 15 16 | Печать |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5565 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 4 марта 2012 10:36 Сообщение отредактировано: 15 марта 2012 22:36 Игорь Нежданов написал: CI-KP написал: Игорь, я уверен, что Вы согласитесь с тем, что "главное", все же, зависит от выполняемой задачи. Возможно, мы просто говорим несколько о разных вещах - т.е., видим перед глазами разную "картинку". Давайте попытаемся ее уравнять Если работа идет по отдельному человеку - то главным становится факт, что машина не в состоянии обеспечить точности, близкой к 100 процентам. Это может сделать только человек. Полностью стопроцентной точности, правда, и человек не даст, но приблизиться к ней - может. Если же работа идет по большому массиву - т.е. по трендам, то один человек вообще никакого значения не имеет. И тогда на первый план выходит именно физическая возможность обработки массива - хотя бы с вероятностью процентов в 80. Это наоборот человеку не по силам, а машина как раз может сделать. P.S. Я там, кстати, написал, что человек также не в состоянии. И я тоже не в состоянии в ряде случаев понять - шутил человек или был серьезен. Да и Вы, я думаю, тоже. Вы, насколько я понимаю, не спорите с этим? Это, на мой взгляд, немаловажно, т.к. при сравнении несовершенного и совершенного инструментов - выбор однозначен. А вот при наличии двух несовершенных инструментов - уже не столь очевиден. Далее. Ув. hound, говоря вот это: "Поэтому мой вопрос к Вам - можно ли в этих целях использовать Айкубаз, разумеется, учитывая, что будет определенная, но не слишком большая погрешность, что позволит правильно определить общий тренд?" описывал совершенно реальную и часто встречающуюся в практике задачу. В его практике. И в моей. Судя по Вашему ответу: "Нет - нельзя его использовать, по тому что всё равно нужно перечитывать -нет доверия результату, а значит выводы будут не просто не корректны, а будут просто обманом." - Вы этой практики не видели. Это не хорошо и не плохо, это просто работа и задачи, требующие решения, у разных людей разные. Я ведь приводил пример "толпы, идущей к Арбату". Это не обман только из-за того, что есть и люди, которые идут в другую сторону. Потому что, когда такая толпа начнет жечь на Арбате машины и бить окна - это будет суровой реальностью, в которой рассуждения на тему точности просто утонут. Было на Манежке 10 563 человека или 8 996 человек - для практика, решающего проблему толпы на Манежке неинтересно. Потому что их было "примерно 10 тыс." и они продавили в один из моментов ОМОН. А теперь представьте, что Вы придумали некий механизм, оказывающий на эту толпу воздействие. Вас на раннем этапе будет интересовать - насколько оно эффективно. Не потом, когда толпа начнет бить ОМОН, а заранее. Потому что Вам будет важно - продолжать это же воздействие или давать другое. Это и есть тот самый тренд, который не учитывает индивидуальности, а учитывает общие тенденции. И который при этом является не обманом, а очень полезной в практике штукой. Я полагаю, когда Вы лично именно этой практикой займетесь - Вас станет интересовать практический результат, а не теория, и Вы услышите что сказал ув. hound. А до того момента Вам это будет не нужно и, возможно, неинтересно. Только и всего. Под разные ситуации нужен разный инструмент. Однако если для вытаскивания машины из ямы пинцет не годится - это не недостаток пинцета. Просто пинцет для другого предназначен, а в данном случае нужен лом. ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5565 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 4 марта 2012 10:51 Сообщение отредактировано: 4 марта 2012 10:52 Игорь Нежданов написал: CI-KP написал: Совершенно верно. Причем, я даже пробовать не стану - но по причине, которую я описал выше: значимый человек значим не тональностью, а идеями. А это уже не оценка внешних проявлений, а аналитика. Точнее - прогнозирование последствий воздействия его идей на его аудиторию. Аналитику такого плана на сегодня машины, насколько мне известно, делать не умеют. А вот экспресс-анализ больших массивов текстов по "реперным точкам" не умеет делать человек, но умеет делать машина. О чем, собственно, вся эта ветка. Вообще, эта ветка похожа примерно на такой диалог: - Мы придумали машину. Она может ускорить перевозку грузов из Екатеринбурга в Москву в пять тысяч раз. - Но машина же не в пять тысяч раз быстрее лошади! Вы врете! - Так она же намного грузоподъемнее, и ей не надо отдыхать. Или: - А если с машины что-то из груза упадет - водила даже не заметит! - Так надо крепить груз. - Как ни крепи - все равно может что-то иногда упасть! Особенно мелочевка. - Да и хрен с ней. Зато в пять тысяч раз больше грузов ДОЕДЕТ до Москвы. Пусть даже что-то малозначительно и упадет. Или: - Машина же может застрять. Она и между деревьями-то не пролезет. - Так по дороге поедет же, по ровной - Это делает машину менее маневренной. И если она с дороги свернет - может застрять. В принципе, оба гипотетических собеседника правы. Потому что задачи у них разные. И машины, кстати, в результате делают разные. И даже лошади сохранились для некоторых целей. Под задачу - и инструмент. ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
hound |
[q=Игорь Нежданов]Нет - нельзя его использовать, по тому что всё равно нужно перечитывать -нет доверия результату, а значит выводы будут не просто не корректны, а будут просто обманом.[/q] Уважаемый Игорь, возможно, мы говорим о разных вещах. Я не думаю об абсолютно точном результате - меня интересует результат примерный. Я приведу конкретный пример. Вот региональные выборы. Необходимо каждый день давать срез общественного мнения по модели "негатив-нейтрал-позитив" по "своему" кандидату и по основным конкурентам. Когда 10 лет назад инета, можно сказать, не было - отмониторить десяток газет вручную несложно. А сейчас - когда инет есть - вручную нереально. Это нужно сделать за час, максимум два, чтобы успеть к утренней летучке. Сажать кучу народа а потом сводить - никакой бюджет не позволит. да и люди ошибаются. 5% ошибка - к тетке не ходи, а то и все 10%. Так что если для такой задачи программа будет правильно определять не меньше 85% правильно - это нормально, и это - ОЧЕНЬ большое подспорье. Если меньше - тогда да, проблемы. И в связи с этим у меня вопрос - в какой процент Вы определяете ошибку и на чем при этом основываетесь? |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 4 марта 2012 13:59 Сообщение отредактировано: 4 марта 2012 14:06 CI-KP написал: Однако есть реперные слова, которыми можно оценивать изменения тональности отдельно взятого автора. Да, но проблема с определением тональности состоит в том, к чему относятся эти реперные слова. Если в качестве таких используются универсальные реперные слова (прилагательные и т.д.), то есть риск того, что они могут относиться не к интересующему объекту. А вот если реперное слово определяет тональность в рамках какого-то контекста (мебельшик в контексте армии носит явно негативный характер, но само по себе нейтрально), тогда тональность можно определить куда точнее Выходит, нужны некие методические рекомендации по тому, как выбирать реперные слова в том или ином контексте, чтобы не было серьезных ошибок в определении тональности Кстати, а ведь тут можно было бы сделать обучение (настройку) тональности в рамках того или иного контекста. Берется тестовая выборка сообщений, вручную определяется их тональность и автоматически составляется список слов и групп 2-3 слов (с их частотами), которые употребляются в негативных и позитивных сообщениях (таким образом можно как раз опосредованно учесть жаргон, мемы или обороты речи, а не отдельные слова). Тогда можно попробовать более-менее обоснованно выбрать, какие слова или обороты нужно использовать для определения тональности |
Vinni
Администратор
Всего сообщений: 2136 Рейтинг пользователя: 22 Ссылка Дата регистрации на форуме: 5 июня 2009 |
Плюс есть другой путь, но гораздо более ресурсоемкий - нужно парсить текст и по структуре предложений определять, к чему относится слово, определяющее тональность (к объекту исследования или нет). |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 4 марта 2012 15:12 Сообщение отредактировано: 4 марта 2012 15:14 CI-KP написал: Я полагаю, когда Вы лично именно этой практикой займетесь - Вас станет интересовать практический результат, а не теория, и Вы услышите что сказал ув. hound. А до того момента Вам это будет не нужно и, возможно, неинтересно. Не стройте предположений о том, чего не знаете, или как минимум не озвучивайте. Это больше походит на провокацию, а не на диалог. Ну или на очередное шоу. (хорошо что мы перешли на ВЫ - так правильнее) Полагаю на этом пора заканчивать общение. И не нужно пытаться преподнести не желание общаться как что то отличное от личных отношений. ________________________ hound написал: Уважаемый Игорь, возможно, мы говорим о разных вещах. Я не думаю об абсолютно точном результате - меня интересует результат примерный. Я приведу конкретный пример. Да - скорее всего так и есть. hound написал: Вот региональные выборы. Необходимо каждый день давать срез общественного мнения по модели "негатив-нейтрал-позитив" по "своему" кандидату и по основным конкурентам. Когда 10 лет назад инета, можно сказать, не было - отмониторить десяток газет вручную несложно. А сейчас - когда инет есть - вручную нереально. Это нужно сделать за час, максимум два, чтобы успеть к утренней летучке. Сажать кучу народа а потом сводить - никакой бюджет не позволит. да и люди ошибаются. 5% ошибка - к тетке не ходи, а то и все 10%. Так что если для такой задачи программа будет правильно определять не меньше 85% правильно - это нормально, и это - ОЧЕНЬ большое подспорье. Если меньше - тогда да, проблемы. Повышение эффективности работы с помощью компьютеров я не оспариваю. hound написал: И в связи с этим у меня вопрос - в какой процент Вы определяете ошибку и на чем при этом основываетесь? 50 на 50, а то и еще хуже, особенно хорошо видно на текущей ситуации, когда в каждом сообщении есть и про одного претендента, и про другого, и про третьего... и в разных витиеватых формах. Определить общую тональность сообщения можно. С разным процентом ошибок, но можно и это делается. А вот как определить что негатив в каком то сообщении относиться именно к вашему объекту интереса? По наличию негатива и упоминания объекта? Но негатив может не относиться к объекту. По наличию негатива + упоминание объекта + расстояние в тексте от объекта до негатива? но это тоже не дает ничего, чему примеры приведены выше. Получается, что нельзя определить сообщение негативно или нет по отношению к конкретному объекту. Причем ни на уровне единичных сообщений, ни на уровне "потока" информации. Если мы не можем определить негатив по отношению к объекту в единичном сообщении , то как определить негатив по отношению к объекту в потоке информации? ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
hound |
[q=Игорь Нежданов]50 на 50, а то и еще хуже[/q] Спасибо, понятно. Я так понял, это не "из общих соображений", а Вы тестировали Айкубаз (возможно, и другие программы) по этому параметру. Не могли бы выложить соответствующий пример - ну, примерно так, как это сделал при тестировании Айкубаза уважаемый CI-KP. |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5565 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
Vinni написал:
Совершенно верно. Однако это уже технический вопрос в рамках решения проблемы, а не огульное отрицание самой возможности решения. Vinni написал: Выходит, нужны некие методические рекомендации по тому, как выбирать реперные слова в том или ином контексте, чтобы не было серьезных ошибок в определении тональности На самом деле, не нужно никаких методических рекомендаций. Сама возможность составления такого словаря - безусловно, нужна, и она есть. А методические рекомендации - не нужны, потому что это софт не для кого угодно, а для специалиста, которых заведомо понимает, что он хочет и почему. Такой человек сам способен составлять методические рекомендации - для своих подчиненных (по той проблематике, с которой он работает). Ему не нужны чужие "универсальные" методички. Vinni написал: Кстати, а ведь тут можно было бы сделать обучение (настройку) тональности в рамках того или иного контекста. Именно так и происходит. Это, кстати, типовая задача и при поиске в том же Гугле или Яндексе: сначала делается простой запрос, потом результаты корректируются с помощью его усложнения. С Айкубазом и его аналогами та же суть: делается запрос по обычному словарю, который показывает, что не учтено или учтено неверно - и это корректируется с помощью словаря под конкретную ситуацию. (Например, очень часто слово "Утконос" применительно к почти любой компании - негатив). При этом, заведомо известно, что стопроцентная точность недостижима. Но, поскольку она и не нужна - это устраивает практиков. ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
Семёныч
Модератор форума
Городской Охотник Всего сообщений: 926 Рейтинг пользователя: 10 Ссылка Дата регистрации на форуме: 8 июня 2009 |
В ситуации "совершенный инструмент - несовершенный инструмент - отсутствие инструмента" вижу следующее: совершенного инструмента нет, отсутствие инструмента - оно и есть отсутствие. Остаётся несовершенный инструмент. Если знать более-менее его "несовершенность", т.е. погрешность, хотя бы вилку (15-25%), то это уже инструмент и это лучше, чем ничего. Но если эта погрешность около 50%, то такой "несовершенный инструмент" что есть, что его нет - без разницы. Вот вычислить этот процент точности и тогда станет понятно - есть инструмент или есть иллюзия инструмента. Принцип "лучше хоть что-то, чем ничего" в данной ситуации, мне кажется не подходящим. При высоком проценте погрешности такой "инструмент" не только не поможет, но и навредит. ---
Нет такой безвыходной ситуации,в которую невозможно вляпаться... (с) |
Sergey
Долгожитель форума
Всего сообщений: 640 Рейтинг пользователя: 2 Ссылка Дата регистрации на форуме: 9 июня 2010 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 5 марта 2012 14:19 Сообщение отредактировано: 5 марта 2012 14:20
Лично занимался проблемой тональности. Смотрели, что и как другие делают, что-то свое пробовали... Все используемые алгоритмы (а по сути все используют одно и то же, но выдают за свое) очень условны. Если нужна общая тональность, то достаточно просто читать пару новостных лент, чтобы самому понять общую тенденцию, без всякого шаманства и красивых фраз о автоматизации тональности. Важна тональность не столько общая, это и так любой кто в теме примерно "на пальцах" определит. Важна тональность по изданиям, по регионам. Иначе, ни о каком контент-анализе не может и речи идти. Более того, даже если "автомат" в среднем ошибаясь в ту или иную сторону дает "приблизительно что-то похожее", любой подобный программный продукт обязан дать по клику , к примеру, на кнопку "выдать весь негатив за сутки " - выдать именно негатив к исследуемому объекту, например гр-у Сидорову, а не "куча мала". И вот тут-то все и прокалываются т.к. именно "куча мала". А насчет 1000 сообщений и невозможности их обработать... опять же все нет так и не разрешимо. По сути, из этой 1000 уникальных будет единицы, все остальное перепечатки и перетасовка слов. Достаточно иметь механизмы определения уникальности и идентичности. Группируем и получаем не 1000, а 10. |
<<Назад Вперед>> | Страницы: 1 2 3 4 5 6 7 8 ... 11 12 13 14 15 16 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Софт для конкурентной разведки » IQBuzz (Айкубаз). Автоматизация мониторинга и анализа. |
Самые активные 20 тем | |