Форум Сообщества Практиков Конкурентной разведки (СПКР) » Софт для конкурентной разведки » IQBuzz (Айкубаз). Автоматизация мониторинга и анализа. |
<<Назад Вперед>> | Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 | Печать |
Elena_Larina
Модератор форума
Всего сообщений: 223 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 25 нояб. 2010 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 7 марта 2012 17:13 Сообщение отредактировано: 7 марта 2012 18:55
При помощи Сколково реанимировался проект ВААЛ. Недавно они выпустили первый релиз Scai4Twi . Программа сделана для Twitter, но реализованный в ней подход может использоваться для оценки практически любых текстов и сетей. Продукт тестировали. Он конечно для русского и английского языков дает намного больше эмоциональных и смысловых параметров, чем традиционные сервисы. На проекте с 90-х гг. по сегодняшний день работают наиболее сильные команды лингвистов и специалистов по контент-анализу текстов. В принципе они открыты и для сотрудничества со сторонними разработчиками. Так что их достижения наверно можно использовать и для совершенствования IQBuzz. ---
Вопрос к блондинке. Какова вероятность встретить на улице динозавра? Блондинка отвечает... Мы ищем правильных людей, а не правильные резюме |
Orfnik |
Профиль | Игнорировать
NEW! Сообщение отправлено: 7 марта 2012 18:27 Сообщение отредактировано: 7 марта 2012 18:31
petryashov, просто зарегистрироваться на нашем сайте. Сейчас начинаются праздники, так что ответить мы сможем в воскресенье. Ссылку на сайт я отправил Вам в личную почту. Elena, большое спасибо за информацию, мы с ними свяжемся. |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5565 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 7 марта 2012 18:52 Сообщение отредактировано: 7 марта 2012 18:58 Игорь Нежданов написал: Провел испытания по упрощенному запросу - "навальный" . Выдачу ограничил блогами и новостями - чтобы без коротких текстов и при этом разные по типу тексты были. Настройки системы определения негатив/позитив - по умолчанию. Расстояние между негативом и объектом какое поставил? Игорь Нежданов написал: Так что вывод остается прежним - система IQbuzz не позволяет с надежностью, достаточной для принятия важных решений, выявлять в более или менее длинных текстах негатив по отношению к объекту изучения. А красивые графики это не более чем красивые графики. Игорь, я уже смотрел вывод про 38%. Выше показал, как на самом деле получается, если варьировать настройки. Так можно и ружье навести в направлении противника, бахнуть в белый свет как в копеечку и заявить, что систем прицеливания не существует. А можно - научиться прицеливаться. Можно заявить, что все фигня, а можно - научиться понимать, в каких случаях систему можно применять и как, а в каких - не имеет смысла. ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5565 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 7 марта 2012 19:03 Сообщение отредактировано: 7 марта 2012 19:05 Игорь Нежданов написал: Теперь по поводу словаря негатива. Я очень надеюсь, что участвующим в диспуте доводилось составлять такой словарь. По тому что когда начинаешь его составлять, понимаешь, что гибкость русского языка позволяет многие слова использовать как негативные. А уж словосочетания это вообще отдельная песня. Интересующиеся могут почитать соответствующую работу (очень краткую и общую) "Метод определения эмоций в тестах на русском языке" авторы Пазельская А.Г. и Соловьев А.Н. (по названию легко найдете), а не основываться на работах, весь смысл которых сводиться к фразе "вы не правы по тому что вы не правы". Если не ставить задачи охватить всё - вполне решаемо. Для конкретной работы, как правило, есть реперные слова. А специалисту именно с конкретными задачами и приходится сталкиваться. Повторюсь: не надо про "сферического коня в вакууме" рассуждать. Мы говорим не о докторской диссертации про алгоритмы семантического анализа, а о рабочем инструменте. Так вот - на практике корректировка информационного воздействия никогда не бывает "в общем и целом". И почти всегда идет работа против конкретной волны. В плюс или в минус. А конкретная волна характеризуется, тоже практически всегда, конкретными словосочетаниями, на которые можно ориентироваться, плюс к общим словам, которые принято считать негативом или позитивом. Какими конкретно словосочетаниями - специалисту известно в каждом конкретном случае. Айкубаз предлагает при недостаточно достоверном результате варьировать расстоянием между словами. Яндекс, кстати, тоже это предлагает и тоже для таких случаев. Это достаточно типовое решение. И как раз для трендов годное. ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5565 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 7 марта 2012 19:37 Сообщение отредактировано: 7 марта 2012 19:46
По Навальному - сделал минимальную пристрелку. Не особо вдаваясь в подробности и за несколько минут. Первый запрос - просто слово "Навальный", только "посты" и "новости". Да, мусора много: А теперь давайте посмотрим, что это за мусор. Он двух типов. Первое - слова "жулики" которые не к нему относятся. Второе - просто слова не относящиеся к нему. Я не мониторю Навального, но даже мне известно, что слова "жулики и воры" он сам употребляет много чаще чем говорят про него. А лояльные к нему хомячки эхом транслируют. Я сделал две вещи: 1. Предложил искать негатив в двух (а не в пяти) словах от ключевого слова; 2. Слова "жулики" и "воры" предложил негативом не считать. Вот результат - так стала выглядеть первая страница. Дальше не лез, ибо неинтересно уже. Нет, еще вот 10-ю страницу посмотрел, т.к. на первой вроде как одно и то же было. Вывод я сделал выше: как на ружье система прицеливания существует для повышения точности, а не для красоты, так и в любой поисковой системе язык запросов (и такие его элементы, как "минус" и "расстояние между словами") существуют для повышения точности, а не для запутывания пользователей. А вот если запрос корректный (т.е. не только верно составленный, с точки зрения синтаксиса языка запросов, но и по смыслу) - то и график будет не просто симпатичным, а еще и полезным. Само собой - как и в Яндексе, при более жестком запросе потеряется некоторый массив текстов. Но для целей оценки тренда и корректировки воздействий это сегодня вполне приемлемо. ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Честно говоря уже надоело наблюдать за стараниями помочь друг другу продвинуть систему. А заодно читать всевозможные намеки. Поэтому конечный пост - расценивайте как хотите мне ваше мнение Евгений уже не интересно. Понимая закулисные течения - не хочу участвовать в этом действе. Iqbuzz дает ряд интересных инструментов для работы с сообщениями и весьма наглядно переводит результат в графики - даже не оспариваемо. Это было понятно и при прошлом тестировании. Тем ни менее при настройках по умолчанию Iqbuzz (на данный момент) не способен однозначно выделять негатив. Результат колеблется от 35 до 56% попаданий, другими словами от двух третей до половины негативом не являются. Если задействовать настройки, то результат улучшается. Не радикально, но всё же. Правда при этом нужно не просто поработать "руками и мозгами", а очень основательно поработать - например составить словарь возможных негативных слов, которые и будут выявляться. А вот тут кроется пара нюансов: 1-такой словарь огромен - составить его довольно не просто, даже для "легких" целей; 2-такой словарь не учитывает все возможные варианты, дающиеся русским языком. Отсюда следствие - при реальной работе по выявлению момента начала атаки с помощью Iqbuzz такой момент скорее всего будет пропущен. И это не смотря на впечатляющие графики. Конечно, для наблюдателя со стороны достаточно точности и в 50% - тренд то виден. А уж точность в 90% это вообще сказка - какие то ничтожные 10%. Какая мелочь. А вот владельцу бизнеса, рискующему своим бизнесом, в случае осечки, это не подходит. Для исключения инсинуаций на данную тему - про владельцев бизнеса это собственный давний и не давний опыт по организации подобных наблюдений. Если у кого есть желание продолжить обсуждение данной проблемы (а не устраивать шоу) - в личку, по почте, по телефону, на другой форум. ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5565 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 8 марта 2012 10:29 Сообщение отредактировано: 8 марта 2012 10:40 Игорь Нежданов написал: Честно говоря уже надоело наблюдать за стараниями помочь друг другу продвинуть систему. А заодно читать всевозможные намеки. Поэтому конечный пост - расценивайте как хотите мне ваше мнение Евгений уже не интересно. Понимая закулисные течения - не хочу участвовать в этом действе. Игорь, я уже минимум дважды попросил показать как Вы не смогли получить результата. и обнаружил, что Вы некорректно делали запрос. Вы сами, напомню, "забывали" это показать, хотя это бы сняло все вопросы изначально. Это - факты, а не мнения. Посмотрите историю общения - сами увидите. Это у Вас, Игорь, в этом топике очень много слов, но как доходит до скана - выявляются весьма странные запросы, которые и человек-то не поймет. Что не помешало Вам делать выводы. А вот у меня - совершенно прозрачно показанные результаты. И это - тоже факт, нравится он Вам или нет. Так что не надо переключать повестку на "намеки" или "продвижения". Факты, а не слова по работе инструмента - в студию, и будем смотреть. Что можно скорректировать - скорректируем. Что невозможно скорректировать - опишем как некорректируемое. Вот и всё. Игорь Нежданов написал: Если задействовать настройки, то результат улучшается. Не радикально, но всё же. Правда при этом нужно не просто поработать "руками и мозгами", а очень основательно поработать - например составить словарь возможных негативных слов, которые и будут выявляться. Совершенно верно. И эту мысль я сказал уже неоднократно. Вообще, любая профессиональная деятельность требует "поработать руками и головой". Сама колбаса с неба не падает. Игорь Нежданов написал: А вот тут кроется пара нюансов: И это верно. Но есть очень серьезный для реальной практической работы момент: ВСЕ возможные варианты учитывать совершено ни к чему. Фокус-группы, которые применяются в маркетинге (и, при грамотном использовании применяются успешно) учитывают далеко не ВСЕ варианты. В силу технической невозможности спросить всех. Поэтому важно верно определиться с настройкой, и нет ничего критичного в том, что охват не тотальный. Особенно - я это снова повторю, Игорь, потому что Вы делаете вид, что не замечаете - когда речь идет об ИЗМЕНЕНИЯХ того поля, которое инструментом типа Айкубаза замеряно как "нулевая отметка". Игорь Нежданов написал: Отсюда следствие - при реальной работе по выявлению момента начала атаки с помощью Iqbuzz такой момент скорее всего будет пропущен. И это верно, но отчасти. Если смотреть на такой показатель, как частота упоминаемости - то, скорее всего, будет видно, что упоминаемость вырастет. Если параллельно ведется мониторинг потоковой информации в поиске по блогам, в Твиттере, социальных сетях и в СМИ - атака пропущена не будет. Айкубаз - не система контроля за потоковой информацией (как я ее вижу, во всяком случае). Она работает с массивами текстов. А с потоками должен работать человек, выходящий в эфир с определенной частотой. Собственно, это обычный мониторинг, которым, я уверен, занимаетесь и Вы. Нет тут никаких сложностей или откровений. Игорь Нежданов написал: А уж точность в 90% это вообще сказка - какие то ничтожные 10%. Какая мелочь. А вот владельцу бизнеса, рискующему своим бизнесом, в случае осечки, это не подходит. Для исключения инсинуаций на данную тему - про владельцев бизнеса это собственный давний и не давний опыт по организации подобных наблюдений. Ничего подобного. По двум причинам. 1. Вы и вручную сто процентов на раннем этапе не сделаете. Это физически невозможно. Приблизиться - можно, достичь - нет. 2. Для того, чтобы приблизиться (не достичь) к ста процентам в исследовании КАЖДОГО текста, его придется прочитать человеку. Ни у кого нет на это ресурсов. Поэтому прочитываться будут важные тексты. А вот оценивать воздействие на массовку будут, видимо, машины. "Куда бежит толпа?" "Уменьшается толпа или увеличивается" - вот вопросы, в которых одновременно не нужна стопроцентная точность, и при этом нет возможности справиться вручную. И вот это - прерогатива систем типа Айкубаза. Второй их плюс - визуализация результата. Потому что именно визуализация позволяет сделать результат наглядным. Вы, Игорь, чем изображать "обиженку" (чтобы было основание свалить из Вами же начатой дискуссии?), лучше приводИте факты в обоснование своих тезисов - всем спокойнее и понятнее будет. Я именно так поступать стараюсь. Эксперимент всегда лучше множества слов. ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
hound |
Хотел бы написать, что меня смутило в Айкубазе - если исходить из сканов, приведенных в постах уважаемого Игоря (например, пост 53). В правом столбце - разбивка позитив-негатив-нейтрал- смешанные. Результат для меня ошеломляющий - 2% позитив, 0% негатив, 98% нейтрал, 0% смешанные. Если так - весь рунет - сплошное болото, что, прямо скажу, радикально поменяло бы мое представление о рунете. Но, может быть, Айкубаз не смог определить, где позитив, где негатив, и "на всякий случай" почти все слил в нейтрал? Или же опять-таки все дело в качестве первичного запроса? Или я просто что-то не так понял? Прошу пояснить. |
Ed
Модератор форума
Всего сообщений: 1782 Рейтинг пользователя: 28 Ссылка Дата регистрации на форуме: 7 июня 2009 |
hound написал: Айкубаз нечаянно сболтнул сплошное болотоправду о человечестве. «2 процента людей — думает, 3 процента — думает, что они думают, а 95 процентов людей лучше умрут, чем будут думать.» (Бернард Шоу) «95% людей существуют исключительно для оборота денежных средств.» (Антон Шандор ЛаВей) «95 процентов людей на Земле — инертная масса. Один процент составляют святые и ещё один — непроходимые кретины. Остаётся три процента — те, кто могут чего-то добиться… и добиваются.» (Стивен Кинг, «Мёртвая зона») |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5565 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
hound написал: Хотел бы написать, что меня смутило в Айкубазе - если исходить из сканов, приведенных в постах уважаемого Игоря (например, пост 53). В правом столбце - разбивка позитив-негатив-нейтрал- смешанные. Давайте, я просто Вам покажу, какой запрос Вы оцениваете - а выводы Вы сделаете сами. В посте 53 вот этот результат: Он выдан в ответ на вот этот запрос: Запрос говорит, если его с языка операторов на язык людей перевести, примерно следующее: "Айкубаз, сделай мне из твоей базы выборку материалов, где есть Путин и еще кто-то из кандидатов в президенты - все равно кто, хоть все сразу, хоть не все. И чтобы это было в контексте выборов, предвыборной, поствыборной или теледебатной тематики. Да, а еще вместо кандидатов в депутаты, можешь смело ставить рядом с Путиным избирателей, оппозицию или митинги. Главное, чтобы между ними не более 20 слов было". Есть там в запросе и еще момент, который вызвал у меня вопросы - там айкубазу, который, понимает, вроде как, словоформы, запретили их менять по отношению к словоформам слова "выборы". Но при этом оператор, запрещающий изменения, стоит не перед каждым словом (как показано в хэлпе Айкубаза), а перед скобкой. Я просто не в курсе - работает ли он в таком случае, и главное - не искажает ли результаты. Это, наверное, лучше спрашивать программеров Айкубаза, чтобы не тратить свое время на тестирование. Вот операторы языка запросов айкубаза: ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
<<Назад Вперед>> | Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Софт для конкурентной разведки » IQBuzz (Айкубаз). Автоматизация мониторинга и анализа. |
Самые активные 20 тем | |