IQBuzz (Айкубаз). Автоматизация мониторинга и анализа.

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Софт для конкурентной разведки »   IQBuzz (Айкубаз). Автоматизация мониторинга и анализа.
RSS

IQBuzz (Айкубаз). Автоматизация мониторинга и анализа.

<<Назад  Вперед>>Страницы: 1 2 3 4 5 ... ... 11 12 13 14 15 16
Печать
 
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009
Полевые испытания системы мониторинга соцмедиа и управления репутацией в Интернете IQBuzz (Айкубаз)

Источник

Социальные сети и многие СМИ очень информативны и удобны для мониторинга. Однако количество их растет, что делает такой мониторинг все более трудоемким. Кроме того, мало собрать информацию, ее надо еще проанализировать и верно интерпретировать. Для оперативного решения этих задач, крайне желательно иметь средства, позволяющие быстро решить две ключевых проблемы:

1. Собрать информацию по интересующей тематике (с возможностью уже на этапе создания запроса отсекать информационный мусор) .

2. Иметь возможность экспресс-анализа с визуализацией результатов - для того, чтобы отслеживать динамику трендов на больших массивах потоковой информации.

Эти задачи, в целом, IQBuzz (Айкубаз) на сегодня решает. Пока не идеально, но уже вполне приемлемо для практической работы.

Покажу, как работает IQBuzz (Айкубаз) на реальном примере. Поскольку меня, как правило, интересует анализ в плане негатив/позитив/нейтральная_информация, а также в плане "кто, в основном, гонит волну?", я выбрал достаточно серьезного ньюсмейкера, по которому заведомо есть много информации разной эмоциональной тональности - Министра обороны РФ Анатолия Сердюкова. И на его примере протестировал работу IQBuzz (Айкубаз).

В основе работы с Айкубаз лежит "рубрика". Это, своего рода, закладка, на которой собирается информация по заданному поисковому запросу. язык запростов у Айкубаз имеется, он не сложен, похож на большинство языков крупных поисковых машин, и позволяет создавать работоспособные поисковые запросы. Думаю, достаточно будет сказать, что логические "И", "ИЛИ" и "НЕ" в нем присутствуют, а также есть "запрет менять словоформу", и "точная фраза".

Как выглядит сжатый результат по имеющейся рубрике, а также создание новой рубрики - видно вот на этом скриншоте (все картинки здесь и далее - кликабельны):





При создании новой рубрики, появляется диалоговое окно, в которое, в частности, вписывается поисковый запрос. Там же можно убрать часть источников, по которым будет вестись мониторинг (по умолчанию, они включены все). Для целей полевых испытаний, я решил сделать мониторинг по словам "Мебельщик" и "Табуреткин" - это устойчивые неформальные прозвища министра, встречающиеся в Интернете. Причем, эти прозвища заведомо характерны для неофициальных текстов, и при этом, преимущественно, негативны.

Для уменьшения количества информационного мусора, я попросил систему показывать только те документы, контекст которых - армия.




Кстати, наличие языка запросов - очень важный момент. Скажем, первоначально я не задал контекста к слову "Сердюков" и не ограничил словоформы. Результатом стало ощутимое замусоривание выдачи упоминаниями актера Павла Сердюка (Паши Сердюка), известного, в частности, по сериалу "Моя прекрасная няня".




Использование возможностей языка запросов Айкубаз снимает эту проблему.

Вот пример результатов, которые были отнесены системой Айкубаз к негативу по запросу 'Сердюков' (картинка кликабельна):




А это - документы, которые отнесены системой Айкубаз к позитивным по запросу 'Сердюков' (картинка кликабельна):



А вот эти документы были отнесены Айкубаз к нейтральным по тональности, по запросу 'Сердюков' (картинка кликабельна):



В ходе работы с документами, справа от результатов есть сводка, позволяющая переключаться между документами разной тональности.



С негативом по заведомо негативному запросу 'Табуреткин | Мебельщик', в контексте "армия", Айкубаз сработал предсказуемо корректно (картинка кликабельна):



А вот "позитив" оказался не по зубам Айкубазу - что, в принципе, объяснимо: сарказм в речи и человек-то не каждый поймет, а машине с этим тем более сложно. Такие запросы, видимо, придется более тщательно отсматривать вручную, (картинка кликабельна):



В ряде случаев, на мой взгляд, можно пополнять список негативных слов, если есть определенные события, которые для данного человека или организации негативны. Например, таковым может быть слово "Кондопога" для руководителя правоохранительных органов Карелии.

Редактирование списка негативных/позитивных слов пользователем в Айкубаз предусмотрено. Вот что написано в разделе "Помощь" по этому поводу:

Автовыделение тональности / Персональная настройка позитива и негатива

Вы можете самостоятельно настраивать правила, по которым будет автоматически определяться позитив и негатив.

При поиске в тексте негатива и позитива Айкубаз использует собственный словарь характерных фраз. Например, негативом будут считаться: ужасный, неудобный, мерзкий, хамить и т.п. Пример позитивных словарных выражений: понравилось, неплохо, прекрасно, качественно. Если какие-то из этих фраз встретятся в непосредственной близости от ключевых слов рубрики, то документ будет отнесен к соответствующей тональности.
Степень близости определяется шириной контекста. Единица ширины контекста в данном случае - одно слово в тексте. По умолчанию при определении тональности берется ширина контекста, равная 5 словам. Проще говоря, если в пределах 15 слов, идущих в тексте друг за другом, встретятся ключевое слово поиска и какая-то фраза из словаря позитива/негатива, документ будет помечен соответствующей тональностью.

Для любой созданной Вами рубрики можно настроить собственный словарь позитива/негатива и установить собственную ширину контекста. Необходимость персональной настройки объясняется тем, что негатив/позитив по отношению к одному объекту не всегда является таковым по отношению к другому объекту.


Для того, чтобы настроить автоопределение тональности для рубрики, необходимо открыть рубрику на вкладке "Информация о рубрике" и нажать кнопку "Настроить определение тональности". В открывшемся окне правила для негатива и позитива настраиваются отдельно.

Тексты, оцененные Айкубаз по запросу 'Табуреткин | Мебельщик', в контексте "армия", как нейтральные по тональности (картинка кликабельна):



Скорее всего , если в словарь негатива/позитива по Сердюкову добавить слова «Мебельщик» и «Табуреткин» именно как негативные, то ситуация с позитивом-негативом будет совсем другая. На практике пока не проверял, но проверю.

Результаты мониторинга можно экспортировать в Word или Excel. При этом, пользователю предоставляется выбор: полностью все документы экспортировать, или только некоторые.



В результате экспорта, в Word попадает полнотекстовый документ.

Вот примеры результатов такого экспорта по разным запросам (картинки кликабельны):





Пожалуй. самой сильной стороной IQBuzz (Айкубаз) является визуализация анализа результатов мониторинга.

По умолчанию, предоставляется "Сводный отчет". Вот так он выглядит по запросу "Сердюков" (картинка кликабельна):



А так - по запросу 'Табуреткин | Мебельщик', в контексте "армия" (картинка кликабельна):



Система позволяет, кликнув на тот или иной участок "Сводного отчета", посмотреть его структуру более глубоко.


Например, вот так (картинка кликабельна):



Активность авторов с позитивом (картинка кликабельна):



Активность блогов с позитивом (картинка кликабельна):



Распределение результатов по источникам (картинка кликабельна):



Общие выводы из тестирования системы Айкубаз (IQBuzz).

1. Система полностью работоспособна уже сейчас, и очень существенно ускоряет мониторинг RSS-потоков, хотя эта ее функция и неуникальна.

2. Система обладает очень полезным и информативным инструментом визуализации результатов, что облегчает анализ больших массивов инормацмм, но еще более полезно при оценке динамики информационного поля.

3. Система хранит информацию даже о блогах, которые существовали непродолжительное время и затем были полностью улдалены и из Интернета, и из результатов выдачи поисковых машин (это было выяснено на примере ряда запросов, не включенных в данный обзор) .

4. Система плохо работает с такими явлениями, как сарказм, поэтому "позитив" в ее понимании далеко не всегда является таковым на самом деле. Однако это характерно для таких систем в в принципе, и может быть отчасти компенсировано ручными настройками списка негативных слов (да и не для всех запросов сарказм встречается таких объемах, чтобы быть значимым).

5. Специалистам и организациям, работающим на аутсорсинге, инструментарий визуализации будет очень полезен тем, что позволяет объектино показать картину для заказчика - как в начале работы, так и позже.

6. По мере того, как будет увеличиваться количество источников информации (разработчики утверждают, что это происходит постоянно) - ценность системы для специалиста, ответственного за мониторинг, будет возрастать.



Евгений Ющук.

22.02.2012 г.

UPDATED 16.03.2012 По итогам обсуждения в ветке форума, получилось вот такое резюме по сильным и слабым сторонам Айкубаза - и, соответственно, по диапазону его использования в практике.

1. Айкубаз не может быть единственным средством мониторинга, т.к. он не работает с потоковой информацией, а анализирует массив, уже лежащий в его базе данных. Соответственно, скорость реагирования у него, теоретически, должна быть ниже, чем при непосредственном мониторинге потоков.

2. Айкубаз может быть средством раннего предупреждения о начале атаки - только в части фиксации факта повышения частоты упоминаний объекта.
Примерно так же, как "Пульс блогосферы" - в поиске по блогам Яндекса.
Скорость его при этом может уступать скорости реакции наблюдателя, ведущего мониторинг потоков, однако при постепенном повышении частоты упоминаний (глазом не улавливаемой) он, теоретически, может оказаться подспорьем для специалиста, ведущего мониторинг.

3. Айкубаз эффективен при анализе трендов на больших массивах текстовой информации. Для отдельных текстов он неприменим.

4. Айкубаз полезен, преимущественно, для оценки эмоционального отношения автора к конкретному объекту в тексте, а не для эмоциональной оценки "текста в целом".

5. Запрос в Айкубаз с настройками тональности "по умолчанию" обычно не позволяет брать результат в работу, но позволяет понять - как надо откорректировать настройки системы для конкретного случая.
Корректировка касается списка слов в словаре негатива/позитива, а также расстояния между объектом и эмоционально значимыми словами в тексте.
При правильно составленном запросе, Айкубаз позволяет получить результат, имеющий практическую ценность.


6. Для оценки динамики трендов, надо сначала выстроить запрос и получить "нулевую отметку" - т.е., "моментальную фотографию" информполя. Далее - смотреть отклонения относительно этой отметки. При этом, если произойдет принципиальное изменение аудитории, в которой проводится оценка - может понадобиться и корректировка запроса.

7. Технически невозможно на сегодняшний день получить стопроцентный результат в оценке чужих текстов. Это недоступно ни машине, ни человеку. При этом, человек уступает машине при анализе большого массива текстов, а машина проигрывает человеку при анализе конкретного текста.
Поэтому надо выбирать наиболее значимые для информполя источники и мониторить их вручную, а всю "массовку" отдать машине.

8. Ввиду сложности анализа эмоциональной составляющей текста, имеет смысл для ее анализа стараться выбрать "реперные слова", а также сокращать расстояние между объектом и негативом/позитивом в тексте. Это сыграет роль, близкую к роли фокус-группы.

9. Визуализация результата (не только негатива/позитива, но и таких важных моментов, как разбивка по источникам, а также частота употребления ключевых слов в массиве) - несомненно, является сильной стороной программ, подобных Айкубазу. Это человеку за разумные деньги и в разумные сроки неподвластно в принципе.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010
Насколько мне известно, все подобные механизмы выявления тональности работают не по заданному объекту исследований, а по тональности текста в целом. Со всеми вытекающими из этого погрешностями при попытки приклеить тональность текста к конкретному объекту, упомянутому в статье. А их, объектов. может быть некое множество, описанных в разной тональности.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009
Айкубаз умеет регулировать расстояние, на котором от ключевого слова смотрят позитив/негатив, и понимает что такое "комменты к тексту" - соответственно, разделяет разные массивы. Я так понял, но пока не тестировал.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
:good: - хорошее описание

А можно подетальнее объяснить (хотя бы на примере с Табуреткиным и Мебельщиком), что дают сводные отчеты по топу источников и тональности для пиарщика МО и для специалиста по черному PR :cool: ?

Кстати, когда под источником подразумевают Вконтакте в-целом, а не отдельные стены, и feedproxy.google.com вместо конкретных RSS-лент, насколько полезен такой отчет?

CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Vinni написал:
[q]
:good: - хорошее описание
[/q]

Спасибо!


Vinni написал:
[q]

А можно подетальнее объяснить (хотя бы на примере с Табуреткиным и Мебельщиком), что дают сводные отчеты по топу источников и тональности для пиарщика МО и для специалиста по черному PR :cool: ?
[/q]

Попробую. "поиграюсь" с настройками и потом напишу что получилось - в т.ч. и в этом контексте.


Vinni написал:
[q]

Кстати, когда под источником подразумевают Вконтакте в-целом, а не отдельные стены, и feedproxy.google.com вместо конкретных RSS-лент, насколько полезен такой отчет?
[/q]

Там в отчете ссылки на конкретные стены (как в текстах, так и в "топе" по авторам). Просто они с ярлычков-пиктограмм идут и на картинке не видно.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

CI-KP написал:
[q]

Айкубаз умеет регулировать расстояние, на котором от ключевого слова смотрят позитив/негатив, и понимает что такое "комменты к тексту" - соответственно, разделяет разные массивы. Я так понял, но пока не тестировал.
[/q]


Например.
"Вокруг Сидорова одни негодяи. Хотя сам он и не негодяй."
Ну и кто он теперь в тональности?
Удаление от объекта, вряд ли решит задачу. Этим путем уже многие "ходили" и все равно "глазками нужно проверять".
А, если все равно "глазками", то зачем делать двойную работу выполнять:
а) вычленять тональность "глазками"
б) потом еще и проверять как некая система правильно поняла тональность
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Sergey написал:
[q]
Удаление от объекта, вряд ли решит задачу. Этим путем уже многие "ходили" и все равно "глазками нужно проверять".
[/q]

За любой машиной глазками проверять надо всегда.
Это яндексоиды, в свое время, показывали на примере фразы "Эти типы стали есть в механическом цехе" - её даже человек однозначно понять не может (вне контекста).

Однако каждую фразу отсматривать нужно когда стараешься ничего не пропустить. Но не когда идет оценка динамики - потому что на больших массивах, когда речь идет о тренде, точность каждой фразы никакого значения не имеет.

В общем, для разных задач нужны разные инструменты. Как всегда.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

CI-KP написал:
[q]

"Эти типы стали есть в механическом цехе"
[/q]

Почти по Задорнову: "эти гуси - свиньи, весь огород вытоптали, собаки" :laugh:
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009
Ага :)

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
aorap
Новичок

Всего сообщений: 3
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
2 мар. 2012
Евгений, вы проделали впечатляющую работу - уверен, она многим будет полезна.

Но думаю, не менее полезен был бы независимый обзор не одной из многих, а всех систем, которые сегодня предлагают аналогичные решения на рынке, в том числе и нашего продукта - системы мониторинга социальных медиа YouScan. Мы являемся первой на рынке СНГ системой такого рода - она запущена в конце 2009 года и на сегодняшний день используется как крупными потребительскими брендами в России, Украине и Казахстане, так и ведущими маркетинговыми и исследовательскими агентствами.

Пожалуйста, обращайтесь лично ко мне - я с удовольствием проконсультирую вас по работе с нашей системой.

Алексей Орап
CEO, YouScan
skype: alexeyorap

CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

aorap написал:
[q]
Но думаю, не менее полезен был бы независимый обзор не одной из многих, а всех систем, которые сегодня предлагают аналогичные решения на рынке, в том числе и нашего продукта - системы мониторинга социальных медиа YouScan
[/q]

Соглашусь. Давайте доступ в систему - я ее по той же схеме посмотрю и расскажу результат. Моя электронная почта razvedka.internet@gmail.com

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Интересно, а что такое "фильтрация упоминаний" и что у Вас с тональностью упоминаний (насколько Youscan свободен от недостатков, описанных Sergey-ем ) :wink:
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

Vinni написал:
[q]

Интересно, а что такое "фильтрация упоминаний" и что у Вас с тональностью упоминаний (насколько Youscan свободен от недостатков, описанных Sergey-ем )
[/q]

Страница 14 презентации:
Отмечать тональность
(автоматические алгоритмы не умеют адекватно определять тональность)


P.s.
и я, в общем-то, с этим тезисом солидарен.
aorap
Новичок

Всего сообщений: 3
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
2 мар. 2012
Vinni, в YouScan можно применять разнообразные фильтры, чтобы отобразить упоминания, отфильтрованные по таким признакам:

1) тональность
2) автор
3) источник (сайт, на котором опубликовано упоминание)
4) тип источника (блоги, микроблоги, форумы, соцсети, интернет-магазины, и тд)
5) дата публикации
6) "избранные"
7) наличие тех или иных слов в постах
8) тэги (категории)
9) сообщество, в котором опубликовано упоминания.

Причем все эти фильтры можно применять одновременно, в комбинации друг с другом.

Как верно отметил Sergey в следующем посте, маркировка тональности - это задача аналитиков. Лучше человека, который понимает специфику бизнеса компании, никто не сможет оценить тональность того или иного сообщения. А иногда это не могут сделать адекватно и аналитики. Мой любимый пример (реальный пост): "Ненавижу Старбакс, ну почему их нет около моего дома?"
aorap
Новичок

Всего сообщений: 3
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
2 мар. 2012
[q=CI-KP]Соглашусь. Давайте доступ в систему - я ее по той же схеме посмотрю и расскажу результат. Моя электронная почта razvedka.internet@gmail.com[/q]

Евгений, написал вам на почту.
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

aorap написал:
[q]
1) тональность
2) автор
[/q]

Имеется в виду ник блоггера/члена социальной сети или что-то другое?
[q]

3) источник (сайт, на котором опубликовано упоминание)
[/q]

Но ведь их тысячи? И нужно каждый из них отмечать для участия в фильтрации или есть возможность сгруппировать их каким-либо образом и использовать для фильтрации группу источников? :wink:
[q]

4) тип источника (блоги, микроблоги, форумы, соцсети, интернет-магазины, и тд)
[/q]

"Просьба огласить весь список..." :smile:
В чем кстати смысл такой типизации для аналитика? В уровне доверия к информации или в чем-то другом?

[q]

5) дата публикации
[/q]

Один день или период? :wink:
[q]

6) "избранные"
7) наличие тех или иных слов в постах
[/q]

А специального поискового языка разве у вас нет?
[q]

8) тэги (категории)
[/q]

А чем "избранные" отличаются от тэгов? Зачем выделять их отдельным образом?
[q]

9) сообщество, в котором опубликовано упоминания.
[/q]

Что есть сообщество? Термин слишком многозначен...
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

aorap написал:
[q]
Лучше человека, который понимает специфику бизнеса компании, никто не сможет оценить тональность того или иного сообщения.
[/q]


Полностью согласен. :super-puper
Но что делать, если новостей с упоминаниями каждый день валится сотни?
Сажать отдельную группу людей-аналитиков на назначение тональности? :sad:
Это далеко не все могут себе позволить? :goodbuy:
При всех своих недостатках автоматизация определения тональности, которую тот же Аваланч, как заявляют его разработчики, тоже поддерживает, экономит много времени аналитикам.
Что есть предложить Youscan в этом отношении?
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Есть общая тональность сообщения, а есть отношение автора к объекту, упоминаемому в этом сообщении. Это две разные вещи. Если с общей тональностью сообщения как то получается программно справиться (но именно "как-то"), то отношение автора к объекту ни у кого не получается определить достоверно. Ошибок получается от 50 до 75%. При таком показателе ни о каком доверии к процессу автоматизации процедуры говорить не приходиться.

Не в состоянии машина понимать намеки, юмор, сарказм и прочие оттенки настроения человека, основываясь на его тексте.

Поэтому заявления об автоматическом определении тональности это не более чем рекламные уловки.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Vinni написал:
[q]
Но что делать, если новостей с упоминаниями каждый день валится сотни?
Сажать отдельную группу людей-аналитиков на назначение тональности? :sad:
[/q]

Да ничего особенного не делать.

1. Отсматривать глазами сниппеты - вполне достаточно для большинства проблем.

2. По источникам, которые заведомо важны - смотреть тексты целиком, независимо от того, какая тональность.

3. Тренды и сейчас все автоматы ловят нормально - просто потому, что процент ложных срабатываний в любую сторону примерно одинаков, а потому им можно пренебречь практически всегда.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Игорь Нежданов написал:
[q]
Не в состоянии машина понимать намеки, юмор, сарказм и прочие оттенки настроения человека, основываясь на его тексте.
[/q]

Да. Но есть серьезный нюанс.
Сарказм нетипичен для подавляющего большинства авторов. И при этом он может колебаться как в ту, так и в другую сторону. Поэтому, если текст неведомого Иванова , Петрова и Сидорова не принципиально важен сам по себе (в силу малозначительности авторов), то и не надо в них упираться.

Если же автор важен - его надо вычитывать целиком, нетональность там важна а смысл в таком случае.


Игорь Нежданов написал:
[q]
Поэтому заявления об автоматическом определении тональности это не более чем рекламные уловки.
[/q]

Нет. Это не уловки, а реально работающий инструмент. Точно такой же, как социологические замеры изменения отношения электората к кандидату или к каким-то событиям. Потому что на больших выборках отдельные тексты никакого значения не имеют.

Просто надо разделять такие задачи, как анализ отдельного текста и анализ массива текстов - и все тут же встанет на свои места. Манипуляции отдельным человеком и массовым сознанием выглядят по-разному, и никто же не считает это "рекламной уловкой". И правильно не считает - потому что это просто два совершенно разных инструментария.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
hound
Гость

Ссылка

[q=Игорь Нежданов]Не в состоянии машина понимать намеки, юмор, сарказм и прочие оттенки настроения человека, основываясь на его тексте.[/q]
Так это же даже и не все люди понимают. Что уж требовать от робота?
Я совершенно согласен с уважаемым Винни - при больших массивов информации нужно как-то автоматизировать процесс, ведь "ручками"-то... ну да, когда в пресс-службе 200 человек - тогда можно. Но не все же работают в ЗАО "Россия"... Да и то - там тоже присматриваются к автоматизации процесса, через близко аффилированные структуры. И уже кое-что используют из обсуждаемого.
Если уж сравнивать сходные системы, мне представляется интересным сделать это по следующим параметрам:
1) количество ресурсов, которые мониторятся
2) количество значимых (высопосещаемых) ресурсов, которые мониторятся
3) быстрота обнаружения новой информации
4) количество обнаруженной информации

В принципе, было бы интересно и качественное сравнение - насколько точно разные ресурсы определяют "позитив-нейтрал-негатив", но это, наверное, уже очень большая и совсем нетворческая и монотонная работа, и вряд ли кто-то возьмется ее делать.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

hound написал:
[q]
Если уж сравнивать сходные системы, мне представляется интересным сделать это по следующим параметрам:
1) количество ресурсов, которые мониторятся
2) количество значимых (высопосещаемых) ресурсов, которые мониторятся
3) быстрота обнаружения новой информации
4) количество обнаруженной информации
[/q]

Я обычно еще смотрю - насколько система интуитивно понятна - т.е., позволяет без подготовки разобраться в основных опциях.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
hound
Гость

Ссылка

[q=CI-KP]Я обычно еще смотрю - насколько система интуитивно понятна - т.е., позволяет без подготовки разобраться в основных опциях. [/q]
Да, согласен, это тоже важно.
Я приходилось слышать, что именно сложность отпугивает "непродвинутых юзеров" от Аваланча, хотя сама по себе программа - отличная.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009
Тема оказалась на удивление "цепляющей". А непонятка на тему тональности очень распространенной. Воспроизведу здесь свой ответ на другом форуме по этой теме. Цитируемый здесь автор адресовала там свои эмоции ув. hound'у

RusAllohka
Повторю - пробовала я ваш это Айкубаз - не в состоянии он адекватно определять позитив и негатив. Он его вообще не в состоянии определять, как и все подобные программы. Рекламируйте его тем, кто впервые в это ввязался, тем, кто еще не понимает чего хочет.



Извините, что вмешиваюсь в Ваш спич. Не буду оспаривать Ваши способности, расскажу только о том, что лично я увидел. Увидел - потрогав конкретную программу руками.



RusAllohka
Подождите-подождите. Это как так получается, что определить направленности одного сообщения указанные системы не могут, а общий тренд могут? Общий тренд он как раз и складывается из единичных сообщений. Или если из 10 сообщений 9 не смогли опредилить, но одно определили, то по этому одному и выстраивается тренд? Отличная система - лучше такую систему обойти стороной.

Из указанных смотрела Iqbuzz www.iqbuzz.ru/ - он вообще не способен адекватно работать с тональностью. Думаю у остальных та же проблема, вряд ли в ближайшее время компьютеры научаться распознавать все тонкости человеческой речи (хотя бы письменной речи).



Существует две принципиально разных задачи. Первая - оценка отдельно взятого текста. Или манипулирование отдельно взятым человеком. Для решения этой задачи надо вникать в суть написанного (или в суть поведения человека, его мотивов и т.п.)

Вторая - оценка большого массива текстов или поведения больших групп людей. или манипулирование ими. В этом случае работают другие правила и приемы.

Самый типичный пример - определение пассажиропотоков. Вас будет интересовать куда идет БОЛЬШИНСТВО людей. Личные переживания каждого при этом Вас не будут интересовать.

Или, скажем, посмотрите кадры 1991 года - когда волнения в Москве были. "Толпа двинулась в направлении Арбата" - вполне понятное событие. Тот факт, что были те немногие, кто шел в другом направлении, погоды не делал и во внимание его можно было не принимать.

Или, скажем, такой понятный пример как "одобрительный гул зала" либо "неодобрительный гул зала". Вы можете не слышать слов, не видеть лиц, но Вы их различите довольно точно. Могут при общем одобрительном гуле орать "На мыло!" ? Могут, конечно. Но это не меняет ситуации.

Поэтому, для оценки ТРЕНДОВ и ИХ ИЗМЕНЕНИЙ автоматические алгоритмы полезны. Для оценки отдельных текстов - нет (за исключением ситуации, когда это текст одного и того же автора, под которого уже настроен словарь).


Для того, чтобы негатив/позитив в определенных сферах корректировать - есть настройки словарей. Например, слово "Мебельщик" или "Табуреткин" в большинстве случаев будет применимо к министру обороны как негатив. Да, это не исключает текстов "Вот вы говорите что он Мебельщик и урод, а он не такой на самом деле". Но удельный вес таких текстов настолько невелик, что ими при оценке ТРЕНДА можно пренебречь.

А вот отдельных - значимых - авторов надо читать полностью и в ручном режиме. Независимо от тональности. Потому что у них не тональность, а смысл важны. Те самые, которые тональность толпы потом будут индуцировать.

Как только Вы для себя поймете, что массив текстов и его тональность и анализ отдельного текста - совершенно разные задачи - у Вас все встанет на свои места. А словарь автомата для анализа МАССИВОВ текстов можно настроить. Это не даст стопроцентного результата, но ощутимо уменьшит погрешность. Неизбежную. Но допустимую.

С уважением.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

CI-KP написал:
[q]
Поэтому, если текст неведомого Иванова , Петрова и Сидорова не принципиально важен сам по себе (в силу малозначительности авторов), то и не надо в них упираться.

Если же автор важен - его надо вычитывать целиком, нетональность там важна а смысл в таком случае.
[/q]

И делать это именно вручную, но никак не программно.


CI-KP написал:
[q]
Нет. Это не уловки, а реально работающий инструмент. Точно такой же, как социологические замеры изменения отношения электората к кандидату или к каким-то событиям. Потому что на больших выборках отдельные тексты никакого значения не имеют.
[/q]

Повторюсь - есть общая тональность сообщения, а есть отношение автора к объекту, упоминаемому в этом сообщении. Это две разные вещи. Здесь речь об общей тональности сообщений (материалов). С этим криво-косо получается что то определить.

Поэтому не смотря ни на какие нюансы - не в состоянии машина понимать намеки, юмор, сарказм и прочие оттенки настроения человека, основываясь на его тексте.




---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
hound
Гость

Ссылка

[q=Игорь Нежданов]И делать это именно вручную, но никак не программно.[/q]
Уважаемый Игорь, все верно - если текстов десяток. А если их 1000?
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

hound написал:
[q]
Уважаемый Игорь, все верно - если текстов десяток. А если их 1000?
[/q]

Вы о чем сейчас?
Если о разных масштабах - то возвращаемся к моему первому комменту в этой ветке. Если о чем то еще - выражайтесь яснее.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
hound
Гость

Ссылка

[q=Игорь Нежданов]Вы о чем сейчас?Если о разных масштабах - то возвращаемся к моему первому комменту в этой ветке. Если о чем то еще - выражайтесь яснее. [/q]
Вот в своем первом коменте в этой ветке (№18, верно?) Вы пишете о том, что определение тональности сообщенеия - не более чем рекламная уловка.
В связи с этим я попробую уточнить свой вопрос.
Мне приходилось заниматься составлением табличек "позитив-нейтрал-негатив". Ну то есть - выявить все тексты, прочитать их, соответственно определить тональность и составить табличку - столько-то позитив, столько-то нейтрально, столько-то негатив. Все это сделать легко, если текстов десяток.
Ну а если текстов, по которым надо составить указанную табличку, 1000? Вручную ведь очень много времени займет.
Поэтому мой вопрос к Вам - можно ли в этих целях использовать Айкубаз, разумеется, учитывая, что будет определенная, но не слишком большая погрешность, что позволит правильно определить общий тренд?
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Игорь Нежданов написал:
[q]
И делать это именно вручную, но никак не программно.
[/q]

Если автор важен - конечно, надо оценивать тональность вручную. Теоретически, возможно настроить словарь на конкретного автора так, чтобы автомат ловил изменения тональности. Но на практике, как мне кажется, это не имеет смысла, по двум причинам.

1. Значимый автор важен смыслом, а не тональностью. Это его смыслы потом задают тональность толпы - потому он и значимый.

2. Отдельно взятый автор не может нагенерировать такое количество текстов, что их имеет смысл анализировать автоматом.Исключение составляет, пожалуй, только анализ изменения тональности этого автора, скажем, лет за пять. Но это уже другая история - не та, которая обсуждается в топике.


Игорь Нежданов написал:
[q]
Поэтому не смотря ни на какие нюансы - не в состоянии машина понимать намеки, юмор, сарказм и прочие оттенки настроения человека, основываясь на его тексте.
[/q]

Не в состоянии. И человек далеко не всегда в состоянии. Т.е., тут можно согласиться с тем, что машина менее совершенна, чем человек, но только и человек не стопроцентно совершенен в оценке чужого чувства юмора - это также надо понимать.

Однако есть реперные слова, которыми можно оценивать изменения тональности отдельно взятого автора. Вот конкретный пример. Посильный машине быстрее, чем человеку. Я взял слово "маразм" в лексиконе депутата Волкова - того самого, которого в суде разгромил. Каждый пост, в котором это слово упоминалось, отмечал точкой на точечной диаграмме.
Взгляните - и Вы четко увидите момент, когда за оскорбления в Сети депутат впервые сходил к прокурору. Машина это сделала бы много быстрее меня.

Прикрепленный файл (Волков и сло, 58768 байт, скачан: 800 раз)
---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

hound написал:
[q]
Поэтому мой вопрос к Вам - можно ли в этих целях использовать Айкубаз, разумеется, учитывая, что будет определенная, но не слишком большая погрешность, что позволит правильно определить общий тренд?
[/q]

Нет - нельзя его использовать, по тому что всё равно нужно перечитывать -нет доверия результату, а значит выводы будут не просто не корректны, а будут просто обманом.


CI-KP написал:
[q]
Теоретически, возможно настроить словарь на конкретного автора так, чтобы автомат ловил изменения тональности.
[/q]

Вот именно - теоритечески. Чтобы понять - нужно попробовать один раз полноценно составить такой словарь. После этого станет понятно, что занятие бессмысленное.


CI-KP написал:
[q]
Игорь Нежданов написал:

[q]

Поэтому не смотря ни на какие нюансы - не в состоянии машина понимать намеки, юмор, сарказм и прочие оттенки настроения человека, основываясь на его тексте.
[/q]


Не в состоянии.
[/q]

Вот и договорились о главном.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Игорь Нежданов написал:
[q]
CI-KP написал:
[q]
Игорь Нежданов написал:
[q]

Поэтому не смотря ни на какие нюансы - не в состоянии машина понимать намеки, юмор, сарказм и прочие оттенки настроения человека, основываясь на его тексте.
[/q]

Не в состоянии.
[/q]

Вот и договорились о главном.
[/q]


Игорь, я уверен, что Вы согласитесь с тем, что "главное", все же, зависит от выполняемой задачи. Возможно, мы просто говорим несколько о разных вещах - т.е., видим перед глазами разную "картинку". Давайте попытаемся ее уравнять

Если работа идет по отдельному человеку - то главным становится факт, что машина не в состоянии обеспечить точности, близкой к 100 процентам. Это может сделать только человек. Полностью стопроцентной точности, правда, и человек не даст, но приблизиться к ней - может.

Если же работа идет по большому массиву - т.е. по трендам, то один человек вообще никакого значения не имеет. И тогда на первый план выходит именно физическая возможность обработки массива - хотя бы с вероятностью процентов в 80. Это наоборот человеку не по силам, а машина как раз может сделать.

P.S. Я там, кстати, написал, что человек также не в состоянии. И я тоже не в состоянии в ряде случаев понять - шутил человек или был серьезен. Да и Вы, я думаю, тоже.
Вы, насколько я понимаю, не спорите с этим? Это, на мой взгляд, немаловажно, т.к. при сравнении несовершенного и совершенного инструментов - выбор однозначен. А вот при наличии двух несовершенных инструментов - уже не столь очевиден.

Далее. Ув. hound, говоря вот это: "Поэтому мой вопрос к Вам - можно ли в этих целях использовать Айкубаз, разумеется, учитывая, что будет определенная, но не слишком большая погрешность, что позволит правильно определить общий тренд?" описывал совершенно реальную и часто встречающуюся в практике задачу. В его практике. И в моей.
Судя по Вашему ответу: "Нет - нельзя его использовать, по тому что всё равно нужно перечитывать -нет доверия результату, а значит выводы будут не просто не корректны, а будут просто обманом." - Вы этой практики не видели.
Это не хорошо и не плохо, это просто работа и задачи, требующие решения, у разных людей разные.

Я ведь приводил пример "толпы, идущей к Арбату". Это не обман только из-за того, что есть и люди, которые идут в другую сторону. Потому что, когда такая толпа начнет жечь на Арбате машины и бить окна - это будет суровой реальностью, в которой рассуждения на тему точности просто утонут.

Было на Манежке 10 563 человека или 8 996 человек - для практика, решающего проблему толпы на Манежке неинтересно. Потому что их было "примерно 10 тыс." и они продавили в один из моментов ОМОН.

А теперь представьте, что Вы придумали некий механизм, оказывающий на эту толпу воздействие. Вас на раннем этапе будет интересовать - насколько оно эффективно. Не потом, когда толпа начнет бить ОМОН, а заранее. Потому что Вам будет важно - продолжать это же воздействие или давать другое. Это и есть тот самый тренд, который не учитывает индивидуальности, а учитывает общие тенденции. И который при этом является не обманом, а очень полезной в практике штукой.

Я полагаю, когда Вы лично именно этой практикой займетесь - Вас станет интересовать практический результат, а не теория, и Вы услышите что сказал ув. hound. А до того момента Вам это будет не нужно и, возможно, неинтересно. Только и всего. Под разные ситуации нужен разный инструмент.

Однако если для вытаскивания машины из ямы пинцет не годится - это не недостаток пинцета. Просто пинцет для другого предназначен, а в данном случае нужен лом.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Игорь Нежданов написал:
[q]
CI-KP написал:
[q]
Теоретически, возможно настроить словарь на конкретного автора так, чтобы автомат ловил изменения тональности.
[/q]

Вот именно - теоритечески. Чтобы понять - нужно попробовать один раз полноценно составить такой словарь. После этого станет понятно, что занятие бессмысленное.
[/q]

Совершенно верно. Причем, я даже пробовать не стану - но по причине, которую я описал выше: значимый человек значим не тональностью, а идеями. А это уже не оценка внешних проявлений, а аналитика. Точнее - прогнозирование последствий воздействия его идей на его аудиторию.

Аналитику такого плана на сегодня машины, насколько мне известно, делать не умеют. А вот экспресс-анализ больших массивов текстов по "реперным точкам" не умеет делать человек, но умеет делать машина.
О чем, собственно, вся эта ветка.

Вообще, эта ветка похожа примерно на такой диалог:

- Мы придумали машину. Она может ускорить перевозку грузов из Екатеринбурга в Москву в пять тысяч раз.

- Но машина же не в пять тысяч раз быстрее лошади! Вы врете!

- Так она же намного грузоподъемнее, и ей не надо отдыхать.



Или:

- А если с машины что-то из груза упадет - водила даже не заметит!

- Так надо крепить груз.

- Как ни крепи - все равно может что-то иногда упасть! Особенно мелочевка.

- Да и хрен с ней. Зато в пять тысяч раз больше грузов ДОЕДЕТ до Москвы. Пусть даже что-то малозначительно и упадет.


Или:

- Машина же может застрять. Она и между деревьями-то не пролезет.

- Так по дороге поедет же, по ровной

- Это делает машину менее маневренной. И если она с дороги свернет - может застрять.



В принципе, оба гипотетических собеседника правы. Потому что задачи у них разные.
И машины, кстати, в результате делают разные. И даже лошади сохранились для некоторых целей.
Под задачу - и инструмент.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
hound
Гость

Ссылка

[q=Игорь Нежданов]Нет - нельзя его использовать, по тому что всё равно нужно перечитывать -нет доверия результату, а значит выводы будут не просто не корректны, а будут просто обманом.[/q]
Уважаемый Игорь, возможно, мы говорим о разных вещах. Я не думаю об абсолютно точном результате - меня интересует результат примерный. Я приведу конкретный пример.
Вот региональные выборы. Необходимо каждый день давать срез общественного мнения по модели "негатив-нейтрал-позитив" по "своему" кандидату и по основным конкурентам. Когда 10 лет назад инета, можно сказать, не было - отмониторить десяток газет вручную несложно. А сейчас - когда инет есть - вручную нереально. Это нужно сделать за час, максимум два, чтобы успеть к утренней летучке. Сажать кучу народа а потом сводить - никакой бюджет не позволит. да и люди ошибаются. 5% ошибка - к тетке не ходи, а то и все 10%. Так что если для такой задачи программа будет правильно определять не меньше 85% правильно - это нормально, и это - ОЧЕНЬ большое подспорье. Если меньше - тогда да, проблемы.
И в связи с этим у меня вопрос - в какой процент Вы определяете ошибку и на чем при этом основываетесь?
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

CI-KP написал:
[q]
Однако есть реперные слова, которыми можно оценивать изменения тональности отдельно взятого автора.
[/q]


Да, но проблема с определением тональности состоит в том, к чему относятся эти реперные слова.
Если в качестве таких используются универсальные реперные слова (прилагательные и т.д.), то есть риск того, что они могут относиться не к интересующему объекту.
А вот если реперное слово определяет тональность в рамках какого-то контекста (мебельшик в контексте армии носит явно негативный характер, но само по себе нейтрально), тогда тональность можно определить куда точнее :wink:
Выходит, нужны некие методические рекомендации по тому, как выбирать реперные слова в том или ином контексте, чтобы не было серьезных ошибок в определении тональности :crack:

Кстати, а ведь тут можно было бы сделать обучение (настройку) тональности в рамках того или иного контекста.
Берется тестовая выборка сообщений, вручную определяется их тональность и автоматически составляется список слов и групп 2-3 слов (с их частотами), которые употребляются в негативных и позитивных сообщениях (таким образом можно как раз опосредованно учесть жаргон, мемы или обороты речи, а не отдельные слова).
Тогда можно попробовать более-менее обоснованно выбрать, какие слова или обороты нужно использовать для определения тональности
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Плюс есть другой путь, но гораздо более ресурсоемкий - нужно парсить текст и по структуре предложений определять, к чему относится слово, определяющее тональность (к объекту исследования или нет). :crazy:
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

CI-KP написал:
[q]
Я полагаю, когда Вы лично именно этой практикой займетесь - Вас станет интересовать практический результат, а не теория, и Вы услышите что сказал ув. hound. А до того момента Вам это будет не нужно и, возможно, неинтересно.
[/q]

Не стройте предположений о том, чего не знаете, или как минимум не озвучивайте. Это больше походит на провокацию, а не на диалог. Ну или на очередное шоу. (хорошо что мы перешли на ВЫ - так правильнее) Полагаю на этом пора заканчивать общение. И не нужно пытаться преподнести не желание общаться как что то отличное от личных отношений.
________________________


hound написал:
[q]
Уважаемый Игорь, возможно, мы говорим о разных вещах. Я не думаю об абсолютно точном результате - меня интересует результат примерный. Я приведу конкретный пример.
[/q]

Да - скорее всего так и есть.


hound написал:
[q]
Вот региональные выборы. Необходимо каждый день давать срез общественного мнения по модели "негатив-нейтрал-позитив" по "своему" кандидату и по основным конкурентам. Когда 10 лет назад инета, можно сказать, не было - отмониторить десяток газет вручную несложно. А сейчас - когда инет есть - вручную нереально. Это нужно сделать за час, максимум два, чтобы успеть к утренней летучке. Сажать кучу народа а потом сводить - никакой бюджет не позволит. да и люди ошибаются. 5% ошибка - к тетке не ходи, а то и все 10%. Так что если для такой задачи программа будет правильно определять не меньше 85% правильно - это нормально, и это - ОЧЕНЬ большое подспорье. Если меньше - тогда да, проблемы.
[/q]

Повышение эффективности работы с помощью компьютеров я не оспариваю.


hound написал:
[q]
И в связи с этим у меня вопрос - в какой процент Вы определяете ошибку и на чем при этом основываетесь?
[/q]

50 на 50, а то и еще хуже, особенно хорошо видно на текущей ситуации, когда в каждом сообщении есть и про одного претендента, и про другого, и про третьего... и в разных витиеватых формах.

Определить общую тональность сообщения можно. С разным процентом ошибок, но можно и это делается. А вот как определить что негатив в каком то сообщении относиться именно к вашему объекту интереса? По наличию негатива и упоминания объекта? Но негатив может не относиться к объекту. По наличию негатива + упоминание объекта + расстояние в тексте от объекта до негатива? но это тоже не дает ничего, чему примеры приведены выше. Получается, что нельзя определить сообщение негативно или нет по отношению к конкретному объекту. Причем ни на уровне единичных сообщений, ни на уровне "потока" информации.

Если мы не можем определить негатив по отношению к объекту в единичном сообщении , то как определить негатив по отношению к объекту в потоке информации?







---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
hound
Гость

Ссылка

[q=Игорь Нежданов]50 на 50, а то и еще хуже[/q]
Спасибо, понятно. Я так понял, это не "из общих соображений", а Вы тестировали Айкубаз (возможно, и другие программы) по этому параметру. Не могли бы выложить соответствующий пример - ну, примерно так, как это сделал при тестировании Айкубаза уважаемый CI-KP.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Vinni написал:
[q]

Да, но проблема с определением тональности состоит в том, к чему относятся эти реперные слова.
Если в качестве таких используются универсальные реперные слова (прилагательные и т.д.), то есть риск того, что они могут относиться не к интересующему объекту.
А вот если реперное слово определяет тональность в рамках какого-то контекста (мебельшик в контексте армии носит явно негативный характер, но само по себе нейтрально), тогда тональность можно определить куда точнее :wink:
[/q]

Совершенно верно.
Однако это уже технический вопрос в рамках решения проблемы, а не огульное отрицание самой возможности решения.


Vinni написал:
[q]
Выходит, нужны некие методические рекомендации по тому, как выбирать реперные слова в том или ином контексте, чтобы не было серьезных ошибок в определении тональности :crack:
[/q]

На самом деле, не нужно никаких методических рекомендаций. Сама возможность составления такого словаря - безусловно, нужна, и она есть. А методические рекомендации - не нужны, потому что это софт не для кого угодно, а для специалиста, которых заведомо понимает, что он хочет и почему. Такой человек сам способен составлять методические рекомендации - для своих подчиненных (по той проблематике, с которой он работает). Ему не нужны чужие "универсальные" методички.


Vinni написал:
[q]
Кстати, а ведь тут можно было бы сделать обучение (настройку) тональности в рамках того или иного контекста.
Берется тестовая выборка сообщений, вручную определяется их тональность и автоматически составляется список слов и групп 2-3 слов (с их частотами), которые употребляются в негативных и позитивных сообщениях (таким образом можно как раз опосредованно учесть жаргон, мемы или обороты речи, а не отдельные слова).
Тогда можно попробовать более-менее обоснованно выбрать, какие слова или обороты нужно использовать для определения тональности
[/q]

Именно так и происходит. Это, кстати, типовая задача и при поиске в том же Гугле или Яндексе: сначала делается простой запрос, потом результаты корректируются с помощью его усложнения.

С Айкубазом и его аналогами та же суть: делается запрос по обычному словарю, который показывает, что не учтено или учтено неверно - и это корректируется с помощью словаря под конкретную ситуацию. (Например, очень часто слово "Утконос" применительно к почти любой компании - негатив).

При этом, заведомо известно, что стопроцентная точность недостижима. Но, поскольку она и не нужна - это устраивает практиков.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Семёныч
Модератор форума
Городской Охотник
Всего сообщений: 926
Рейтинг пользователя: 10


Ссылка


Дата регистрации на форуме:
8 июня 2009
В ситуации "совершенный инструмент - несовершенный инструмент - отсутствие инструмента" вижу следующее: совершенного инструмента нет, отсутствие инструмента - оно и есть отсутствие. Остаётся несовершенный инструмент. Если знать более-менее его "несовершенность", т.е. погрешность, хотя бы вилку (15-25%), то это уже инструмент и это лучше, чем ничего. Но если эта погрешность около 50%, то такой "несовершенный инструмент" что есть, что его нет - без разницы. Вот вычислить этот процент точности и тогда станет понятно - есть инструмент или есть иллюзия инструмента. Принцип "лучше хоть что-то, чем ничего" в данной ситуации, мне кажется не подходящим. При высоком проценте погрешности такой "инструмент" не только не поможет, но и навредит.

---
Нет такой безвыходной ситуации,в которую невозможно вляпаться... (с)
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010
Лично занимался проблемой тональности. Смотрели, что и как другие делают, что-то свое пробовали...
Все используемые алгоритмы (а по сути все используют одно и то же, но выдают за свое) очень условны.
Если нужна общая тональность, то достаточно просто читать пару новостных лент, чтобы самому понять общую тенденцию, без всякого шаманства и красивых фраз о автоматизации тональности.
Важна тональность не столько общая, это и так любой кто в теме примерно "на пальцах" определит. Важна тональность по изданиям, по регионам. Иначе, ни о каком контент-анализе не может и речи идти.
Более того, даже если "автомат" в среднем ошибаясь в ту или иную сторону дает "приблизительно что-то похожее", любой подобный программный продукт обязан дать по клику , к примеру, на кнопку "выдать весь негатив за сутки " - выдать именно негатив к исследуемому объекту, например гр-у Сидорову, а не "куча мала". И вот тут-то все и прокалываются т.к. именно "куча мала".
А насчет 1000 сообщений и невозможности их обработать... опять же все нет так и не разрешимо. По сути, из этой 1000 уникальных будет единицы, все остальное перепечатки и перетасовка слов. Достаточно иметь механизмы определения уникальности и идентичности. Группируем и получаем не 1000, а 10.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Семёныч написал:
[q]
Вот вычислить этот процент точности и тогда станет понятно - есть инструмент или есть иллюзия инструмента. Принцип "лучше хоть что-то, чем ничего" в данной ситуации, мне кажется не подходящим. При высоком проценте погрешности такой "инструмент" не только не поможет, но и навредит
[/q]

Ув. hound ведь правильно сказал ув. Игорю, который утверждает, что погрешность составляет 50%: надо просто продемонстрировать это на конкретном примере из жизни, включающем в себя большую популяцию. Сразу станет понятно - в каких случаях такая проблема действительно существует, и как ее решать

Вот, мой личный опыт говорит о том, что Айкубаз вполне справляется с оценкой изменения трендов. Причина прозаична: сарказм свойственен очень небольшому числу людей, а подавляющее большинство говорит прямо. И, также подавляющее большинство, употребляет эпитет применительно к человеку не на следующей странице от его имени, а неподалеку, т.е. - на расстоянии нескольких слов. У этого большинства, надо сказать, весь текст зачастую в несколько слов и укладывается.

Кроме того, количество сарказма (кстати, имеющего направленность в обе стороны - и в позитив, и в негатив. что приводит к его взаимной нейтрализации) - величина примерно одинаковая, поэтому ИЗМЕНЕНИЯ тональности нормально отслеживаются на одной и той же популяции. Там, по сути, берешь за "нулевую отметку" текущую ситуацию вместе со всеми ее сарказмами, опечатками и аллегориями - и смотришь изменения в этом конкретном срезе. Для практических целей - абсолютно достаточно.

Это всё, по сути, и говорит ув. Хаунд. И это полностью соответствует моему личному ПРАКТИЧЕСКОМУ опыту. Айкубаз, Медиалогия и прочие программные продукты по оценке тональности больших текстовых массивов - это рабочие инструменты. Их сфера применения - прежде всего, практика, а не теория.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Sergey написал:
[q]
Важна тональность по изданиям, по регионам. Иначе, ни о каком контент-анализе не может и речи идти.
[/q]

Вы не пробовали посмотреть "на пальцах" динамику комментаторов Навального (числом тысяч в 10) под влиянием информационных воздействий? Очень, скажу я Вам, увлекательное занятие. Особенно когда это не единственная задача, а одна из многих.

Конечно, "на пальцах" можно сделать всё. Вопрос во времени, бюджете и точности. А также - в визуализации, которая, кстати, и выявляет тренды более-менее объективно, в отличие от "среднепотолочной" экспертной оценки.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010
Насчет практики.
Все зависит от цели. Лично для себя - да, вполне достаточно "автомата", чтобы +-тенденция была.
Если это коммерческая работа - то нет, не достаточно.
Могу утверждать т.к. в среднем издаем более 2000 различных подобных обзоров в год т.ч. можно говорить и о "практике", и о точности....
p.s.
Общая тенденция мало кого интересует без привязки и разбивки. А вот когда эта привязка и разбивка сделана, то и общий результат (тенденция) явна, наглядна и достоверна (да и суммируется уже без проблем).
hound
Гость

Ссылка

[q=Sergey]А насчет 1000 сообщений и невозможности их обработать... опять же все нет так и не разрешимо. По сути, из этой 1000 уникальных будет единицы, все остальное перепечатки и перетасовка слов. Достаточно иметь механизмы определения уникальности и идентичности. Группируем и получаем не 1000, а 10. [/q]
Не всегда... Я приведу еще один пример.
Вот на каком-то значимом информресурсе (высокопосещаемом интернет-СМИ) делается вброс некой информации в виде статьи. Обычно у них есть опция "комментирование". И вот - эту статью начинают комментировать. Число коментов может составлять сотни. Далее - эта статья начинает в том или ином видет копипаститься по сети. Опять же - там есть опции "кооментирование". Ну и вот так число оригинальных коментов доходит до тысяч.
А ведь очень интересно посмотреть, какую реакцию у аудитории вызвало появление этой информации. Вручную обработать практически нереально.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

hound написал:
[q]

]Не всегда... Я приведу еще один пример.Вот на каком-то значимом информресурсе (высокопосещаемом интернет-СМИ) делается вброс некой информации в виде статьи. Обычно у них есть опция "комментирование". И вот - эту статью начинают комментировать. Число коментов может составлять сотни. Далее - эта статья начинает в том или ином видет копипаститься по сети. Опять же - там есть опции "кооментирование". Ну и вот так число оригинальных коментов доходит до тысяч.А ведь очень интересно посмотреть, какую реакцию у аудитории вызвало появление этой информации. Вручную обработать практически нереально.
[/q]


Нужно разделять:
- событие (уникальность новости)
- информационный шум
hound
Гость

Ссылка

[q=Sergey]Нужно разделять:- событие (уникальность новости)- информационный шум [/q]
Конечно, надо. Но интересует - какую реакцию у аудитории вызывало появление информации. Ну как обойтись без автоматизации, если реакция значительна (откликнулись тысячи людей)?
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Sergey написал:
[q]
Все зависит от цели. Лично для себя - да, вполне достаточно "автомата", чтобы +-тенденция была.
Если это коммерческая работа - то нет, не достаточно.
Могу утверждать т.к. в среднем издаем более 2000 различных подобных обзоров в год т.ч. можно говорить и о "практике", и о точности....
[/q]



Sergey написал:
[q]
Общая тенденция мало кого интересует без привязки и разбивки. А вот когда эта привязка и разбивка сделана, то и общий результат (тенденция) явна, наглядна и достоверна (да и суммируется уже без проблем).
[/q]

Я думаю, это еще сильно зависит от того, у кого какая коммерческая работа.

Например, в нашей работе то, что Вы назвали "для себя" - это как раз то, что и надо нам, чтобы скорректировать свои действия (результативность которых и оплачивается заказчиком). Ему неинтересны даже все эти разбивки. Он их может вообще не видеть. Ему надо чтобы результат был.
И нам разбивки интересны очень относительно - т.к. для нас это, по сути, функция "прицеливания" в каждый конкретный момент времени. Т.е., результаты отслеживания тренда - это чисто техническая информация "для себя" которая обеспечивает нам выполнение основной коммерческой работы.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

hound написал:
[q]
Игорь Нежданов написал:
[q]

50 на 50, а то и еще хуже
[/q]

Спасибо, понятно. Я так понял, это не "из общих соображений", а Вы тестировали Айкубаз (возможно, и другие программы) по этому параметру. Не могли бы выложить соответствующий пример - ну, примерно так, как это сделал при тестировании Айкубаза уважаемый CI-KP.
[/q]


Согласен - всегда нужны доказательства. Даже не смотря на то, что тестирование системы уже проводилось на этом форуме причем дважды. За прошедшее время могло что то измениться.

Тестировал систему на способность определять негатив. Объектом взял Путина, благо за последнее время материала в сети достаточно. Ограничил изучение блогами. Прошел первые две страницы выдачи системы. Если у кого есть желание - можете углубиться.

Результат - из 18 сообщений отнесенных системой IQbuzz к негативным, действительно негативными оказались только 7 на всякий случай, на картинках, рядом с совсем не понятными материалами сделал врезки цитат - чтоб было понятно.

Это 38,9% попаданий

Ни о каком определении трендов/тенденций говорить не приходится.

Прикрепленный файл (Путин негат%, 251044 байт, скачан: 758 раз)
---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
следующее

Прикрепленный файл (Путин негат%, 235140 байт, скачан: 741 раз)
---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
и еще

Прикрепленный файл (Путин негат%, 243098 байт, скачан: 784 раза)
---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
и еще

Прикрепленный файл (Путин негат%, 249377 байт, скачан: 790 раз)
---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
и вот

Прикрепленный файл (Путин негат%, 252610 байт, скачан: 759 раз)
---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
и еще

Прикрепленный файл (Путин негат%, 252337 байт, скачан: 1190 раз)
---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
единый файл прикрепить не получилось - тяжеловат оказался, но если кто захочет - вышлю.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009
Игорь, какой запрос в Айкубаз делал?

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Orfnik
Новичок

Всего сообщений: 5
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
7 мар. 2012
Добрый день!

Что за шум, а драки нет?)

Ответ от IQBuzz. Мы внимательно следили за ходом дискуссии и, видимо, настало время высказать свою точку зрения.

Прежде всего, хотелось бы искренне поблагодарить Евгения Ющука за взвешенный и искренний обзор. Надеемся, что тестирование нашего сервиса продолжится, и появятся новые обзоры/комментарии/предложения/замечания.

Что касается автоматического определения тональности, то готов согласиться с Игорем Неждановым. Да, еще несколько месяцев назад у меня было такое же отношение к автоматическому определению - я тоже считал, что тональность определяется часто ужасно, и требуется поменять саму формулировку для того, чтобы не вводить клиентов в заблуждение.

Но потом с нашим сервисом поработала одна консалтинговая компания и пришла к любопытным результатам. Подробности можно почитать по ссылке - smm3.org, статья Мифы SMM рунета. Автоматическое НЕопределение тональности упоминаний.

Что касается практической деятельности, то сейчас создан специализированный словарь по банковской отрасли. И попадания в тональность там отличная.

С другой стороны, и Игорь, и Евгений правы - полностью заменить ручной труд автоматика не сможет, и автоопределение тональности подходит не под все задачи.


С уважением, Никита
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Обсуждается способность системы адекватно оценивать негативна ли попавшая в систему информация по отношению к объекту интереса.

На эту способность системы первичный запрос никак не влияет. По скольку не важен пул отобранных запросом материалов, важна способность системы правильно принять решение негатив это по отношению к объекту интереса или нет.

Тем ни менее вот запрос

Прикрепленный файл (Запрос Пути%, 33688 байт, скачан: 1141 раз)
---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Игорь Нежданов написал:
[q]
Обсуждается способность системы адекватно оценивать негативна ли попавшая в систему информация по отношению к объекту интереса.

На эту способность системы первичный запрос никак не влияет.
[/q]

Как же не влияет первичный запрос? Я понимаю типовую задачу следующим образом: оценить отношение публики (а особенно - изменение этого отношения) к нашему кандидату. Я и запрос тогда делаю про нашего кандидата.

А если у меня запрос сразу про всех - то к кому мы негатив или позитив должны исследовать? Понятно, что в запросе:

"(Путин & Зюганов & Шапокляк & "Крокодил Гена") & (звери | хищники | лапушки | уроды) "

тональность никто не определит. Но зачем делать такой запрос, ставя цель определить тональность по конкретному персонажу?

Если такой запрос действительно важен - ну оценивайте по нему то, для чего создавали. А для тональности разделите запросы. В чем проблема?

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Orfnik
Новичок

Всего сообщений: 5
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
7 мар. 2012
Игорь,

Что Вы хотите сказать - совершенно понятно. "Важна способность системы правильно принять решение негатив это по отношению к объекту интереса или нет". Вам же фактически ответили, что да, такая возможность есть, но для этого иногда нужно поработать ручками и мозгами. По умолчанию система это сделает не всегда. Когда объектом мониторинга выступает бренд или продукт, сервис это определит проще, когда персона или организация - с бОльшей погрешностью.

Кстати, посмотрел самые свежие негативные сообщения из этой рубрики, и, на мой субъективный взгляд, там попадания достойные. 15 попало правильно, 3 неправльно, 2 - для меня под вопросом.

hound
Гость

Ссылка

Уважаемый Игорь, спасибо за приведенный пример.
Я согласен с уважаемым CI-KP - первичный запрос важен. И, насколько я понял, это сделать не так просто.
В связи с этим гипотеза: может быть, для разработки модели правильных первичных запросов целесообразно привлечь структурных лингвистов? Собственно, это вопрос к разработчикам, тем более что наконец-то в этой теме появился представитель Айкубаза.
Orfnik
Новичок

Всего сообщений: 5
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
7 мар. 2012
Уважаемый hound,

Да, у нас есть такие планы - и взять в штат лингвиста, и начать сотрудничество с одним из профильных ВУЗов по организации практики для студентов.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009
Провел эксперимент. Точнее два эксперимента. Результаты - ниже.

1. Запрос в Айкубаз. Очень простой, и наиболее типичный для реальной работы: "Путин"

Настройка негатива/позитива такая (минимально скорректирован обычный словарь, расстояние в 2 слова - чтобы жестче получился запрос)





Результаты:

1-я страница выдачи


2-я страница выдачи


3-я страница выдачи


10-я страница выдачи



12-я страница выдачи



2. Контроль по реперным словам. Запрос: чтобы были слова Хутин или Пуй или Путлер, а также чтобы обязательно в тексте было слово Путин. Расстояние - заведомо большое - в 25 слов



Настройка негатива/позитива и расстояния:



Результаты:

Распределение во времени:


По источникам:


Примерное облако тегов:



А теперь представьте, что это - информполе перед нашим вмешательством. Так сказать, точка отсчета.
Затем идет корректирующее воздействие - повторная оценка - коррекция воздействия.
По-моему, вполне работоспособный инструмент.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
hound
Гость

Ссылка

Уважаемый CI-KP, Вы привели впечатляющий пример.
Но я как-то не убежден, что то, что сделали Вы, под силу "обычному" юзеру.
Выскажу еще оду гипотезу - возможно, разработчикам Айкубаза было бы целесообразно разработать методичку по организации поиска, а также, возможно, проводить тренинги для клиентов.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010
p.s.
а теперь все те же тесты, ну к примеру, еще на 5-6 языках стран СНГ. :hi: :cool:
Orfnik
Новичок

Всего сообщений: 5
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
7 мар. 2012
Уважаемый hound,

Не знаю, у кого там сходятся мысли, но Вы и тут попали в точку. По тренингам мы как раз сейчас запускаем данный процесс, у нас этим будет заниматься отдельный сотрудник. И проходить это будет в формате вебинаров. При этом тренинги различные - отдельные по функционалу, отдельные - по поисковым запросам.

По методичке поисковых запросов - у нас есть ряд методичек, в том числе, и в самом сервисе. Но у клиентов частенько нет времени на такие мелочи, им нужен конечный результат. Поэтому настройку тем для мониторинга мы нередко берем на себя.

Также предлагаю перенести общение в личную почту, а то все это начинает выглядеть как какая-то реклама.
Ed
Модератор форума

Всего сообщений: 1782
Рейтинг пользователя: 28


Ссылка


Дата регистрации на форуме:
7 июня 2009

Orfnik написал:
[q]
предлагаю перенести общение в личную почту, а то все это начинает выглядеть как какая-то реклама.
[/q]

Намано-намано. (с) Ветка профильная.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

hound написал:
[q]
Но я как-то не убежден, что то, что сделали Вы, под силу "обычному" юзеру.
[/q]

Я показал все настройки на скриншотах. Специалисту, по его теме, как мне кажется, не составит труда сделать примерно то же самое. а остальное сделает уже Айкубаз.
Наверное, методички или учебы - это полезно. Но, в принципе, в системе все довольно эргономично устроено.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Sergey написал:
[q]
а теперь все те же тесты, ну к примеру, еще на 5-6 языках стран СНГ.
[/q]

Это Вы мне написали?

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
А как получить доступ ко всем функциям системы?

Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Провел испытания по упрощенному запросу - "навальный" . Выдачу ограничил блогами и новостями - чтобы без коротких текстов и при этом разные по типу тексты были. Настройки системы определения негатив/позитив - по умолчанию.

В этом случае результат лучше - 56,25% попаданий.
Точнее - когда информация отнесенная к негативу, действительно негативом является по отношению к объекту.

Тем ни менее 56,25% это не приемлемо даже для трендов, тенденций и направлений. И даже для сигнальной системы не приемлемо. Представьте ситуацию, что каждое второе срабатывание сигнализации в авто - ложное.

Теперь по поводу словаря негатива. Я очень надеюсь, что участвующим в диспуте доводилось составлять такой словарь. По тому что когда начинаешь его составлять, понимаешь, что гибкость русского языка позволяет многие слова использовать как негативные. А уж словосочетания это вообще отдельная песня. Интересующиеся могут почитать соответствующую работу (очень краткую и общую) "Метод определения эмоций в тестах на русском языке" авторы Пазельская А.Г. и Соловьев А.Н. (по названию легко найдете), а не основываться на работах, весь смысл которых сводиться к фразе "вы не правы по тому что вы не правы".

Так что вывод остается прежним - система IQbuzz не позволяет с надежностью, достаточной для принятия важных решений, выявлять в более или менее длинных текстах негатив по отношению к объекту изучения. А красивые графики это не более чем красивые графики.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Elena_Larina
Модератор форума

Всего сообщений: 223
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
25 нояб. 2010
При помощи Сколково реанимировался проект ВААЛ. Недавно они выпустили первый релиз Scai4Twi . Программа сделана для Twitter, но реализованный в ней подход может использоваться для оценки практически любых текстов и сетей. Продукт тестировали. Он конечно для русского и английского языков дает намного больше эмоциональных и смысловых параметров, чем традиционные сервисы. На проекте с 90-х гг. по сегодняшний день работают наиболее сильные команды лингвистов и специалистов по контент-анализу текстов. В принципе они открыты и для сотрудничества со сторонними разработчиками. Так что их достижения наверно можно использовать и для совершенствования IQBuzz.

---
Вопрос к блондинке. Какова вероятность встретить на улице динозавра? Блондинка отвечает...
Мы ищем правильных людей, а не правильные резюме
Orfnik
Новичок

Всего сообщений: 5
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
7 мар. 2012
petryashov, просто зарегистрироваться на нашем сайте. Сейчас начинаются праздники, так что ответить мы сможем в воскресенье. Ссылку на сайт я отправил Вам в личную почту.

Elena, большое спасибо за информацию, мы с ними свяжемся.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Игорь Нежданов написал:
[q]
Провел испытания по упрощенному запросу - "навальный" . Выдачу ограничил блогами и новостями - чтобы без коротких текстов и при этом разные по типу тексты были. Настройки системы определения негатив/позитив - по умолчанию.

В этом случае результат лучше - 56,25% попаданий.
Точнее - когда информация отнесенная к негативу, действительно негативом является по отношению к объекту.
[/q]

Расстояние между негативом и объектом какое поставил?


Игорь Нежданов написал:
[q]
Так что вывод остается прежним - система IQbuzz не позволяет с надежностью, достаточной для принятия важных решений, выявлять в более или менее длинных текстах негатив по отношению к объекту изучения. А красивые графики это не более чем красивые графики.
[/q]

Игорь, я уже смотрел вывод про 38%. Выше показал, как на самом деле получается, если варьировать настройки.
Так можно и ружье навести в направлении противника, бахнуть в белый свет как в копеечку и заявить, что систем прицеливания не существует.
А можно - научиться прицеливаться.

Можно заявить, что все фигня, а можно - научиться понимать, в каких случаях систему можно применять и как, а в каких - не имеет смысла.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Игорь Нежданов написал:
[q]
Теперь по поводу словаря негатива. Я очень надеюсь, что участвующим в диспуте доводилось составлять такой словарь. По тому что когда начинаешь его составлять, понимаешь, что гибкость русского языка позволяет многие слова использовать как негативные. А уж словосочетания это вообще отдельная песня. Интересующиеся могут почитать соответствующую работу (очень краткую и общую) "Метод определения эмоций в тестах на русском языке" авторы Пазельская А.Г. и Соловьев А.Н. (по названию легко найдете), а не основываться на работах, весь смысл которых сводиться к фразе "вы не правы по тому что вы не правы".
[/q]

Если не ставить задачи охватить всё - вполне решаемо. Для конкретной работы, как правило, есть реперные слова.
А специалисту именно с конкретными задачами и приходится сталкиваться.

Повторюсь: не надо про "сферического коня в вакууме" рассуждать. Мы говорим не о докторской диссертации про алгоритмы семантического анализа, а о рабочем инструменте.
Так вот - на практике корректировка информационного воздействия никогда не бывает "в общем и целом". И почти всегда идет работа против конкретной волны. В плюс или в минус. А конкретная волна характеризуется, тоже практически всегда, конкретными словосочетаниями, на которые можно ориентироваться, плюс к общим словам, которые принято считать негативом или позитивом.
Какими конкретно словосочетаниями - специалисту известно в каждом конкретном случае.

Айкубаз предлагает при недостаточно достоверном результате варьировать расстоянием между словами. Яндекс, кстати, тоже это предлагает и тоже для таких случаев. Это достаточно типовое решение. И как раз для трендов годное.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009
По Навальному - сделал минимальную пристрелку. Не особо вдаваясь в подробности и за несколько минут.

Первый запрос - просто слово "Навальный", только "посты" и "новости". Да, мусора много:


А теперь давайте посмотрим, что это за мусор. Он двух типов. Первое - слова "жулики" которые не к нему относятся. Второе - просто слова не относящиеся к нему.
Я не мониторю Навального, но даже мне известно, что слова "жулики и воры" он сам употребляет много чаще чем говорят про него. А лояльные к нему хомячки эхом транслируют.

Я сделал две вещи:
1. Предложил искать негатив в двух (а не в пяти) словах от ключевого слова;
2. Слова "жулики" и "воры" предложил негативом не считать.



Вот результат - так стала выглядеть первая страница.


Дальше не лез, ибо неинтересно уже.

Нет, еще вот 10-ю страницу посмотрел, т.к. на первой вроде как одно и то же было.


Вывод я сделал выше: как на ружье система прицеливания существует для повышения точности, а не для красоты, так и в любой поисковой системе язык запросов (и такие его элементы, как "минус" и "расстояние между словами") существуют для повышения точности, а не для запутывания пользователей.

А вот если запрос корректный (т.е. не только верно составленный, с точки зрения синтаксиса языка запросов, но и по смыслу) - то и график будет не просто симпатичным, а еще и полезным.

Само собой - как и в Яндексе, при более жестком запросе потеряется некоторый массив текстов. Но для целей оценки тренда и корректировки воздействий это сегодня вполне приемлемо.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Честно говоря уже надоело наблюдать за стараниями помочь друг другу продвинуть систему. А заодно читать всевозможные намеки. Поэтому конечный пост - расценивайте как хотите мне ваше мнение Евгений уже не интересно. Понимая закулисные течения - не хочу участвовать в этом действе.

Iqbuzz дает ряд интересных инструментов для работы с сообщениями и весьма наглядно переводит результат в графики - даже не оспариваемо. Это было понятно и при прошлом тестировании.

Тем ни менее при настройках по умолчанию Iqbuzz (на данный момент) не способен однозначно выделять негатив. Результат колеблется от 35 до 56% попаданий, другими словами от двух третей до половины негативом не являются.

Если задействовать настройки, то результат улучшается. Не радикально, но всё же. Правда при этом нужно не просто поработать "руками и мозгами", а очень основательно поработать - например составить словарь возможных негативных слов, которые и будут выявляться. А вот тут кроется пара нюансов:

1-такой словарь огромен - составить его довольно не просто, даже для "легких" целей;
2-такой словарь не учитывает все возможные варианты, дающиеся русским языком.

Отсюда следствие - при реальной работе по выявлению момента начала атаки с помощью Iqbuzz такой момент скорее всего будет пропущен. И это не смотря на впечатляющие графики. Конечно, для наблюдателя со стороны достаточно точности и в 50% - тренд то виден. А уж точность в 90% это вообще сказка - какие то ничтожные 10%. Какая мелочь. А вот владельцу бизнеса, рискующему своим бизнесом, в случае осечки, это не подходит. Для исключения инсинуаций на данную тему - про владельцев бизнеса это собственный давний и не давний опыт по организации подобных наблюдений.

Если у кого есть желание продолжить обсуждение данной проблемы (а не устраивать шоу) - в личку, по почте, по телефону, на другой форум.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Игорь Нежданов написал:
[q]
Честно говоря уже надоело наблюдать за стараниями помочь друг другу продвинуть систему. А заодно читать всевозможные намеки. Поэтому конечный пост - расценивайте как хотите мне ваше мнение Евгений уже не интересно. Понимая закулисные течения - не хочу участвовать в этом действе.
[/q]

Игорь, я уже минимум дважды попросил показать как Вы не смогли получить результата. и обнаружил, что Вы некорректно делали запрос. Вы сами, напомню, "забывали" это показать, хотя это бы сняло все вопросы изначально.

Это - факты, а не мнения. Посмотрите историю общения - сами увидите.
Это у Вас, Игорь, в этом топике очень много слов, но как доходит до скана - выявляются весьма странные запросы, которые и человек-то не поймет. Что не помешало Вам делать выводы. А вот у меня - совершенно прозрачно показанные результаты.
И это - тоже факт, нравится он Вам или нет.

Так что не надо переключать повестку на "намеки" или "продвижения". Факты, а не слова по работе инструмента - в студию, и будем смотреть. Что можно скорректировать - скорректируем. Что невозможно скорректировать - опишем как некорректируемое. Вот и всё.


Игорь Нежданов написал:
[q]
Если задействовать настройки, то результат улучшается. Не радикально, но всё же. Правда при этом нужно не просто поработать "руками и мозгами", а очень основательно поработать - например составить словарь возможных негативных слов, которые и будут выявляться.
[/q]


Совершенно верно. И эту мысль я сказал уже неоднократно. Вообще, любая профессиональная деятельность требует "поработать руками и головой". Сама колбаса с неба не падает.



Игорь Нежданов написал:
[q]
А вот тут кроется пара нюансов:
1-такой словарь огромен - составить его довольно не просто, даже для "легких" целей;
2-такой словарь не учитывает все возможные варианты, дающиеся русским языком.
[/q]

И это верно. Но есть очень серьезный для реальной практической работы момент: ВСЕ возможные варианты учитывать совершено ни к чему. Фокус-группы, которые применяются в маркетинге (и, при грамотном использовании применяются успешно) учитывают далеко не ВСЕ варианты. В силу технической невозможности спросить всех. Поэтому важно верно определиться с настройкой, и нет ничего критичного в том, что охват не тотальный. Особенно - я это снова повторю, Игорь, потому что Вы делаете вид, что не замечаете - когда речь идет об ИЗМЕНЕНИЯХ того поля, которое инструментом типа Айкубаза замеряно как "нулевая отметка".


Игорь Нежданов написал:
[q]
Отсюда следствие - при реальной работе по выявлению момента начала атаки с помощью Iqbuzz такой момент скорее всего будет пропущен.
[/q]

И это верно, но отчасти. Если смотреть на такой показатель, как частота упоминаемости - то, скорее всего, будет видно, что упоминаемость вырастет. Если параллельно ведется мониторинг потоковой информации в поиске по блогам, в Твиттере, социальных сетях и в СМИ - атака пропущена не будет.

Айкубаз - не система контроля за потоковой информацией (как я ее вижу, во всяком случае). Она работает с массивами текстов. А с потоками должен работать человек, выходящий в эфир с определенной частотой. Собственно, это обычный мониторинг, которым, я уверен, занимаетесь и Вы. Нет тут никаких сложностей или откровений.


Игорь Нежданов написал:
[q]
А уж точность в 90% это вообще сказка - какие то ничтожные 10%. Какая мелочь. А вот владельцу бизнеса, рискующему своим бизнесом, в случае осечки, это не подходит. Для исключения инсинуаций на данную тему - про владельцев бизнеса это собственный давний и не давний опыт по организации подобных наблюдений.
[/q]

Ничего подобного. По двум причинам.

1. Вы и вручную сто процентов на раннем этапе не сделаете. Это физически невозможно. Приблизиться - можно, достичь - нет.

2. Для того, чтобы приблизиться (не достичь) к ста процентам в исследовании КАЖДОГО текста, его придется прочитать человеку. Ни у кого нет на это ресурсов. Поэтому прочитываться будут важные тексты. А вот оценивать воздействие на массовку будут, видимо, машины. "Куда бежит толпа?" "Уменьшается толпа или увеличивается" - вот вопросы, в которых одновременно не нужна стопроцентная точность, и при этом нет возможности справиться вручную. И вот это - прерогатива систем типа Айкубаза. Второй их плюс - визуализация результата. Потому что именно визуализация позволяет сделать результат наглядным.

Вы, Игорь, чем изображать "обиженку" (чтобы было основание свалить из Вами же начатой дискуссии?), лучше приводИте факты в обоснование своих тезисов - всем спокойнее и понятнее будет. Я именно так поступать стараюсь. Эксперимент всегда лучше множества слов.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
hound
Гость

Ссылка

Хотел бы написать, что меня смутило в Айкубазе - если исходить из сканов, приведенных в постах уважаемого Игоря (например, пост 53). В правом столбце - разбивка позитив-негатив-нейтрал- смешанные.
Результат для меня ошеломляющий - 2% позитив, 0% негатив, 98% нейтрал, 0% смешанные.
Если так - весь рунет - сплошное болото, что, прямо скажу, радикально поменяло бы мое представление о рунете.
Но, может быть, Айкубаз не смог определить, где позитив, где негатив, и "на всякий случай" почти все слил в нейтрал? Или же опять-таки все дело в качестве первичного запроса? Или я просто что-то не так понял?
Прошу пояснить.
Ed
Модератор форума

Всего сообщений: 1782
Рейтинг пользователя: 28


Ссылка


Дата регистрации на форуме:
7 июня 2009

hound написал:
[q]
сплошное болото
[/q]
Айкубаз нечаянно сболтнул правду о человечестве.

«2 процента людей — думает, 3 процента — думает, что они думают, а 95 процентов людей лучше умрут, чем будут думать.» (Бернард Шоу)

«95% людей существуют исключительно для оборота денежных средств.» (Антон Шандор ЛаВей)

«95 процентов людей на Земле — инертная масса. Один процент составляют святые и ещё один — непроходимые кретины. Остаётся три процента — те, кто могут чего-то добиться… и добиваются.» (Стивен Кинг, «Мёртвая зона»)
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

hound написал:
[q]
Хотел бы написать, что меня смутило в Айкубазе - если исходить из сканов, приведенных в постах уважаемого Игоря (например, пост 53). В правом столбце - разбивка позитив-негатив-нейтрал- смешанные.
Результат для меня ошеломляющий - 2% позитив, 0% негатив, 98% нейтрал, 0% смешанные.
Если так - весь рунет - сплошное болото, что, прямо скажу, радикально поменяло бы мое представление о рунете.
Но, может быть, Айкубаз не смог определить, где позитив, где негатив, и "на всякий случай" почти все слил в нейтрал? Или же опять-таки все дело в качестве первичного запроса? Или я просто что-то не так понял?
Прошу пояснить.
[/q]


Давайте, я просто Вам покажу, какой запрос Вы оцениваете - а выводы Вы сделаете сами.

В посте 53 вот этот результат:


Он выдан в ответ на вот этот запрос:


Запрос говорит, если его с языка операторов на язык людей перевести, примерно следующее:

"Айкубаз, сделай мне из твоей базы выборку материалов, где есть Путин и еще кто-то из кандидатов в президенты - все равно кто, хоть все сразу, хоть не все. И чтобы это было в контексте выборов, предвыборной, поствыборной или теледебатной тематики. Да, а еще вместо кандидатов в депутаты, можешь смело ставить рядом с Путиным избирателей, оппозицию или митинги. Главное, чтобы между ними не более 20 слов было".

Есть там в запросе и еще момент, который вызвал у меня вопросы - там айкубазу, который, понимает, вроде как, словоформы, запретили их менять по отношению к словоформам слова "выборы". Но при этом оператор, запрещающий изменения, стоит не перед каждым словом (как показано в хэлпе Айкубаза), а перед скобкой. Я просто не в курсе - работает ли он в таком случае, и главное - не искажает ли результаты. Это, наверное, лучше спрашивать программеров Айкубаза, чтобы не тратить свое время на тестирование.

Вот операторы языка запросов айкубаза:

Прикрепленный файл (язык запрос%, 285797 байт, скачан: 520 раз)
---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
hound
Гость

Ссылка

[q=CI-KP]Давайте, я просто Вам покажу, какой запрос Вы оцениваете - а выводы Вы сделаете сами.[/q]
Спасибо, я посмотрел. Вывод я такой сделал - ключевая вещь - правильно составить запрос.
А еще я понял, что в зависимости от запроса можно получить любой результат. Какой хочется. Можно - для понимания ситуации. А можно - для ублажения клиента. А можно - как "доказательство" той или иной точки зрения.
В общем, для чего угодно.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

hound написал:
[q]
Вывод я такой сделал - ключевая вещь - правильно составить запрос.
[/q]

Само собой. При любом анализе сильно "зашумленного" информполя - будь то яндекс, айкубаз или что-то еще, важно сделать фильтр, который позволит видеть нужное. Нужного при этом должно быть максимально много, насколько это возможно при отсечении "информационного мусора".

Более всего, это действительно похоже на использование винтовки: можно не целясь бахнуть в небо и заявить, что винтовка - обман, из нее попасть никуда невозможно. А можно - пристрелять винтовку, и наступит понимание: на какое расстояние, с какой частотой и с какой вероятностью попадания она стреляет, а на какое - бьет прикладом или колет штыком. Если не путать это и применять винтовку по назначению - все будет нормально.


hound написал:
[q]
А еще я понял, что в зависимости от запроса можно получить любой результат. Какой хочется. Можно - для понимания ситуации. А можно - для ублажения клиента. А можно - как "доказательство" той или иной точки зрения.
[/q]

Угу. Правда, ровно до того момента, пока не попросят выложить карты на стол. Здесь слова не проканают - все легко проверяемо.
Запрос в посте 53, который позиционировался его автором как поиск негатива или позитива по Путину - на мой взгляд, даже с большой натяжкой таковым не является. Допускаю, что он в каких-то задачах нужен для оценки, скажем, упоминаемости - но не для негатива/позитива непонятно о ком.
А запрос, сделанный действительно по Путину я показал в посте 62 без купюр, "as is". И на данный момент никто ничего по существу не возразил.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009
Если посмотреть на фактуру этого топика, отбросив эмоции, то я бы, на данный момент, резюмировал так.

1. Айкубаз не может быть единственным средством мониторинга, т.к. он не работает с потоковой информацией, а анализирует массив, уже лежащий в его базе данных. Соответственно, скорость реагирования у него, теоретически, должна быть ниже, чем при непосредственном мониторинге потоков.


2. Айкубаз может быть средством раннего предупреждения о начале атаки - только в части фиксации факта повышения частоты упоминаний объекта.
Примерно так же, как "Пульс блогосферы" - в поиске по блогам Яндекса.
Скорость его при этом может уступать скорости реакции наблюдателя, ведущего мониторинг потоков, однако при постепенном повышении частоты упоминаний (глазом не улавливаемой) он, теоретически, может оказаться подспорьем для специалиста, ведущего мониторинг.


3. Айкубаз эффективен при анализе трендов на больших массивах текстовой информации. Для отдельных текстов он неприменим.


4. Айкубаз полезен, преимущественно, для оценки эмоционального отношения автора к конкретному объекту в тексте, а не для эмоциональной оценки "текста в целом".


5. Запрос в Айкубаз с настройками тональности "по умолчанию" обычно не позволяет брать результат в работу, но позволяет понять - как надо откорректировать настройки системы для конкретного случая.
Корректировка касается списка слов в словаре негатива/позитива, а также расстояния между объектом и эмоционально значимыми словами в тексте.
При правильно составленном запросе, Айкубаз позволяет получить результат, имеющий практическую ценность.



6. Для оценки динамики трендов, надо сначала выстроить запрос и получить "нулевую отметку" - т.е., "моментальную фотографию" информполя. Далее - смотреть отклонения относительно этой отметки. При этом, если произойдет принципиальное изменение аудитории, в которой проводится оценка - может понадобиться и корректировка запроса.


7. Технически невозможно на сегодняшний день получить стопроцентный результат в оценке чужих текстов. Это недоступно ни машине, ни человеку. При этом, человек уступает машине при анализе большого массива текстов, а машина проигрывает человеку при анализе конкретного текста.
Поэтому надо выбирать наиболее значимые для информполя источники и мониторить их вручную, а всю "массовку" отдать машине.


8. Ввиду сложности анализа эмоциональной составляющей текста, имеет смысл для ее анализа стараться выбрать "реперные слова", а также сокращать расстояние между объектом и негативом/позитивом в тексте. Это сыграет роль, близкую к роли фокус-группы.


9. Визуализация результата (не только негатива/позитива, но и таких важных моментов, как разбивка по источникам, а также частота употребления ключевых слов в массиве) - несомненно, является сильной стороной программ, подобных Айкубазу. Это человеку за разумные деньги и в разумные сроки неподвластно в принципе.


Есть что дополнить/поправить?

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
hound
Гость

Ссылка

[q=CI-KP]Правда, ровно до того момента, пока не попросят выложить карты на стол.[/q]
Ну это-то как обычно. На поверхности все кошерно, а чуть глубже копнешь...
hound
Гость

Ссылка

[q=CI-KP]Есть что дополнить/поправить? [/q]
На мой скромный взгляд, анализ просто отличный.
Наверное, следующим шагом было бы сравнение со второй по известности системы - Юскан. Наверное, как это обычно и бывает, для каких-то задач она лучше, чем Айкубаз, и для каких-то - хуже.
Тем более что в этой теме уже отметились представители обеих систем.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

hound написал:
[q]
Наверное, следующим шагом было бы сравнение со второй по известности системы - Юскан.
[/q]

Сделаю, конечно.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
hound
Гость

Ссылка

[q=CI-KP]Сделаю, конечно. [/q]
Спасибо. Я думаю, всем будет интересно.
Elena_Larina
Модератор форума

Всего сообщений: 223
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
25 нояб. 2010
[q]
Наверное, следующим шагом было бы сравнение со второй по известности системы - Юскан
[/q]


Тогда третьим шагом - пригласить сюда Semanticforce. Компания украинская. Мониторит Рунет и англоязычный интернет. Их функционал несколько отличается от всех других систем.

---
Вопрос к блондинке. Какова вероятность встретить на улице динозавра? Блондинка отвечает...
Мы ищем правильных людей, а не правильные резюме
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Elena_Larina написал:
[q]
Тогда третьим шагом - пригласить сюда Semanticforce. Компания украинская. Мониторит Рунет и англоязычный интернет. Их функционал несколько отличается от всех других систем.
[/q]

Хотите - пригласите. Я с удовольствием пробую в работе разные инструменты на одних и тех же задачах. Только не обещаю быстро. Но, в принципе - сделаю.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
hound
Гость

Ссылка

[q=CI-KP]Хотите - пригласите. [/q]
А пусть лучше они сами сюда придут. Заодно и посмотрим - насколько эффективно они мониторят инфу по самим себе.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

hound написал:
[q]
А пусть лучше они сами сюда придут. Заодно и посмотрим - насколько эффективно они мониторят инфу по самим себе.
[/q]

Тоже логично. Юскан пришел сам.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

CI-KP написал:
[q]
Есть что дополнить/поправить?
[/q]


Я бы добавил все-таки оценку Игоря про 50-70% ошибок при оценке тональности при настройках по умолчанию.

Плюс упущено предложение Игоря различать общую тональность сообщения и тональность отношения автора к объекту
[q]

Повторюсь - есть общая тональность сообщения, а есть отношение автора к объекту, упоминаемому в этом сообщении. Это две разные вещи. Здесь речь об общей тональности сообщений (материалов). С этим криво-косо получается что то определить.

Поэтому не смотря ни на какие нюансы - не в состоянии машина понимать намеки, юмор, сарказм и прочие оттенки настроения человека, основываясь на его тексте.
[/q]


Плюс надо показать причины ошибок определения тональности при текущем подходе в айкубазе и других подобных системах, как это верно подметил Игорь
[q]

Определить общую тональность сообщения можно. С разным процентом ошибок, но можно и это делается. А вот как определить что негатив в каком то сообщении относиться именно к вашему объекту интереса? По наличию негатива и упоминания объекта? Но негатив может не относиться к объекту. По наличию негатива + упоминание объекта + расстояние в тексте от объекта до негатива? но это тоже не дает ничего, чему примеры приведены выше. Получается, что нельзя определить сообщение негативно или нет по отношению к конкретному объекту. Причем ни на уровне единичных сообщений, ни на уровне "потока" информации.
...
Теперь по поводу словаря негатива. Я очень надеюсь, что участвующим в диспуте доводилось составлять такой словарь. По тому что когда начинаешь его составлять, понимаешь, что гибкость русского языка позволяет многие слова использовать как негативные. А уж словосочетания это вообще отдельная песня. Интересующиеся могут почитать соответствующую работу (очень краткую и общую) "Метод определения эмоций в тестах на русском языке" авторы Пазельская А.Г. и Соловьев А.Н. (по названию легко найдете)
[/q]



Надо акцентировать внимание на том, что правильное построение запроса позволяет серьезно улучшить качество результатов :wink:
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Vinni написал:
[q]
Я бы добавил все-таки оценку Игоря про 50-70% ошибок при оценке тональности при настройках по умолчанию.

Плюс упущено предложение Игоря различать общую тональность сообщения и тональность отношения автора к объекту

Надо акцентировать внимание на том, что правильное построение запроса позволяет серьезно улучшить качество результатов :wink:
[/q]


Поправил. Теперь выглядит вот так. Нормально?

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

CI-KP написал:
[q]
Поправил. Теперь выглядит вот так. Нормально?
[/q]


На мой взгляд - еще нет. :wonder1:

[q]

4. Айкубаз полезен, преимущественно, для оценки эмоционального отношения автора к конкретному объекту в тексте, а не для эмоциональной оценки "текста в целом".
[/q]

ИМХО Игорь Нежданов наоборот говорил о том, что тональность текста в-целом можно определить, а отношение автора к объектам тяжело.


Также не описана реализация в IqBuzz определения тональности (расстояние между упоминанием слова из запроса и эмоциоанльным словом не более заданного) и ее следствие - большое число ошибок (последняя цитата Игоря Нежданова)
Плюс указывал при этом на литературу в качестве обоснования. :wink:
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Vinni написал:
[q]
ИМХО Игорь Нежданов наоборот говорил о том, что тональность текста в-целом можно определить, а отношение автора к объектам тяжело.
[/q]

Я вижу (и >показал на реальном примере<) что это абсолютно не так. Именно по этой причине, я просил Игоря показать - на какой фактуре основано его утверждение. Выяснилось, что Игорь создал запрос, в котором даже человеку невозможно определить отношение к объекту - потому что этих объектов там несколько штук одновременно.

Кроме того, что такое "тональность текста вообще" - мне не совсем понятно. Но еще менее понятно мне - кому нужна в практической работе "тональность текста вообще". Допускаю, что я просто с этим не сталкивался. Однако и Игорь этого не объяснил на понятных примерах.

Я не знаю, почему Игорь решил, что выбранный им для анализа тональности по отношению к Путину запрос (>вот этот<) должен выражать отношение именно к Путину. Там, кроме Путина, оказалось полно разнородных объектов, при этом расстояния между словами большие, а синтаксис самого запроса не факт что правильный. Соответственно, и обозначенные Игорем "38%" - непонятно о чем.

Зато мне абсолютно понятно, что если смотреть эпитеты на расстоянии двух слов от одного массово обсуждаемого объекта (в приведенном примере - Путина ), то картина получается вполне нормальная. С помощью такой картины реально можно корректировать информационное воздействие, которое мы сами проводим, или оценивать чужое. Мне понятно, как и зачем это может работать. Это я и показал >в своем примере<, а потом и написал в выводах.


Vinni написал:
[q]
Также не описана реализация в IqBuzz определения тональности (расстояние между упоминанием слова из запроса и эмоциоанльным словом не более заданного) и ее следствие - большое число ошибок (последняя цитата Игоря Нежданова)
[/q]

Варьировал расстоянием в запросе я, а не Игорь. Игорь обошел это молчанием. Дважды.
Игорь просто пренебрег настройкой расстояния (если не вообще задал его в 20(!) слов от множества объектов одновременно). В результате, он получил не особо годный результат, но обвинил в этом Айкубаз, а не пренебрежение настройками.

Вы вообще, хотя бы для себя, можете представить как "вручную", человеческими мозгами то есть, а не машинными, определять тональность по отношению сразу к десятку объектов, расположенных на расстоянии в 20 слов друг от друга? Да вдобавок - когда эмоционально окрашенный эпитет должен быть на расстоянии еще в пять слов.
Это произнести-то непросто, а представить, по-моему, вообще крайне затруднительно. Даже человеку. Что уж говорить о машине. Кто от кого в скольких словах в результате будет находиться, и что будет оцениваться - я при таком раскладе не понимаю. Но вряд ли все же отношение к Путину.

Как я варьировал расстоянием между словами - показано на скриншоте в моем посте. Зачем - описано там же. Результат положительного влияния настройки расстояния на повышение релевантности там виден невооруженным глазом.
Поэтому в выводах я прямо сказал о необходимости такого маневра.
Ну, а вся подробная конкретика - в хэлпе и в интерфейсе.


Vinni написал:
[q]
Плюс указывал при этом на литературу в качестве обоснования. :wink:
[/q]

Я вижу противоречие заявлений Игоря практике. Я показал как можно добиться работоспособности Айкубаза в целях, которые также описал.А также написал, для каких целей Айкубаз хорош, а для каких - плох.

Я вижу также, что Игорь продрейфовал в своих мнениях от "это обман" к "там 38% достоверности", затем к "ну да, процентов 50-70 оно дает, ну и что", и затем "90% - это не аргумент".

Если я вижу на практике, что некая система работает, и понимаю как ее использовать, а некто, пусть даже очень уважаемый, списком литературы пытается мне теоретически доказать обратное - я предпочитаю верить своим глазам, а не списку литературы.
Вполне возможно, это литература о другом вопросе, как и запрос, который был якобы "про Путина", а оказался про многочегоразногосразу. А, может быть, есть и иные причины. Я этого не знаю.

Но я хорошо знаю, что мне нужен инструмент для конкретной работы. Вижу, что он есть, и знаю, как им в его нынешнем виде эту работу выполнять. Вот это для меня является - определяющим. Я все же практик в значительно большей степени, чем теоретик.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009
Попробую показать на примере аналогии - как и зачем может помочь Айкубаз на практике. Конкретно - в практике оценки трендов при информационных воздействиях, о которых я и говорю в этом топике.

Вот группа демонстрантов.
Я пронумеровал их цифрами от 1 до 4. Мы не знаем - кто они, не знаем их настроя, не знаем, что они будут делать в следующую минуту. Мы лишь фиксируем "картинку". Делаем "моментальную фотографию". Относительно нее будет оцениваться развитие ситуации. Обратите внимание, что под цифрой "2" - не один человек, а группа.




А вот это - проводится воздействие на поле.


Видно, что в результате проведенного воздействия, группа №2 явно негативно настроена к происходящему, но резко уменьшилась. Группа №1 осталась в поле воздействия, но индифферентна к происходящему. А группы №3 и 4 вообще исчезли с поля.

При этом, нас абсолютно не интересует - кто эти люди, о чем они думают, что конкретно хотели сказать. Нам неинтересны тембр их голоса или красота стиля. Нам даже их точное количество неинтересно. Нам интересно изменение количества негативно настроенных под влиянием воздействия. И всё.

Вот, в Интернете нас примерно то же самое интересует.

А вот ответ на вопрос "Куда бежит толпа?" - от нас или к нам, чтобы побить, к примеру.
Мы выбираем из толпы несколько ориентиров ("реперов"), которые явно типичны для поведения толпы в целом


и отслеживаем их движение (разумеется, не забывая сверяться, что их движение соответствует движению толпы, а также не забывая оценивать динамику общей численности толпы)


И вновь обращаю внимание на то, что нас не интересуют конкретные персоны и нам не нужна абсолютная точность. У нас иная задача и нас устраивает примерная точность в данном случае. Главное - верно отфильтровать ориентиры.

При работе "в позитив" задача принципиально та же, но просто позитивом тогда будет повышение лояльности, а не понижение внимания к нам.

Собственно, вот.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009
Да, и еще один момент.

Решение Игоря целенаправленно исключить короткие тексты из анализа я, в контексте рассматриваемой задачи, расцениваю исключительно как попытку подтасовки результатов.
Если я неправ, то пусть мне кто-нибудь объяснит - в чем может заключаться практическая ценность расширения поиска эмоции в тексте на 20 слов, а то и больше - учитывая, что там множество объектов и эмоция может относиться к любому из них. Моя практика не позволяет мне этого понять, но, возможно, у кого-то есть иная практика.

Почему я предположил (возможно, ошибочно), что Игорь занимался подтасовкой? Дело в том, что когда нас интересует массовка - а я неустанно говорю именно об этой ситуации, т.к. именно эта ситуация без машины не решаема - Твиттер, комментарии и форумы играют довольно большую роль.
Именно Твиттер и комментарии - жанры краткие, но часто содержащие эмоции.

Исключение Твиттера и комментариев из оценки - это уже не количественное, а качественное искажение информационного поля, когда речь идет об анализе массовки.

Сделанное Игорем искусственное расширение контекста на 20 слов под лозунгом анализа только длинных текстов - это заведомое зашумление пространства.

Но, как оказалось, настройка Айкубаза позволяет решить даже эту проблему и даже на больших текстах - уменьшив в настройках дистанцию между объектом и "эмоцией". В случае с Путиным - до двух слов.

На менее обсуждаемых, чем Путин, объектах такое уменьшение может и не понадобиться. Скажем, малоизвестный еще вчера объект, который вдруг оказывается в центре внимания, причем на негативе - вряд ли нуждается в такой корректировке.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

CI-KP написал:
[q]
Кроме того, что такое "тональность текста вообще" - мне не совсем понятно. Но еще менее понятно мне - кому нужна в практической работе "тональность текста вообще". Допускаю, что я просто с этим не сталкивался. Однако и Игорь этого не объяснил на понятных примерах.
[/q]

Посмотрел педивикию про Анализ тональности текста
Там нет тональности вообще -
[q]

тональность текста определяется тремя факторами: 1) субъект тональности; 2) собственно тональная оценка (позитив/нейтрально/негатив); 3) объект тональности. Под субъектом тональности подразумевается автор статьи (автор цитаты, прямой или косвенной речи), под объектом тональности — тот, о ком он высказывается и под тональной оценкой — эмоциональное отношение автора к такому объекту.
[/q]

Зато там описано несколько методов оценки тональности (а не только тот, что применен в IqBuzz. Не знаю что в Youscan :wink: )
Как минимум на эту статью надо сослаться :wink:

Видимо тональность текста вообще - это его эмоциональная окрашенность в-целом безотносительно отношения субъекта к объекту
Для КР понятное дело важнее отношение субъекта тональности к объекту тональности.


CI-KP написал:
[q]
Поэтому в выводах я прямо сказал о необходимости такого маневра.
Ну, а вся подробная конкретика - в хэлпе и в интерфейсе.
[/q]

Понятно, что практика - критерий истины :laugh:
Так эти примеры как раз и показывают, что даже специалисты КР могут ошибаться при составлении запросов, что влияет на эффективность оценки тональности.
И Ваши примеры :super-puper , Евгений, как раз и показывают, что ПМСМ стоит все-таки в одном-двух предложениях описать модель определения тональности для понимания :wink:
Я бы поэтому еще кратко описал бы типовые ошибки при составлении запросов и требования к правильным запросам :yes:
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Кстати, нашел другую интересную (и которая будет показывать более хорошие результаты, чем Айкубазз, так как модель более серьезная :wink: ) реализацию определения тональности в "Аналитическом курьере"- тест компонента и описание модели определения тональности

Elena_Larina
Модератор форума

Всего сообщений: 223
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
25 нояб. 2010
Модель классная, только сам продукт в целом очень дорогой, находится в совершенно другой ценовой нише, нежели Айкубазз.

---
Вопрос к блондинке. Какова вероятность встретить на улице динозавра? Блондинка отвечает...
Мы ищем правильных людей, а не правильные резюме
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Vinni написал:
[q]
Видимо тональность текста вообще - это его эмоциональная окрашенность в-целом безотносительно отношения субъекта к объекту
Для КР понятное дело важнее отношение субъекта тональности к объекту тональности.
[/q]

Вот и я считаю, что для практических целей (а иные мною не рассматриваются в данном случае) нужно отношение к объекту. А потому исследования "сферического коня в вакууме", на мой взгляд. надо оставить теоретикам и сосредоточиться на практике.


Vinni написал:
[q]
Как минимум на эту статью надо сослаться :wink:
[/q]

Я так не считаю. Все по той же причине: практикам нужен инструмент. Покупая молоток, никто ведь обычно не просит приложить к нему справочник по материаловедению и курсовую по сопромату.

Но если Айкубаз или иные системы будут кем-то использоваться в теоретических изысканиях - я не сомневаюсь, что там в списке литературы будет и эта статья, и еще десятка три других статей и монографий. Но это уже не наш вопрос.


Vinni написал:
[q]
даже специалисты КР могут ошибаться при составлении запросов, что влияет на эффективность оценки тональности.
[/q]

Ошибаться может кто угодно - это нормально.
О важности правильного составления запроса я написал. Написал кратко. В принципе, практически все подобные сервисы обычно помогают клиенту составить запрос. Некоторые даже за него пытаются это делать - что, на мой взгляд, неправильно, т.к. хорошее знание синтаксиса запросов не более важно, чем понимание задачи, без которой невозможно оценить результат.
Поэтому подучиться пользованию сервисом, конечно, надо каждому.


Vinni написал:
[q]
Я бы поэтому еще кратко описал бы типовые ошибки при составлении запросов и требования к правильным запросам :yes:
[/q]

Мне кажется, это бесполезно. Проще допускать до системы тех, кто хотя бы по минимуму понимает что такое булева алгебра, потом дать им получить некий результат, а уже потом - проверить их запрос. Тогда именно их ошибка будет исправлена. Это всем сэкономит массу времени.

Я на это насмотрелся при обучении поиску - там каждые делает примерно одну-две из 20 типовых ошибок, но у каждого это свои одна-две ошибки. пока он их не сделает и ему их не исправят - не научится. Именно по этой причине, обучение поиску по книгам не дает такого результата, как очная кратковременная учеба.

И отдельное спасибо за ценные подсказки, ув. Vinni :hi:

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009
На меня, кстати, со ссылкой на эту ветку только что вышел SemanticForce. Будем посмотреть.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
По-хорошему, уже пора делать сравнительный анализ таких систем :wink:
Предлагаю включить в него как минимум раздел про технологии тональности и следующие параметры в нем
-технология определения тональности
-процент правльного определения тональности при настройках по умолчанию
-параметры, которыми можно управлять
-начальный объем словарей позитива и негатива
-требования к запросу
-типы отчетов с указанием тональности


CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Vinni написал:
[q]
По-хорошему, уже пора делать сравнительный анализ таких систем :wink:
Предлагаю включить в него как минимум раздел про технологии тональности и следующие параметры в нем
-технология определения тональности
-процент правльного определения тональности при настройках по умолчанию
-параметры, которыми можно управлять
-начальный объем словарей позитива и негатива
-требования к запросу
-типы отчетов с указанием тональности
[/q]

Ну, я в бета-тестеры, уж извините, не буду записываться. У меня нет на это времени. Я могу сделать (и сделаю) примерно одинаковую работу на каждой из систем и покажу результат. А также расскажу свои субъективные ощущения от эргономики и от результатов. По-умному, это называется "экспертной оценкой".

А устраивать скрупулезные замеры, да еще с научным описанием - это работа для какого-нибудь аналога "общества защиты прав потребителей" или передачи ""Контрольная закупка", который живет с этого.

Я глазами пользователя, которому надо делать реальное дело посмотрю на системы. И который это дело умеет делать и понимает. Не более того. Но и не менее.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Семёныч
Модератор форума
Городской Охотник
Всего сообщений: 926
Рейтинг пользователя: 10


Ссылка


Дата регистрации на форуме:
8 июня 2009

CI-KP написал:
[q]
А устраивать скрупулезные замеры, да еще с научным описанием
[/q]

Почему бы такие вещи не делать самим производителям продукта? Вспомните, сколько раз на форуме появлялся тот или иной разработчик софта. Дабы показать, что его продукт стоящий, его просили дать сравнительный анализ своего продукта с аналогами. Некоторые это демонстрировали. Я понимаю, что частный разработчик и целая компания - вещи разные (и по амбициям, и по принципам продвижения продукта, и прочее), но не могу поверить, что такие компании в тихаря "не меряются между собой пиписьками". А вот публиковать такие замеры - бздят. Нечем похвастаться? Вряд ли. У каждого продукта будут свои достоинства и недостатки. Типа, для разной рыбалки нужны разные удочки. Ну, так есть среди этих "пирожков" хоть один с яйцами, или все только с капустой?

---
Нет такой безвыходной ситуации,в которую невозможно вляпаться... (с)
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Семёныч написал:
[q]
Почему бы такие вещи не делать самим производителям продукта?
[/q]

На мой взгляд, есть, как минимум, две причины:

1. Засудят остальные производители за нарушение закона о рекламе - если тесты окажутся ему "в плюс". Запрещено сравнение себя с конкурентами.

2. Если отдать это на аутсорсинг - "Обществу защиты прав потребителей" - придется заплатить. А какое доверие проплаченным исследованиям?

Кроме того, на мой взгляд, есть и еще одно серьезное обстоятельство: программы все примерно похожи друг на друга по техническим возможностям. Но ТТХ - не единственная, а порой и не главная характеристика продукта. Ест еще такие немаловажные факторы, как маркетинговая политика, качество техподдержки и т.п.

И есть, как мне кажется, еще один момент: на следующий день после выхода сравнительного обзора ситуация может просто измениться: кто-то поработал над ошибками, а у кого-то руководитель группы разработчиков уехал жить в тибетский монастырь.

Учитывая, что продукты далеко не массовые, может оказаться намного проще (для производителя) продавать свой товар и не заниматься публичным сравнением, которое все равно мало кем будет востребовано. А непубличные сравнения наверняка ведутся ежедневно. Они у любого продавца ведутся - даже если он этого не планировал делать.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Vinni
Администратор

Всего сообщений: 2136
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

CI-KP написал:
[q]
Засудят остальные производители за нарушение закона о рекламе - если тесты окажутся ему "в плюс". Запрещено сравнение себя с конкурентами.
[/q]


На западе для этого нанимают типа независимые аналитические конторки (посмотрите, например, кто и как проводит сравнение веб-браузеров, антивирусов :wink: ) и грамотно подбирают параметры, по которым сравнивают, чтобы они смотрелись в плюс, а конкуренты - в минус :laugh:
Обычно, кстати ТТХ идет одним разделом, а тех. поддержка, ценовая политика другими разделами :yes:


CI-KP написал:
[q]
И есть, как мне кажется, еще один момент: на следующий день после выхода сравнительного обзора ситуация может просто измениться: кто-то поработал над ошибками, а у кого-то руководитель группы разработчиков уехал жить в тибетский монастырь.
[/q]

Ну и что? Вон сравнение антивирусов каждый несколько кварталов проводят :wink:


CI-KP написал:
[q]
может оказаться намного проще (для производителя) продавать свой товар и не заниматься публичным сравнением
[/q]

:preved: Именно так. Потому что, могут выплыть, как это было, например, в этой ветке, неприятные моменты
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Vinni написал:
[q]
Вон сравнение антивирусов каждый несколько кварталов проводят :wink:
[/q]

Так сколько народа пользуются браузерами или антивирусами, а сколько - анализаторами соцсетей? Кто и зачем будет платить за исследования по нишевым продуктам так же, как за массовые? Я не вижу таких интересантов пока что.


Vinni написал:
[q]
Потому что, могут выплыть, как это было, например, в этой ветке, неприятные моменты
[/q]

Честно говоря, я не увидел в этой ветке никаких реально критичных неприятных моментов.

Заявления в духе: "Да ваша Феррари - хня полная, она в деревню Гадюкино не проедет и вообще она летать не умеет", либо "УАЗ - хня полная, он на трассе не угонится за Форд-фокус никогда!", - я всерьез не принимаю. Т.е.. это, конечно, очень верные заявления, но бессмысленные для практики.

На мой взгляд, в данном случае, стакан не наполовину пустой, а явно наполовину полный. Чтобы придти к такому выводу, надо сначала на практике натерпеться от невозможности более-менее объективно проанализировать информационное поле, а потом получить инструмент, который это все же позволяет сделать.

Это примерно те же ощущения, я думаю, какие были у пилотов в Первую Мировую - когда технически несовершенные (по нынешним меркам) "этажерки" вполне позволяли и разведку вести, и гранаты на головы противнику кидать. потому что были прорывом в технологиях на тот момент. Всем хотелось бы еще лучше, и над этим работали. но летали - на "этажерках".

Конечно, можно посидеть и подождать, пока появится МИГ-29. Он, правда, тоже совершенным вряд ли будет, но будет лучше "этажерки". А можно начать получать результат немедленно - прямо сейчас.

И те, кому это все нафиг не надо в работе - пусть ждут и в обоснование ожидания рассказывают, что, оказывается, если пытаться взлетать на "этажерке" не против ветра, а по ветру, то получается не всегда хорошо, а если пытаться приземлиться кверху колесами - то получается всегда плохо.

А те, кому работать надо - будут просто использовать инструмент по назначению. Взлетать - против ветра, садиться - колесами вниз, заправлять - керосином, а не водой, не летать сильно пьяными и соблюдать еще множество несложных, но важных правил.

А еще практики будут рассказывать разработчикам - что им хотелось бы дополнительно к сервису "прикрутить", и радоваться, когда это прикрутили.
Я, честно говоря, происходящего по-другому прогресса технологий, пожалуй, и не видел.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

Vinni написал:
[q]

По-хорошему, уже пора делать сравнительный анализ таких систем Предлагаю включить в него как минимум раздел про технологии тональности и следующие параметры в нем -технология определения тональности -процент правльного определения тональности при настройках по умолчанию -параметры, которыми можно управлять -начальный объем словарей позитива и негатива -требования к запросу -типы отчетов с указанием тональности
[/q]


Рано или поздно, сегментом анализа "соц.сетей" займутся монстры (поисковики, держатели контента соцсетей и т.д).
Скорее всего, они уже этим заняты. Осталось только подождать. Уж больно сегмент лакомный и динамичный.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Sergey написал:
[q]
Рано или поздно, сегментом анализа "соц.сетей" займутся монстры (поисковики, держатели контента соцсетей и т.д).
Скорее всего, они уже этим заняты. Осталось только подождать. Уж больно сегмент лакомный и динамичный.
[/q]

Тут есть, на мой взгляд, свои нюансы.

Во-первых, судебные процессы и скандалы, которые периодически возникают на темы обращения соцсетей (и производителей мобильных терминалов) с личными данными.

Во-вторых, каждая социальная сеть работает со своей базой данных, тогда как пользователю чаще всего нужны данные сводные. По этой причине, наличие интеграторов логично и в будущем. Интеграторы, кстати, обычно заключают договоры на право парсинга этих данных - обеспечивая тем самым дополнительный доход сетям, да и их продвижение.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

CI-KP написал:
[q]

По этой причине, наличие интеграторов логично и в будущем. Интеграторы, кстати, обычно заключают договоры на право парсинга этих данных - обеспечивая тем самым дополнительный доход сетям, да и их продвижение.
[/q]

Ту так поисковики и заключают договора с держателями контента сетей. Постоянно расширяя сервис аналитики и даже сами становятся соцсетями в одном из свои направлений развития.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Sergey написал:
[q]
Постоянно расширяя сервис аналитики
[/q]

И где у поисковиков сервис такой доступной для самостоятельной настройки заказчиком аналитики, при этом охватывающий и соцсети тоже?

Вот, Интегрум такое делает. Но не по соцсетям и не по поисковикам, а по СМИ. А поисковики разве тоже?

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

CI-KP написал:
[q]

Sergey написал:
[q]
Постоянно расширяя сервис аналитики
[/q]
И где у поисковиков сервис такой доступной для самостоятельной настройки заказчиком аналитики, при этом охватывающий и соцсети тоже?Вот, Интегрум такое делает. Но не по соцсетям и не по поисковикам, а по СМИ. А поисковики разве тоже?
[/q]

Эээээ.. я написал "займутся...Скорее всего, они уже этим заняты... подождем". Я не писал, что предоставляют уже в данный момент все и в полном объеме. Раз контент закупили, создали свои конкурирующие соц. сети... "значит это кому-то нужно" и стоит ждать продолжения.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Sergey написал:
[q]
Эээээ.. я написал "займутся...Скорее всего, они уже этим заняты... подождем". Я не писал, что предоставляют уже в данный момент все и в полном объеме. Раз контент закупили, создали свои конкурирующие соц. сети... "значит это кому-то нужно" и стоит ждать продолжения.
[/q]

Они все вот это же самое по СМИ сделали много лет назад. Так что, совсем не факт.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

CI-KP написал:
[q]

Sergey написал:
[q]
Эээээ.. я написал "займутся...Скорее всего, они уже этим заняты... подождем". Я не писал, что предоставляют уже в данный момент все и в полном объеме. Раз контент закупили, создали свои конкурирующие соц. сети... "значит это кому-то нужно" и стоит ждать продолжения.
[/q]
Они все вот это же самое по СМИ сделали много лет назад. Так что, совсем не факт.
[/q]


Скорее факт,чем не факт. Успешно используем Аналитика гугловского, к примеру. И развитие у него интенсивное. А чего не хватает, так они перекупают и прикручивают к своей линейке оперативно.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Sergey написал:
[q]
Успешно используем Аналитика гугловского, к примеру. И развитие у него интенсивное.
[/q]

А каким образом гугл-аналитикс позволяет отмониторить СМИ, включая те, которых нет в доступе у поисковиков?

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

CI-KP написал:
[q]

А каким образом гугл-аналитикс позволяет отмониторить СМИ, включая те, которых нет в доступе у поисковиков?
[/q]


Это был пример, что интерес есть. Для маркетинговых целей вполне достаточно. Речь о том, что вряд ли они на этом остановятся.
p.s.
ну уж у любого поисковика то охват СМИ поболее будет. Или я не понял вопроса, о ком речь, у кого охват выше, чем у поисковика.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Sergey написал:
[q]
ну уж у любого поисковика то охват СМИ поболее будет. Или я не понял вопроса, о ком речь, у кого охват выше, чем у поисковика.
[/q]

У Интегрума, например.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

CI-KP написал:
[q]

Sergey написал:
[q]
ну уж у любого поисковика то охват СМИ поболее будет. Или я не понял вопроса, о ком речь, у кого охват выше, чем у поисковика.
[/q]
У Интегрума, например.
[/q]


Охват СМИ больше ? Вряд ли.
Для обсуждаемых задач, все "иное", что у Интегрум - "фактографические базы" не годятся.

P.s.
а что там с SemanticForce, дали они какие-либо реальные материалы или доступ. А то у них на сайте только реклама.
Особенно "поразило" 250.00 сайтов мониторинга ???????

Справка.

Российские базы данных СМИ

* Медиалогия

Количество СМИ: 8 082 источника, включая ТВ, радио, газеты, журналы, глянец, информагентства, интернет, блоги.
30 000 объектов анализа: компании, персоны, бренды.
При обработке сообщений анализируется Индекс Информационного Благоприятствования (ИИБ) — показатель качества присутствия компании, бренда или персоны в СМИ.
Аналитический модуль для обработки и анализа сообщений СМИ является собственной разработкой компании «Медиалогия».

* Интегрум

Количество СМИ: 6 642 источника, включая ТВ, радио, прессу, информагентства, Интернет.
Собственная поисковая система «Артефакт».
Помимо СМИ есть доступ к справочникам компаний, каталогам промышленной продукции, библиотеке мировой литературы.

Зарубежные базы данных СМИ

* Factiva

Количество источников: 35 000 источников на 23 языках мира из 159 стран.
В базе имеются специализированные отчеты о деятельности компании, содержащие материалы более чем по 36,5 млн компаний, а также полную подборку информации Investext.

* LexisNexis

Состоит из нескольких баз данных, включая СМИ и правовые источники.
Количество источников: 45 000 источников во всех областях знаний.
hound
Гость

Ссылка

[q=Sergey]Охват СМИ больше ? Вряд ли.[/q]
В интегруме есть СМИ, которых вообще нет в интернете, и те СМИ, которые были, когда интернета еще не было.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Sergey написал:
[q]
а что там с SemanticForce, дали они какие-либо реальные материалы или доступ
[/q]

Нет, пока не дали. И на связь не вышли повторно.


Sergey написал:
[q]
Охват СМИ больше ? Вряд ли.
[/q]

Интегрум заключает прямые договоры с издательствами. В результате, у него есть те СМИ, которые вообще не имеют в интернете версий. Это первый момент.
Второй момент: многие материалы из Интернета уходят (или вообще, или в платные архивы самих СМИ) - соответственно, уходят и из индекса поисковиков. А у Интегрума база данных СМИ с 90 года.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

CI-KP написал:
[q]

Sergey написал:
[q]
Охват СМИ больше ? Вряд ли.
[/q]
Интегрум заключает прямые договоры с издательствами. В результате, у него есть те СМИ, которые вообще не имеют в интернете версий. Это первый момент.Второй момент: многие материалы из Интернета уходят (или вообще, или в платные архивы самих СМИ) - соответственно, уходят и из индекса поисковиков. А у Интегрума база данных СМИ с 90 года.
[/q]

Ну и что? У них этого эксклюзива больше чем у LexisNexis? Или того же Google ?
У меня вот так же пара старых газет дома есть. Но, если сравнивать их с Библиотекой Конгресса США или Национальной Британской Библиотекой, то это будет по крайней мере странно.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

hound написал:
[q]

Sergey написал:
[q]
Охват СМИ больше ? Вряд ли.
[/q]
В интегруме есть СМИ, которых вообще нет в интернете, и те СМИ, которые были, когда интернета еще не было.
[/q]

Для этого есть public.ru, к примеру.
hound
Гость

Ссылка

[q=Sergey]Для этого есть public.ru, к примеру. [/q]
Не пользовался, ничего сказать не могу.
А Интегрум не раз выручал.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Sergey написал:
[q]
Для этого есть public.ru, к примеру.
[/q]

Я слышал, что public.ru берет контент в Интегруме.


Sergey написал:
[q]
Ну и что? У них этого эксклюзива больше чем у LexisNexis? Или того же Google ?
[/q]

Объясните мне, пожалуйста, каким образом СМИ, не попадающее в Интернет, оказывается в Google.

Есть ли в LexisNexis газета "Волгодонский рабочий" я, честно говоря, не в курсе. А Вы?
Теоретически, мне кажется, что LexisNexis работает все же больше по иностранным источникам. А Интегрум - по русскоязычным.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

CI-KP написал:
[q]

Sergey написал:
[q]
Для этого есть public.ru, к примеру.
[/q]
Я слышал, что public.ru берет контент в Интегруме.
[/q]

Не знаю как сейчас. Раньше я с ними более плотно работал. Тогда они мне говорили, что "все сами". Были у них и интересные разработки по мониторингу.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

hound написал:
[q]

Sergey написал:
[q]
Для этого есть public.ru, к примеру.
[/q]
Не пользовался, ничего сказать не могу.А Интегрум не раз выручал.
[/q]

По СМИ или по "фактографическим базам" ?
hound
Гость

Ссылка

[q=Sergey]По СМИ или по "фактографическим базам" ? [/q]
Не совсем понял вопрос. Скажем так - для составления фактографической базы по данным СМИ.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

CI-KP написал:
[q]

Объясните мне, пожалуйста, каким образом СМИ, не попадающее в Интернет, оказывается в Google.Есть ли в LexisNexis газета "Волгодонский рабочий" я, честно говоря, не в курсе. А Вы?Теоретически, мне кажется, что LexisNexis работает все же больше по иностранным источникам. А Интегрум - по русскоязычным.
[/q]


По LexisNexis был классный специалист в Москве - Воронина. Говорят, что умерла. Я был на нескольких ее семинарах еще в конце 90-х.
Они работают не только по США, а по всему миру.
"каким образом СМИ, не попадающее в Интернет, оказывается в Google" ? - информация имеет свойство жидкости т.е. перетекает.
Ответ уже был на форуме, в частности вот так:
(сообщение Семеныча)
_ttp://forum.razved.info/index.php?t=2675
"Перетекая", информация дублируется по разным источниками и оседает там в архивах.
Вопрос вообще в степени востребованности этой информации.
Ну, вот у нас, к примеру, так же с 92 (точно уже и не помню) ведутся все архивы, включая и то, что нет в Интернет (большая ежегодная подписка на твердые копии). Но вот востребованность этого всего (древних материалов) - минимальна.
hound
Гость

Ссылка

[q=Sergey]Ну, вот у нас, к примеру, так же с 92 (точно уже и не помню) ведутся все архивы, включая и то, что нет в Интернет (большая ежегодная подписка на твердые копии). Но вот востребованность этого всего (древних материалов) - минимальна. [/q]
Ну вот например - выборы. Некий кандидат. А чем он занимался в начале 90-х? Может всплыть интересная инфа. Конечно, по закону он чист. Но общественное мнение и закон - совершенно разные вещи.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

hound написал:
[q]

Sergey написал:
[q]
Ну, вот у нас, к примеру, так же с 92 (точно уже и не помню) ведутся все архивы, включая и то, что нет в Интернет (большая ежегодная подписка на твердые копии). Но вот востребованность этого всего (древних материалов) - минимальна.
[/q]
Ну вот например - выборы. Некий кандидат. А чем он занимался в начале 90-х? Может всплыть интересная инфа. Конечно, по закону он чист. Но общественное мнение и закон - совершенно разные вещи.
[/q]

Уж поверьте, что в таких случаях "по кандидату" информация выворачивается из "первоисточников" в колоссальных объемах. А брать ее только из тырнета и СМИ- это профанация.
hound
Гость

Ссылка

[q=Sergey]Уж поверьте, что в таких случаях "по кандидату" информация выворачивается из "первоисточников" в колоссальных объемах. А брать ее только из тырнета и СМИ- это профанация. [/q]
Иформация берется отовсюду, в том числе из интернета и СМИ. Но, разумеется, не только из них. Я это не просто "думаю", я это знаю.
Но тут нужно учитывать одну важную вещь. Когда мы делаем какую-то информацию публичной впервые, то это может потребовать некоторых лишних усилий. Если же она уже была когда-то достоянием общественности - тогда много проще.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

hound написал:
[q]

Иформация берется отовсюду, в том числе из интернета и СМИ. Но, разумеется, не только из них. Я это не просто "думаю", я это знаю.Но тут нужно учитывать одну важную вещь. Когда мы делаем какую-то информацию публичной впервые, то это может потребовать некоторых лишних усилий. Если же она уже была когда-то достоянием общественности - тогда много проще.
[/q]

Ну, не знаю, не знаю... если вы именно так делаете, для своего заказчика, то....
Если бы мы принесли "материал" и сказали, что это всё спиз#$%но в тырнете и в газетах, то в лучшем случае получили бы "пинок под зад".
p.s.
информация из СМИ, в таких делах, берется из открытых источников только для затравки "расследования" т.е. набирается первичный пул информации справочного характера. Основная работа ведется совсем по другим материалам.
hound
Гость

Ссылка

[q=Sergey]Ну, не знаю, не знаю... если вы именно так делаете, для своего заказчика, то....Если бы мы принесли "материал" и сказали, что это всё спиз#$%но в тырнете и в газетах, то в лучшем случае получили бы "пинок под зад".p.s.информация из СМИ, в таких делах, берется из открытых источников только для затравки "расследования" т.е. набирается первичный пул информации справочного характера. Основная работа ведется совсем по другим материалам. [/q]
Повторю - не только из интернета и СМИ, но и из них тоже.
Кроме того, моя работа заключается не только в сборе информации, но и в ее использовании. И здесь информация, уже опубликованная в СМИ - большое подспорье. Конечно, можно сделать публичной и информацию, ранее не публиковавшуюся в СМИ. Но, как правило, это требует дополнительных усилий и расходов.
Впрочем, я не исключаю, что мы говорим о каких-то разных вещах.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010
Скорее всего -да. :hi:
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Sergey написал:
[q]
"каким образом СМИ, не попадающее в Интернет, оказывается в Google" ? - информация имеет свойство жидкости т.е. перетекает.
[/q]

Т.е., Google все же не имеет недоступной для всех открыто, но при этом предоставляемой за деньги или на каких-то еще условиях, отдельной базы данных?
Если так, что все, что убрано с сайта СМИ - исчезает и из кэша Гугла. Если же нечто вообще не появлялось в Интернете - то и в Гугле никак не появится.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
hound
Гость

Ссылка

[q=Sergey]Скорее всего -да. [/q]
Тогда я поясню, что я имею в виду. Судя по всему, недопонимание у нас идет в связи с различным использованием собранной информации. Мне ее так или иначе надо делать публичной, а Вам, видимо, нет.
Вот собран некий массив информации. Из разных источников. И ее надо сделать публичной. СМИ требуют указать источник информации. А я не могу это сделать по причинам, которые, полагаю, объяснять не надо. Конечно, это можно обойти - и я уже как-то описывал, как. Но это требует дополнительных усилий, и чаще всего - расходов.
Ну а если эта информация уже была публичной, пусть и всеми забыта - то просто ставишь ссылку на соответствующее СМИ и все, никаких проблем.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

CI-KP написал:
[q]

Sergey написал:
[q]
"каким образом СМИ, не попадающее в Интернет, оказывается в Google" ? - информация имеет свойство жидкости т.е. перетекает.
[/q]
Т.е., Google все же не имеет недоступной для всех открыто, но при этом предоставляемой за деньги или на каких-то еще условиях, отдельной базы данных?Если так, что все, что убрано с сайта СМИ - исчезает и из кэша Гугла. Если же нечто вообще не появлялось в Интернете - то и в Гугле никак не появится.
[/q]

Вы упустили свойство "текучести" информации. Где-то исчезает, где-то появляется... Естественно, что всегда в наличии отклонения от правил. Вопрос, на сколько важна эта информация, которая пропала из кэша. Актуальность этой информации ?????
Есть массовые "заказы", есть уникальные (такие, что Интегруму со своей начинкой статистики можно и не заморачиваться).
p.s. на Интегруме свет клином не сошелся.
Николаич
Модератор форума

Откуда: г. Ростов-на-Дону
Всего сообщений: 755
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
7 июня 2009

Sergey написал:
[q]
Основная работа ведется совсем по другим материалам.
[/q]

По каким, к примеру?
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Sergey написал:
[q]
p.s. на Интегруме свет клином не сошелся.
[/q]

Если бы был кто-то, на ком сошелся клином свет - только он бы на рынке и остался.
Еще раз, пожалуйста, и применительно только к СМИ: верно ли утверждение, что у Гугла не существует отдельной базы данных, которая показывается не всем, но может быть показана, скажем, в платном доступе?
Или же Вы говорите о том, что Гугл надо не забывать посмотреть в принципе - т.к. никогда неизвестно априои - появится там то, что надо или не появится?

Что касается массовых "заказов" - я с ними не знаком, т.к. занимаюсь исключительно "индивидуальным пошивом". Соответственно, и мой опыт - такого рода.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

hound написал:
[q]

Тогда я поясню, что я имею в виду. Судя по всему, недопонимание у нас идет в связи с различным использованием собранной информации. Мне ее так или иначе надо делать публичной, а Вам, видимо, нет.Вот собран некий массив информации. Из разных источников. И ее надо сделать публичной. СМИ требуют указать источник информации. А я не могу это сделать по причинам, которые, полагаю, объяснять не надо. Конечно, это можно обойти - и я уже как-то описывал, как. Но это требует дополнительных усилий, и чаще всего - расходов.Ну а если эта информация уже была публичной, пусть и всеми забыта - то просто ставишь ссылку на соответствующее СМИ и все, никаких проблем.
[/q]

Да, так делается часто.
В принципе, способов легализации много. Иногда, даже открывают отдельные ресурсы, иногда, размещая в раскрученных за плату.
Была интересная реальная ситуация. Размещаем информацию по "клиенту", естественно платим. "Клиенту" докладывают - наехали. Смотрим, статья исчезла. Узнаем в чем дело. Оказывается - заплатили за удаление. Опять платим, - появляется и т.д.
В принципе: информация уже выпущена и цепочка "текучести" запущена в т.ч. и на контролируемые ресурсы т.е. первичная ссылка на раскрученный ресурс уже есть.
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Sergey написал:
[q]
информация уже выпущена и цепочка "текучести" запущена
[/q]

Это как раз понятно. То, что делаем мы сами - проблем не создает, ибо нами спланировано и нами же осуществлено. Проблемы есть при первичном сборе - когда на самом деле нужна отсутствующая информация определенного рода.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
hound
Гость

Ссылка

[q=Sergey]Размещаем информацию по "клиенту", естественно платим. "Клиенту" докладывают - наехали. Смотрим, статья исчезла. Узнаем в чем дело. Оказывается - заплатили за удаление. Опять платим, - появляется и т.д.[/q]
Так бывает, чтобы поставили, а потом удалили. Крайне редко. А чтобы восстановили - не встречался. Наверное, совсем уж отстойный ресурс.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

CI-KP написал:
[q]

.Еще раз, пожалуйста, и применительно только к СМИ: верно ли утверждение, что у Гугла не существует отдельной базы данных, которая показывается не всем, но может быть показана, скажем, в платном доступе? Или же Вы говорите о том, что Гугл надо не забывать посмотреть в принципе - т.к. никогда неизвестно априои - появится там то, что надо или не появится?Что касается массовых "заказов" - я с ними не знаком, т.к. занимаюсь исключительно "индивидуальным пошивом". Соответственно, и мой опыт - такого рода.
[/q]

Не понимаю сути вопроса по некой не всем доступной базе Гугла.
а) не в курсе
б) я такого не говорил, возможно был не так понят где-то
в) а почему бы и нет, в принципе? Кто ж знает, что там еще есть?
Например в LN есть разнообразная куча всяких вкуснейших документов как по физ, так и по юрлицам.
Можно проследить лицо или фирму до отдельных документов личности, фискальным документам, различным частным справкам, отчетам и т.д.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

hound написал:
[q]

Sergey написал:
[q]
Размещаем информацию по "клиенту", естественно платим. "Клиенту" докладывают - наехали. Смотрим, статья исчезла. Узнаем в чем дело. Оказывается - заплатили за удаление. Опять платим, - появляется и т.д.
[/q]
Так бывает, чтобы поставили, а потом удалили. Крайне редко. А чтобы восстановили - не встречался. Наверное, совсем уж отстойный ресурс.
[/q]

Думается, вы на нем бывали и не раз. :hi:
"Жадность - это нашевсе" (с)
И всех делов то для админа - кнопку нажать, а платят и те и другие. Просто манна небесная. :)
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

CI-KP написал:
[q]

Проблемы есть при первичном сборе - когда на самом деле нужна отсутствующая информация определенного рода.
[/q]

Такая проблема бесспорна есть. Есть у всех. Это отрицать было бы абсурдно.
Но, первоначально, в данной теме разговор идет именно об открытых ресурсах.
Для чего все упорно сводится к иному - загадка. :hi:
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Sergey написал:
[q]
Не понимаю сути вопроса по некой не всем доступной базе Гугла.
[/q]

Я попробую пояснить - возможно, действительно мы говорим о разных вещах.

Я сказал о том, что даже самые качественные надстройки к поисковым машинам не могут "в моменте" полноценно закрыть потребность в информации. По той причине, что многие материалы либо исчезают из Интернета (не успев кем-то скопироваться), либо вообще никогда в него не попадали. И этот пробел закрывают базы данных СМИ - в частности, тот же Интегрум.

Я понял, что Вы не согласились. А значит (подумал я) Гугл все же где-то это все хранит и показывает кому-то. Если хранит то, что было доступно паукам Гугла, но потом исчезло - я еще могу понять, то где он берет то, что вообще не попадало в Интернет - мне уже непонятно.

А вообще вопрос про СМИ в этом контексте возник потому, что Вы сказали, что поисковики скоро по соцсетям будут делать все то же самое, что, скажем, тот же Айкубаз и иже с ним.
Просто как бы еще не успели.
Я же отметил, что по СМИ времени "успеть" было более, чем достаточно, однако там та же ситуация - далеко не всё по СМИ есть в поисковиках.



---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
hound
Гость

Ссылка

[q=Sergey]Думается, вы на нем бывали и не раз. "Жадность - это нашевсе" (с)И всех делов то для админа - кнопку нажать, а платят и те и другие. Просто манна небесная. :)[/q]
Не скажите.
Ресурсов для размещения много. Деньги каждый получить хочет. Так редко бывает, что договариваешься на размещение "на время", как правило - "навсегда". И если вдруг враги снимают - я на этот ресурс просто больше не приду. Повторю - ресурсов много. Я приду на другой - который не снимает.
В принципе, обычно несложно снять непроплаченный, самоходный материал. А проплаченный - трудно. И последнее время - чаще всего - невозможно.
Тех, которые снимают проплаченный материалы за деньги "с другой стороны" сейчас уже обходят стороной.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

CI-KP написал:
[q]

Sergey написал:
[q]
Не понимаю сути вопроса по некой не всем доступной базе Гугла.
[/q]
Я попробую пояснить - возможно, действительно мы говорим о разных вещах.Я сказал о том, что даже самые качественные надстройки к поисковым машинам не могут "в моменте" полноценно закрыть потребность в информации. По той причине, что многие материалы либо исчезают из Интернета (не успев кем-то скопироваться), либо вообще никогда в него не попадали. И этот пробел закрывают базы данных СМИ - в частности, тот же Интегрум.Я понял, что Вы не согласились. А значит (подумал я) Гугл все же где-то это все хранит и показывает кому-то. Если хранит то, что было доступно паукам Гугла, но потом исчезло - я еще могу понять, то где он берет то, что вообще не попадало в Интернет - мне уже непонятно.А вообще вопрос про СМИ в этом контексте возник потому, что Вы сказали, что поисковики скоро по соцсетям будут делать все то же самое, что, скажем, тот же Айкубаз и иже с ним.Просто как бы еще не успели.Я же отметил, что по СМИ времени "успеть" было более, чем достаточно, однако там та же ситуация - далеко не всё по СМИ есть в поисковиках.
[/q]


Теперь понятно. Но я не вижу противоречия. Есть тенденция к глобализации интересов ведущих игроков рынка.
Почему бы не допустить, что такой "вкусный" сегмент как социальные сети будет обыгран и скушан. Например, тем же Гуглом.
Тот же Facebook уже пытается конкурировать в поле поисковиков, а Гугл создает свою социальню сеть.... Более того, есть тенденция поглощения владельцами голубых фишек интересных решений и разработок. Кстати, достаточно обоюдовыгодный бизнес.
Можно пожелать только удачи разработчикам Iqbuzze в данном направлении.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

hound написал:
[q]

Не скажите.Ресурсов для размещения много. Деньги каждый получить хочет. Так редко бывает, что договариваешься на размещение "на время", как правило - "навсегда". И если вдруг враги снимают - я на этот ресурс просто больше не приду. Повторю - ресурсов много. Я приду на другой - который не снимает.В принципе, обычно несложно снять непроплаченный, самоходный материал. А проплаченный - трудно. И последнее время - чаще всего - невозможно.Тех, которые снимают проплаченный материалы за деньги "с другой стороны" сейчас уже обходят стороной.
[/q]

Логично.
Но, есть одно но.
Раскрученных ресурсов, резонансных в области публикации компромата не так уж и много. В описанном выше случае, изначально материал был размещен на ресурсах второго плана и был успешно "никем не замечен". А вот размещение на топовом дал результат на второй день.
И, даже если вы чем-то остались недовольны действиями администрации, когда нужно, вы опять пойдете к ним, а не к второплановым.
Это правила игры (а мы все в ней актеры). :hi:
hound
Гость

Ссылка

[q=Sergey]Раскрученных ресурсов, резонансных в области публикации компромата не так уж и много[/q]
Их несколько десятков.
[q=Sergey]И, даже если вы чем-то остались недовольны действиями администрации, когда нужно, вы опять пойдете к ним, а не к второплановым.[/q]
Я не пойду. Меня не устраивает ситуация "то потухнет, то погаснет". И очень, очень многих не устраивает. Скажу больше - у меня для себя есть "черный список", куда я не пойду по указанной причине.
Разумеется, Вы вольны поступать так, как считаете нужным.
Sergey
Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2


Ссылка


Дата регистрации на форуме:
9 июня 2010

hound написал:
[q]

]Я не пойду. Меня не устраивает ситуация "то потухнет, то погаснет". И очень, очень многих не устраивает. Скажу больше - у меня для себя есть "черный список", куда я не пойду по указанной причине.Разумеется, Вы вольны поступать так, как считаете нужным.
[/q]

Я(мы) никогда не размещаем лично. Только через журналистов или агентства. В принципе, никогда не говорится "вон там размести".
Тут два зайца убивается дуплетом.
Оговаривается уровень раскрученности ("круги по воде"), но и расходы, естественно.
hound
Гость

Ссылка

[q=Sergey]Я(мы) никогда не размещаем лично. Только через журналистов или агентства. В принципе, никогда не говорится "вон там размести". Тут два зайца убивается дуплетом.Оговаривается уровень раскрученности ("круги по воде"), но и расходы, естественно. [/q]
Понятно. Вы идете к таким, как я. Но тут же вопрос не в этом, а в том, устраивает или нет ситуация "мигания". Моих клиентов (и, соответственно, меня) она не устраивает.
Более того, у меня никогда не было клиента, которого бы устроила ситуация "мигания". Если враги материал снимают (бывает, нарываюсь) - клиент проявляет недовольство, и в общем, я его понимаю.
Семёныч
Модератор форума
Городской Охотник
Всего сообщений: 926
Рейтинг пользователя: 10


Ссылка


Дата регистрации на форуме:
8 июня 2009
Сервис Babkee теперь доступен бесплатно.
Сервис мониторинга социальных сетей Babkee представил бесплатный тариф.
Babkee - это профессиональный инструмент для систематического отслеживания упоминаний в социальных медиа (блогах, форумах, социальных сетях и т.п.). Система рассчитана на широкий круг пользователей: объектом исследования может стать любой человек, бренд, продукт, услуга или событие.
Остальное отсюда _ttp://internetno.net/category/anonsi/servis_babkee_teper_dostupen_besplatno/ по наводке Игоря Нежданова.

---
Нет такой безвыходной ситуации,в которую невозможно вляпаться... (с)
hound
Гость

Ссылка

[q=Семёныч] бесплатно. [/q]
Это слово меня всегда наводит на размышления. Вот почему-то внутренне оно мне не нравится. Может, я, конечно, и не прав.
Вот в свое время некоторые коллеги мне популярно объяснили, почему не следует пользоваться бесплатными анонимайзерами. То есть если уж очень нужно - лучше купить платный апонимайзер.
Семёныч
Модератор форума
Городской Охотник
Всего сообщений: 926
Рейтинг пользователя: 10


Ссылка


Дата регистрации на форуме:
8 июня 2009
А я думаю, что это такая завлекалка-замануха. Есть ведь бесплатные усечённые демоверсии программ. Я думаю, что и тут в бесплатном доступе будет много ограничений. Кто захочет полного сервиса, тот заплатит.

---
Нет такой безвыходной ситуации,в которую невозможно вляпаться... (с)
hound
Гость

Ссылка

Согласен, уважаемый Семеныч.
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

CI-KP написал:
[q]
Если посмотреть на фактуру этого топика, отбросив эмоции, то я бы, на данный момент, резюмировал так.

1. Айкубаз не может быть единственным средством мониторинга, т.к. он не работает с потоковой информацией, а анализирует массив, уже лежащий в его базе данных. Соответственно, скорость реагирования у него, теоретически, должна быть ниже, чем при непосредственном мониторинге потоков.

2. Айкубаз может быть средством раннего предупреждения о начале атаки - только в части фиксации факта повышения частоты упоминаний объекта.
Примерно так же, как "Пульс блогосферы" - в поиске по блогам Яндекса.
Скорость его при этом может уступать скорости реакции наблюдателя, ведущего мониторинг потоков, однако при постепенном повышении частоты упоминаний (глазом не улавливаемой) он, теоретически, может оказаться подспорьем для специалиста, ведущего мониторинг.

3. Айкубаз эффективен при анализе трендов на больших массивах текстовой информации. Для отдельных текстов он неприменим.

4. Айкубаз полезен, преимущественно, для оценки эмоционального отношения автора к конкретному объекту в тексте, а не для эмоциональной оценки "текста в целом".

5. Запрос в Айкубаз с настройками тональности "по умолчанию" обычно не позволяет брать результат в работу, но позволяет понять - как надо откорректировать настройки системы для конкретного случая.
Корректировка касается списка слов в словаре негатива/позитива, а также расстояния между объектом и эмоционально значимыми словами в тексте.
При правильно составленном запросе, Айкубаз позволяет получить результат, имеющий практическую ценность.


6. Для оценки динамики трендов, надо сначала выстроить запрос и получить "нулевую отметку" - т.е., "моментальную фотографию" информполя. Далее - смотреть отклонения относительно этой отметки. При этом, если произойдет принципиальное изменение аудитории, в которой проводится оценка - может понадобиться и корректировка запроса.

7. Технически невозможно на сегодняшний день получить стопроцентный результат в оценке чужих текстов. Это недоступно ни машине, ни человеку. При этом, человек уступает машине при анализе большого массива текстов, а машина проигрывает человеку при анализе конкретного текста.
Поэтому надо выбирать наиболее значимые для информполя источники и мониторить их вручную, а всю "массовку" отдать машине.

8. Ввиду сложности анализа эмоциональной составляющей текста, имеет смысл для ее анализа стараться выбрать "реперные слова", а также сокращать расстояние между объектом и негативом/позитивом в тексте. Это сыграет роль, близкую к роли фокус-группы.

9. Визуализация результата (не только негатива/позитива, но и таких важных моментов, как разбивка по источникам, а также частота употребления ключевых слов в массиве) - несомненно, является сильной стороной программ, подобных Айкубазу. Это человеку за разумные деньги и в разумные сроки неподвластно в принципе.
[/q]


С такими формулировками согласен.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5565
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Игорь Нежданов написал:
[q]
С такими формулировками согласен.
[/q]

Спасибо, Игорь. :hi:
Сделал апдейт в первый пост ветки.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Семёныч
Модератор форума
Городской Охотник
Всего сообщений: 926
Рейтинг пользователя: 10


Ссылка


Дата регистрации на форуме:
8 июня 2009
Вот так интеллекты, отбросив эмоции, пришли к консенсусу. Думаю, что данная ветка будет интересна не только разбором и анализом онлайн сервиса, но и кое-чем иным. :wink: Спасибо всем, мне было дико познавательно. :hi:

---
Нет такой безвыходной ситуации,в которую невозможно вляпаться... (с)
<<Назад  Вперед>>Страницы: 1 2 3 4 5 ... ... 11 12 13 14 15 16
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Софт для конкурентной разведки »   IQBuzz (Айкубаз). Автоматизация мониторинга и анализа.
RSS

Последние RSS
Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей

Самые активные 20 тем RSS