Версия для печати

-   Форум Сообщества Практиков Конкурентной разведки (СПКР) http://forum.razved.info/
--  Управление информационными потоками http://forum.razved.info//index.php?f=13
--- Феномен Больших Даных в политике, разведке и маркетинге http://forum.razved.info//index.php?t=4191




-- CI-KP написал 19 августа 2013 9:29
Феномен Больших Даных в политике, разведке и маркетинге

hrazvedka.ru/blog/anb-glazami-blondinki-post-krajnij-na-temnoj-storone-sily.html

Елена Ларина в материале: "АНБ глазами блондинки. Пост крайний. На темной стороне силы." (http://hrazvedka.ru/blog/anb-glazami-blondinki-post-krajnij-na-temnoj-storone-sily.html)

"...для Больших Данных важны не фамилия, имя, отчество человека и т.п., или как принято говорить – персональные данные, а набор признаков и характеристик этого человека, как некоей единицы, включаемой в ту или иную группу.

Один из мировых авторитетов в сфере теории сложности и синергетики Георгий Малинецкий недавно сказал, что только 23% данных носят осмысленный для человека характер и лишь 3% из них реально используются при решении тех или иных практических задач. Самое главное в этих цифрах состоит в том, что человек думает, а машина считает. Соответственно, информация, бросовая для человека оказывается вполне пригодной для машины. Большие Данные включают не три, и даже не двадцать три процента, а с гораздо большую долю структурированной и неструктурированной информации. По оценке экспертов IBM она в настоящее время доходит до 50%, а в перспективе возрастет до 75%.

Что могут дать Большие Данные? Приведу только один хрестоматийный пример. Крупная американская торговая компания Target сформировала огромную базу данных покупателей и покупок . Аналитики компании выделили часть базы со списком покупательниц, о которых известно, что у них уже родился ребёнок, и стали изучать, чем отличаются покупки, которые они делали до беременности, от покупок во время вынашивания ребёнка.

Оказалось, что в первые двадцать недель беременности многие покупают минеральные пищевые добавки. Другой признак: они начинают приобретать вату и мыло без запаха в куда больших количествах, чем прежде. Если несколько подобных признаков совпадает, то вероятность того, что покупательница беременна, очень велика. А значит, можно бомбардировать её рекламой и скидочными купонами на товары для новорождённых.

Точность метода оказалась настолько высокой, что едва не привела к скандалу. Компания стала получать жалобы от обескураженных родителей, не понимающих, почему магазин предлагает их несовершеннолетним дочерям скидки на пелёнки и кроватки для грудничнов. Оказалось, что алгоритм Target заметил беременность раньше родственников.

В АНБ на сегодняшний день сформированы аналитические алгоритмы и написаны программы, позволяющие осуществлять анализ и прогноз в самых различных сферах и видах деятельности для различных стран, социальных и этнических групп и т.п. По сути АНБ представляет собой сегодня Базу Баз Больших Данных с соответствующими программными средствами ее переработки. Именно для этого сейчас в Юте заканчивается строительство огромного Data Центра. Именно поэтому, несмотря на все разоблачения Сноудена, Американский Конгресс при всей непростой финансовой ситуации США беспрекословно финансирует программы АНБ, а Барак Обама готов защищать АНБ от любой критики с совершенно неординарной жесткостью.

Хорошо известно, что маркетинг, в конечном счете, представляет собой методы принуждения к потреблению. Иными словами, современный, привычный для жителей разных стран мира маркетинг – это не что иное, как программирование их поведения. Большие Данные позволяют осуществлять это программирование с невиданной прежде эффективностью. Кроме того, они дают возможность расширить сферу программирования поведения с потребительской сферы на любые другие.

Представляется, что перспективная ключевая задача экосистемы АНБ – это отнюдь не индивидуальная слежка за пользователями интернета. Это слишком мелко для многомиллиардных расходов. Задача стоит гораздо более масштабная. Крупнейшая в мире фабрика по обработке Больших Данных является одним из двух важнейших элементов создания системы управления поведением сколько угодно больших групп населения самых различных стран мира".


-- ПростоТихонов написал 20 августа 2013 11:43
Позволю себе ответить госпоже Лариной.

Возможно я ошибаюсь, но за перечисленными ужасающими откровениями стоит стандартный курс теория вероятности и математическая статистика, в частности понятие "связь по среднему значению", т.е. корреляция. Сие изучается в технических ВУЗах где-то максимум на третьем курсе.

Для всех прочих заинтересованных граждан предлагаю вот такую цитату (для простоты понимания):

Значительная корреляция между двумя случайными величинами всегда является свидетельством существования некоторой статистической связи в данной выборке, но эта связь не обязательно должна наблюдаться для другой выборки и иметь причинно-следственный характер. Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи. Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанес пожар, и количеством пожарных, участвовавших в ликвидации пожара, причём эта корреляция будет положительной. Из этого, однако, не следует вывод «бо́льшее количество пожарных приводит к бо́льшему ущербу», и тем более не имеет смысла попытка минимизировать ущерб от пожаров путем ликвидации пожарных бригад.[5] В то же время, отсутствие корреляции между двумя величинами ещё не значит, что между ними нет никакой связи. (Википедия)


-- Sergey написал 20 августа 2013 11:46
Вы, наверное, имели ввиду закон Больших чисел Чебышева?


-- CI-KP написал 20 августа 2013 11:55

ПростоТихонов написал:
[q]
Возможно я ошибаюсь, но за перечисленными ужасающими откровениями стоит стандартный курс теория вероятности и математическая статистика, в частности понятие "связь по среднему значению", т.е. корреляция. Сие изучается в технических ВУЗах где-то максимум на третьем курсе.
[/q]

Булева алгебра появилась чуть ли не в 19-м веке. Но до изобретения компьютеров оставалась уделом математиков-теоретиков и практического значения не имела.

Как было написано в одном учебнике по кибернетике, компьютер может ровно то же самое, что может человек с карандашом, тетрадкой и логарифмической линейкой. Разница - в скорости и точности.

Все программирование основано, по сути, на математике, которой уже не один век. Но появление компьютеров позволило обрабатывать этими алгоритмами массивы данных с такой скоростью, что они не успевают за время обработки утратить свою актуальность. А появление интернета позволило сделать наполнение этих массивов автоматическим.
А появление в интернете соцсетей позволило оперативно устанавливать не только взаимосвязи между людьми (что делалось ранее при вводе данных из телефонных книжек задержанных, а еще ранее - на листочке ручкой), но и улавливать изменение общественного мнения.

Так что откровения очень даже есть. Примерно как между "Знать о Луне", "Видеть Луну" и "Летать на Луну на обед".


-- Elena_Larina написал 20 августа 2013 23:13
ПростоТихонов написал:
[q]
Возможно я ошибаюсь
[/q]


Ошибаетесь не возможно, а точно. Для начала, корреляция, как известно опять же из института ничего не говорит о причинно-следственных связях, а лишь о степени согласованности изменения переменных. Я уже не говорю о том, что все давно знают, что для социальных систем в большинстве случаев действует не гаусово распределение, т.е. по среднему значению, а так называемое распределение Ципфа-Парето. Но дело даже не в этом. Конечно, аппарат мат.статистики там используется. Но не он является главным. На первых ролях такие разделы математики, а соответственно, и построенные на их основе алгоритмы, как теория распознавания образов, нейронные сети, нечеткие вычисления и много чего другого. Конечно, можно сказать, что в конечном счете все это - математика. Но, кстати, интересно, что наиболее продвинутые программы в области интеллектуального анализа Больших Данных используют не привычную математику, базирующуюся на теории множеств, которой посвятили свои тома "Оснований математики" Н.Бурбаки (псевдоним), а на теории категорий и функторов. Вот такие дела.


-- ПростоТихонов написал 21 августа 2013 0:28
Человеку свойственно ошибаться.

Последние 20 с лишком лет я не имел возможности использовать математический аппарат, так что увы. Однако у меня есть свои (возможно ошибочные) выводы из своих же (возможно неполных наблюдений).

А также остатки "школы". Азы. Я, знаете ли , с 4-го класса в спецшколу ходил, где учились по "нештатным" учебникам одного известного академика.
В той среде (преподавателей, лаборантов и тп) фразы все давно знают, что... вызывали презрительные ухмылки. Это как в театр прийти в тренировочном костюме. Если человеку надо объяснять, почему нельзя ходить в театр в трениках, то лучше этот занимательный процесс и вовсе оставить. Можно ходить. Будьте счастливы в своих фиолетовых адидасах.

Это первое наблюдение.

Второе наблюдение - многие "прорывные" современные теории, по идее базирующиеся на точных науках, заполняют недостаток аргументации вот этим самым "все давно знают". Потому как к точным наукам они имеют весьма опосредованное отношение. Задача другая.Соизмеримая с "попилить бабало". Если угодно -сформировать рынок. На фоне массовой дебилизации, снижения качества образования и всеобщей профанации это проходит на ура.

Я как-то наблюдал процесс втюхивание некой концепции "6 сигма". С пресловутым "все уже давно" само собой. В процессе усвоения сего секретного знания я уловил нечто знакомое - ба! да это популярное изложение ТСАУ (теория систем автоматического управления) в варианте "изложение для учащихся 5-6-х классов сельской школы". С чистой совестью и пламенным взглядом гражданин выдавал идею авт управления с отрицательной обратной связью за последнее ноухау западной научной мысли. будучи при этом выпускником устьзвездюйского университета по специальности "менеджмент". Это конечно гротеск. Хотя и правда. Но таки вижу я отблески этого подхода, вижу.

Звиняйте убогого, ежели на святыни посягнул.


-- CI-KP написал 21 августа 2013 1:21

ПростоТихонов написал:
[q]
фразы все давно знают, что... вызывали презрительные ухмылки.
[/q]

Замечу, что описанная Вами презрительная ухмылка - ровно тот же стереотип, что и "все давно знают". Просто для другого сообщества - считающего себя (и даже, возможно, не без оснований) отличающимся от общей популяции в лучшую сторону. Ведь это ситуация, когда "Все давно знают, что фраза "все давно знают" должна вызвать презрительную ухмылку" :)

На мой взгляд, тут положение вещей похоже на таковое при "невербальном языке". Когда там написано, что при лжи люди почесывают нос - это не значит, что ВСЕ и ВСЕГДА делают так. Это значит лишь, что вранье ЧАСТО сопровождается почесыванием носа, но вообще-то "все давно знают" (проверив на себе, например), что нос может чесаться и без вранья, а отдельные уникумы умеют врать не только не краснея, но и не почесывая носа.


-- Игорь Нежданов написал 21 августа 2013 8:59
Есть еще один аспект этого вопроса. "Все давно знают" но мало кто сумел реализовать. По пальцам можно пересчитать. И тут важно увидеть, что Знания без реализации становятся не балластом конечно - ни в коем случае, но и не инструментом.

Вот к примеру из наиболее близких мне областей - все давно знают о том, что визуализация связей есть не плохой способ анализа определенных ситуаций (объектов) с определенной же долей упрощения. Но от чего так не много хорошего и доступного софта? Нет - софта реализующего сей инструмент - в достатке, а вот толкового, а тем паче доступного - мало. Еще пример - все давно знают как проводить структурирование информации, а вот с инструментарием опять не задача. И еще - судя по активному распространению информации о Сноудене и АНБ все давно знают, что трындеть в интернете нужно осторожно, но ведь трындят, в том числе и те, кто давно знает. Ну и до кучи - по моему личному мнению (подчеркиваю это) все давно знают как ведутся информационные войны и алгоритмы эти достаточно просты (если немного напрячься) и вполне перекладываются в логику программ. Тем ни менее я пока слышал только об одной такой полноценной реализации (у Дарпы). А ведь все давно знают. Это натолкнуло на мысль о создании аналога, который мы уже практически сверстали (это в качестве саморекламы).

Поэтому "все давно знают", а тем более с ограничением по узкому кругу посвященных, совсем не означает, что это известно действительно всем.


-- Искендер написал 21 августа 2013 11:28

Elena_Larina написал:
[q]
все давно знают, что для социальных систем в большинстве случаев действует не гаусово распределение, т.е. по среднему значению, а так называемое распределение Ципфа-Парето
[/q]



Elena_Larina написал:
[q]
естественные процессы подчинены Гаусовому распределению, и соответственно, на них построена статистика, а социальные процессы описываются распределением Лотки-Парето
[/q]


Так "Ципфа-Парето" или "Лотки-Парето"?


-- ПростоТихонов написал 21 августа 2013 12:19
Попробую пояснить по поводу стереотипов.

Оно конечно верно, но не совсем.

Вот человек говорил на форуме про "спусковой курок". И ругался типа да идите вы. умные, сходите на стрельбище, там все так говорят.

Как бы многим стало ясно многое. Просто прохождение определенного этапа "формирования мозгов" создает - да, да- стереотип. Практически неизбежно, за очень редким исключением. Да какая разница как назвать эту фиговину? По большому счету никакого. Просто означает. что формирование мозгов шло неким иным путем и все. Скорее всего. И ежели в рамках этого процесса человек обучился сам не отстреливать себе иайца случайным выстрелом да еще попадать в копеечку на бегу... Ну, молодец. Талант.

Но не везде это так все просто. Не во всех сферах.

Человек, сформированный точными науками в плане стиля мышления,в обсуждаемых раскладах сказал бы скорее всего "как правило используется для расчета" или "принято считать" и определили бы пределы применимости модели. Потому что "социальные системы" это простите.... эээ... короче не точное это понятие. Мужик подбрасывает монетку орел-решка. Это социальная система или какая? Как определили? Два мужика играют в орлянку, один пытается жульничать, а трое наблюдают, кого побить. Это социальная система или нет? Как определили? Вот такие вот пассажи свойственны экономистам, которые тоже чего-то вроде рассчитывают, но пробелы в формальной логике заполняют при этом "все знают" или "известный на западе и популярный в России такой-то сказал".
В математике есть аксиомы, без этого никак. А все прочие доказывается - при этом наглядно и по шагам. Любой может изучить и повторить доказательство, допустим теоремы, которое сделано уже. Имея. конечно, соответствующую подготовку.И никакие инструментарии и новые технологии этого подхода заменить не могут.


-- ПростоТихонов написал 21 августа 2013 13:10

Искендер написал:
[q]
Так "Ципфа-Парето" или "Лотки-Парето"?
[/q]


См -ttp://quantmagic.narod.ru/volumes/VOL412007/p1201.html

Я бы всем порекомендовал ознакомиться. Хотя бы первых 3 абзаца - чтоб посмотреть на то, что "все знают".

И закон Парето заодно. Который закон только в кавычках. Это эмпирическое правило, имеющее дофига исключений, которые каждый может сам у себя в личном опыте найти. Да им легко умничать, объясняя все подряд. И очень часто вполне достоверно. Закон Парето, иобтыть, че не понятно? Но не более того. И все остальное в том же духе. Гениально, но очень криво. Если бы самолеты делали или атомные станции такие же специалисты, проблема перенаселения давно бы сошла на нет без войн и катаклизмов.


-- Искендер написал 21 августа 2013 13:52

ПростоТихонов написал:
[q]
См -ttp://quantmagic.narod.ru/volumes/VOL412007/p1201.html
[/q]

Да я, так-то, маленько в курсе, ага.

Просто, Уважаемая Елена в одном случае использует одно, в другом - другое. Хотелось бы понять - почему. Особенно, когда устойчивое сочетание "распределение Ципфа-Парето" ещё встречается (https://www.google.ru/search?q=%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5+%D0%A6%D0%B8%D0%BF%D1%84%D0%B0-%D0%9F%D0%B0%D1%80%D0%B5%D1%82%D0%BE&ie=utf-8&oe=utf-8&rls=org.mozilla:ru:official&client=firefox-a&gws_rd=cr#fp=4823ff53236cf946&newwindow=1&q=%22%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5+%D0%A6%D0%B8%D0%BF%D1%84%D0%B0-%D0%9F%D0%B0%D1%80%D0%B5%D1%82%D0%BE%22&rls=org.mozilla:ru%3Aofficial) (хотя, как видно по результатам выдачи - крайне мало встречается), а вот "распределение Лотки-Парето" - вообще нет (https://www.google.ru/search?q=%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5+%D0%9B%D0%BE%D1%82%D0%BA%D0%B8-%D0%9F%D0%B0%D1%80%D0%B5%D1%82%D0%BE&ie=utf-8&oe=utf-8&rls=org.mozilla:ru:official&client=firefox-a&gws_rd=cr#fp=4823ff53236cf946&newwindow=1&q=%22%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5+%D0%9B%D0%BE%D1%82%D0%BA%D0%B8-%D0%9F%D0%B0%D1%80%D0%B5%D1%82%D0%BE%22&rls=org.mozilla:ru%3Aofficial).

Когда речь идет о каких-то фундаментальных законах или принципах (а "закон для социальных систем", несомненно, будет фундаментальным), то надо бы понимать суть и смысл этого закона. Проще говоря - иметь его четкое определение. Уж не говоря о том, что это должно быть устоявшимся. Вот "гауссово распределение" - с ним все понятно. "Принцип Парето"... тут оно все несколько сложнее выходит. Ципф, если мне память не изменяет, развивая соображения Парето выходил и на пропорции 20/80, и на 30/70... Т.е., можно уверенно говорить о принципе дисбаланса в распределении, но "поверить алгеброй" - не выходит, разные результаты на выходе. А так-то, "Принцип Парето" людям известен давно и формулируется: "Нет в мире справедливости". Лотка (опять же, все по памяти и если не прав - поправьте) в своих изысканиях, так и вовсе весьма вольно обращался с данными - если что не укладывалось в его формулы (а он пытался вывести закономерность в публикациях ученых) просто отбрасывал, как погрешность. Вот Эйлер, например, в схему Лотки не уложился. Я, конечно, не великий спец в математике, но она, вроде, наука точная, должна учитывать все факторы и на выходе получать стабильный и проверяемый результат? Или нет?


-- Игорь Нежданов написал 21 августа 2013 18:16
Видимо мы говорим о разном или на разных языках.


ПростоТихонов написал:
[q]
...за перечисленными ужасающими откровениями стоит стандартный курс теория вероятности и математическая статистика, в частности понятие "связь по среднему значению", т.е. корреляция. Сие изучается в технических ВУЗах где-то максимум на третьем курсе....
[/q]

Да - речь о статистике, корреляции, теории вероятности, и об этом знает много людей (но далеко не все).

Тем ни менее применение этих методов на действительно больших данных сопряжено с целым набором сложностей, преодолеть которые удается далеко не всем и не во всех случаях. Видимо по этой причине как то не получилось создать подобную систему в других местах нашей планеты. Но над этим работают.

Мало того, данная площадка (форум) ориентирована и на начинающих, которые не в курсе, да и сайт Елены не ограничивает аудиторию академическими кругами. А для начинающих, для ищущих новые знания это может стать откровением. Ведь далеко не все из них выходцы из среды преподавателей и лаборантов.


-- ПростоТихонов написал 21 августа 2013 18:38

Игорь Нежданов написал:
[q]
Ведь далеко не все из них выходцы из среды преподавателей и лаборантов. ---
[/q]


Во во. Для них и стараюсь. Чтоб не велись на "все давно знают"


-- Игорь Нежданов написал 21 августа 2013 18:44

ПростоТихонов написал:
[q]
Во во. Для них и стараюсь. Чтоб не велись на "все давно знают"
[/q]

А... вот теперь осознал.


-- Elena_Larina написал 21 августа 2013 21:29
Гаусово распределение столь же эмпирично, как и распределение Парето, Лотки, Ципфа, Мальдельброта и т.п. Опять же эмпирически, на огромном массиве установлено, что в социальных системах более часто встречается негаусово распределение. Негаусово распределение называется по-разному, поскольку было открыто разными людьми применительно к разным сферам деятельности. Распределение Парето, Ципфа, Лотки и проч. - это различные виды негаусовых распределений. Так что речь идет об одном и том же. Кто глубже хочет познакомиться с этой темой, советую работу С.Хайтуна "Количественный анализ социальных явлений: проблемы и перспективы". Он является признанным и у нас и за рубежом специалистом именно по этому вопросу.


-- Elena_Larina написал 21 августа 2013 21:53
Я все-таки настаиваю, что интеллектуальный анализ данных не сводится исключительно к статистическим методам. Гораздо большую роль там играют такие инструменты, как распознавание образов (кстати, разработанные в основном в МГУ школой Гельфанда), анализ грязных цифровых данных и неколичественная статистика (в России это академик Журавлев и профессор Орлов), нейронные сети и нечеткие вычисления. И это еще не все. А сводить все большие данные к статистике - это мягко говоря, неправильно.


-- CI-KP написал 21 августа 2013 22:15
Обсуждение закрыто. На то есть причины. Тема оставлена в общем доступе исключительно для ознакомления желающих с фактурой, изложенной в ней.


Этот форум работает на скрипте Intellect Board
© 2004-2007, 4X_Pro, Объединенный Открытый Проект