КОГНИТИВИСТИдейное ядро²Узелки на распутку
Узел 1. Причина степенных распределений
Прологи: наука о сознании становится точной
Манифест когнитивиста
.
Узелки на распутку
Узел 1. Причина степенных распределений
.
Узел 2. Опус о числах и формах
.
Прологи
.
Степенные законы, распределения Парето и закон Зипфа
.
Когнитивный уровень
.
Мерцающие зоны
.
Органическая логика: резюме
Карта органической логики
.
Хвост ящерки. Метафизика метафоры.
.
Опус 1/F
.
Anschauung, научный метод Гёте
.
Закон серийности Пауля Каммерера
.
Ранние признаки критических переходов
.
Слабые сигналы
.
Меметика
.
Системный анализ и чувствительные точки
.
Спиральная динамика
.
Узел 1. Причина степенных распределений
 
Роман Уфимцев
24 мая 2014 года, Калининград
Это сравнение пришло автору в голову, когда однажды ранней весной, набрав воды в лесном роднике, он заметил двух косуль, неспешно переходящих ручей. Изящные, небольшие животные были еще покрыты серой зимней шерстью, так что почти сливались с весенним пейзажем. И только снежно-белые пучки шерсти на их задах ярко выделялись из серо-бурого окружения.
Одна косуля следовала за другой на некотором расстоянии, и предназначение белых пятен на их задах не вызывало сомнений - они позволяют ведомой косуле хорошо видеть ведущую в любых зарослях.
Если сравнивать исследователей, занимающихся развитием новой науки с косулями, то роль белых пятен на задах играют степенные распределения. Внимание к степенным распределениям, их загадочной и необъяснимой распространенности, к возможным механизмам их развития, служит маяком, позволяющим среди информационных зарослей идентифицировать исследователей, вплотную подошедших к пока запертым вратам новой науки - хотя многие из них об этом не догадываются.
Итак, что такого особенного в степенных распределениях?
Это очень большая и интересная тема, которой мы уже уделили очень много внимания в "Прологах" (подготовленным читателям можно также порекомендовать хорошую обзорную статью Ньюмана). Интригу степенных распределений можно раскрывать разными способами, но в контексте этого разговора будет полезно сперва поговорить о распределениях вообще.
Статистический ландшафт
Любая наблюдаемая вещь или явление в мире распределено, "размазано" в пространстве и во времени. В эмпирическом мире не существует предметов, имеющих нулевой размер, и любое событие имеет не-нулевую длительность. Когда мы от единичных вещей или событий обращаемся к их совокупностям, кроме пространственной и временной индивидуальной "размазанности" появляется и коллективная - множество вещей так или иначе распределяются в пространстве, а множество событий - во времени.
Далее, каждая вещь или событие в коллективе может характеризоваться некоторыми дополнительными наблюдаемыми и измеримыми параметрами. Например, говоря о "коллективе" картофелин в мешке такими параметрами может быть вес, размер, цвет и т.д. (Естественно, что пространственное местоположение каждой картофелины также является наблюдаемым и измеримым коллективным параметром.)
Таким образом, каждое коллективное явление (а даже единичные вещи и события можно представить как коллективные - разбив их на пространственные или временные ячейки) можно характеризовать некоторой совокупностью распределений. Мешок картошки мы могли бы характеризовать распределением картофелин по весу, размеру, местоположению и т.д. Уместно назвать эту совокупность распределений статистическим ландшафтом явления.
Веками статистический ландшафт явлений не привлекал внимания естествоиспытателей. Они искали законы природы, которые диктуют некоторое конкретное значение каждому параметру явления в каждый момент времени. Законы Кеплера и Ньютона, электродинамика Максвелла и Фарадея - в них нет места никаким распределениям и никакой статистике. Флуктуации опытных результатов списывались на случайные помехи, несущественные для сути явлений.
Ситуация начала меняться с развитием статистической физики, которая впервые ввела случай в ранг закона природы. С тех пор началось бурное развитие средств математического анализа распределений и внимание науки стало обращаться к статистическому ландшафту.
Сегодня курсы статистики и теории вероятностей стали неотъемлемой частью хорошего образования. Не удивительно, что нынешние естественнонаучные работы наполнены статистическими выкладками и картинками опытных распределений - и этим они существенно отличаются от научных работ вековой давности. Однако, создается впечатление, что далеко не все исследователи действительно понимают, зачем нужна вся эта статистика. (Не удивительно, что вне научного сообщества и вовсе царит статистическая наивность - так, автора не перестают смешить регулярные отчеты правоохранительных органов о "росте среднего размера взятки". Истина в том, что никакого "среднего размера взятки" не существует вовсе - чем больше выявленных случаев взяточничества, тем больше будет их "средний размер". Сообщая о росте среднего размера, правоохранители рассказывают не о тревожных изменениях в обществе, а о том, что они начали лучше работать. Так что большую тревогу вызвало бы сообщение о том, что средний размер взятки начал снижаться.)
Анализ статистического ландшафта нужен вовсе не для того, чтобы в разбросах опытных результатов вычислить "правильное" значение исследуемого параметра. Форма распределений, сопровождающих исследуемый феномен, несет информацию о возможных механизмах, которые им управляют, об его причинах, и понимание этого обстоятельства - отличительная черта современного исследователя.
Обратим внимание, что мы различаем тут возможные механизмы и причины явлений. Это не какое-то казуистическое различие. Механизм явления - это то, как оно организовано, а причина - почему оно такое какое есть. Как мы далее увидим, говоря о распределениях, эти вопросы имеют совершенно разные ответы, причем найти ответ на второй вопрос гораздо труднее.
Мир богат и разнообразен, и также разнообразны распределения, которые можно наблюдать в тех или иных явлениях. Тем не менее, два класса распределений очевидно выделяются из всего многообразия. Условно их можно назвать экспоненциальным и степенным классами. Если все пестрое и бесконечное разнообразие наблюдаемых распределений сравнить с цветовой гаммой, то эти два класса играют роль белого и черного цвета - самых простых, самых фундаментальных цветов, предстоящих всем остальным.
Чем же особенны эти классы и почему мы наделяем их такой ролью? Тут удобнее обратиться к конкретике. Мы начнем с исторически первого изученного класса - с экспоненциального.
Экспоненциальный (комбинаторный) класс
Его ярчайшими представителями являются 1) нормальное распределение (или распределение Гаусса), а также его дискретный аналог - биномиальное распределение, включая его предельный случай, распределение Пуассона, и 2) собственно экспоненциальное распределение и его дискретный аналог - геометрическое распределение.
Эти распределения не только исторически были первыми исследованными математически (открытое Бернулли биномиальное распределение легло в основания теории вероятностей, а нормальное распределение стало первым исследованным непрерывным распределением - его изучил Гаусс под названием "закон ошибок"), но и до сих пор являются самыми "популярными". Под "популярностью" мы имеем в виду вот что: если мы знаем, что некоторая величина или параметр явления склонен иметь некоторое конкретное, обычно не-нулевое значение, то наиболее простой и во многих случаях подтверждающейся гипотезой является гипотеза о том, что этот параметр имеет нормальное распределение. Аналогично, если мы знаем, что некоторый параметр явления склонен чаще принимать малые значения, нежели большие, то самой простой и часто оправдывающейся гипотезой является предположение, что этот параметр отвечает экспоненциальному распределению.
1) экспоненциальное и 2) нормальное распределение.
Например, созерцая мешок картошки, резонно предположить, что вес картофелин склонен принимать некоторое среднее значение. Можно предположить, что распределение картофелин по весу близко к нормальному распределению - и это вроде бы подтверждается опытными данными:
Но подтверждается ли? Хотя точная форма нормального распределения неплохо совпадает с опытными данными, совпадение не идеально - да и не может быть идеальным, ведь мы имеем дело с живой реальностью. Мы можем уточнить опытное распределение, подсчитав вес картофелин не в одном, а в десяти мешках и тогда случайные отклонения станут меньше. Тогда степень совпадения станет яснее. Однако, дело даже не в этом. Нормальное распределение отвечает уравнению
и имеет характерный колоколообразный вид, при этом параметр μ управляет положением вершины колокола по оси X, а параметр σ - шириной, размазанностью колокола. Но эта математическая функция - далеко не единственная, которая обладает такого рода колоколообразной формой. И на основе функций, имеющих схожую форму могут быть учреждены совершенно другие в математическом смысле распределения. Например, тут мы могли бы использовать вместо нормального логистическое распределение, которое даже проще в математическом отношении - и наши "картофельные" данные совпали бы с ним не хуже. Или мы могли бы попробовать более экзотическое распределение Коши, и т.д.
И тем не менее, в качестве главной гипотезы разумно избрать именно нормальное распределение, не взирая на более удобные в математическом смысле альтернативы. Причина в том, что механизм развития нормального распределения выглядит фундаментально просто и элегантно, чего нельзя сказать об упомянутых альтернативах.
Пусть мы имеем картофельное поле, на котором кружками отмечены области, соответствующие "ресурсной базе" той или иной растущей картофелины. Попадающие в эти области минеральные вещества и солнечная энергия обеспечивают прибавку веса соответствующей картофелины. Начнем совершенно случайно распределять по полю частицы минеральных веществ и энергии:
В этих условиях - если вклад отдельной частицы мал и всего их достаточно много - распределение картофелин по весу окажется нормальным.
Как видим, механизм - то есть, алгоритм или модель, объясняющая как развивается нормальное распределение - действительно очень прост. Его простота заключается в минимальном числе необходимых условий: нам нужно только одинакового размера ресурсные базы и совершенно случайное распределение ресурсов по пространству. Эта простота обеспечивает универсальность механизма - мы можем предполагать его действие во многих и многих случаях, когда явление демонстрирует колоколообразные распределения.
Обратим внимание на два важных момента. Во-первых, нормальное распределение выглядит тут результатом действия элементарных комбинаторных факторов, совершенно не зависящих от природы явления. "Ресурсные базы" могут представлять собой что угодно. "Частицы ресурсов" - тоже. Поэтому этот механизм должен универсально присутствовать и в физических явлениях, и в биологических, и в социальных. Вот почему сталкиваясь с колоколообразным распределением разумно принять первой гипотезой его нормальность.
Во-вторых, наверняка можно придумать и более сложные механизмы развития нормального распределения, и в этом есть некоторая проблема. Предположим, мы захотели найти механизм возникновения аризонского кратера. Как он появился? У нас есть две версии. В соответствии с первой, этот кратер возник в результате падения на Землю огромного метеорита. Это маловероятное событие, но все же. Вторая версия - в древности на нашу планету высадилась инопланетная бригада со спецтехникой и выкопала кратер.
Можно насмехаться над второй версией, но в действительности мы ее не можем отбросить совершенно. Хотя прибытие на Землю метеорита кажется более правдоподобным вариантом, нежели прибытие инопланетян, эта правдоподобность ненадежна. Да, в этих условиях полезно руководствоваться бритвой Оккама и выбирать самый простой вариант - в данном случае это метеорит. Тем не менее, часто мы не можем быть уверены до конца в том, какой именно механизм порождает явление, глядя лишь на результат - на кратер или на опытное распределение. Мы не можем дать однозначный ответ на вопрос "как".
К счастью, неоднозначность в вопросе "как" не мешает однозначно ответить на гораздо более важный вопрос "почему" - и об этом мы будем говорить далее.
Близкий родственник нормального распределения - экспоненциальное:
Их связь удобно проиллюстрировать моделью "блох и табакерок", которая обсуждалась в одном из "Прологов". Возьмем множество пустых табакерок и напустим на них целую стаю дрессированных блох (бррр!). Блохи хаотически, случайно разбегаются по табакеркам. Не трудно догадаться, что в результате мы получим нормальное распределение табакерок по количеству поселившихся в них блох. Действительно, табакерки тут выступают в роли ресурсной баз, а блохи - частицы ресурсов, случайно распределяющихся по базам.
Теперь отдадим команду блохам начать прыжки из одной табакерки в другую:
И тут есть две возможности. Если блохи действуют независимо друг от друга и прыгают случайно - тогда, когда их блошиной душе угодно и туда, куда им нравится - то сколько бы блохи не скакали, распределение табакерок по числу блох останется нормальным.
Но пусть теперь "парадом командует" дрессировщик. Раз за разом он совершенно случайно выбирает табакерку и постукивает по ней пальцем. И только тогда одна из блох в этой табакерке совершает прыжок в какую-нибудь другую. В этом случае, после некоторого переходного периода, распределение табакерок по количеству блох окажется экспоненциальным, а не нормальным.
Разница в том, что в первом случае табакерки тем чаще "запускают блох", чем больше их в ней сидит (они ведь сами принимают решение когда прыгать), а во втором случае частота "запусков" из некоторой табакерки не зависит от количества сидящих в ней блох. Говоря иначе, инициатором прыжков в первом случае являются блохи, а во втором - скорее табакерки.
Кажется, математически экспоненциальное распределение существенно отличается от нормального. Однако близкое сходство порождающих их механизмов очевидно. Экспоненциальное распределение оказывается таким же продуктом случайных комбинаторных процессов, что и нормальное - требуется лишь немного иначе расставить акценты. А потому следует думать, что оно также широко распространено в явлениях самой различной природы - и это действительно так.
С нормальным и экспоненциальным распределениями можно сопоставить другую пару родственных простых механизмов. Пусть поле разбито на одинаковые ресурсные базы, и на него случайно налетают частицы ресурсов. В этом случае с течением времени, как мы знаем, ресурсные базы распределятся нормально по количеству поглощенных частиц.
Но если с некоторой постоянной вероятностью налетающая частица может образовать новую ресурсную базу (избежать поглощения уже существующими), то с течением времени будет развиваться растущее множество ресурсных баз, распределенных экспоненциально по количеству поглощенных ресурсов - этот механизм был исследован нами в "Прологах" под наименованием дельта-аддитивного процесса δA(1).
Как видим, механизмы тоже просты и прямо родственны.
Родственность порождающих механизмов - основание для объединения нормального и экспоненциального распределений в один общий класс, который можно называть экспоненциальным (как принято в математике) или комбинаторным - имя в виду природу порождающих их механизмов. Распределения этого класса выделяются из всего многообразия тем, что 1) действительно широко наблюдаются, и 2) мы знаем очень простые комбинаторные механизмы, которые приводят к их развитию.
Но есть еще один особый класс распределений - степенной. К нему нас подведет проверка одной умышленно ложной гипотезы.
Вернемся во времена перестройки, когда нажитое народным трудом государственное имущество подверглось массовой приватизации. Напомню, что значительную часть государственной собственности тогда оценили и разделили между гражданами страны, вручив каждому его долю в виде ваучера. Эта картина вполне напоминает наше картофельное поле: каждый гражданин имеет формально равную ресурсную базу, а ваучеры и связанные с ними частицы собственности были почти случайно рассыпаны по "полю".
Мы могли бы смело предположить, что распределение фактической стоимости имущества по гражданам после раздачи ваучеров имело форму нормального распределения. Разумеется, это очень упрощенная точка зрения, но для нас важнее следующий шаг.
После раздачи ваучеров, граждане начали обмениваться ими (и связанными с ними ценностями) - как табакерки блохами. И нам, вроде бы ничто не мешает предположить, что инициаторами перемещений выступали граждане, и эти перемещения были в общей массе случайны. Значит, после достаточно длительного периода мы должны были бы обнаружить экспоненциальное распределение граждан по объемам ценностей, которыми они владеют.
Но на самом деле распределение оказывается не экспоненциальным, а совершенно другим - степенным. Более того, это универсальный факт - один из немногих надежных фактов социологии и экономики - распределение богатства или объема собственности среди граждан некоторого общества обычно подчиняется степенному распределению. Это открытие в начале 20-го века сделал итальянский социолог Вильфредо Парето, и в его честь степенное распределение часто называют распределением Парето.
Так в чем же мы ошиблись? Очевидно, механизм распределения богатства в обществе не сводится к простому случайному перемещению его частиц между гражданами. Тогда как он выглядит?
Об этом мы далее и поговорим.
1
>> чем больше выявленных случаев взяточничества, тем больше будет их "средний размер".
Чтооо?? Звучит бредово и необоснованно, если я неправ -- раскройте тему лучше, пожалуйста.
Виталий (23.02.2017 19:36)
2
При степенном распределении (или другом "длинно-хвостовом") статистического параметра при увеличении выборки среднее значение растет. При увеличении выборки до бесконечности, к бесконечности стремится и среднее значение. На практике это выглядит как, например, "увеличение среднего размера взятки" при простом увеличении правоохранительной статистики.
Уфимцев Роман (24.02.2017 10:08)
Ваш комментарий
image Поля, отмеченные звездочкой, нужно обязательно заполнить
Заголовок комментария:
image Текст комментария: (не более 2000 символов, HTML-разметка удаляется)
image Ваше имя:
Ваш E-mail:
image Сколько будет дважды два? (ответьте цифрой, это проверка от спам-рассылок)
Отправить комментарий
Главные темы
Внимание (8)Геогештальт (1)Гештальт (16)Динамика внимания (5)Инсайт (5)Интуиция (2)Кибернетика (5)Когнитивное управление (6)Когнитивный анализ (4)Когнитивный словарь (5)Культура наблюдения (5)Мерцающие зоны (7)Метафизика (3)Метафора (13)Механизмы восприятия (15)Мифы и парадигмы (7)Органическая логика (5)Прогнозирование (6)Роль языка (4)Симметрии (5)Синхронизмы (5)Сложные системы (10)Степенной закон (8)Творческое мышление (5)Три уровня систем (4)Управление знаниями (3)Фазы развития (7)Фракталы (18)Цветные шумы (9)
КОГНИТИВИСТ: когнитивные методы и технологии © Роман Уфимцев, при поддержке Ателье ER