КОГНИТИВИСТИдейное ядро²Узелки на распуткуУзел 1. Причина степенных распределений
Узел 1.3 Причины и экстремальные принципы
Прологи: наука о сознании становится точной
Манифест когнитивиста
.
Узелки на распутку
Узел 1. Причина степенных распределений
Узел 1.2 Механизмы развития
Узел 1.3 Причины и экстремальные принципы
Узел 1.4 Максимум специальных энтропийУзел 1.5 Мультипликативный закон сохраненияУзел 1.6 Когнитивные фракталыУзел 1.7 Вязкость сознания и число eУзел 1.8 Модель БернуллиУзел 1.9 Принцип микро-причинностиУзел 1.10 Случайно блуждающие ландшафтыУзел 1.11 Субстанции формы и содержанияУзел 1.12 Размерность Хаусдорфа и метрическая связностьУзел 1.13 Вне-пространственные фракталыУзел 1.14 Фракталы на графахУзел 1.15 Фрактальная размерность графов и сетейУзел 1.16 Фрактальность древовидных графовУзел 1.17 Фрактальная размерность и степенная статистикаУзел 1.18 Локальные и глобальные размерности графовУзел 1.19 Локальные и глобальные размерности графов (II)Узел 1.20 Локальные и глобальные размерности графов (III)Узел 1.21 Критические графы как фракталыУзел 1.22 Критические графы как фракталы (II)Узел 1.23 Возвращение к БернуллиИнтерлюдия. Две простые задачиУзел 1.24 Зоопарк критических графовУзел 1.25 Зоопарк критических графов (II)Узел 1.26 Режим стохастической самоподдержкиУзел 1.27 Растущие кластеры и размерность решетокУзел 1.28 Фрактальные и не-фрактальные решеткиУзел 1.29 Энтропия ростаУзел 1.30 Энтропия графов и пространствУзел 1.31 Игра в инверсию
Узел 2. Опус о числах и формах
.
Прологи
.
Степенные законы, распределения Парето и закон Зипфа
.
Когнитивный уровень
.
Мерцающие зоны
.
Органическая логика: резюме
Карта органической логики
.
Хвост ящерки. Метафизика метафоры.
.
Опус 1/F
.
Anschauung, научный метод Гёте
.
Закон серийности Пауля Каммерера
.
Ранние признаки критических переходов
.
Слабые сигналы
.
Меметика
.
Системный анализ и чувствительные точки
.
Спиральная динамика
.
Узел 1.3 Причины и экстремальные принципы
 
Роман Уфимцев
2 июня 2014 года, Калининград
Возможно, читатель заметил некоторую путанность, которую допустил автор, пытаясь объяснить разницу между ответами на вопрос "как развиваются степенные распределения" и "почему они развиваются". Чтобы ее прояснить, удобно прибегнуть к метафоре.
На пути к лесному роднику, упомянутому в первой нити этого Узла, приходится спуститься в глубокий лог. Этот спуск весело преодолевать на велосипеде или на лыжах зимой. Его можно спокойно пройти, а можно во весь дух сбежать по нему, только успевая переставлять ноги. Как в него спуститься - на этот вопрос есть много ответов, зависящих от времени года, от вашего желания и оснащения. Однако, как бы мы не спускались в лог, одно остается неизменным - склон и сила тяжести, которая нас увлекает по нему. Ей можно не поддаваться полностью и двигаться шажками, а можно увлечься ею и нестись вниз во весь опор. Но не будь этой силы, не было бы никакого движения и вопрос как спуститься вниз не имел бы смысла.
Те или иные механизмы развития степенных распределений - это лишь разные способы спуститься вниз по склону. Сколько бы мы их уже не знали, сколько бы не придумали - простые и сложные, красивые и не очень - можно придумать и другие. Но все они имеют смысл лишь тогда, когда есть склон. Каков он для экспоненциального класса распределений, каков для степенного - вот что мы имеем виду под ответом на вопрос "почему".
Экстремальные принципы
Вернемся на склон: а что говорит наука? Вне зависимости от способа спуска, ответ на вопрос "почему" массивные тела склонны двигаться вниз, очень прост. Это происходит, потому что физическая система "массивное тело - планета Земля" стремится прийти в состояние минимальной потенциальной энергии. Это стремление и порождает силу тяжести. Бросив бусину в чашу с округлым дном, мы не сомневаемся, где эта бусина в конечном итоге окажется - в центре чаши, потому что это самая ближайшая точка до центра Земли.
А вот связанный вопрос: подвесим цепь за концы. Какую кривую опишет цепь в зависимости от ее длины и положения точек подвеса?
Не трудно догадаться, цепь примет такую форму, чтобы суммарная потенциальная энергия ее звеньев оказалась минимальной - это правильная исходная точка решения задачи.
Или немного другой пример: почему угол падения луча света на зеркало равен углу отражения? Ответ: потому что именно так луч света проходит от точки исхода до точки прихода за наименьшее время:
А когда луч встречает среду, в которой его скорость снижается, он искривляет свою траекторию так, чтобы миновать ее быстрее - это явление нам известно как преломление света:
(К слову, совершенно также ведут себя пешеходы, пересекающие под уголом автомобильную дорогу - вступив на дорожное полотно они часто искривляют траекторию так, чтобы миновать ее поскорее.)
В этих примерах очевидно есть нечто общее. Природа ведет себя так, чтобы минимизировать некоторую величину. Для массивных тел и их притяжения это потенциальная энергия, для луча света - время в пути. Если мы знаем эту величину, мы словно понимаем цель природы, которую она стремится достичь, и нам становится понятным, почему, например, луч света отражается под тем же углом, что и падает или почему он преломляется. Более того, зная эту цель, мы оказываемся способны предугадывать другие закономерности, управляющие движением массивных тел или лучей света.
Когда мы хотим понять поступки человека, нам нужно знать его цель. С природой точно также - зная величины, которые она стремится минимизировать или, наоборот, миксимизировать, мы словно понимаем ее цели. И тогда, вместо множества различных закономерностей, вместо многих возможных ответов на вопрос "как" мы видим только один ответ на вопрос "почему".
Это суть так называемых экстремальных принципов, философское обоснование которых еще приписывается Аристотелю - он якобы говорил, что "природа во всех своих проявлениях избирает кратчайший или легчайший путь". На протяжении веков эта идея в неявном виде сопровождала развитие науки, которое находилось под влиянием аристотелевской метафизики и христианства. Мир, сотворенный совершенным Создателем должен быть лучшим из возможных, и это должно проявляться в существовании величин, которые стремятся принимать максимальное или минимальное значение из всех возможных.
Удивительно, но этот религиозно-философский посыл, метафизический по своей сути, оправдал себя в полной мере. Начиная с работ Лагранжа, Лейбница, Бернулли, Ферма, Эйлера, экстремальные принципы воплотились в ряд строгих теорий, обеспечивших крепким фундаментом основные направления физики. Многие видные умы признавали и признают удивительную по своей необъяснимости эвристическую эффективность экстремальных принципов. Необъяснимую потому, что для современного научного ума чужда мысль Лейбница о том, что мы живем в лучшем из возможных миров.
Как бы то ни было, экстремальные принципы очевидно играют сегодня в науке роль "последней причины" явлений - такого их объяснения, которому уже самому не нужны какие-либо объяснения. Луч света выбирает такую траекторию, потому что он стремится к кратчайшему времени в пути. Почему кратчайшего времени? - этот вопрос уже не имеет ответа. Потому что так устроен мир.
Такого рода ультимативные причины, базирующиеся на экстремальных принципах, должны быть и у феноменологической распространенности двух классов распределений, о которых мы говорим - экспоненциальном и степенном. Ими мы далее и займемся.
Расстояние Кульбака-Лейблера
Осведомленный читатель (особенно сопровождавший автора в последних "Прологах") догадывается, о чем мы сейчас будем говорить. Однако, мы двинемся по новой тропе логики, чтобы взглянуть на проблему с несколько новой стороны.
Нам будет полезно начать с экспоненциального класса, и для простоты возьмем экспоненциальное распределение:
Мы говорили, что это распределение одно из самых распространенных в феноменологическом мире, и это не вызывает особого удивления имея в виду очень простые и универсальные механизмы его происхождения. Однако, почему оно так распространено? Какой экстремальный принцип является причиной, какая величина достигает минимума (или максимума) при реализации экспоненциального распределения?
Поднимая этот вопрос, мы не удовлетворяемся тем, что нам известны простые алгоритмы происхождения экспоненциального распределения. Они могут происходить так, как мы думаем, а могут как-то иначе. Мы же ищем ультимативную причину распространенности этих распределений в самых разных феноменах. Нас интересуют не пути, которыми в разных обстоятельствах может идти природа, а ее цель.
Итак, у нас есть статистический феномен - экспоненциальное распределение. Предположим, что существует некоторая величина, характеристика различных распределений, которая именно для экспоненциального распределения принимает минимальное (или максимальное) значение. Если мы отыщем такую величину, мы найдем искомый экстремальный принцип.
Такой величиной должна быть какая-то математическая характеристика сходства некоторого распределения G(x) с нужным нам экспоненциальным, и тут имеется масса возможностей. Например, мы можем просто оценивать степень расхождения кривой экспоненциального распределения Ф(x) и кривой проверяемого распределения G(x). Скажем, эту степень можно оценить, подсчитывая "площадь расхождения" двух кривых (выделена на диаграмме):
Чем меньше общая площадь расхождения, а она в общем определяется интегралом
тем меньше проверяемое распределение G(x) отличается от экспоненциального с заданным параметром λ.
Однако, если использовать в качестве критерия абсолютное расхождение двух кривых, мы будем пренебрегать малыми, но важными расхождениями в области хвостов распределений G(x) и Ф(x). Вообще, гораздо полезнее измерять не абсолютное, а относительное расхождение, которое пропорционально площади расхождения кривых при использовании логарифмической оси Y:
Общее относительное расхождение двух кривых вычисляется как интеграл модуля разности логарифмов функций G(x) и Ф(x), в нашем случае получается
Наконец, еще кое-что. Речь идет не просто о кривых каких-то функций, а о распределениях плотности вероятности. Одно и то же расхождение двух кривых может приходиться на область высоких значений плотности вероятности G(x) или наоборот, низких. В первом случае опытные данные (представленные распределением G(x)) будут чаще отклоняться от экспоненциального распределения, статистическая значимость этих отклонений будет высока. И наоборот, даже большие расхождения кривых в области малых значений G(x) не значимы с точки зрения статистического сходства, потому что они затрагивают только малый набор опытных данных.
Поясним дело простым примером. Пусть у Васи в карманах каждый день яблоки из соседского сада. С вероятностью 1/10 у него в кармане 6 яблок, и с вероятностью 9/10 - 2 яблока. Сколько в среднем таскает Вася яблок ежедневно? Ясно, что прямое среднее двух чисел 6 и 2, то есть, 4 - не верный ответ. Мы должны учитывать вероятность того или иного количества яблок. Для этого каждое количество умножается на его вероятность и результаты суммируются по каждому варианту: (1/10)*6 + (9/10)*2 = 2,4. То есть, в среднем Вася добывает по 2,4 яблока в день.
Обратим внимание, что каждый исход мы умножали на его вероятность, чтобы учесть его статистическую значимость. Применительно к оценке расхождения кривых частотных распределений, это делается добавлением множителя G(x):
Мы получили интегральную величину, которая обращается в минимум, в ноль, лишь в том случае, если распределение G(x) совпадает с заданным экпоненциальным. При этом эта величина 1) учитывает статистический вес расхождений, и 2) настроена на учет относительных, а не абсолютных расхождений.
Последний штрих в полученное нами выражение поможет внести так называемое неравенство Гиббса, которое позволяет избавиться от модуля - это не сказывается на результате. Окончательно мы получим следующую величину, которая всегда больше нуля, кроме случая, когда распределения G(x) и Ф(x) полностью совпадают:
Эта величина известна в статистике как расстояние Кульбака-Лейблера или информационное расстояние. Она позволяет оценивать степень близости распределений G(x) и Ф(x) и обращается в ноль только в том случае, если распределения совпадают.
Посмотрим, как она раскроется для нашего экспоненциального распределения:
Мы получили три слагаемых. Первое из них - это шенноновская или дифференциальная энтропия распределения G(x), взятая со знаком минус:
Далее мы подробнее обсудим смысл каждого слагаемого, а пока перечислим их все. Частью второго слагаемого является выражение среднего значения случайной величины, имеющей распределение G(x) (прямой аналог расчета среднего количества яблок в кармане у Васи):
Последнее слагаемое - постоянная величина, которая зависит только от параметра контрольного экспоненциального распределения λ. Запишем так:
Итак, пусть мы наблюдаем в опытных данных экспоненциальное распределение с параметром λ. Тогда можно предположить, что это является результатом действия экстремального принципа, в соответствии с которым к минимуму стремится полученная нами величина, обозначенная как KLD - расстояние Кульбака-Лейблера для экспоненциального распределения.
От этого абстрактного вывода нам нужно сделать шаг к его интуитивному осмыслению. Для этого, для простоты и определенности, предположим, что мы наблюдаем экспоненциальное распределение с λ=1 (даже если мы видим другой параметр λ, мы всегда можем перейти к λ=1, перемасштабировав единицы измерения опытных наблюдений). Тогда экстремальная величина выглядит так:
Какой же смысл она несет? Для этого приглядимся к смыслу ее слагаемых.
Баланс сил: среднее против энтропии
Полученное нами выражение экстремальной величины состоит всего из двух слагаемых, и каждое имеет довольно простой смысл. Начнем со среднего значения распределения A.
Смысл среднего значения случайной величины вполне прозрачен - это ее значение в среднем. Если у нас есть мешок картошки, то среднее значение веса картофелины равно общей массе мешка, деленной на количество картофелин. Если у нас есть Вася, который каждый день таскает яблоки из соседского сада, то для подсчета среднего "улова" надо поделить общее количество унесенных им яблок на количество дней наблюдения. Сравнивая распределения различной формы не трудно оценить, для каких из них среднее значение велико, а для каких, наоборот, мало:
Если форма распределения "жмется" к оси Y, это означает, что случайная величина (вес картофелины или количество яблок в кармане у Васи) предпочитает маленькие значения, и это приводит к малому значению средней величины. В полученном нами выражении экстремальной величины KLD среднее A входит как слагаемое со знаком плюс. Это значит, что при стремлении величины KLD к минимуму на среднее значение A оказывается какое-то "давление", которое заставляет среднее значение уменьшаться - уменьшение A приводит к уменьшению KLD. Эта сила - один из факторов, формирующих экспоненциальное распределение, в котором меньшие значения случайной величины более вероятны, чем большие.
Но только один из факторов. Если бы этот фактор был единственным, то распределение бы "схлопнулось" - случайная величина могла бы принимать только нулевое значение - именно в этих условиях среднее значение оказалось минимальным, оно бы равнялось нулю. Этому схлопыванию противостоит второе слагаемое - дифференциальная энтропия H, взятая со знаком минус.
Упрощенно, энтропия распределения - это мера его размазанности, разбросанности. Максимальную энтропию имеет однородное распределение, минимальную - распределение, имеющую форму узкого пика:
Тут удачен образ жидкого теста на блинной сковороде: какие бы "кучки" мы не лепили из теста, оно стремится растечься в однородный плоский блин. В "блинных" делах это происходит из-за силы тяжести (и стремления системы к минимуму потенциальной энергии), а в распределениях случайных величин - энтропия, которую называют мерой неупорядоченности. Плоское однородное распределение - наименее упорядоченное. Напротив, случайная величина, которая может принимать только одно определенное значение - а распределение для нее выглядит как узкий острый пик - является уже не случайной, а предельно упорядоченной.
В уравнение величины KLD энтропия H входит со знаком минус. Это значит, что стремление KLD к минимуму заставляет энтропию наоборот стремится к максимуму. И это - второй фактор, формирующий экспоненциальное распределение.
Итак, мы имеем две силы. Первая - стремление среднего значения A к нулю. Она стягивает форму распределения в узкий пик в области нулевых значений случайной величины. Вторая сила противостоит первой. Это стремление энтропии H к максимуму. Оно наоборот, "расталкивает" форму распределения, не позволяя ей сжаться в узкий пик. Баланс этих сил достигается в точке минимального значения величины KLD, и ей соответствует экспоненциальное распределение с λ=1:
Чуть изменим условия - пусть нам нужна экстремальная величина, минимум которой соответствует экспоненциальному распределению с λ=2. В этом случае выражение KLD выглядит так:
Последнее слагаемое - постоянная величина и она не влияет на силы, управляющие формой распределения. Отличие, которое имеет значение - делитель 2 у второго слагаемого. Этот делитель в два раза ослабляет действие "давления" средней величины A, так что в результате равновесие между давлением среднего и давлением энтропии достигается для более разбросанного экспоненциального распределения - как раз с параметром λ=2:
Подведем промежуточный итог. Экспоненциальные распределения являются распределениями, для которых достигает минимума величина KLD. Минимум достигается в точке баланса двух "сил": первая направлена на уменьшение среднего значения распределения, а вторая - на увеличение его энтропии. Говоря фигурально, экспоненциальные распределения - результат борьбы между экономией упорядоченности распределения и экономией его среднего значения. Эти две экономии противостоят друг другу, при этом существует устойчивая равновесная точка. Распределение, соответствующее минимальному значению величины KLD - это распределение, в котором две противостоящих экономии достигают точки равновесия. Любопытным образом оказалось, что искомая экстремальная величина KLD является характеристикой несбалансированности двух противостоящих экономий.
Так какое же "стремление" природы, какая ее цель приводит к широкой распространенности экспоненциальных распределений? Теперь, кажется, мы можем дать ответ: это стремление к максимуму равновесия между двумя противостоящими силами. При этом каждая сила, в свою очередь, также стремится к экстремуму: первая - к максимуму энтропии, а вторая - к минимуму среднего значения случайной величины.
Ваш комментарий
image Поля, отмеченные звездочкой, нужно обязательно заполнить
Заголовок комментария:
image Текст комментария: (не более 2000 символов, HTML-разметка удаляется)
image Ваше имя:
Ваш E-mail:
image Сколько будет дважды два? (ответьте цифрой, это проверка от спам-рассылок)
Отправить комментарий
Главные темы
Внимание (8)Геогештальт (1)Гештальт (16)Динамика внимания (5)Инсайт (5)Интуиция (2)Кибернетика (5)Когнитивное управление (6)Когнитивный анализ (4)Когнитивный словарь (5)Культура наблюдения (5)Мерцающие зоны (7)Метафизика (3)Метафора (13)Механизмы восприятия (15)Мифы и парадигмы (7)Органическая логика (5)Прогнозирование (6)Роль языка (4)Симметрии (5)Синхронизмы (5)Сложные системы (10)Степенной закон (8)Творческое мышление (5)Три уровня систем (4)Управление знаниями (3)Фазы развития (7)Фракталы (18)Цветные шумы (9)
КОГНИТИВИСТ: когнитивные методы и технологии © Роман Уфимцев, при поддержке Ателье ER