КОГНИТИВИСТИдейное ядро²Прологи
Пролог 116. Геометрическая энтропия
Прологи: наука о сознании становится точной
Манифест когнитивиста
.
Узелки на распутку
.
Прологи
Пролог 1. Когнитивный порядок
Пролог 2. Сигнатура характерного масштаба
Пролог 3. Степенной закон
Пролог 4. Три типа степенных распределений
Пролог 5. Закон Зипфа, сигнатура β = 1
Пролог 6. Цветные шумы, сигнатура α = 1
.
Пролог 7. Розовый шум и модель Бака-Снеппена
Пролог 8. Розовый шум и модель релаксации
Пролог 9. Розовый шум: шипелки и фрактальное блуждание
Пролог 10. Население городов и закон Зипфа
Пролог 11. Масштабно-инвариантные сети
Пролог 12. Фракталы и закон Зипфа
Пролог 13. Дробление континуума
Пролог 14. Социально-географические волокна
Пролог 15. Закон Зипфа в случайных текстах
Пролог 16. Тексты как фракталы
Пролог 17. Когнитивные фракталы
Пролог 18. β и размерность Хаусдорфа
Пролог 19. Образы когнитивных фракталов
Пролог 20. Когнитивные волокна
Пролог 21. Математика когнитивных фракталов
Пролог 22. Стохастические когнитивные фракталы
Пролог 23. Сравниваем Россию и Польшу
Пролог 24. От Швейцарии до Афганистана
Пролог 25. Гармониум
Пролог 26. Шум когнитивных фракталов
Пролог 27. Шум когнитивных процессов
Пролог 28. Розовый шум в поведении людей
Пролог 29. Шум в динамике зрительного внимания
Пролог 30. Изображения и двухмерный розовый шум
.
Пролог 31. Физическая и когнитивная релаксация
Пролог 32. Когнитивная релаксация и цветные шумы
Пролог 33. ВТОРОЙ ЦИКЛ. Дробление времени
Пролог 34. Когнитивное дробление времени
Пролог 35. Время как текст
Пролог 36. События и причинность
Пролог 37. Четыре причины Аристотеля
Пролог 38. Экзогенные причины
Пролог 39. Генеративные модели причинности
Пролог 40. Генеративные модели причинности, часть 2
Пролог 41. Гештальт-причинность
Пролог 42. Тау-модель
Пролог 43. Я-состояния и тироны
Пролог 44. Параметры тау-модели
.
Пролог 45. Параметры тау-модели, часть 2
Пролог 46. Параллельный тирон
.
Пролог 47. Параллельный тирон, часть 2
Пролог 48. Свойства тирона
.
Пролог 49. Свойства тирона, часть 2
.
Пролог 50. Семейства тирона
Пролог 51. Эволюция как тирон
Пролог 52. Я-состояния и девиации
Пролог 53. Эволюция и морфогенез
Пролог 54. Волокна и легенды
Пролог 55. Волокна и легенды, часть 2
Пролог 56. ТРЕТИЙ ЦИКЛ. Я-состояния и их структура
Пролог 57. Я-состояния и их структура, часть 2
Пролог 58. Спиральная структура
.
Пролог 59. Информация и её типы
Пролог 60. Информация и симметрия
Пролог 61. Информация и закон Вебера-Фехнера
Пролог 62. Натуральная пропорция
Пролог 63. Апекс Я-состояний
.
Пролог 64. Генеративные модели Я-состояния
Пролог 65. Нейрон
Пролог 66. Критические случайные графы
.
Пролог 67. Блохи и табакерки
Пролог 68. Чаши, табакерки и прочее
.
Пролог 69. Интерлюдия
Пролог 70. Гештальт числа e
.
Пролог 71. Гештальт числа e, часть 2
Пролог 72. ЧЕТВЁРТЫЙ ЦИКЛ. Тиронный рост
Пролог 73. Обобщённые процессы
Пролог 74. Обобщённые процессы, часть 2
Пролог 75. Обобщённые процессы и энтропия Реньи
Пролог 76. Дельта-процессы
.
Пролог 77. Дельта-аддитивные процессы
Пролог 78. Дельта-мультипликативные процессы
Пролог 79. Дельта-мультипликативные процессы, часть 2
Пролог 80. Дельта-мультипликативные процессы, часть 3
Пролог 81. Структурно-временной изоморфизм
Пролог 82. Тау-процесс и время
Пролог 83. Знаки состояний
Пролог 84. Мерные знаки и случайное блуждание
.
Пролог 85. Именные знаки и графы состояний
Пролог 86. ПЯТЫЙ ЦИКЛ. Простые числа
Пролог 87. Числа и их компоненты
Пролог 88. Время и простые числа
Пролог 89. Т-информация
Пролог 90. Новый прототип статистики Зипфа
Пролог 91. Новый прототип и гармоническая информация
.
Пролог 92. Не-целочисленные симметрии
Пролог 93. Спектры симметрии
.
Пролог 94. Преобразования симметрий
Пролог 95. Комплексные симметрии
Пролог 96. Cимметрии и структурные модальности
Пролог 97. Симметрии и характерная динамика
Пролог 98. Симметрия, энергия, излучения
Пролог 99. Симметрия системы
Пролог 100. Симметрия континуумов и траекторий
Пролог 101. Симметрия континуумов, часть 2
Пролог 102. Симметрия и масштаб
Пролог 103. Симметрия и вероятность
Пролог 104. Симметрия и вероятность, часть 2
.
Пролог 105. Преобразование симметрии континуумов
Пролог 106. Cимметрия многомерных континуумов
Пролог 107. Опыты с взаимодействием форм
Пролог 108. Опыты с взаимодействием форм, часть 2
Пролог 109. Омега-преобразование
Пролог 110. Омега-линзы
Пролог 110 (2). Омега-линзы, часть 2
Пролог 111. Геометрическое среднее и максимум энтропии
Пролог 112. Мультипликативные коллизии
Пролог 113. Смысл принципа максимума энтропии
Пролог 114. Варианты модели мультипликативных коллизий
Пролог 115. Свойства модели мультипликативных коллизий
Пролог 116. Геометрическая энтропия
Пролог 117. Специальные энтропии. Последний Пролог.
Степенные законы, распределения Парето и закон Зипфа
.
Когнитивный уровень
.
Мерцающие зоны
.
Органическая логика: резюме
Карта органической логики
.
Хвост ящерки. Метафизика метафоры.
.
Опус 1/F
.
Anschauung, научный метод Гёте
.
Закон серийности Пауля Каммерера
.
Ранние признаки критических переходов
.
Слабые сигналы
.
Меметика
.
Системный анализ и чувствительные точки
.
Спиральная динамика
.
Пролог 116. Геометрическая энтропия
 
Роман Уфимцев
27 декабря 2013 года, Калининград
Предыдущий Пролог мы закончили выводом о том, что при любом применении модели мультипликативных коллизий к объяснению происхождения натуральных степенных распределений необходимо постулировать существование безразмерного мультипликативного параметра. Только такой параметр может подвергаться мультипликативным обменам без нарушения размерности. Это содержательный вывод, и он приводит к любопытным следствиям. Но прежде, чем мы их обсудим, поговорим на тему, которая затрагивает, с одной стороны, те самые размерности, а с другой - принцип максимума энтропии, лежащий в основе модели мультипликативных коллизий.
Проблема размерности дифференциальной энтропии (и не только)
Принцип максимума энтропии утверждает, что закрытая система стремится к состоянию максимальной энтропии. Если макро-состояние системы определяется распределением некоторой величины, характеризующей микро-состояния ее частей, то это распределение должно иметь максимальную энтропию с учетом ограничений, накладываемых структурой системы или законами, которым подчиняется система.
Пусть величина параметра каждой части системы (например, энергия каждой молекулы газа в сосуде) может принимать значения x1, x2, x3... соответственно с вероятностями p(x1), p(x2), p(x3)... Тогда, как утверждает принцип максимума энтропии, распределение вероятности p(x) будет таким, что энтропия распределения по Шеннону
будет максимальная среди всех возможных распределений - а возможны только те, которые удовлетворяют структуре или законам системы.
Проанализируем это выражение с точки зрения размерностей. По определению, вероятность p(x) - безразмерная величина. Поэтому вполне корректно использование вероятности в качестве аргумента логарифма: ln(p(x)). Поскольку и сам логарифм - безразмерная величина, энтропия H также является безразмерной величиной.
Далее, пусть возможные микро-состояния частей системы образуют не дискретный набор, а непрерывный континуум. Тогда их параметр должен характеризоваться не дискретным распределением вероятностей p(x), а распределением плотности вероятности Ф(x). В этом случае вместо уравнения энтропии для дискретного набора вероятностей используется уравнение дифференциальной энтропии, которое является непрерывным аналогом дискретного уравнения Шеннона:
Однако, тут возникает проблема. Если x - не безразмерная величина (а обычно так и бывает, если мы исследуем натуральные распределения), то плотность вероятности Ф(x) - тоже не безразмерная величина, она имеет размерность, обратную x, то есть, 1/x. Но аргументом логарифма может быть только безразмерная величина, а значит, им не может быть Ф(x) - но именно ln(Ф(x)) мы видим в уравнении дифференциальной энтропии. То есть, если x - не безразмерная величина, то дифференциальная энтропия не корректна с точки зрения размерностей. И из этого наверняка следует, что она бессмысленна как естественная, характеризующая реальность величина.
Но обычно говорят о другой особенности дифференциальной энтропии - о ее зависимости от масштаба. Речь идет вот о чем: если величина x - дискретная, и может принимать значения x1, x2, x3... с вероятностями p(x1), p(x2), p(x3)..., то изменив масштаб наблюдения, мы получим ту же самую энтропию для этого распределения вероятностей. Например, увеличим масштаб в два раза. Тогда x1 превратится в 2*x1, x2 - в 2*x2. Но это, очевидно, не повлияет на вероятности, а значит, и на шенноновскую энтропию распределения. То есть, энтропия не зависит от масштаба наблюдения.
Но иначе дело обстоит для дифференциальной энтропии. Заменим в ее выражении Ф(x) на 2*Ф(2x) (это соответствует сжатию распределения плотности вероятности в два раза по оси X) - и это приведет к снижению дифференциальной энтропии:
Она зависит от масштаба - но так и должно быть, если речь идет о величине x, определенной на континууме.
Классическая энтропия непрерывного распределения обязана зависеть от масштаба. Это удобно проиллюстрировать, заменив непрерывное распределение его дискретным приближением:
Пусть мы прибегаем к дискретному приближению, поскольку минимально различимая разница в значениях x для нас составляет единицу. В этих условиях мы не различим, например, x=0,5 и x=0,6. Оба эти значения попадут в одну корзину, вероятность попасть в которую для величины x равна интегралу:
Аналогично вычисляются и все остальные вероятности p(2), p(3)...
Вместо непрерывного распределения мы получаем дискретное и можем рассчитать его энтропию по формуле Шеннона.
Теперь изменим масштаб наблюдения - например, сожмем распределение в два раза:
Теперь первая корзина вобрала в себя гораздо более значительную часть всей вероятности - дискретное приближение стало более "кучным". Это приводит к тому, что расчет энтропии по Шеннону покажет ее снижение. Неопределенность в значениях величины x для нас уменьшилась. Легко показать, что при наличии предела различимости наблюдений (а он всегда существует) и если он достаточно мал, при сжатии распределения в два раза его энтропия уменьшится как раз на величину ln(2).
Есть еще одна особенность дифференциальной энтропии - она может быть отрицательной. Энтропия Шеннона для дискретных распределений вероятности не может быть отрицательной (если вероятности не могут быть отрицательными). Но дифференциальная энтропия легко оказывается отрицательной, например, для распределения Ф(x) = 3*e–3x:
Впрочем, эта особенность не имеет значения - она не мешает искать максимум энтропии. А вот проблема с размерностями в уравнении дифференциальной энтропии имеет фундаментальное значение. Мы не можем ему вполне доверять, потому что, как минимум, это означает, что в нем что-то упущено. И это упущение может приводить нас к неверным выводам, когда мы используем дифференциальную энтропию для поиска непрерывных распределений, характеризующихся максимумом энтропии.
Видится две возможности решения этой проблемы.
Возможность 1: Расстояние Кульбака-Лейблера
Первая возможность - использование так называемого расстояния (дивергенции) Кульбака-Лейблера. Оно определяется не для одного, а для двух непрерывных распределений Ф(x) и G(x):
Говоря фигурально, расстояние Кульбака-Лейблера позволяет оценивать "информационное расстояние" между распределениями Ф(x) и G(x). Если Ф(x) = G(x), это расстояние равно 0. С информационной точки зрения, расстояние Кульбака-Лейблера - мера потерь информации об оригинальном распределении Ф(x) если мы его представляем распределением G(x).
Ясно, что выражение расстояния Кульбака-Лейблера корректно с точки зрения размерностей: аргумент логарифма - безразмерная величина. Кроме того, расстояние Кульбака-Лейблера не может быть отрицательной величиной. И, наконец, оно не зависит от масштаба наблюдений. Например, перейдем от Ф(x) к 2*Ф(2x) и от G(x) к 2*G(2x):
Расстояние Кульбака-Лейблера от этого не изменилось. Однако, главный вопрос: если эта величина может служить заменой для дифференциальной энтропии, какой смысл имеет распределение G(x) в контексте принципа максимума энтропии?
Размышления тут не приводят ни к одному достойному ответу - G(x) явно лишнее.
Возможность 2: Геометрическая энтропия
Второе возможное решение проблемы дифференциальной энтропии - ее использование в форме суммы с геометрическим средним распределения. Как мы знаем, среднее геометрическое значение непрерывного распределения G вычисляется в соответствии с формулой
Не трудно заметить, что это выражение обладает тем же недостатком, что и уравнение дифференциальной энтропии - оно не корректно с точки зрения размерностей. Если x - не безразмерная величина, то она не может быть аргументом логарифма. Но это тот самый случай, когда "клин клином вышибают". Если суммировать два "неправильных" логарифма, мы получим один правильный:
Величина Ф(x) имеет размерность 1/x, поэтому произведение Ф(x)*x - безразмерное, и поэтому может быть аргументом логарифма. Значит, объединяя выражения для дифференциальной энтропии и геометрического среднего мы получим корректное с точки зрения размерностей выражение:
Чтобы не путаться, назовем разность H-ln(G) геометрической энтропией.
Геометрическая энтропия, в отличие от дифференциальной, не зависит от масштаба:
То есть, она является характеристикой формы распределения без учета влияния преобразований масштаба. В этом смысле геометрическую энтропию можно понимать как масштабно-инвариантый аналог дифференциальной энтропии.
Итак, из двух возможностей решения проблемы размерности дифференциальной энтропии вторая - геометрическая энтропия - выглядит явно более предпочтительной, нежели расстояние Кульбака-Лейблера. По крайней мере, она не требует опоры на какое-то дополнительное распределение.
Максимум геометрической энтропии
Апробируем геометрическую энтропию в качестве инструмента принципа максимума энтропии.
1. Максимальная геометрическая энтропия без дополнительных условий
Пусть у нас есть распределение плотности вероятности Ф(x). Какое распределение будет обладать максимальной геометрической энтропией, если на него не наложено никаких дополнительных условий? Как мы знаем, если максимизируется обычная дифференциальная энтропия, ответ - однородное распределение. Но если максимизируется геометрическая энтропия?
Используя метод множителей Лагранжа, мы найдем следующий ответ:
Это гиперболическое распределение, которое из-за расходимости интеграла 1/x в нуле и бесконечности должно быть определено только на каком-то конечном промежутке {a,b}.
Как нам понимать этот результат? Может быть, возвращение к дискретным распределениям вероятности поможет тут что-то прояснить? Пусть например, случайная величина x принимает значение 1 с вероятностью p(1), и значение 2 - с вероятностью p(2). При каком распределении вероятностей геометрическая энтропия распределения будет максимальной? Запишем дискретный вариант геометрической энтропии:
Обозначив p(1) как p и p(2) как 1-p (поскольку p(1)+p(2) = 1), получим для нашего случая:
Нам нужно найти такое p, при котором геометрическая энтропия H-ln(G) оказывается максимальной. Построим график ее зависимости от p:
Максимум находится где-то в точке 2/3. И действительно, элементарное вычисление приводит к ответу: максимум геометрической энтропии достигается при p(1) = 2/3 и p(2) = 1/3. Этот результат точно соответствует дискретной форме гиперболического распределения для величины x, которая может принимать значения 1,2,3,4...N:
где HN - гармоническое число от N. Положив N=2, получим тот же результат:
Мы подтвердили, что метод множителей Лагранжа привел нас к правильному результату - максимумом геометрической энтропии при отсутствии прочих условий действительно обладает гиперболическое распределение как в непрерывном, так и в дискретном случае.
Дискретное распределение, обладающее максимальной геометрической энтропией, очевидно зависит от того, какие значения величины x допустимы. Только что мы исследовали случай, если допустимы значения 1 и 2. Пусть допустимы значения x1 и x2. Выясняется, что в этом случае максимум геометрической энтропии достигается при
Чем меньше отношение x1/x2 тем вероятность первого исхода ближе к единице. Наоборот, если это отношение велико, близка к единице вероятность второго исхода. То есть, меньшие значения случайной величины x оказываются более вероятными. Если же x1=x2, максимум геометрической энтропии достигается при равенстве вероятности исходов - и это повторяет поведение обычной энтропии, которая также максимальна для равновероятных исходов. Это наводит на мысль, что геометрическая энтропия является своего рода обобщением шенноновской. Если при всех возможных исходах случайная величина x имеет значение 1 (то есть, если это для нее единственное возможное значение), геометрическая энтропия совпадает с энтропией по Шеннону.
Пусть в окрестностях вашего дома есть река, в которой водится три вида рыб. Первый - окуни весом в 1 кг. Вероятность поймать окуня за день рыбалки равна единице - то есть, в среднем вы за день вылавливаете одного окуня. Второй тип - щуки весом в 2 кг. Вероятность поймать щуку за день рыбалки - 1/2. Наконец, третий тип - сомы весом в 3 кг. Вероятность поймать сома равна 1/3. В этих условиях вы будете вылавливать в среднем одинаковое количество рыбы всех трех сортов если считать их по весу. Максимизация геометрической энтропии - это приведение к равенству не вероятностей различных исходов, а весовой доли, в среднем поставляемой каждым исходом. Например, для двух альтернативных исходов x1 и x2 средняя весовая доля первого x1*p(x1), второго - x2*p(x2). Значит, при максимуме геометрической энтропии:
Кажется, мы ухватили суть принципа максимума геометрической энтропии - в нем действительно есть свой смысл. А пока посмотрим, к каким распределениям он приводит при наличии дополнительных ограничений.
2. Максимальная геометрическая энтропия при фиксированном среднем арифметическом
Пусть случайная величина x должна иметь среднее арифметическое значение M. Каким окажется ее распределение с максимальной геометрической энтропией? Им оказывается распределение
где Г(0,a/b) - неполная гамма-функция. Распределение может охватывать все положительные значения x кроме 0. Приведена форма распределения при определении x от некоторого a до бесконечности. Если a=1:
Среднее арифметическое значение имеет сложный вид, не позволяющий для заданного M найти значение параметра распределения λ аналитически:
Более элегантно выглядит дискретный вариант распределения:
Для него
3. Максимальная геометрическая энтропия при фиксированном среднем геометрическом
В этом случае мы получаем степенное распределение - точно такое же как при максимизации обычной энтропии. Так что степенные распределения могут быть результатом действия любого из принципов.
4. Максимальная геометрическая энтропия при фиксированных среднем арифметическом и среднем геометрическом
И вновь мы тут получаем то же самое, что и при максимуме простой энтропии - гамма-распределение.
Итак мы познакомились с экстремальными с точки зрения геометрической энтропии распределениями. Можно заметить, что они, фактически, получаются из экстремальных распределений с точки зрения классической энтропии при добавлении к ним множителя 1/x (и соответствующей перенормировкой). Например, однородное распределение, являющееся экстремальным при максимуме обычной энтропии Ф(x) = const превращается в гиперболическое Ф(x) = const/x, и т.д.
Если эта добавка не изменяет форму распределения (например, добавка к степенному распределению множителя 1/x меняет только показатель степени распределения, но не его тип), то мы в обоих случаях получаем одни и те же экстремальные распределения. Из-за этой добавки все распределения, которые мы тут получаем, не определены для значения x=0, и их правильнее определять для значений x, лежащих в промежутке от 1 до бесконечности.
Конечно, наибольшую "жалость" вызывает потеря экспоненциального распределения - его при максимизации геометрической энтропии получить трудно, а при максимуме обычной энтропии нужно только зафиксировать среднее арифметическое случайной величины. Вместо экспоненциального мы видим тут распределение вида Ф(x) = const*e-x/x у которого вроде бы даже нет собственного названия. Впрочем, не будем печалиться, поскольку принцип максимума геометрической энтропии не отрицает принципа максимума обычной. Скорее, для каждого из них есть своя сфера применения.
Снова о расстоянии Кульбака-Лейблера
Несмотря на то, что выражение расстояния Кульбака-Лейблера корректно с точки зрения размерностей, мы отказались от него как от альтернативы обычной дифференциальной энтропии, поскольку нам было не ясно, каким следует брать распределение G(x):
Зато это, кажется, стало ясным теперь: в качестве G(x) следует брать распределение, которое обладает максимумом той энтропии, которая нам нужна, при условии отсутствия ограничений на распределение. Поясним на примере. Пусть нам нужно выражение для такой энтропии, максимум которой бы достигался в случае, если распределение - однородное (при условии отсутствия других ограничений на распределение). Ясно, что речь идет о классической дифференциальной энтропии - именно она максимальна для однородного распределения. Уравнение однородного распределения, которое определено на промежутке {a,b}:
Вот именно его мы и должны взять в качестве G(x):
Для удобства мы взяли DKL со знаком минус, чтобы традиционно говорить о принципе максимума, а не минимума энтропии. Мы видим, что в этом случае расстояние Кульбака-Лейблера с точностью до константы совпадает с диффренциальной энтропией. Ясно, что если какое-то распределение имеет максимум дифференциальной энтропии, то оно будет также иметь и максимум величины -DKL.
Совершенно также, пожелав, чтобы абсолютным максимумом энтропии обладало гиперболическое распределение Ф(x) = const/x и взяв его в качестве G(x), мы получим -DKL с точностью до константы совпадающее с выражением геометрической энтропии.
В качестве упражнения, найдем выражение для "экспоненциальной энтропии", которая максимальна (при отсутствии других условий) для экспоненциального распределения Ф(x) = e-x. Подставляем его в качестве G(x) в выражение -DKL:
Вот что получается: "экспоненциальная энтропия" это разность между дифференциальной энтропией распределения Н и его средним значением MФ. Действие "принципа максимума экспоненциальной энтропии" приводит к развитию стандартного экспоненциального распределения Ф(x) = e-x.
Но это же распределение мы получим при максимизации обычной дифференциальной энтропии с дополнительным условием M = 1. По сути, это одно и то же - то ли добиваться максимума обычной энтропии при условии M = 1, то ли без всяких дополнительных условий добиваться максимума величины H - MФ. (Обратим внимание: M - какое-то конкретное среднее значение, число, а MФ - среднее значение какого-то распределения, то есть, интегральная функция.)
Так и есть: расстояния Кульбака-Лейблера открыли нам новый способ формулировки принципа максимума энтропии при наличии дополнительных условий. Это весьма интересно, хотя задним числом понятно.
Ваш комментарий
image Поля, отмеченные звездочкой, нужно обязательно заполнить
Заголовок комментария:
image Текст комментария: (не более 2000 символов, HTML-разметка удаляется)
image Ваше имя:
Ваш E-mail:
image Сколько будет дважды два? (ответьте цифрой, это проверка от спам-рассылок)
Отправить комментарий
Главные темы
Внимание (8)Геогештальт (1)Гештальт (16)Динамика внимания (5)Инсайт (5)Интуиция (2)Кибернетика (5)Когнитивное управление (6)Когнитивный анализ (4)Когнитивный словарь (5)Культура наблюдения (5)Мерцающие зоны (7)Метафизика (3)Метафора (13)Механизмы восприятия (15)Мифы и парадигмы (7)Органическая логика (5)Прогнозирование (6)Роль языка (4)Симметрии (5)Синхронизмы (5)Сложные системы (10)Степенной закон (8)Творческое мышление (5)Три уровня систем (4)Управление знаниями (3)Фазы развития (7)Фракталы (18)Цветные шумы (9)
КОГНИТИВИСТ: когнитивные методы и технологии © Роман Уфимцев, при поддержке Ателье ER