КОГНИТИВИСТИдейное ядро²Прологи
Пролог 4. Три типа степенных распределений
Прологи: наука о сознании становится точной
Манифест когнитивиста
.
Узелки на распутку
.
Прологи
Пролог 1. Когнитивный порядок
Пролог 2. Сигнатура характерного масштаба
Пролог 3. Степенной закон
Пролог 4. Три типа степенных распределений
Пролог 5. Закон Зипфа, сигнатура β = 1
Пролог 6. Цветные шумы, сигнатура α = 1
.
Пролог 7. Розовый шум и модель Бака-Снеппена
Пролог 8. Розовый шум и модель релаксации
Пролог 9. Розовый шум: шипелки и фрактальное блуждание
Пролог 10. Население городов и закон Зипфа
Пролог 11. Масштабно-инвариантные сети
Пролог 12. Фракталы и закон Зипфа
Пролог 13. Дробление континуума
Пролог 14. Социально-географические волокна
Пролог 15. Закон Зипфа в случайных текстах
Пролог 16. Тексты как фракталы
Пролог 17. Когнитивные фракталы
Пролог 18. β и размерность Хаусдорфа
Пролог 19. Образы когнитивных фракталов
Пролог 20. Когнитивные волокна
Пролог 21. Математика когнитивных фракталов
Пролог 22. Стохастические когнитивные фракталы
Пролог 23. Сравниваем Россию и Польшу
Пролог 24. От Швейцарии до Афганистана
Пролог 25. Гармониум
Пролог 26. Шум когнитивных фракталов
Пролог 27. Шум когнитивных процессов
Пролог 28. Розовый шум в поведении людей
Пролог 29. Шум в динамике зрительного внимания
Пролог 30. Изображения и двухмерный розовый шум
.
Пролог 31. Физическая и когнитивная релаксация
Пролог 32. Когнитивная релаксация и цветные шумы
Пролог 33. ВТОРОЙ ЦИКЛ. Дробление времени
Пролог 34. Когнитивное дробление времени
Пролог 35. Время как текст
Пролог 36. События и причинность
Пролог 37. Четыре причины Аристотеля
Пролог 38. Экзогенные причины
Пролог 39. Генеративные модели причинности
Пролог 40. Генеративные модели причинности, часть 2
Пролог 41. Гештальт-причинность
Пролог 42. Тау-модель
Пролог 43. Я-состояния и тироны
Пролог 44. Параметры тау-модели
.
Пролог 45. Параметры тау-модели, часть 2
Пролог 46. Параллельный тирон
.
Пролог 47. Параллельный тирон, часть 2
Пролог 48. Свойства тирона
.
Пролог 49. Свойства тирона, часть 2
.
Пролог 50. Семейства тирона
Пролог 51. Эволюция как тирон
Пролог 52. Я-состояния и девиации
Пролог 53. Эволюция и морфогенез
Пролог 54. Волокна и легенды
Пролог 55. Волокна и легенды, часть 2
Пролог 56. ТРЕТИЙ ЦИКЛ. Я-состояния и их структура
Пролог 57. Я-состояния и их структура, часть 2
Пролог 58. Спиральная структура
.
Пролог 59. Информация и её типы
Пролог 60. Информация и симметрия
Пролог 61. Информация и закон Вебера-Фехнера
Пролог 62. Натуральная пропорция
Пролог 63. Апекс Я-состояний
.
Пролог 64. Генеративные модели Я-состояния
Пролог 65. Нейрон
Пролог 66. Критические случайные графы
.
Пролог 67. Блохи и табакерки
Пролог 68. Чаши, табакерки и прочее
.
Пролог 69. Интерлюдия
Пролог 70. Гештальт числа e
.
Пролог 71. Гештальт числа e, часть 2
Пролог 72. ЧЕТВЁРТЫЙ ЦИКЛ. Тиронный рост
Пролог 73. Обобщённые процессы
Пролог 74. Обобщённые процессы, часть 2
Пролог 75. Обобщённые процессы и энтропия Реньи
Пролог 76. Дельта-процессы
.
Пролог 77. Дельта-аддитивные процессы
Пролог 78. Дельта-мультипликативные процессы
Пролог 79. Дельта-мультипликативные процессы, часть 2
Пролог 80. Дельта-мультипликативные процессы, часть 3
Пролог 81. Структурно-временной изоморфизм
Пролог 82. Тау-процесс и время
Пролог 83. Знаки состояний
Пролог 84. Мерные знаки и случайное блуждание
.
Пролог 85. Именные знаки и графы состояний
Пролог 86. ПЯТЫЙ ЦИКЛ. Простые числа
Пролог 87. Числа и их компоненты
Пролог 88. Время и простые числа
Пролог 89. Т-информация
Пролог 90. Новый прототип статистики Зипфа
Пролог 91. Новый прототип и гармоническая информация
.
Пролог 92. Не-целочисленные симметрии
Пролог 93. Спектры симметрии
.
Пролог 94. Преобразования симметрий
Пролог 95. Комплексные симметрии
Пролог 96. Cимметрии и структурные модальности
Пролог 97. Симметрии и характерная динамика
Пролог 98. Симметрия, энергия, излучения
Пролог 99. Симметрия системы
Пролог 100. Симметрия континуумов и траекторий
Пролог 101. Симметрия континуумов, часть 2
Пролог 102. Симметрия и масштаб
Пролог 103. Симметрия и вероятность
Пролог 104. Симметрия и вероятность, часть 2
.
Пролог 105. Преобразование симметрии континуумов
Пролог 106. Cимметрия многомерных континуумов
Пролог 107. Опыты с взаимодействием форм
Пролог 108. Опыты с взаимодействием форм, часть 2
Пролог 109. Омега-преобразование
Пролог 110. Омега-линзы
Пролог 110 (2). Омега-линзы, часть 2
Пролог 111. Геометрическое среднее и максимум энтропии
Пролог 112. Мультипликативные коллизии
Пролог 113. Смысл принципа максимума энтропии
Пролог 114. Варианты модели мультипликативных коллизий
Пролог 115. Свойства модели мультипликативных коллизий
Пролог 116. Геометрическая энтропия
Пролог 117. Специальные энтропии. Последний Пролог.
Степенные законы, распределения Парето и закон Зипфа
.
Когнитивный уровень
.
Мерцающие зоны
.
Органическая логика: резюме
Карта органической логики
.
Хвост ящерки. Метафизика метафоры.
.
Опус 1/F
.
Anschauung, научный метод Гёте
.
Закон серийности Пауля Каммерера
.
Ранние признаки критических переходов
.
Слабые сигналы
.
Меметика
.
Системный анализ и чувствительные точки
.
Спиральная динамика
.
Пролог 4. Три типа степенных распределений
Темы:
Роман Уфимцев
2 ноября 2011 года, Калининград
В третьем прологе мы познакомились с глубокой связью между масштабно-инвариантными структурами и степенным распределением. Но важность темы требует, чтобы мы разобрались в некоторых нюансах.
Вообще, тема степенных распределений сегодня довольно популярна в науке. Ежегодно появляется множество статей, посвященных описанию степенных распределений в параметрах различных природных и социальных явлений. Они весьма распространены и при этом во многих случаях трудно объяснимы (как распределение городов по населению). Поиск общих причин затруднён ещё и тем, что в многочисленных публикациях на тему степенных распределений до сих пор нет установившегося методического стандарта. В частности, разные исследователи используют разные типы степенных распределений, из-за чего возникает немало путаницы. Прежде, чем вступать в эту интригующую область, нам нужно тут внести полную ясность.
В литературе по степенным законам часто используется три различных типа распределений:
  1. Частотное степенное распределение
  2. Ранговое степенное распределение
  3. Кумулятивное степенное распределение
Одни и те же данные - например, данные по населению городов - можно представить в форме любого из трех распределений. Обычно, если мы используем один из трех типов и получаем в результате степенную кривую, то, используя любой другой тип мы тоже получим степенную кривую. Однако, от выбора типа распределения зависят конкретные параметры этой кривой и, в частности, показатель степени k. Например, частотное распределение городов по населению обычно соответствует степенному закону с показателем -2, а кумулятивное и ранговое распределение – степенному закону с показателем -1. Поэтому, встречая, например, где-то сообщение, что "распределение военных конфликтов по числу жертв соответствует степенному закону с показателем -1.8", нам всегда необходимо уточнять: какое именно распределение было использовано. Далее, чтобы не путаться, мы будем обозначать соответствующие каждому распределению показатели степени так:
  1. Показатель частотного распределения: K(freq)
  2. Показатель рангового распределения: K(rank)
  3. Показатель кумулятивного распределения: K(cumm)
Давайте разберёмся с ними по очереди, опираясь на конкретный реальный пример.
Частотное степенное распределение
Частотное распределение - пожалуй, самое распространённое, но не потому, что оно удобнее или полезнее остальных, а по привычке: именно такой тип распределений традиционно применяется в статистической физике и теории вероятностей. Оттуда он перекочевал в статистику и теперь широко распространен под именем "гистограмма".
Пусть, например, мы изучаем населённые пункты России с точки зрения их населённости. Мы взяли данные Госстата по 4718 населённым пунктам. Построим гистограмму. Для этого мы берём шкалу населённости и делим её на какие-то равные промежутки, "корзины". Мы можем, например, разделить шкалу на корзины по 5000 человек. В первую корзину мы складываем все населённые пункты, в которых живет от 0 до 5000 человек, во вторую - от 5000 до 10000 человек и т.д. Разложив по корзинам все города России, мы можем взглянуть на результат:
Обратим внимание, что по оси Y мы отмечаем просто количество городов, попавших в соответствующую корзину. Но мы могли бы отмечать не количество, а относительную долю, которую составляет содержание каждой корзины к общему числу городов - для этого поделим каждое значение шкалы Y на 4718 (столько у нас всего городов):
На такой модифицированной гистограмме видно, что в первую корзину (население от 0 до 5000 человек) попало 0,42 всех населённых пунктов, то есть, 42%. Мы можем также сказать, что какой-то конкретный населённый пункт России с вероятностью 42% окажется в первой корзине, поэтому такие распределения ещё называют распределениями плотности вероятности.
Попробуем понять: подчиняются ли полученные данные степенному закону? Для этого, как мы уже поступали раньше, отобразим гистограмму в двойной логарифмической шкале:
В целом прямая линия, вокруг которой группируются точки, вполне просматривается (существенно выпадают лишь крайние справа две точки, они соответствуют Санкт-Петербургу и Москве). Её наклон соответствует примерно K(freq)=-1,7 – -1,9 (точнее определить трудно). Однако, мы видим, что правая часть распределения зашумлена. Эта "борода" возникает из-за того, что в области высоких значений статистического параметра перестаёт действовать усреднение, которое эффективно сглаживает кривую в области низких значений. Попросту, в корзины, расположенные в начале шкалы попадает очень много городов и случайные вариации усредняются. А вот в корзины, расположенные в конце шкалы городов попадает мало и случайные вариации становятся очень заметными.
Эта проблема становится критической, когда статистических данных не очень много. "Корзинное" построение распределения резко сокращает число значимых точек на диаграмме. Например, у нас 4718 городов легли всего в 105 корзин, а значит у нас осталось всего 105 значимых точек (не пустых корзин) на распределении. А если взять не все города России, а например, только города Калининградской области (их всего 30), и разложить по корзинам размером в 10000 человек, то вообще получается всего 6 значимых точек, по которым затруднительно распознать степенную функцию:
Эта проблема, а также относительная трудоёмкость построения частотного распределения (необходимо раскладывать объекты по корзинам) заставляет приглядеться к другому варианту представления степенной статистики – гораздо более "бережному" к исходным данным и простому в построении.
Ранговое степенное распределение
Этот тип распределений связывают с именем лингвиста Джорджа Зипфа, который в середине 20-го века обнаружил, что частота употребления слов в естественных языках соответствует степенному закону. Однако, в своём анализе Зипф использовал не частотное распределение, а ранговое. На нашем примере познакомимся с тем, как оно строится.
Мы берём данные по населению городов и просто сортируем города в порядке убывания их населения. Номер, который получает в этом списке каждый город именуется его рангом. Теперь нам достаточно построить диаграмму, в которой по оси Y откладывается население каждого города, а по оси X - его ранг:
Соответствует ли это распределение степенному закону? Чтобы узнать, построим его в двойных логарифмических координатах:
Мы видим, что для российских городов с населением более 3000 человек степенной закон хорошо выполняется, особенно в промежутке между 3000 и 1000000 человек (промежуток отмечен оранжевыми границами). Города-миллионники (не считая Москвы и Петербурга) выбиваются из общей картины, они существенно "не добирают" населения. Резкое искажение общей картины имеется и для населённых пунктов с населением меньше 3000 человек - их будто бы "слишком мало". Впрочем о том, какой смысл имеет прямолинейность общей линии и что значат отклонения от неё мы ещё будем говорить.
Огромное преимущество рангового степенного распределения в том, что значимыми у нас остаются все имеющиеся данные, они все представлены точками на распределении. Благодаря этому существование степенного закона, а также показатель степени можно установить с гораздо большей точностью, нежели при частотном распределении. В данном конкретном примере показатель степени K(rank) оказывается равным -1,09 (с довольно высокой точностью).
Мы говорили, что если в статистике явления имеется степенной закон, то он будет проявляться на любом из трёх типов распределений, с которыми мы знакомимся. Но показатели степени будут во всех трёх случаях разные. И вот, на нашем примере мы видим, что при использовании частотного распределения мы получили показатель степени около -1,8, а при ранговом - показатель -1.
Сравнивая эти два значения, можно подумать, что между ними разница составляет около 1. Так и есть, можно доказать теоретически (мы тут опустим доказательство, его можно найти, например, тут), что за исключением редких случаев между показателем частотного степенного распределения K(freq) и показателем рангового K(rank) действует следующее соотношение:
В нашем случае K(rank)=-1,09, значит, K(freq) должен быть равен примерно -1,92. Это соответствует нашему приблизительному практическому результату (-1,7 – -1,9) и разница между K(freq) и K(rank), действительно, составляет около единицы.
Кумулятивное степенное распределение
Близким родственником рангового распределения является кумулятивное распределение или, как еще его называют, распределение Парето. Так говорят в честь итальянского экономиста Вильфредо Парето, который в начале 20-го века заметил, что 80% землевладений в Италии находятся в руках всего лишь 20% населения.
На кумулятивном распределении по оси X отмечается величина параметра, у нас это население города, а по оси Y - количество городов, население которых больше или равно текущему X. Скажем, в нашем примере для точки X=909341 (население Красноярска) получается Y=14, потому что в России есть только 14 городов, население которых превышает или равно 909341 человек. Следующей точкой будет X=1001653 (Пермь), и значение Y для этой точки равно 13. Последней точкой распределения будет Москва (X=10126424, Y=1).
Построим кумулятивное распределение для нашего примера:
И оно же в двойных логарифмических координатах:
Наблюдательный читатель может заметить, что его форма очень похожа на форму рангового распределения - только перевёрнутого, словно оси X и Y поменялись местами. И это не случайно. Действительно, кумулятивное распределение является ничем иным, как обращенным ранговым распределением. И просто понять, почему: последняя точка на кумулятивном распределении соответствует Москве (X=10126424, Y=1). Но Москва же оказывается и первой точкой рангового распределения (X=1, Y=10126424). Далее, Санкт-Петербург - это предпоследняя точка кумулятивного распределения (X=4661219, Y=2), но вторая точка рангового распределения (X=2, Y=4661219). Получается, что движение от конца кумулятивного распределения к его началу в точности соответствует движению по ранговому распределению, но наоборот, от начала к концу.
Трудно сказать, почему Парето в своих работах предпочёл кумулятивное распределение более простому и понятному ранговому. Вероятно, тут сыграло свою роль, что в нём по оси X откладываются значения статистического параметра (у нас это население) - также как в "научно правильном" частотном распределении. Как бы то ни было, кумулятивные распределения получили широкое распространение и нам важно их не путать ни с частотными ни с ранговыми.
кумулятивное распределение является обратным ранговому и это позволяет нам легко установить соотношение между их показателями степени: показатель степенного кумулятивного распределения точно обратен показателю степенного рангового распределения:
Разумеется, и наоборот:
Конкретно, в нашем примере получается, что показатель кумулятивного распределения (распределения Парето) K(cumm) равен 1/-1,09 = -0,92
Итак, мы теперь можем записать парные соотношения между показателями степенных распределений трёх типов - и я сделаю это особо, в рамочку, потому что нам это не раз еще пригодится и пусть это будет под рукой:
Соотношения между показателями степени для различных типов степенных распределений
  1. Показатель частотного распределения: K(freq)
  2. Показатель рангового распределения: K(rank)
  3. Показатель кумулятивного распределения: K(cumm)
Предполагаем, что показатели K меньше 0 (какими они и являются в рассматриваемых нами степенных распределениях). Выполняются соотношения:
Пожалуй, о том, почему мы в дальнейшем выберем только один тип распределения в качестве своего основного рабочего инструмента, и какой именно, мы поговорим уже в следующем прологе.
Ваш комментарий
image Поля, отмеченные звездочкой, нужно обязательно заполнить
Заголовок комментария:
image Текст комментария: (не более 2000 символов, HTML-разметка удаляется)
image Ваше имя:
Ваш E-mail:
image Сколько будет дважды два? (ответьте цифрой, это проверка от спам-рассылок)
Отправить комментарий
Главные темы
Внимание (8)Геогештальт (1)Гештальт (16)Динамика внимания (5)Инсайт (5)Интуиция (2)Кибернетика (5)Когнитивное управление (6)Когнитивный анализ (4)Когнитивный словарь (5)Культура наблюдения (5)Мерцающие зоны (7)Метафизика (3)Метафора (13)Механизмы восприятия (15)Мифы и парадигмы (7)Органическая логика (5)Прогнозирование (6)Роль языка (4)Симметрии (5)Синхронизмы (5)Сложные системы (10)Степенной закон (8)Творческое мышление (5)Три уровня систем (4)Управление знаниями (3)Фазы развития (7)Фракталы (18)Цветные шумы (9)
КОГНИТИВИСТ: когнитивные методы и технологии © Роман Уфимцев, при поддержке Ателье ER