КОГНИТИВИСТИдейное ядро²
Степенные законы, распределения Парето и закон Зипфа
Прологи: наука о сознании становится точной
Манифест когнитивиста
.
Узелки на распутку
.
Прологи
.
Степенные законы, распределения Парето и закон Зипфа
Когнитивный уровень
.
Мерцающие зоны
.
Органическая логика: резюме
Карта органической логики
.
Хвост ящерки. Метафизика метафоры.
.
Опус 1/F
.
Anschauung, научный метод Гёте
.
Закон серийности Пауля Каммерера
.
Ранние признаки критических переходов
.
Слабые сигналы
.
Меметика
.
Системный анализ и чувствительные точки
.
Спиральная динамика
.
Степенные законы, распределения Парето и закон Зипфа
 
Роман Уфимцев
26 июня 2012 года, Калининград
Главная цель сайта КОГНИТИВИСТ - популяризация нового подхода к описанию когнитивных феноменов, основанного не на традиционных психологических спекуляциях, а на математически ясных принципах. Мы заняты поиском и исследованием формальных моделей, подходящих для описания сущностных свойств сознания. Двигаясь по этому пути (по которому сейчас сделаны лишь первые шаги), мы уже выяснили, что некоторые математические средства и понятия особенно ценны для решения нашей задачи. В частности, мы полагаем, что одним из характерных и ярких проявлений когнитивных феноменов является их объективно наблюдаемая фрактальная организация. Проще говоря, когда сознание взаимодействует с материей, возникают фрактальные структуры. Эти фракталы можно и нужно исследовать математически, и в этой связи особого внимания требуют так называемые степенные распределения.
Степенные распределения - уникальное статистической свойство фрактальных структур, их характерный признак. Всякий раз, когда в каких-то опытных данных мы видим степенные распределения, у нас должно возникать обоснованное подозрение, что мы имеем дело с явной или скрытой фрактальной структурой, а значит, вероятно, и с результатом взаимодействия сознания и материи.
Степенные распределения известны своей парадоксальностью, а также неожиданно широкой распространенностью в самых разных природных и социальных явлениях. При этом часто их происхождение остаётся загадкой, которую многие пытались и пытаются решить.
Я представляю вашему вниманию очень хорошую обзорную статью американского физика Марка Ньюмана, целиком посвященную степенным распределениям: реальным примерам, математическим свойствам и известным моделям их происхождения. Статья довольно свежая, и хорошо отражает нынешнее положение дел в исследовании степенных статистических законов.
Некоторые из описанных в обзоре моделей и фактов мы затрагивали в Прологах, другие окажутся новыми для читателей. Я думаю, что познакомиться с этим материалом будет полезно каждому, кто интересуется фрактальными структурами в природе и обществе, а также ещё более широкому кругу читателей, интересующихся степенными законами и их возможным происхождением.
Внимательным читателям Прологов я особенно рекомендую обратить внимание на процесс Юла. По мнению Ньюмана, это один из самых интересных механизмов, порождающих степенные распределения. Я также придерживаюсь этой точки зрения с одной лишь оговоркой: процесс Юла, так как он описан в этом обзоре, является лишь первым шагом к открытию истинных источников степенных законов. Второй шаг - введение понятия терминальной вероятности, как это сделано в нашей тау-модели. Без этого шага мы можем рассматривать растущие стохастические фрактальные структуры лишь в их предельном состоянии - как и делает Ньюман вслед за самим открывателем модели Юлом. Используя же тау-модель и основанную на ней модель параллельного тирона, становится возможно описывать растущие фракталы в любой момент их эволюции. Когда речь идет об описании динамики когнитивных и вообще натуральных феноменов, без этой возможности не обойтись.
Оригинал: M. E. J. Newman, Power laws, Pareto distributions and Zipf’s law (2006).
Перевод: Роман Уфимцев (2012)
Когда при измерениях какой-либо величины вероятность получения того или иного значения обратна пропорциональна некоторой степени этого значения, говорят, что данная величина характеризуется степенным законом. Иногда также говорят о законе Зипфа или распределении Парето. Степенные законы часто встречаются в физике, биологии, науках о Земле и космосе, в экономике и финансах, информатике, демографии и прочих социальных науках. Например, степенным законам отвечают распределения размеров городов, силы землетрясений, вспышек на Солнце, размеры кратеров на Луне, масштабы военных конфликтов и богатство людей. Вот уже более века происхождение степенных законов является темой для жарких дебатов в научном сообществе. В этом обзоре мы познакомимся с некоторыми эмпирическими примерами степенных законов и предложенными для их объяснения теориями.
I. Введение
Многие вещи, которые измеряют учёные, имеют типичный размер или "масштаб" – типичное значение, около которого группируются результаты отдельных измерений. Простой пример – человеческий рост. Большинство взрослых людей имеют рост около 180 см. Имеются некоторые отклонения от этой цифры, особенно связанные с полом, но на свете не существует людей, имеющих рост 10 см. или 500 см. Чтобы зафиксировать это наблюдение в числовом виде, можно построить гистограмму роста людей, см. рис.1a. На гистограмме показаны результаты измерений роста взрослых американцев, сделанные в период между 1959 и 1962 годом. Распределение довольно узкое и сосредоточено около значения в 180 см. Ещё один полезный показатель – отношение роста самого высокого и самого маленького человека. Книга рекордов Гинесса заявляет, что рост самого высокого человека за всю историю записей составила 272 см., а рост самого маленького – всего 57 см. Отношение этих значений равно 4,8 – относительно небольшая цифра. Как мы вскоре увидим, имеются величины, в которых максимальные и минимальные значения соотносятся в гораздо большей пропорции.
Рис.1 Слева: гистограмма роста американских мужчин (см.). Данные Национального исследования здоровья, проведенного в 1959-1962 годах в США. Справа: гистограмма скорости автомобилей (миль/час) на шоссе в Британии. Данные британской транспортной статистики 2003 года.
На рис.1b изображён ещё один пример величины, обладающей типичным масштабом: скорость автомобилей на дороге (в милях в час). Гистограмма скоростей также имеет выраженный пик в районе значения в 75 миль в час.
Однако не все величины, которые мы измеряем, группируются вокруг какого-то типичного значения. Некоторые варьируют в огромном диапазоне, иногда захватывающем много порядков. Классический пример – размеры городов и прочих населённых пунктов. По данным последней переписи (2000), в крупнейшем городе США, Нью-Йорке, живёт 8 млн. человек. Населённый пункт, имеющий минимальное число жителей, выделить трудно – всё зависит от того, что вообще называть населённым пунктом. Автору вспоминается, как в 1993 году он проезжал через посёлок Милликен, штат Орегон, население которого составляло всего 4 человека. Всё население посёлка обитало в одном большом доме, рядом находилась деревянная лачуга, населённая огромным количеством кошек, а также замечательного вида блошиный рынок. Однако, в соответствии с Книгой Гинесса, самый маленький населённый пункт США - это Дуффилд, штат Вирджиния, имеющий население в 52 человека. В любом случае, отношение населения крупнейшего города к населению самого малого посёлка составляет по меньшей мере 150000. Ясно, что это совсем другая картина, нежели та, которую мы видим с ростом людей. Но нечто ещё более интересное мы обнаружим, взглянув на гистограмму размеров городов, рис.2.
Рис.2 Слева: гистограмма населённых пунктов США по числу жителей, для городов и посёлков, имеющих население более 10 тыс. Справа: гистограмма тех же данных, представленная в двойной логарифмической шкале. Примерное соответствие гистограммы прямой линии означает присутствие степенного закона. Данные переписи населения США 2000 года.
Слева - простая гистограмма распределения американских городов по населению. Она имеет сильно скошенную влево форму, которая означает, что имеется очень много населённых пунктов, имеющих очень маленький размер – большинство посёлков в США имеет мало жителей. Однако, есть и небольшое число городов, число жителей которых гораздо выше среднего значения - они образуют уходящий вправо длинный хвост распределения. Гистограммы, имеющие подобную скошенную форму качественным образом отличаются от гистограмм роста людей, хотя сами по себе они не очень удивительны. Принимая во внимание, что имеется большой разброс размеров населённых пунктов, мы можем прийти к логичному выводу, что может существовать лишь немного городов с большим населением. В конце концов, в такой стране как США, имеющей общее население в 300 млн. человек, может существовать максимум 40 таких городов как Нью-Йорк. А ведь 2700 городов, по которым построена гистограмма на рис.2, не могут иметь среднее население более чем в 300 млн./2700 = 110 тыс. человек.
Однако, что действительно удивляет, так это гистограмма в правой части рис.2. На ней та же самая гистограмма размеров городов, но вертикальная и горизонтальная оси в ней взяты логарифмические. Проявляется замечательная закономерность: гистограмма, построенная таким образом, весьма хорошо укладывается на прямую линию. Кажется, первым это заметил Аэурбах [1], хотя это открытие часто связывают с именем Зипфа [2].
Что же это значит? Пусть p(x) dx - это доля городов, население которых лежит в промежутке между x и x+dx. Если гистограмма представляет собой прямую линию в двойных логарифмических координатах, тогда ln p(x) = -α ln x + c, где α и с - константы. (Минус перед α ставить не обязательно, но удобно, поскольку наклон линии на рис. 2 отрицательный, спадающий.) Взяв экспоненту каждой части уравнения, получим:
где C= ec.
Распределение вида (1) - это и есть распределение, отвечающее степенному закону. Константа α при этом именуется экспонентой или показателем степенного закона. (Константа С по большей части не представляет интереса. Поскольку α имеет фиксированное значение, константа С определяется из требования, что в сумме распределение p(x) должно давать 1. См. раздел III.А)
Степенные распределения наблюдаются в чрезвычайно широком спектре феноменов. Кроме населения городов, силы землетрясений [3], размеров кратеров [4], силы вспышек на Солнце [5], размеров компьютерных файлов [6] и масштабов военных конфликтов [7], степенным законам1 соответствуют частоты слов в любом человеческом языке [2,8], частоты фамилий в большинстве культур [9], число статей, которые пишут учёные [10], число ссылок, которые получают научные статьи [11], число переходов на веб-страницы [12], продажи книг и музыкальных записей, а также товаров почти каждой категории, состоящей из многих торговых марок [13,14]. Ещё – число видов в биологическом роде [15], годовые доходы людей [16] и многие-многие другие величины.
1 Степенные законы часто встречаются и в других ситуациях, нежели статистические распределения каких-либо величин. Например, знаменитый закон всемирного притяжения Ньютона имеет форму 1/r2, то есть, форму степенного закона с показателем 2. Хотя такие законы тоже интересны, мы не будем их рассматривать в данной статье. В частности, в последние годы много обсуждаются "аллометрические" степенные законы, обнаруженные в физиогномике и физиологии биологических организмов [17], но они не являются статистическими распределениями и поэтому мы не будем их рассматривать.
Степенные распределения – главная тема этой статьи. В следующих разделах мы обсудим способы выявления степенного закона, познакомимся с эмпирическими свидетельствами действия степенных законов в различных системах, а также опишем некоторые механизмы, благодаря которым они могут возникать.
Читатели, заинтересованные в дальнейшем изучении темы, могут также познакомиться с обзорами Сорнетт [18] и Митценмахера [19], а также с библиографией, подготовленной Ли.
1
Понравилось, спасибо! Не будучи узким специалистом в этой области волею случая привлечен к анализу реальных данных по тел звонкам и SMS.
Конечно я знал общие вещи типа Ципфа, Бернулли. Также читал о моделях механизмов образования этих законов, это интересно, но для моих целей не самое важное. Важное- что сделано в области по поводу тел звонков узнал только из этой статьи.
Валерий valery@research.haifa.ac.il (8.02.2013 16:50)
Ваш комментарий
image Поля, отмеченные звездочкой, нужно обязательно заполнить
Заголовок комментария:
image Текст комментария: (не более 2000 символов, HTML-разметка удаляется)
image Ваше имя:
Ваш E-mail:
image Сколько будет дважды два? (ответьте цифрой, это проверка от спам-рассылок)
Отправить комментарий
Главные темы
Внимание (8)Геогештальт (1)Гештальт (16)Динамика внимания (5)Инсайт (5)Интуиция (2)Кибернетика (5)Когнитивное управление (6)Когнитивный анализ (4)Когнитивный словарь (5)Культура наблюдения (5)Мерцающие зоны (7)Метафизика (3)Метафора (13)Механизмы восприятия (15)Мифы и парадигмы (7)Органическая логика (5)Прогнозирование (6)Роль языка (4)Симметрии (5)Синхронизмы (5)Сложные системы (10)Степенной закон (8)Творческое мышление (5)Три уровня систем (4)Управление знаниями (3)Фазы развития (7)Фракталы (18)Цветные шумы (9)
КОГНИТИВИСТ: когнитивные методы и технологии © Роман Уфимцев, при поддержке Ателье ER