КОГНИТИВИСТИдейное ядро²Прологи
Пролог 35. Время как текст
Прологи: наука о сознании становится точной
Манифест когнитивиста
.
Узелки на распутку
.
Прологи
Пролог 1. Когнитивный порядок
Пролог 2. Сигнатура характерного масштаба
Пролог 3. Степенной закон
Пролог 4. Три типа степенных распределений
Пролог 5. Закон Зипфа, сигнатура β = 1
Пролог 6. Цветные шумы, сигнатура α = 1
.
Пролог 7. Розовый шум и модель Бака-Снеппена
Пролог 8. Розовый шум и модель релаксации
Пролог 9. Розовый шум: шипелки и фрактальное блуждание
Пролог 10. Население городов и закон Зипфа
Пролог 11. Масштабно-инвариантные сети
Пролог 12. Фракталы и закон Зипфа
Пролог 13. Дробление континуума
Пролог 14. Социально-географические волокна
Пролог 15. Закон Зипфа в случайных текстах
Пролог 16. Тексты как фракталы
Пролог 17. Когнитивные фракталы
Пролог 18. β и размерность Хаусдорфа
Пролог 19. Образы когнитивных фракталов
Пролог 20. Когнитивные волокна
Пролог 21. Математика когнитивных фракталов
Пролог 22. Стохастические когнитивные фракталы
Пролог 23. Сравниваем Россию и Польшу
Пролог 24. От Швейцарии до Афганистана
Пролог 25. Гармониум
Пролог 26. Шум когнитивных фракталов
Пролог 27. Шум когнитивных процессов
Пролог 28. Розовый шум в поведении людей
Пролог 29. Шум в динамике зрительного внимания
Пролог 30. Изображения и двухмерный розовый шум
.
Пролог 31. Физическая и когнитивная релаксация
Пролог 32. Когнитивная релаксация и цветные шумы
Пролог 33. ВТОРОЙ ЦИКЛ. Дробление времени
Пролог 34. Когнитивное дробление времени
Пролог 35. Время как текст
Пролог 36. События и причинность
Пролог 37. Четыре причины Аристотеля
Пролог 38. Экзогенные причины
Пролог 39. Генеративные модели причинности
Пролог 40. Генеративные модели причинности, часть 2
Пролог 41. Гештальт-причинность
Пролог 42. Тау-модель
Пролог 43. Я-состояния и тироны
Пролог 44. Параметры тау-модели
.
Пролог 45. Параметры тау-модели, часть 2
Пролог 46. Параллельный тирон
.
Пролог 47. Параллельный тирон, часть 2
Пролог 48. Свойства тирона
.
Пролог 49. Свойства тирона, часть 2
.
Пролог 50. Семейства тирона
Пролог 51. Эволюция как тирон
Пролог 52. Я-состояния и девиации
Пролог 53. Эволюция и морфогенез
Пролог 54. Волокна и легенды
Пролог 55. Волокна и легенды, часть 2
Пролог 56. ТРЕТИЙ ЦИКЛ. Я-состояния и их структура
Пролог 57. Я-состояния и их структура, часть 2
Пролог 58. Спиральная структура
.
Пролог 59. Информация и её типы
Пролог 60. Информация и симметрия
Пролог 61. Информация и закон Вебера-Фехнера
Пролог 62. Натуральная пропорция
Пролог 63. Апекс Я-состояний
.
Пролог 64. Генеративные модели Я-состояния
Пролог 65. Нейрон
Пролог 66. Критические случайные графы
.
Пролог 67. Блохи и табакерки
Пролог 68. Чаши, табакерки и прочее
.
Пролог 69. Интерлюдия
Пролог 70. Гештальт числа e
.
Пролог 71. Гештальт числа e, часть 2
Пролог 72. ЧЕТВЁРТЫЙ ЦИКЛ. Тиронный рост
Пролог 73. Обобщённые процессы
Пролог 74. Обобщённые процессы, часть 2
Пролог 75. Обобщённые процессы и энтропия Реньи
Пролог 76. Дельта-процессы
.
Пролог 77. Дельта-аддитивные процессы
Пролог 78. Дельта-мультипликативные процессы
Пролог 79. Дельта-мультипликативные процессы, часть 2
Пролог 80. Дельта-мультипликативные процессы, часть 3
Пролог 81. Структурно-временной изоморфизм
Пролог 82. Тау-процесс и время
Пролог 83. Знаки состояний
Пролог 84. Мерные знаки и случайное блуждание
.
Пролог 85. Именные знаки и графы состояний
Пролог 86. ПЯТЫЙ ЦИКЛ. Простые числа
Пролог 87. Числа и их компоненты
Пролог 88. Время и простые числа
Пролог 89. Т-информация
Пролог 90. Новый прототип статистики Зипфа
Пролог 91. Новый прототип и гармоническая информация
.
Пролог 92. Не-целочисленные симметрии
Пролог 93. Спектры симметрии
.
Пролог 94. Преобразования симметрий
Пролог 95. Комплексные симметрии
Пролог 96. Cимметрии и структурные модальности
Пролог 97. Симметрии и характерная динамика
Пролог 98. Симметрия, энергия, излучения
Пролог 99. Симметрия системы
Пролог 100. Симметрия континуумов и траекторий
Пролог 101. Симметрия континуумов, часть 2
Пролог 102. Симметрия и масштаб
Пролог 103. Симметрия и вероятность
Пролог 104. Симметрия и вероятность, часть 2
.
Пролог 105. Преобразование симметрии континуумов
Пролог 106. Cимметрия многомерных континуумов
Пролог 107. Опыты с взаимодействием форм
Пролог 108. Опыты с взаимодействием форм, часть 2
Пролог 109. Омега-преобразование
Пролог 110. Омега-линзы
Пролог 110 (2). Омега-линзы, часть 2
Пролог 111. Геометрическое среднее и максимум энтропии
Пролог 112. Мультипликативные коллизии
Пролог 113. Смысл принципа максимума энтропии
Пролог 114. Варианты модели мультипликативных коллизий
Пролог 115. Свойства модели мультипликативных коллизий
Пролог 116. Геометрическая энтропия
Пролог 117. Специальные энтропии. Последний Пролог.
Степенные законы, распределения Парето и закон Зипфа
.
Когнитивный уровень
.
Мерцающие зоны
.
Органическая логика: резюме
Карта органической логики
.
Хвост ящерки. Метафизика метафоры.
.
Опус 1/F
.
Anschauung, научный метод Гёте
.
Закон серийности Пауля Каммерера
.
Ранние признаки критических переходов
.
Слабые сигналы
.
Меметика
.
Системный анализ и чувствительные точки
.
Спиральная динамика
.
Пролог 35. Время как текст
 
Роман Уфимцев
29 марта 2012 года, Калининград
В некотором смысле, когнитивист исследует мир как текст.
Звучит неплохо, но дело не в красном словце. Мы вкладываем в эти слова совершенно конкретный смысл – мы исследуем явления мира и тексты как феномены, обладающие сходными объективными статистическими признаками. Одни из них относятся к физическому порядку, то есть, определяются комбинаторными свойствами материи, другие - к когнитивному порядку, то есть, определяются свойствами сознания.
Вероятно, все явления мира сочетают в себе действие этих двух порядков в той или иной пропорции. Но с точки зрения исследования характерных "узоров" взаимодействия разных порядков, нам в первую очередь следует изучать те из них, в которых физический и когнитивный порядок выступают на равных (или почти на равных).
Одним из самых удобных объектов для такого исследования являются тексты, написанные людьми. Тексты - это феномены, в которых имеются закономерности, связанные с простой механикой перестановки букв и слов как ничего не значащих знаков, комбинаторика физического порядка. Но в текстах есть и закономерности, которые выпадают из физической статистики. Тексты несут смысл, отсветы сознания своих творцов, и поэтому в физическую комбинаторику вплетаются закономерности иного, не-механического порядка. И изучая их, мы в действительности узнаем нечто важное не только о текстах людей, об их мышлении и сознании, но о мире вообще. Ведь наш мир – словно текст, написанный Кем-то.
В первом цикле Прологов мы уже начинали исследовать тексты. Мы искали причину соответствия статистики частотности слов закону Зипфа. И пришли к выводу, что простые вероятностные комбинаторные закономерности могут служить основой для закона Зипфа в частотности слов, но они не могут объяснить некоторых особенностей ранговых распределений слов по частоте. Иными словами, комбинаторика служит "статистическим скелетом" для натуральных текстов, но настоящую смысловую жизнь текстам придаёт не этот скелет.
Сейчас мы вновь обращаемся к натуральным текстам, чтобы сделать ещё один шаг в понимании их скрытого сложного устройства, в котором переплетаются, взаимодействуют физический и когнитивный порядки.
Текст как время
В предыдущем прологе мы познакомились с очередным признаком когнитивного порядка – логнормальными распределениями периодов, получаемых дроблением времени с помощью розового шума. Заголовок параграфа подсказывает, что мы намерены рассмотреть в качестве дробящегося времени натуральные тексты.
Идея сопоставить поток времени и текст только с первого взгляда может показаться необычной. По своей исходной природе тексты подразумевают изоморфность потоку времени - они пишутся последовательно и без поворотов назад – также как идёт само время (тут я оставляю в стороне редактирование готового текста, это особая тема). И обычно они предназначены для того, чтобы и читатель их читал последовательно и без поворотов назад. Не случайно, первыми примерами достаточно длинных текстов были хроники, летописи - эти документы становились буквально отражением хода исторического времени.
Конечно, между хрониками и самим потоком исторических событий не бывает точного соответствия. В хрониках не посвящают каждому году ровно по 12 страниц. "Скорость хода" летописей зависит от наполнения времени событиями, а скорость объективного, физического времени вроде бы постоянна, неизменна. Тем более соответствие между временем и текстом усложняется, когда мы берём тексты не хронологические, а художественные или философские.
И тем не менее - и в этом есть некая загадка – тексты дробятся почти также, как дробится время. В том числе, и порождая логнормальные распределения.
Итак, мы рассматриваем "поток текста" как поток времени. Что является в этом потоке "единицей длительности"? Исследуя причины закона Зипфа в распределениях слов по частоте, мы представляли текст как поток случайных символов, букв. Тогда для нас отдельная буква текста и выступала его элементарной единицей длины. На этот раз мы поступим иначе и будем рассматривать единицей длины текста не буквы, а слова. Образно говоря, как время для нас составляется из секунд, тексты для нас будут составляться из слов.
Результатом дробления времени выступают "куски времени" – периоды, состоящие из различного числа секунд. Результатом дробления текстов для нас будут выступать его куски, образованные различными числом слов.
Что же будет контрольным событием, которое дробит тексты на куски? Первая, самая простая и естественная мысль - дробить тексты по предложениям. Контрольным событием для нас в этом случае выступает появление точки в тексте (ну, вопросительных и восклицательных знаков тоже). Раздробив текст на предложения, мы получим набор "периодов текста". Каково же будет их распределение по "длительностям", то есть, по количеству слов?
Обратимся к классическим текстам русской литературы, например, к "Капитанской дочке" Александра Сергеевича Пушкина. Вот ранговое распределение длин предложений в этом произведении:
Сомнений нет: мы видим почти идеальное логарифмическое распределение, которое с точки зрения дробления текста как потока времени является результатом "бело-шумного" дробления. Иными словами, если представить весь текст как линию, то места его дробления на отдельные предложения соответствует местам пересечения этой линии пиками белого шума:
Поскольку для каждой точки белого шума вероятность пересечь планку одинакова, мы можем сказать так: каждое слово в тексте "Капитанской дочки" имеет одинаковую вероятность оказаться последним в предложении. Чистая случайная комбинаторика букв и знаков, никаких закономерностей, кроме типичных для физического порядка.
Такой же результат мы получаем и для других классических русских текстов. От автора к автору чуть различается средняя длина предложений, но закон их ранговых распределений по количеству слов всегда оказывается логарифмическим.
Увы, тут нам не удалось обнаружить никаких следов когнитивного дробления, которое сопровождается логнормальным распределением кусков. И довольно часто встречающееся в научных статьях утверждение, что длины предложений в текстах имеют именно логнормальное распределение, оказалось не верным – во всяком случае, для достаточно длинных текстов, в которых статистические закономерности становятся хорошо ясными.
Дробим не точками, а контрольными словами
Хорошо, а что, если мы возьмем в качестве "контрольного события", дробящего текст, не появление точки, а появление какого-то слова? Как в этом случае будут распределяться периоды между этими контрольными словами?
Возьмем, к примеру, распространенное слово "на". В тексте "Капитанской дочки" оно встречается около 480 раз. Считаем дистанции между появлениями этого слова в тексте (то есть, количество других слов) и строим ранговое распределение:
Как видим, ничего утешительного - всё то же почти идеальное логарифмическое распределение. Слово "на" дробит текст также "бело-шумно", как и точки.
Прежде, чем проститься с надеждой найти следы когнитивного порядка в текстах, проверим ещё одно слово. Например, тоже довольно часто встречающееся в текстах слово "я". Как распределяются длины кусков текста, на которые это слово дробит "Капитанскую дочку"? А Вот как:
Пожалуй, это не логарифмическое распределение. Может быть, степенное? Строим то же самое ранговое распределение в двойных логарифмических координатах, как мы всегда поступаем, когда нам нужно проверить распределение на степенной закон:
Тоже мимо. Это не степенное распределение.
Вероятно, читатель уже догадался: мы имем дело с логнормальным распределением. Вот как выглядит сопоставление реального распределения с логнормальной моделью:
Тут черные точки – опытные данные, а красные - случайные логнормально распределенные числа. Как видим, совпадение весьма красноречивое.
Как мы уже говорили, привычные нам ранговые распределения не очень подходят для оценки соответствия какого-либо набора случайных величин логнормальному распределению. Скажем, из последнего графика не очень просто оценить, насколько хорошо дробление текста словом "я" соответствует этому распределению. Поэтому далее, говоря о логнормальных распределениях, мы будем использовать особый тип диаграмм, так называемые вероятностные диаграммы. Не вдаваясь в техническую сторону дела, если на логнормальной вероятностной диаграмме точки распределения ложатся на прямую линию, мы имеем дело с логнормальным распределением. Например, вот так выглядит дробление "Капитанской дочки" словом "я" на этом типе диаграммы:
Как видим, в целом точки хорошо ложатся на прямую линию. Однако, достоинство вероятностной диаграммы ещё и в том, что она позволяет оценить долю точек в распределении, которая отвечает логнормальному закону. Обратим внимание на шкалу "Вероятность". Можно заметить, что особенно хорошо на прямую линию ложатся точки в диапазоне вероятности от 0,1 до 0,95. Это значит, что логнормальному закону хорошо отвечает 0,95 - 0,1 = 0,85 всех точек распределения, то есть, около 85%.
А вот дробление текста словом "на" плохо соответствует логнормальному распределению, и это очевидно на вероятностной диаграмме:
Зато если мы возьмем это слово и проверим его на вероятностной диаграмме другого типа, на экспоненциальной, то мы увидим, что экспоненциальной функции хорошо отвечает более 95% точек:
Это значит, что на привычном нам ранговом распределении мы увидим логарифмическую функцию, то есть, логарифмическое распределение. (Чтобы далее не путаться, обратим на это внимание: прямая линия на экспоненциальной вероятностной диаграмме соответствует логарифмическому ранговому распределению.
Итак, мы неожиданно обнаружили, что в натуральных текстах слова делятся на два разных сорта. Одни дробят тексты "обыкновенно", порождая логарифмически распределенные диапазоны. Другие дробят тексты как-то "особенно", порождая логнормальные распределения. Или, в иной терминологии, первые слова дробят тексты "бело-шумно", физически. Вторые - "розово-шумно", когнитивно. В чём же разница между этими двумя типами слов?
Имена нарицательные и имена собственные
Со школьных времен мы, в принципе, понимаем разницу между "именами нарицательными" и "именами собственными". На эти два типа классическое языкознание делит имена существительные, то есть, слова, отвечающие на вопросы "кто?" или "что?". Имя нарицательное - это слово, обозначающее какой-то представитель своей категории. Например, слово "собака". Этим словом мы обычно обозначаем в речи не конкретное индивидуальное животное, а представителя целой категории. Так можно назвать каждую собаку на свете.
Но в нашей речи есть и имена собственные. Например, слово "Шарик", произнесенное по отношению к собаке - это имя собственное, оно называет не собак вообще, а конкретную собаку. по имени "Шарик". Обычно, когда мы говорим или пишем о собаке по имени Шарик, мы имеем в виду не собак с таким именем в целом, а совершенно конкретную собаку, и поэтому "Шарик" - имя собственное, то есть принадлежащее не категории, а конкретному собачьему индивидууму.
"Река" вообще или "Волга" конкретно, "человек" вообще или "Пётр" конкретно, "город" вообще или "Калининград" конкретно – казалось бы, нет никакого затруднения в том, чтобы различать имена нарицательные и имена собственные - так нас учили в школе.
Часто в речи и текстах мы, тем не менее можем говорить о собаке, имея при этом в виду не собак вообще, а конкретную собаку. Например: "Я люблю свою собаку". Тут слово "свою" придает нарицательному "собака" конкретность, индивидуальность. И с этим связана некоторая неопределенность в делении слов на нарицательные и собственные. Формально в предложении "Я люблю свою собаку" слово "собака" - имя нарицательное, но по сути – имя собственное. В английском языке эта разница между двумя пониманиями одих и тех же слов отмечается с помощью артиклей: "a dog" означает собаку вообще, "the dog" - конкретную собаку.
В русском языке артиклей нет, и поэтому глядя только на слово часто нельзя понять, в собственном или нарицательном смысле оно используется. Часто, но не всегда. В русском языке есть слова, которые как правило используются только в собственном смысле, указывая на конкретные вещи. Например, к этому типу слов относятся личные местоимения: "вы", "ты", "она", "он" и т.д. Но, конечно, главное личное местоимение, которое почти никогда не применяется в нарицательном, обобщенном смысле - это слово "я". Говоря "я" мы всегда имеем в виду конкретное существо, конкретную личность – свою собственную.
Полагаю, читатель уже догадывается, в чем причины различных распределений периодов между словами "на" и "я". Слово "на" - предельно безличное, служебное, обобщенное слово. Слово "я" - напротив, предельно собственное, конкретное, наполненное самостоятельным смыслом слово. И получается, что служебные, обобщенные, не имеющие своего конкретного, самостоятельного смысла слова дробят текст как физический белый шум. Напротив, личные местоимения и имена собственные – то есть, слова, в которых имеется самодостаточный конкретный смысл – делят тексты как когнитивный розовый шум.
Впрочем, это смелая гипотеза, которую нужно ещё подтвердить на опыте. Для этого мы сделали программу, которая автоматически оценивает качество соответствия результатов дробления текста тем или иным словом логнормальным и логарифмическим распределениям. Взяв только слова, которые встречаются в текстах более 50 раз – чтобы закономерности были заметны явно – для "Капитанской дочки" Пушкина мы получили следующий результат:
10 максимально "логнормальных" слов: Пугачев, вы, Иван, Ивановна, Марья, Швабрин, тебя, Савельич, ты, она.
10 максимально "логарифмических" слов: у, же, ещё, с, мною, от, было, все, за, на.
Не правда ли, картина весьма наглядна? Служебные, не имеющие своего конкретного смысла слова дробят текст как белый шум. Напротив, имена и личные местоимения – то есть, слова, обозначающие для авторов самодостаточные смысловые комплексы, имена собственные – дробят текст когнитивно, как розовый шум.
Проделаем то же самое для первой части "Войны и мира" Толстого (тут мы подняли минимальную частотность слов до 200, поскольку текст гораздо объемнее "Капитанской дочки"):
10 максимально "логнормальных" слов: княжна, Наташа, Марья, Ростов, Пьер, Николай, Андрей, она, ты, сказала.
10 максимально "логарифмических" слов: перед, тем, ещё, до, чтобы, том, этот, от, всех, со.
И, для разнообразия, повторим опыт на русском переводе "Феноменологии духа" Гегеля (тут из-за малости текста мы снизили минимальную частотность слов до 30 и взяли всего по 7 максимально определенных слов):
10 максимально "логнормальных" слов: дух, сознания, самосознание, я, он, самосознания, себе.
10 максимально "логарифмических" слов: этого, по, из, же, поэтому, быть, к.
Картина не только становится ясной, но даже возникает интересная возможность чисто статистически выделять "главное слово" текста, вокруг которого и для которого разворачивается повествование. Это самое "логнормальное" слово текста: для "Капитанской дочки" это слово "Пугачев", для "Войны и мира" – "княжна", а для "Феноменологии духа" - слово "дух".
Что значит это "главное слово"? Это слово, в котором фокусируется весь смысл текста, его замысел. Это слово - самая явная печать сознания автора, которую он ставит на свой текст. Это самое "когнитивное" слово текста. Не удивительно, что его статистика резко выбивается из общего ряда, потому что для автора текста оно - не просто "разменная монета" повествования, а его главная ось, вокруг которой вращается мысль автора. Кстати, если не удивительно в качестве главного слова "Капитанской дочки" обнаружить имя Пугачева, то вот для "Войны и мира" ситуация иная: первое место имеет слово "княжна", которым в книге обозначается княжна Марья Болконская. Получается, что эта героиня второго плана, как минимум, играет в книге Толстого такую же напряженную осевую функцию, что и её антагонист - Наташа Ростова. Да, и эта книга - очевидно, книга про женщин в первую очередь.
Хочу подчеркнуть: сейчас мы говорим о вещах, доселе неизвестных. К пониманию и статистическому подтверждению особой роли некоторых слов в текстах нас привели осознанные поиски следов когнитивного уровня – мы знали, что ищем. И были вознаграждены небольшим открытием.
Впрочем, может быть, не такое уж оно и пустячное. Анализ этих особых слов может обладать большим потенциалом. Кроме "точного литературоведения", когнитивного и семантического анализа текстов, он, например, может служить подспорьем при расшифровке текстов на неизвестных языках. Действительно, "логнормальные" слова с большой вероятностью оказываются именами собственными, личными местоимениями и часто ключевыми словами текста, несущими фокус авторского замысла.
Сплетение двух порядков
Обнаруженные нами особые "логнормальные" слова – это не всегда имена собственные в строгом смысле этого слова. Ими часто являются личные местоимения. Ими бывают слова, которые формально являются именами нарицательными – как слово "дух" у Гегеля. Ими даже могут являться глаголы - как слово "сказала" у Толстого. Нам нужно какое-то общее обозначение этих слов, которое позволило бы отличить от имен собственных в языкознании.
Мы будем называть такие слова Я-словами. Это подходящее название не только потому, что слово "я" как правило дробит натуральные тексты (и речь) на логнормальные дистанции:
Толстой, "Война и мир", первая часть.
Гегель, "Феноменология духа"
За каждым из особых слов стоит конкретный смысловой агрегат, который часто представляет собой какую-то личность. Даже "дух" Гегеля содержит личность, какое-то "я".
Напротив, нарицательные, служебные слова лишены этой личности и для удобства мы будем их именовать оно-словами, подразумевая их безличность, отсутствие смысловой самодостаточности.
Итак, натуральные тексты представляют собой последовательности слов двух типов - Я-слов и оно-слов. Разумеется, имеется множество слов и промежуточных слов, которые нельзя однозначно отнести ни к одному типу. В действительности, их больше, чем тех слов, которые можно уверенно отнести к какому-то чистому типу. Например, слово "из" у Пушкина нельзя однозначно отнести к Я-словам или оно-словам – оно примерно одинаково хорошо отвечает обоим тестам (в обоих случаях тестам соответствует около 80% слов):
Тем не менее, Я-слова и оно-слова образуют два полюса, и это позволяет нам взглянуть на тексты как на результат дробления времени двумя типами флуктуаций: с одной стороны розовый шум, дробящий время и тексты на логнормально распределенные промежутки. С другой – белый шум, дробящий их логарифмически. Тексты оказываются совместным продуктом двух типов дробления, то есть, являются результатом взаимодействия когнитивного и физического порядков:
Говоря образно, натуральные тексты хитроумно сплетены из нитей двух сортов. Первые нити – когнитивные, нити смыслов, вторые - нити служебные, образующие несущий физический скелет текстов. И у нас теперь есть пусть несовершенный, но способ выделять эти нити из общего плетения.
Натуральные тексты – очень интересный у удобный объект для наших изысканий, но теперь нам следует обратиться к "обобщенным текстам" – к потокам событий во времени. На некоторых примерах мы уже убедились, что наряду с событиями, которые дробят время "бело-шумно", логарифмически, есть примеры событий, дробящих время "розово-шумно", логнормально. Это значит, что различного рода хроники могут быть похожи на тексты, в которых есть "Я-слова" и "оно-слова". Подобно тому, как все слова натуральных текстов разделяются на два сорта, такое же разделение может существовать и для контрольных событий в натуральных хронологиях – например, в хронологиях исторических событий, в потоках новостей, вообще, в хрониках событий в самого разного рода системах. И, по аналогии, мы можем ожидать, что один сорт событий отражает смысловые оси "исторического повествования", а второй - лишь служит служебную роль, является только несущим физическим субстратом. Первые мы будем именовать Я-событиями, вторые - оно-событиями.
1
большой процент совпадений
Скажите а вы даете оценку на глаз, что 95% точек ложатся на прямую, или программно у вас получается такой же результат? Я вот пытаюсь программно повторить не получается такой процент попаданий, а визуально выглядит так же...
Михаил deimos27@ya.ru (28.07.2016 17:55)
2
Методики
"...мы сделали программу, которая автоматически оценивает качество соответствия результатов дробления текста тем или иным словом логнормальным и логарифмическим распределениям..."
А где ее можно посмотреть, хотя бы описание алгоритма.
Крайне интересно.
"...будем использовать особый тип диаграмм, так называемые вероятностные диаграммы. Не вдаваясь в техническую сторону дела..."А нельзя ли поподробней, или ссылочку, где бы прочесть
и про вероятностные диаграммы,
и про техническую сторону дела.
Тоже страсть как интересно.
Грибник gribnik.su@yandex.ru (27.09.2017 16:13)
3
То, что тут называется вероятностными диаграммами
обычно именуется "квантиль-квантиль графиками". О них можно найти информацию в сети - как они строятся и прочее.
Алгоритм упомянутой программы очевиден. Она составляет словарь уникальных слов в тексте, потом рассчитывает расстояния между экземплярами каждого слова, строит для каждого слова статистику, а потом проверяет качество соответствия этой статистики логнормальному или экспоненциальному распределению. Качество соответствия оценивается примерно также, как оценивается качество соответствия набора точек некоторой прямой при линейной регрессии.
Роман Уфимцев (27.09.2017 20:31)
Ваш комментарий
image Поля, отмеченные звездочкой, нужно обязательно заполнить
Заголовок комментария:
image Текст комментария: (не более 2000 символов, HTML-разметка удаляется)
image Ваше имя:
Ваш E-mail:
image Сколько будет дважды два? (ответьте цифрой, это проверка от спам-рассылок)
Отправить комментарий
Главные темы
Внимание (8)Геогештальт (1)Гештальт (16)Динамика внимания (5)Инсайт (5)Интуиция (2)Кибернетика (5)Когнитивное управление (6)Когнитивный анализ (4)Когнитивный словарь (5)Культура наблюдения (5)Мерцающие зоны (7)Метафизика (3)Метафора (13)Механизмы восприятия (15)Мифы и парадигмы (7)Органическая логика (5)Прогнозирование (6)Роль языка (4)Симметрии (5)Синхронизмы (5)Сложные системы (10)Степенной закон (8)Творческое мышление (5)Три уровня систем (4)Управление знаниями (3)Фазы развития (7)Фракталы (18)Цветные шумы (9)
КОГНИТИВИСТ: когнитивные методы и технологии © Роман Уфимцев, при поддержке Ателье ER