Историческая статистика Википедии 1.2. (Национальные Википедии)

Аватар пользователя Reader1

Мы подробно просмотрели историческую статистику Английской Википедии (часть 1.1).

Рассмотрим  базы данных других национальных Википедий.

Теоретически по мере наполнения баз данных разных Википедий полным списком всех исторических персонажей, они должны будут слиться в одну базу. Наблюдал 10 лет. Как ни странно тенденции к этому пока не заметно. Национальные Википедии имеют приоритет к национальной истории и их графики имеют ярко выраженный национальный профиль.

Ранее я проводил срез  XVII-XVIII веков английской и русской Википедии по национальностям и профессиям исторических персонажей, это позволяет приблизительно оценить объем отличий в базах данных.

В русской Википедии доля англичан и североамериканцев 10-12%, доля русских 30-35%

В английской Википедии доля англичан и североамериканцев 45-50%, доля русских 2%

Таким образом, обе базы данных не совпадают по англичанам на 35%, по русским на 30%.

Общий объем несовпадений по национальным историческим персонажам  приблизительно 60-65%. По-видимому, в XIX – XX веках объём несовпадений должен вырасти.

То есть каждая национальная википедия имеет свою базу данных отличную от других.

Изучая статистику Английской Википедии, мы обнаружили принципиальную точку перелома на диаграммах, когда на статистику начинает влиять демографический фактор.

   Для дальнейшего исследования введем для наших статистических диаграмм параметры:
ДЭР – дата демографической экспоненты по диаграмме рождений.
ДЭС – дата демографической экспоненты по диаграмме смертей.

Эти точки можно визуально определить достаточно точно, +- 10 лет. Возможно, после математической обработки базы данных точность повысится до года.

1. Россия

Сбор данных

Март 2013 г. (295000 дат)

Октябрь 2019 г. (627000 дат)

Рис. 1  

Объем информации вырос более чем в 2 раза. Конфигурация сохраняется.

 Рис. 2

Для России история в 20 веке сложилась наиболее драматично. Мощные экстремумы на линии смертей в 1914-19, 1937, 1941-45 годах, «святые девяностые», вторая чеченская.

На линии рождений также видны яркие отклики экстремумов связанные с погибшими во второй мировой войне. 1923 год – призывной год к на начало войны 1941.

Экстремум 1947 года – эффект демобилизации, солдаты вернулись домой, этот экстремум виден и на графиках других стран.

Рис. 3 

XVIII-XIX века. На графике смертей относительно небольшие пики

1794 – французская революция

1812-1815 – наполеоновские войны

1831 – восстание в Польше

1848 – революции в Европе

1855 – Крымская война

Рис. 4  

Флуктуация XVII века, характерная для английской истории,  не выражена.

Рис. 5  

Начало  экспоненты примерно, как и в Англии 1720-1780.

ДЭР 1720, ДЭС 1780

Рис. 6 

Рис. 7

2. Немецкая Википедия.

Сбор данных март 2013 года (664 000 дат)
Диапазон 1400 – 2013 г.

Рис. 8  

На линии смерти мощный экстремум в 1945 году.
Во время войны с демографией все в порядке, на линии рождений в 1944 году это максимум на протяжении всей истории Германии.
Снижения рождаемисти после 1960-х.

Рис. 9  

XVII – XIX века – стабильная экспонента.

Рис. 10 

Рис. 11  

Рис. 12  

Демографическая экспонента начинается раньше других европейских стран. Линия рождений начинает задираться кверху около 1690 года.
ДЭР - 1690, ДЭС - 1750.

Рис. 13

3. Франция

Сбор данных март 2013 года (449 000 дат)
Диапазон 1400 – 2013 г.

Рис. 14

На линии смертей экстремум первой мировой войны 1915, рядом русская революция 1918, над ними провал на линии рождений.
Пик второй мировой войны приходится на 1944 год.


Рис. 15


Рис. 16

Основное событие Великая французская революция.
Всплеск смертей в 1794 году наиболее яркий. Хорошо виден отклик на линии рождений для людей, погибших под гильотиной.


Рис. 17

Перед экспонентой плавный равномерный рост.


Рис. 18

Экспонента: ДЭР - 1700, ДЭС – 1760


Рис. 19

Чтобы не загромождать пост большим количеством графиков в дальнейшем буду иногда ограничиваться только одним логарифмическим.

4. Италия

Сбор данных март 2013 года (293 000 дат)
Диапазон 1400 – 2013.

Рис. 20

Экспонента: ДЭР - 1710, ДЭС – 1770

5. Испания

Сбор данных март 2013 года (236 000 дат)
Диапазон 1400 – 2013.

Рис. 21

Экспонента: ДЭР - 1710, ДЭС – 1770

6. Япония

Сбор данных март 2013 года (261 000 дат)
Диапазон 1400 – 2013.


Рис. 22

1945 разгром квантунской армии и атомная бомбардировка


Рис. 23

Пики на графиках смертей связаны с национальной историей Японии

1864 - Бои за Симоносеки— вооружённый конфликт в Японии между Тёсю-ханом и коалицией четырёх западных государств — Великобритании, Франции, Голландии и США.
1868 гражданская война
1703 год — землетрясение около Токио, Япония. Разрушены Одавара, Токио и другие города, примерно 150 000 человек погибло.


Рис. 24

1582 Объединение Японии
1600 Битва при Сэкигахаре, начало периода Эдо http://en.wikipedia.org/wiki/Battle_of_Sekigahara
1615 осада Осаки http://en.wikipedia.org/wiki/Siege_of_Osaka

Переход к экспоненциальному росту произошел в Японии значительно позже, чем в Европе.
Экспонента: ДЭР - 1790, ДЭС – 1850.

Интересно, что исторические максимумы, связанные с круглыми годами характерные для Европы 16-17 веков у Японцев не проявляются. То есть, у них нет сомнений в отношении точных дат рождений героев. Это же относится к Китаю, где даты рождений китайских исторических персонажей почти всегда известны с точностью до дня.


Рис. 25

7. Китай

Сбор данных ноябрь 2019 года (204 000 дат)
Диапазон 1400 – 2019.

Рис. 26

Видна «культурная революция» 1966-1975 годов и снижение рождаемости в это время.

Рис. 27

Демографическая экспонента так же как в Японии начинается поздно.
ДЭР - 1790, ДЭС – 1850.

Рис. 28

Пик в начале XV века на диаграмме родившихся – какой-то китайский биографический список политических деятелей династии Мин с датами рождений и без дат смерти.
1645 год китайская резня при смене династии Мин на Цин.

Рис 29

8.Корея

Сбор данных ноябрь 2019 года (120 000 дат)
Диапазон 1400 – 2019.

Рис. 30

Демографическая экспонента так же как в Японии и Китае начинается поздно.
ДЭР - 1790, ДЭС – 1850.

 

Статистические диаграммы всех национальных Википедий, несмотря на разное содержание и объем, проявляют одни и те же закономерности. Первоначальные достаточно хаотичные графики в определенный момент резко сменяются, хорошо просматриваемой, демографической экспонентой.

Динамика  роста исторической информации меняется принципиально. Скорость набора информации увеличивается. До перелома объем исторической информации за столетие увеличивался в среднем в 1,3 раза, после XVIII века в 4 раза. Расхождение между линиями рождения и смерти на величину продолжительности жизни говорит о том, что на рост информации стал оказывать влияние демографический фактор.  

Занесем точки перехода в таблицу.

Википедия           ДЭР     ДЭС

Немецкая            1690    1750

Французская       1700    1760

Итальянская       1710    1770

Испанская           1710    1770

Английская          1710    1770

Русская                1720    1780

Японская             1790     1850

Китайская            1790     1850

Корейская           1790      1850

Видим, что в Европе демографическая экспонента начинается практически одновременно, с разницей в 10-20 лет.

В Азии демографическая экспонента появляется позже примерно лет на 90.

Данное историческое явление имеет не эволюционный, а революционный характер, поскольку происходит практически мгновенно. Этот феномен требует какого-то разумного объяснения.

Ваше мнение, камрады?

Авторство: 
Авторская работа / переводика

Комментарии

Аватар пользователя alexsword
alexsword(12 лет 6 месяцев)

На дешевой энергии, сперва угля, потом нефти и газа, заколосилось множество отраслей.

Что неясного в причинах и следствиях?

Аватар пользователя Reader1
Reader1(8 лет 4 месяца)

Тут не постепенное эволюционное развитие, а некое социальное или технологическое  событие, которое мгновенно поменяло исторический контекст. Родившихся личностей стало больше чем умерших (в исторической статистике), практически линейный график превратился в экспоненту. На каждой территории можно четко зафиксировать дату.

Аватар пользователя Praetor12
Praetor12(11 лет 4 месяца)

Спасибо за интересную статью комрад! Специально залогинился чтобы оставить комментарий, и, в том числе, поблагодарить за проделанную работу. 

За информацию - спасибо, за графики - особенно, а выводы и вопросы это конечно совершенно лишнее. По сути, это поиск корреляции между числом пиратов и глобальной температурой. Не то ищете и не там.

Я даже глянул в первую часть статьи, которую доселе не видел, и собственно, именно оттуда и растут ноги заблуждений.

Видно, что вы понимали тот факт, что использованная выборка будет сильно влиять на итоги, но формальная схожесть ввела вас в заблуждение. Тут самое главное - это то, что зависимость численности населения и численности попавших в википедию - она мнимая. Причем, даже хуже, она может быть наблюдаемой визуально и статистически чем ближе время к настоящему, но тем не менее на данных до примерно полученных вами цифр её попросту нет. Вот тут и возникают "загадки". Если присмотреться к левым хвостам графиков то видно, что они отражают по сути "среднеисторический событийный фон", т.е. условно говоря, удельное количество Чингисханов на единицу временной шкалы. Т.е. шансы на попадение в вику, они не равны для одного человека XX века и XIV. И эти шансы все время возрастают. Но так как они возрастают "близко" к росту численности населения - то и наблюдается данная корреляция, но она ложна. Попросту, совпали на временной шкале две независимые случайные величины (нет, они конечно имеют зависимость, но настолько сложную что увидеть её настолько явно на графиках невозможно). Если бы мы с вами могли переместиться в будущее, лет эдак через сто, то скорее всего наблюдали бы следующее: рост численности населения остановился, а рост родившихся/умерших остался бы прежним. 

Так что не задавайтесь бессмысленными в данном случае вопросами - это просто систематическая ошибка отбора. 

Но если вы намерены продолжать свой труд, то я честно был бы рад увидеть такую же статистику, но по "очищенным" национальным данным, ну т.е. для каждой национальной вики нужно взять только людей, тем или иным образом являвшихся частью национальной истории данных стран/наций и принадлежавших этой нации.  Сложно формализовать это требование, и скорее всего, в первом приближении нужно брать тех, у кого место рождения географически подпадает на территорию, которую государство (или одно из, как например с Кореей или Др. Русью) на тот момент охватывало.

Аватар пользователя Reader1
Reader1(8 лет 4 месяца)

Тут самое главное - это то, что зависимость численности населения и численности попавших в википедию - она мнимая.

Слишком контрастны левая и правая половины графика. Переход из одной исторической реальности в другую практический мгновенный. Что требует логического объяснения.

был бы рад увидеть такую же статистику, но по "очищенным" национальным данным,

Уже сделано. Для периода 17-18 века я сепарировал людей по национальности и профессии. Будет время, скомпоную в статью.

Аватар пользователя Praetor12
Praetor12(11 лет 4 месяца)

Слишком контрастны левая и правая половины графика.

Простите, но не видно никакой "излишней констрастности". А причина перехода гладкой горизонтальной прямой в экспоненту очевидна: это распространение массового образования вместе с доступностью книгопечатания. Сама по себе численность населения здесь вообще не при чем. Там, где прямая горизонтальна население менялось крайне радикально - по отдельным регионам. Но на графике этого не заметить, потому что как писали придворные летописцы про 10 высших аристократов, так и продолжают писать. Велика была серая безмолвная крестьянская масса, никак не отражаемая в письменных и изобразительных источниках. 

Потом ключевая веха 1 - это печатный станок, но с замедленным лагом, потому что первую сотню лет печатали нужные книги - Библии и проч. Всякая ненужная современность и современники не особо печатались. А вот XVIII век - это как раз начало того, когда в обществах совпадают два технологических новшества: доступное по деньгам книгопечатание и увеличение числа грамотных людей. Вот и все. Когда стало позволительным упоминать в письменных источниках о ком-нибудь менее существенным, нежели царь, его жена, две любовницы и три генерала.

Здесь НЕТ связи с демографией. Если вы возьмете страны/культуры, от которых не осталось или осталось мало письменных источников, то отсутствие этой связи будет очевидным. Огромные империи инков, майя, ацтеков, тольтеков и проч. оставили после себя крайне мало "удельных Чингисханов на единицу хронологической шкалы", но не потому что у них их было как-то радикально меньше, а просто по той причине, что от них письменных источников дошло меньше. Заметьте, до расшифровки письменности майя там имен то было штук 5 - всё, что "бережные" испанцы записали. Да и сейчас информации не густо - по сути списки царей с именами и датами есть, а что это, кто это - ничего нет. В википедии обычно нельзя создавать "пустые" статьи. Ну типа "Ивашцубашка" - правитель Тикаля упомянутый 28-ым справа в стелле номер 186, найденной в 1976 году мексиканским археологом Хуаном Педротом около деревни Хренпоймигдеево на юге Юкатана". Их тупо удаляют модеры как несоответствующие. Поэтому часто все такие имена просто перечислены списком в одной статье. И никаких годов рождения и смерти там обычно и нету - разве что даты правления в лучшем случае.

Но чисто умозрительно понятно, что в среднем, там должно было быть как-то также как и в среднем в остальном мире. Тоже были свои "именитости", которых было бы достойно упомянуть в вики на отдельной статье.

Аватар пользователя Reader1
Reader1(8 лет 4 месяца)

Спасибо. Я вас услышал.