Центр ситуационного анализа и прогнозирования ЦЭМИ РАН

Decision Support and Forecasting Center CEMI RAS

 

 

 

 

Эконометрическая теория и практика

 

О классификации регионов России в пространстве компонент - валовых добавленных стоимостей, валового регионального продукта.*

 

А.Н. Березняцкий.

 

В ряде научно-практических задач необходимо произвести разбиение некоторой группы объектов на классы. Это может быть как самодостаточная задача, на выходе которой нас интересует, каким образом группируются объекты, так и вспомогательная, когда классификация необходима для решения некоторой другой задачи.

В рамках стратегии пространственного развития России разрабатывается класс моделей социально-экономической динамики, для статистической верификации которых требуется разбиение регионов России на однородные в некотором смысле группы. В этой работе представлен один из возможных подходов к решению этой задачи: разбиение регионов по схожим «хозяйствующим портретам».

Существует два принципиально разных подхода к классификации: экспертный и подход на основе методов многомерного статистического анализа. В первом варианте регионы анализируются экспертами с соответствующей подготовкой и по ряду количественно-качественных признаков относятся к тому или иному кластеру. В этом отношении следует отметить работы школы регионалистики под руководством Зубаревич Н.В. (см. к примеру, (Зубаревич, 2010)). Во втором подходе разбиение регионов на классы определяется исключительно количественным анализом в рамках выбранного метода (алгоритма) классификации (Айвазян и др., 1974, 1989), (Everitt et al, 2011).

Далее мы рассмотрим количественный подход к классификации.

На входе задачи используются данные Росстата по валовому региональному продукту и его компонентам в виде валовых добавленных стоимостей (ЕМИСС, 2017). При этом вектор параметров, характеризующих регион, может формироваться в соответствии с различной методологией. Традиционно используется подход, в котором вектор состоит из компонент-долей валовых добавленных стоимостей в валовом региональном продукте региона. Так называемая концепция «абсолютной специализации». Далее будет представлен пример методики в отношении концепции «относительной специализации», когда вектор формируется из компонент-долей валовых добавленных стоимостей региона в соответствующих общероссийских. Таким образом, делается акцент на роли региона в производственной структуре российской экономики и исключается влияние изменения цен на производственную структуру региона.

В отношении данных имеется скудный объем информации: заранее неизвестно количество классов, статистические свойства данных (законы распределения, моменты) не заданы. В этом случае наиболее распространенными методами кластеризации являются разновидности метода К-средних и иерархические процедуры (Айвазян и др., 1989), (Mirkin, 2005), (Wu, 2012).

Для реализации алгоритма К-средних требуется информация о количестве классов, которой мы не обладаем. И все-таки алгоритм может быть полезен и в этом случае. Дело в том, что в случае с регионами мы фактически имеем дело с генеральной совокупностью, а не с выборкой данных: множество регионов конечно и в нашем распоряжении данные о всех регионах. Таким образом, потенциальное количество классов ограничено сверху количеством регионов. Величина эта относительно небольшая и даже с учетом размерности вектора параметров вполне под силу современной среднестатистической вычислительной машине. Анализ поведения оптимальных значений функционала качества разбиения при переборе числа кластеров от единицы до количества регионов может дать информацию о потенциальном «истинном» количестве классов. Ожидается, что по мере приближения к «истинному» количеству кластеров будет происходить резкое уменьшение оптимальных значений функционала. В дальнейшем должно происходить равномерное снижение оптимальных значений по мере увеличения количества кластеров (в силу построения алгоритма). Результаты прогона алгоритма в MATLAB представлены на рис. 1.

Рис. 1. Динамика оптимальных значений функционала качества разбиения алгоритма К-средних для всех возможных значений количества кластеров k.

  Как видно из рис. 1, переход с резкого снижения оптимальных значений функционала к пологому происходит в районе равному 10-12. Зная ориентировочное значение числа k, можно применить алгоритм К-средних для окончательной классификации.

Оценить потенциальное количество классов можно и несколько иным способом. Далее приводится схема эвристического алгоритма. Основная идея следующая: потенциальное количество классов эквивалентно числу видов экономической деятельности по ОКВЭД. Регион относится к конкретному классу-виду экономической деятельности по максимальному значению доли вида экономической деятельности в общероссийской для заданного региона.

Эвристический алгоритм разбиения.

1. шаг. На входе матрица размера nxm, где n – количество объектов (регионов России), m – количество видов экономической деятельности (ВДС), t – период времени регистрации данных:


 

2. шаг. Максимальное количество классов известно и совпадает с количеством видов экономической деятельности. Вычисляется максимальное значение в каждой из строк матрицы (1), фиксируется координата максимального значения в строке:
                                                                    

 

3. шаг. Объект относится к заданному классу по координате в строке максимального значения.

Эвристический алгоритм дал оценку числа классов k равной 12, что вполне согласуется с результатами экспериментов по методу К-средних.

С целью анализа качества алгоритма разбиения можно проверить траектории кластеров во времени. Предполагается неизменность структуры экономики России в кратко и среднесрочной перспективе, таким образом, и состав кластеров должен быть неизменен. Результат применения алгоритма к данным из (ЕМИСС, 2017), реализованного в MATLAB, приводится ниже.

Прогон алгоритма проводился для всех t:

Необходимо отметить, что в данной методике рассмотрен максимально жесткий вариант использования методов классификации: рассматривается полный набор регионов и полный набор видов экономической деятельности. В результате экспертного анализа количество регионов может быть предварительно уменьшено, отдельные виды деятельности могут быть сгруппированы с целью снижения размерности пространства (см. Айвазян и др., 2016).

 

Рис. 2. Классификация регионов России в пространстве компонент – валовых добавленных стоимостей, траектории кластеров (приведены выборочно 2 кластера; цвет обозначает тип класса)

Литература
 

  1. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. (1989). Прикладная статистика: Классификация и снижение размерности: Справ. изд. — М.: «Финансы и статистика». — 607 с.

  2. Айвазян С.А., Бежаева З.И., Староверов О.В. (1974). Классификация много-мерных наблюдений. — М.: «Статистика». — 240 с.

  3. Айвазян С.А., Афанасьев М.Ю., Кудров А.В. (2016). Метод кластеризации ре-гионов РФ с учетом отраслевой структуры ВРП. Прикладная эконометрика. № 1 (41). С. 24-46.

  4. Единая межведомственная информационно-статистическая система (ЕМИСС). (2017). Федеральная служба государственной статистики, https://fedstat.ru/.

  5. Зубаревич Н.В. (2010). Регионы России: неравенство, кризис, модернизация. — М.: Независимый институт социальной политики. — 160 с.

  6. Mirkin B. (2005). Clustering for data mining. A data recovery approach. Taylor & Francis Group. — 296 с.

  7. Everitt B., Landau S., Leese M., Stahl D. (2011). Cluster Analysis. 5th edition. — Wiley series in probability and statistics. — John Wiley & Sons, Ltd. —348 c.

  8. Wu J. (2012). Advances in K-means clustering. A data mining thinking. Springer.

     

* Тезисы доклада на XI-й Международной конференции "Применение многомерного статистического анализа в экономике и оценке качества".


 

назад 

 

                  

 
 

Контакты:

ЦЭМИ РАН 117418, Москва, Нахимовский проспект, 47, комната 1110