ОБ ОДНОМ ПРИМЕНЕНИИ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦЫ ПРИ ОБРАБОТКЕ СТАТИСТИЧЕСКИХ ДАННЫХ.

Заочные электронные конференции

О проекте

Конференции

Электронный архив

Главная / Научный электронный архив /

ОБ ОДНОМ ПРИМЕНЕНИИ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦЫ ПРИ ОБРАБОТКЕ СТАТИСТИЧЕСКИХ ДАННЫХ.

ЕЛЕУОВ А.А.

Применение теоретико-вероятностных и статистических методов, Численные методы решения дифференциальных и интегральных уравнений, Краевые задачи и задачи на собственные значения для обыкновенных дифференциальных уравнений и систем уравнений

Прочитать публикацию в формате PDF
125 Кб

Для чтения PDF необходима программа Adobe Reader

УДК 519.6

Об одном применении собственных значений и собственных векторов матрицы при обработке статистических данных.

Елеуов А.А.

Казахский национальный университет имени Аль-Фараби, Алматы

В статье обсуждается одно полезное наблюдение, которое имеет наглядный смысл и полезно при обработке статистических данных. Материал изложен без лишних математических премудростей и доступен экономистам, социологам и специалистам в других областях, использующих статистические методы.

При статистическом анализе таблицы данных, состоящей из нескольких признаков, необходимо иметь в виду эффект существенной многомерности, из-за которого к верным выводам можно прийти лишь при одновременном учете всей совокупности взаимосвязанных признаков. К примеру, попытка различить два типа потребительского поведения семей сначала по одному признаку (расходы на питание), потом по другому (расходы на промышленные товары и услуги) не дала результата, в то время как одновременный учет обоих признаков позволил обнаружить значимое различие между анализируемыми совокупностями семей.

Если число признаков - достаточно большое число, то разбиение множества исследуемых объектов на компактные группы (так называемые кластеры) может оказаться непростой задачей. В этом состоит задача классификации или кластер - анализ. После того, как объекты разбиты на однородные группы (классы), возникает задача изучения взаимосвязей признаков внутри отдельного класса. Если однородная группа образует «облако» эллиптического типа, то применяют методы корреляционного анализа. Когда объекты располагаются в окрестности некоторой кривой (поверхности и так далее) надо применять приемы регрессионного анализа.

Теория собственных векторов матриц и их применение в корреляционном анализе.

Предположим, что каждый из n объектов описывается k признаками (рост, вес, длина черепа, длина и ширина верхней челюсти и так далее), и представим данные для отдельного класса объектов в форме таблицы . Вычислим для каждого признака среднее значение и центрируем данные: . Тогда . Обозначим через выборочную ковариационную матрицу признаков: , то есть - выборочная ковариация i-го и l-го столбцов матрицы . Из того, что матрица ковариаций является неотрицательно определенной матрицей, иначе говоря, самосопряженной матрицей следует ее приводимость к диагональному виду. Следовательно, существует ортогональная матрица , приводящая к главным осям: . Здесь - диагональная матрица с неотрицательными элементами на главной диагонали, которые являются корнями уравнения . Они называются собственными значениями матрицы . Предположим, что все положительны и различны. Для экспериментальных данных это условие выполняется практически всегда. Заметим также, что столбцы матрицы представляют главные оси и определяются однозначно с точностью до выбора направления оси. Они образуют ортонормированный базис в , обладающий важными свойствами:

Проекции объектов на первую главную ось имеют наибольшую выборочную дисперсию среди проекций на всевозможные направления в пространстве , причем этот максимум равен .
Проекции объектов на вторую главную ось имеют наибольшую выборочную дисперсию среди проекций на всевозможные направления в пространстве , которые ортогональны вектору . Причем этот максимум равен .
Сумма выборочных дисперсий исходных признаков в силу подобия матриц и равна , то есть сумме выборочных дисперсий проекций объектов на главные оси. Эта величина может рассматриваться как мера общего разброса объектов относительно их центра масс. Представляет интерес относительная доля разброса, приходящаяся на первых главных осей,

Если эта величина при некотором достаточно близка к 1, то возможно уменьшение размерности пространства признаков за счет перехода от исходных признаков к новым признакам. На практике нередко удается ограничиться двумя или тремя компонентами без существенной потери информации.

Пример применения собственных векторов матриц в корреляционном анализе.

В таблице указаны размеры челюстей и зубов тридцати собак (номера 1 – 30) , двенадцати волков (номера 31 – 42) и ископаемого черепа неизвестного животного (номер 43), найденного в четверичном слое (по данным Де Бониса [1]). На рисунке показаны измеряемые характеристики: 1 – длина черепа, 2 – длина верхней челюсти, 3 – ширина верхней челюсти; следующие измерения относятся к зубам: 4 – длина верхнего карнивора, 5 – длина первого верхнего моляра, 6 – ширина первого верхнего моляра. Требуется узнать, к какому из классов (собак или волков) следует отнести неизвестное животное.

Здесь мы займемся более скромной задачей: найдем и интерпретируем главные компоненты для данного примера.

Алгоритм определения главных осей.

В каждом столбце таблицы находим среднее значение.
Из столбцов вычитаем найденные соответствующие средние. Результат обозначим через таблицу 2.
Затем составим новую таблицу 3 из квадратов элементов таблицы 2. Результат обозначим через таблицу 3.
В каждом столбце новой таблицы 3 находим среднее значение.
Столбцы таблицы 2 поделим на корни квадратные из соответствующих средних шага 4. Результат оформим в виде таблицы 4.
Таблица 4 представляет собой продолговатую матрицу (строк 43, столбцов 6). Умножим ее на ее транспонирование так, чтобы получилась матрица размерности 6 на 6.
Результат шага 6 поделим на 43. Смотрите таблицу 7.

Таблица 1

			1		2			3			4			5			6
1			129		64			95			17,5			11,2			13,8
2			154		74			76			20			14,2			16,5
3			170		87			71			17,9			12,3			15,9
4			188		94			73			19,5			13,3			14,8
5			161		81			55			17,1			12,1			13
6			164		90			58			17,5			12,7			14,7
7			203		109			65			20,7			14			16,8
8			178		97			57			17,3			12,8			14,3
9			212		114			65			20,5			14,3			15,5
10			221		123			62			21,2			15,2			17
11			183		97			52			19,3			12,9			13,5
12			212		112			65			19,7			14,2			16
13			220		117			70			19,8			14,3			15,6
14			216		113			72			20,5			14,4			17,7
15			216		112			75			19,6			14			16,4
16			205		110			68			20,8			14,1			16,4
17			228		122			78			22,5			14,2			17,8
18			218		112			65			20,3			13,9			17
19			190		93			78			19,7			132			14
20			212		111			73			20,5			13,7			16,6
21			201		105			70			19,8			14,3			15,9
22			196		106			67			18,5			12,6			14,2
23			158		71			71			16,7			12,5			13,3
24			255		126			86			21,4			15			18
25			234		113			83			21,3			14,8			17
26			205		105			70			19			12,4			14,9
27			186		97			62			19			13,2			14,2
28			241		119			87			21			14,7			18,3
29			220		111			88			22,5			15,4			18
30			242		120			85			19,9			15,3			17,6
31			199		105			73			23,4			15			19,1
32			227		117			77			25			15,3			18,6
33			228		122			82			24,7			15			18,5
34			232		123			83			25,3			16,8			15,5
35			231		121			78			23,5			16,5			19,6
36			215		118			74			25,7			15,7			19
37			184		100			69			23,3			15,8			19,7
38			175		94			73			22,2			14,8			17
39			239		124			77			25			16,8			27
40			203		109			70			23,3			15			18,7
41			226		118			72			26			16			19,4
42			226		119			77			26,5			16,8			19,3
43			210		103			72			20,5			14			16,7
ср. ариф. значение			204,9535		106,4651			72,53488			21,05581			17,05814			16,8093
Таблица 4

	1			2			3			4			5		6
1	-2,81171			-2,86441			2,491943			-1,3857			-0,32938		-1,23658
2	-1,88624			-2,18987			0,384368			-0,41145			-0,1607		-0,1271
3	-1,29394			-1,31298			-0,17026			-1,22982			-0,26753		-0,37365
4	-0,6276			-0,84081			0,051593			-0,6063			-0,21131		-0,82566
5	-1,62711			-1,7177			-1,94506			-1,54158			-0,27878		-1,56532
6	-1,51605			-1,11062			-1,61228			-1,3857			-0,24504		-0,86675
7	-0,07232			0,170986			-0,83581			-0,13866			-0,17195		-0,00382
8	-0,99779			-0,63845			-1,72321			-1,46364			-0,23942		-1,03112
9	0,260853			0,508252			-0,83581			-0,2166			-0,15508		-0,53802
10	0,594022			1,11533			-1,16858			0,056189			-0,10448		0,078361
11	-0,81269			-0,63845			-2,27783			-0,68424			-0,2338		-1,35986
12	0,260853			0,373345			-0,83581			-0,52836			-0,1607		-0,33256
13	0,557004			0,710611			-0,28118			-0,48939			-0,15508		-0,49693
14	0,408929			0,440799			-0,05933			-0,2166			-0,14946		0,366005
15	0,408929			0,373345			0,273443			-0,56733			-0,17195		-0,16819
16	0,001722			0,238439			-0,50303			-0,09969			-0,16633		-0,16819
17	0,853154			1,047877			0,606218			0,562797			-0,1607		0,407097
18	0,482966			0,373345			-0,83581			-0,29454			-0,17757		0,078361
19	-0,55356			-0,90826			0,606218			-0,52836			6,462765		-1,1544
20	0,260853			0,305892			0,051593			-0,2166			-0,18882		-0,08601
21	-0,14635			-0,09883			-0,28118			-0,48939			-0,15508		-0,37365
22	-0,33145			-0,03137			-0,61396			-0,996			-0,25067		-1,07221
23	-1,73816			-2,39223			-0,17026			-1,69746			-0,25629		-1,44204
24	1,852661			1,31769			1,493618			0,134129			-0,11572		0,489281
25	1,075267			0,440799			1,160843			0,095159			-0,12697		0,078361
26	0,001722			-0,09883			-0,28118			-0,80115			-0,26191		-0,78457
27	-0,70164			-0,63845			-1,16858			-0,80115			-0,21693		-1,07221
28	1,334398			0,845518			1,604543			-0,02175			-0,13259		0,612557
29	0,557004			0,305892			1,715468			0,562797			-0,09323		0,489281
30	1,371417			0,912971			1,382693			-0,45042			-0,09885		0,324913
31	-0,22039			-0,09883			0,051593			0,913526			-0,11572		0,941293
32	0,816135			0,710611			0,495293			1,537044			-0,09885		0,735833
33	0,853154			1,047877			1,049918			1,420135			-0,11572		0,694741
34	1,001229			1,11533			1,160843			1,653954			-0,01451		-0,53802
35	0,96421			0,980424			0,606218			0,952496			-0,03138		1,146753
36	0,37191			0,778064			0,162518			1,809833			-0,07636		0,900201
37	-0,77567			-0,43609			-0,39211			0,874556			-0,07074		1,187845
38	-1,10884			-0,84081			0,051593			0,445888			-0,12697		0,078361
39	1,260361			1,182783			0,495293			1,537044			-0,01451		4,187559
40	-0,07232			0,170986			-0,28118			0,874556			-0,11572		0,776925
41	0,779116			0,778064			-0,05933			1,926743			-0,0595		1,064569
42	0,779116			0,845518			0,495293			2,121592			-0,01451		1,023477
43	0,186816			-0,23373			-0,05933			-0,2166			-0,17195		-0,04491
Таблица 7

1		0,958741				0,348183			0,612949			-0,032121				0,587251
0,958741		1				0,200333			0,661002			-0,085869				0,594653
0,348183		0,200333				1			0,369962			0,120454				0,354777
0,612949		0,661002				0,369962			1			-0,015032				0,762643
-0,03212		-0,085869				0,120454			-0,015032			1				-0,120108
0,587251		0,594653				0,354777			0,762643			-0,120108				1

Таблицы 4 и 7 вычислены на популярной программе по использованию электронных таблиц Microsoft Excel. Собственные векторы и собственные значения матрицы, приведенной в таблице 7, вычислены с использованием вариационных методов. В диссертационной работе [2] нами предложены различные алгоритмы вычисления собственных значений и собственных векторов матриц на основе вариационного метода. В работе [3] эти методы применялись для некоторых задач экономики. В данной работе предлагается применение указанных алгоритмов к некоторым задачам статистических данных.

, , , , ,

След матрицы равен 6, при этом

первое собственное значение составляет 68.3% от следа,
сумма первых двух собственных значений составляет 83.0%,
сумма первых трех собственных значений составляет 93.7%.

Обсуждение и интерпретация полученных результатов. На первые 3 компоненты приходится 93.7% полной дисперсии «облака». При этом первая компонента имеет смысл общего размера. Это следует из того, что все компоненты у одного знака и примерно одинаковы по величине, то есть при проектировании на эту ось координаты нормированных признаков складываются. Вторая компонента в основном отвечает за ширину верхней челюсти (признак 3), поскольку третья координата у по абсолютной величине равна 0.89 (почти 1), а вторая – 0.38. Так как знаки этих координат разные, то эти признаки отражают различие в пропорциях челюстей и отличают удлиненные формы от укороченных (гончих и колли от бульдогов и боксеров). Второй и третий признаки у волков и немецких овчарок почти одинаковы. Третья ось противопоставляет размеры челюстей размерам зубов: первые три координаты у примерно равны по сумме без знака последним трем, но противоположны по знаку. Эта ось позволяет отличить животных с развитыми зубами (волки, немецкие овчарки, доберманы) от собак других пород (сенбернары, сеттеры).

Заключение

Приведенный метод главных компонент может применяться в различных задачах, где возникают симметрические матрицы. Например, когда исходной информацией об объектах служат экспертные данные о различиях между ними, выраженных числами.

Литература

Жамбю М. Иерархический кластер – анализ и соответствия. – М.: Финансы и статистика. 1988
Елеуов А.А., Отелбаев М.О., Акжалова А.Ж., Рысбайулы Б. Вычисление собственных чисел и собственных векторов матриц. // Евразийский математический журнал ЕНУ им. Л.Н. Гумилева и МГУ им. М.В. Ломоносова. г. Астана, 2005.-№ 1 - С. 57-78.
Елеуов А.А., Алгоритмы счета собственных чисел и собственных векторов матриц // Вестник КазНПУ им. Абая. Серия физика, математика, информатика. – 2007. – №1(17). – С.23-28.

Библиографическая ссылка

ЕЛЕУОВ А.А. ОБ ОДНОМ ПРИМЕНЕНИИ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦЫ ПРИ ОБРАБОТКЕ СТАТИСТИЧЕСКИХ ДАННЫХ. // Научный электронный архив.
URL: http://econf.rae.ru/article/7956 (дата обращения: 20.09.2024).

Получить сертификат

Форма заказа сертификата