ГЛОССАРИЙ

Глава 4. Анализ взаимосвязи между признаками

(The analysis of correlation between tags)

 

4.1. Анализ парных взаимосвязей

(Analysis of pair correlation)

 

Коэффициент ассоциации (coefficient of association) – оценка степени тесноты связи между качественными признаками, каждый из которых представлен в виде альтернативного признака. Однако в тех случаях, когда один из четырех показателей отсутствует, величина коэффициента равна 1, что дает преувеличенную оценку связи между признаками.

Коэффициент взаимной сопряженности Пирсона ( Pearson’s mutual coefficient of a contingency) – оценка степени тесноты связи между качественными, но не альтернативными признаками.

Коэффициент контингенции (contingent coefficient) оценка степени тесноты связи между качественными признаками, каждый из которых также как и для коэффициента ассоциации должен быть представлен в виде альтернативного признака. Однако коэффициент контингенции по абсолютной величине меньше коэффициента ассоциации.

Коэффициент корреляции (correlation coefficient) - числовая характеристика совместного распределения двух случайных величин, выражающая их взаимосвязь. Если коэффициент больше 0, то при увеличении значений одной из величин, вторая имеет тенденцию к увеличению; если меньше нуля – к снижению.

Коэффициент корреляции рангов Спирмэна ( Spearman’s rank correlation coefficient) – непараметрическая оценка, позволяющая измерить тесноту связи как между количественными, так и между качественными признаками. Она основана на рассмотрении разности рангов значений факторного и результативного признаков.

Критерий Стьюдента (t-критерий) (Student’s t-test) – статистический критерий, использующий при оценке непротиворечивости статистической гипотезы результатам наблюдений функцию, имеющую распределение Стьюдента.

Уравнение регрессии (regression equation) – способ аппроксимации истинной регрессионной зависимости. Оно описывает изменение условного среднего значения результирующего показателя в зависимости от изменения факторного признака.

F- статистика (F- statistics) – критерий для проверки существенности уравнения регрессии. Если расчетное значение критерия больше табличного (с уровнем значимости a и степенями свободы 1 и (n – m) ), то можно считать, что уравнение регрессии значимое.

 

4.2. Многомерный анализ взаимосвязей

(The multivariate analysis of correlation)

 

4.2.1. Множественный корреляционно-регрессионный анализ

(Multiple correlation and regression analysis)

 

Коэффициент множественной детерминации (multiple determinant coefficient) – общий показатель тесноты связи всех входящих в уравнение регрессии факторов с результативным показателем. Он представляет собой отношение части вариации результативного признака, объясняемой за счет вариации включенных в уравнение факторов, к общей вариации результативного признака.

Частные коэффициенты корреляции (individual correlation coefficients) – показатели истинной связи между результативным признаком и одним из факторных признаков, т.е. не обусловленной действием других факторов, включенных в модель.

 

4.2.2. Дискриминантный анализ (Discriminant analysis)

 

Дискриминантная функция (discriminant function) – статистика, служащая для построения правила классификации объектов по группам.

Дискриминантное множество (discriminant score) - это база для отнесения объектов и индивидуумов к какой-либо определенной группе.

Дискриминантные веса или коэффициенты дискриминантной функции (discriminant weights) – параметры уравнения дискриминантной функции, позволяющие оценить способность конкретных независимых переменных определять различия в группах объектов или индивидуумов. Независимые переменные, существенно влияющие на различия в группах, имеют большие веса, а те переменные, которые имеют незначительное влияние, - маленькие веса. В результате анализа необходимо выбрать те переменные, которые в большей мере определяют вероятность попадания какого-либо объекта в конкретную группу. Коэффициенты дискриминантной функции могут быть представлены в стандартизированной и нестандартизированной формах.

Дискриминантные переменные (discriminant variables) – характеристики, применяемые для того, чтобы отличать один класс от другого; они должны измеряться либо по интервальной шкале, либо по шкале отношений. Таким образом, становится возможным вычисление математических ожиданий, дисперсий и правомерно использование математических уроавнений.

Дискриминантный анализ (discriminant analysis) – статистический метод, который позволяет изучать различия между двумя и более объектов по нескольким признакам одновременно.

Нестандартизованные коэффициенты (raw coefficients) коэффициенты, предоставляющие информацию об абсолютном вкладе переменной в значение дискриминантной функции.

Стандартизованные коэффициенты (standardized coefficients) – характеристики относительного вклада дискриминантных переменных в значение дискриминантной функции.

Структурные коэффициенты (structure coefficients) – коэффициенты корреляции между отдельной переменной и дискриминантной функцией. Их называют “полными структурными коэффициентами”. Когда абсолютная величина структурного коэффициента велика, вся информация о дискриминантной функции заключена в этой переменной. Если коэффициент близок к нулю, то связь между ними мала.

Статистика (l ) Уилкса ( Wilks’ Lambda) – мера различий между классами по нескольким дискриминантным переменным. Величины l , близкие к нулю, свидетельсвуют о высокой степени различия между классами. Максимальное значение l , равное 1, характеризует отсутствие различий между классами.

Статистика F – включения ( F – enter) - является частной F- статистикой с числом степеней свободы (g – 1) и (n – p – g + 1); оценивает улучшение различия от использования рассматриваемой переменной по сравнению с различием, достигнутым с помощью других уже отобранных переменных. Если величина F – включения мала, то вряд ли необходимо отбирать такую переменную, потому что она не дает достаточно большого вклада в различие.

Статистика F- удаления (F – remove) – также является частной F- статистикой с числом степеней свободы (g – 1) и (n – p – g + 1). Однако она оценивает значимость ухудшения различия после удаления переменной из списка уже отобранных переменных. Статистика F- удаления используется для ранжирования дискриминантных возможностей отобранных переменных.

Толерантность (tolerance)тест по проверке отобранных для анализа переменных. Если проверяемая переменная является линейной комбинацией (или приблизительно равна линейной комбинации) одной или нескольких отобранных переменных, то ее толерантность равна нулю (или близка к нулю). Такую переменную нежелательно использовать в расчетах, потому что она не дает никакой новой информации, но создает вычислительные проблемы. Толерантность еще не отобранной переменной равна единице минус квадрат множественной корреляции между этой переменной и всеми уже отобранными переменными.

 

4.2.3. Факторный анализ (Factor analysis)

 

Выделение факторов (extraction of factors) – первоначальный этап факторного анализа; ковариационная матрица воспроизводится посредством небольшого числа скрытых факторов или компонент.

Главные компоненты (principal components) – линейная комбинация наблюдаемых переменных, обладающая свойством ортогональности; первая главная компонента воспроизводит наибольшую долю дисперсии исходных данных, вторая – следующую по величине долю и т.д.

Дисперсия (variance) –степень колеблемости признака, его вариация, порождаемая всей совокупностью действующих на него факторов; вычисляется как средний квадрат отклонений значений признака от общей средней.

Корреляция (correlation) –линейная зависимость между случайными переменными, не имеющая строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.

Косоугольное вращение (oblique rotation) – преобразование в факторном анализе, с помощью которого получается простая структура; факторы вращаются без наложения условия ортогональности, и результирующие факторы коррелируют друг с другом.

Линейная комбинация (linear combination) – сумма, в которую переменные входят с постоянными весами.

Линейная система (linear system) – линейная зависимость между переменными, в факторном анализе – модель, в которой измеряемые величины линейно связаны со скрытыми факторами.

Метод максимального правдоподобия (method of maximum likelihood) – метод статистического оценивания, в котором определяется значение переменных генеральной совокупности с использованием выборочного распределения; в факторном анализе – метод получения первоначального факторного решения.

Наименьших квадратов метод (least – squares solution) – решение, для которого минимизируется сумма квадратов отклонений между наблюдаемыми и предполагаемыми значениями; в факторном анализе – метод получения первоначального факторного решения.

Общий фактор (common factor) – не измеряемая (гипотетическая) скрытая величина, которая учитывает корреляцию по крайней мере между двумя наблюдаемыми переменными.

Общность (communality) – доля дисперсии наблюдаемых переменных, обусловленная общими факторами, в модели с ортогональными факторами она равна сумме квадратов факторных нагрузок.

Ортогональное вращение (orthogonal rotation) – преобразование, с помощью которого получается простая структура при выполнении ограничения ортогональности (некоррелированности) факторов; факторы, выделяемые с помощью этого вращения, по определению, некоррелированы.

Отсеивания критерий (scree-test) – эвристический критерий определения числа факторов; основан на графическом изображении всех собственных значений корреляционной матрицы; применим при влиянии второстепенных факторов.

Простая структура (simple structure) – специальный термин, относящийся к факторной структуре, которая обладает определенными свойствами: переменные должны иметь нагрузку на минимальное число общих факторов, каждый общий фактор должен нагружать некоторые переменные и не нагружать остальные.

Собственное число (eigenvalue) – характеристика матрицы, используется одновременно как критерий определения числа выделяемых факторов и как мара дисперсии, соответствующая данному фактору.

Собственный вектор (eigenvector) – вектор, связанный с соответствующим собственным числом; получается в процессе выделения первоначальных факторов; эти векторы, представленные в нормированной форме, являются факторными нагрузками.

Специфичность (specific component) – доля дисперсии наблюдаемой переменной, соответствующая специфичному фактору; применяется для обозначения части характерности, получаемой при исключении дисперсии ошибки.

Факторы (factors) – гипотетические, непосредственно не измеряемые, скрытые переменные, подразделяются на общие и характерные.

Факторная нагрузка (factor loading) – общий термин, означающий коэффициенты матрицы факторного отображения или структуры.

Факторного отображения матрица (factor pattern matrix) – матрица коэффициентов, в которой столбцы соответствуют общим факторам, а строки – наблюдаемым переменным.

Факторной структуры матрица (factor structure matrix) – матрица коэффициентов корреляции между переменными и факторами, в случае ортогональных факторов совпадает с матрицей факторного отображения.

Характерность (unique component) – доля дисперсии наблюдаемой переменной, не связанная с общими факторами и свойственная именно данной переменной.

 


Комментарии

Екатерина
26 Янв 2012, 18:44
Отлично!!, СПС большое
Рашид
20 Янв 2009, 11:28
Спасибо за предоставленную информацию
Шурик
12 Сен 2008, 22:34
А где примеры?
*Имя:
Email:
Отсылать мне другие комментарии на этой странице
Скрыть мой email
*Текст: