|
Глава 4. Анализ взаимосвязи между признаками(The analysis of correlation between tags)
4.1. Анализ парных взаимосвязей (Analysis of pair correlation)
Коэффициент ассоциации (coefficient of association) – оценка степени тесноты связи между качественными признаками, каждый из которых представлен в виде альтернативного признака. Однако в тех случаях, когда один из четырех показателей отсутствует, величина коэффициента равна 1, что дает преувеличенную оценку связи между признаками. Коэффициент взаимной сопряженности Пирсона ( Pearson’s mutual coefficient of a contingency) – оценка степени тесноты связи между качественными, но не альтернативными признаками. Коэффициент контингенции (contingent coefficient) оценка степени тесноты связи между качественными признаками, каждый из которых также как и для коэффициента ассоциации должен быть представлен в виде альтернативного признака. Однако коэффициент контингенции по абсолютной величине меньше коэффициента ассоциации. Коэффициент корреляции (correlation coefficient) - числовая характеристика совместного распределения двух случайных величин, выражающая их взаимосвязь. Если коэффициент больше 0, то при увеличении значений одной из величин, вторая имеет тенденцию к увеличению; если меньше нуля – к снижению.Коэффициент корреляции рангов Спирмэна ( Spearman’s rank correlation coefficient) – непараметрическая оценка, позволяющая измерить тесноту связи как между количественными, так и между качественными признаками. Она основана на рассмотрении разности рангов значений факторного и результативного признаков. Критерий Стьюдента (t-критерий) (Student’s t-test) – статистический критерий, использующий при оценке непротиворечивости статистической гипотезы результатам наблюдений функцию, имеющую распределение Стьюдента. Уравнение регрессии (regression equation) – способ аппроксимации истинной регрессионной зависимости. Оно описывает изменение условного среднего значения результирующего показателя в зависимости от изменения факторного признака.F- статистика (F- statistics) – критерий для проверки существенности уравнения регрессии. Если расчетное значение критерия больше табличного (с уровнем значимости a и степенями свободы 1 и (n – m) ), то можно считать, что уравнение регрессии значимое.
4.2. Многомерный анализ взаимосвязей(The multivariate analysis of correlation)
4.2.1. Множественный корреляционно-регрессионный анализ(Multiple correlation and regression analysis)
Коэффициент множественной детерминации (multiple determinant coefficient) – общий показатель тесноты связи всех входящих в уравнение регрессии факторов с результативным показателем. Он представляет собой отношение части вариации результативного признака, объясняемой за счет вариации включенных в уравнение факторов, к общей вариации результативного признака.Частные коэффициенты корреляции (individual correlation coefficients) – показатели истинной связи между результативным признаком и одним из факторных признаков, т.е. не обусловленной действием других факторов, включенных в модель.
4.2.2. Дискриминантный анализ(Discriminant analysis)
Дискриминантная функция (discriminant function) – статистика, служащая для построения правила классификации объектов по группам. Дискриминантное множество (discriminant score) - это база для отнесения объектов и индивидуумов к какой-либо определенной группе. Дискриминантные веса или коэффициенты дискриминантной функции (discriminant weights) – параметры уравнения дискриминантной функции, позволяющие оценить способность конкретных независимых переменных определять различия в группах объектов или индивидуумов. Независимые переменные, существенно влияющие на различия в группах, имеют большие веса, а те переменные, которые имеют незначительное влияние, - маленькие веса. В результате анализа необходимо выбрать те переменные, которые в большей мере определяют вероятность попадания какого-либо объекта в конкретную группу. Коэффициенты дискриминантной функции могут быть представлены в стандартизированной и нестандартизированной формах. Дискриминантные переменные (discriminant variables) – характеристики, применяемые для того, чтобы отличать один класс от другого; они должны измеряться либо по интервальной шкале, либо по шкале отношений. Таким образом, становится возможным вычисление математических ожиданий, дисперсий и правомерно использование математических уроавнений. Дискриминантный анализ (discriminant analysis) – статистический метод, который позволяет изучать различия между двумя и более объектов по нескольким признакам одновременно. Нестандартизованные коэффициенты (raw coefficients) – коэффициенты, предоставляющие информацию об абсолютном вкладе переменной в значение дискриминантной функции. Стандартизованные коэффициенты (standardized coefficients) – характеристики относительного вклада дискриминантных переменных в значение дискриминантной функции. Структурные коэффициенты (structure coefficients) – коэффициенты корреляции между отдельной переменной и дискриминантной функцией. Их называют “полными структурными коэффициентами”. Когда абсолютная величина структурного коэффициента велика, вся информация о дискриминантной функции заключена в этой переменной. Если коэффициент близок к нулю, то связь между ними мала. Статистика (l ) Уилкса ( Wilks’ Lambda) – мера различий между классами по нескольким дискриминантным переменным. Величины l , близкие к нулю, свидетельсвуют о высокой степени различия между классами. Максимальное значение l , равное 1, характеризует отсутствие различий между классами. Статистика F – включения ( F – enter) - является частной F- статистикой с числом степеней свободы (g – 1) и (n – p – g + 1); оценивает улучшение различия от использования рассматриваемой переменной по сравнению с различием, достигнутым с помощью других уже отобранных переменных. Если величина F – включения мала, то вряд ли необходимо отбирать такую переменную, потому что она не дает достаточно большого вклада в различие. Статистика F- удаления (F – remove) – также является частной F- статистикой с числом степеней свободы (g – 1) и (n – p – g + 1). Однако она оценивает значимость ухудшения различия после удаления переменной из списка уже отобранных переменных. Статистика F- удаления используется для ранжирования дискриминантных возможностей отобранных переменных. Толерантность (tolerance) – тест по проверке отобранных для анализа переменных. Если проверяемая переменная является линейной комбинацией (или приблизительно равна линейной комбинации) одной или нескольких отобранных переменных, то ее толерантность равна нулю (или близка к нулю). Такую переменную нежелательно использовать в расчетах, потому что она не дает никакой новой информации, но создает вычислительные проблемы. Толерантность еще не отобранной переменной равна единице минус квадрат множественной корреляции между этой переменной и всеми уже отобранными переменными.
4.2.3. Факторный анализ(Factor analysis)
Выделение факторов (extraction of factors) – первоначальный этап факторного анализа; ковариационная матрица воспроизводится посредством небольшого числа скрытых факторов или компонент. Главные компоненты (principal components) – линейная комбинация наблюдаемых переменных, обладающая свойством ортогональности; первая главная компонента воспроизводит наибольшую долю дисперсии исходных данных, вторая – следующую по величине долю и т.д. Дисперсия (variance) –степень колеблемости признака, его вариация, порождаемая всей совокупностью действующих на него факторов; вычисляется как средний квадрат отклонений значений признака от общей средней. Корреляция (correlation) –линейная зависимость между случайными переменными, не имеющая строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой. Косоугольное вращение (oblique rotation) – преобразование в факторном анализе, с помощью которого получается простая структура; факторы вращаются без наложения условия ортогональности, и результирующие факторы коррелируют друг с другом. Линейная комбинация (linear combination) – сумма, в которую переменные входят с постоянными весами. Линейная система (linear system) – линейная зависимость между переменными, в факторном анализе – модель, в которой измеряемые величины линейно связаны со скрытыми факторами. Метод максимального правдоподобия (method of maximum likelihood) – метод статистического оценивания, в котором определяется значение переменных генеральной совокупности с использованием выборочного распределения; в факторном анализе – метод получения первоначального факторного решения. Наименьших квадратов метод (least – squares solution) – решение, для которого минимизируется сумма квадратов отклонений между наблюдаемыми и предполагаемыми значениями; в факторном анализе – метод получения первоначального факторного решения. Общий фактор (common factor) – не измеряемая (гипотетическая) скрытая величина, которая учитывает корреляцию по крайней мере между двумя наблюдаемыми переменными. Общность (communality) – доля дисперсии наблюдаемых переменных, обусловленная общими факторами, в модели с ортогональными факторами она равна сумме квадратов факторных нагрузок. Ортогональное вращение (orthogonal rotation) – преобразование, с помощью которого получается простая структура при выполнении ограничения ортогональности (некоррелированности) факторов; факторы, выделяемые с помощью этого вращения, по определению, некоррелированы. Отсеивания критерий (scree-test) – эвристический критерий определения числа факторов; основан на графическом изображении всех собственных значений корреляционной матрицы; применим при влиянии второстепенных факторов. Простая структура (simple structure) – специальный термин, относящийся к факторной структуре, которая обладает определенными свойствами: переменные должны иметь нагрузку на минимальное число общих факторов, каждый общий фактор должен нагружать некоторые переменные и не нагружать остальные. Собственное число (eigenvalue) – характеристика матрицы, используется одновременно как критерий определения числа выделяемых факторов и как мара дисперсии, соответствующая данному фактору. Собственный вектор (eigenvector) – вектор, связанный с соответствующим собственным числом; получается в процессе выделения первоначальных факторов; эти векторы, представленные в нормированной форме, являются факторными нагрузками. Специфичность (specific component) – доля дисперсии наблюдаемой переменной, соответствующая специфичному фактору; применяется для обозначения части характерности, получаемой при исключении дисперсии ошибки. Факторы (factors) – гипотетические, непосредственно не измеряемые, скрытые переменные, подразделяются на общие и характерные. Факторная нагрузка (factor loading) – общий термин, означающий коэффициенты матрицы факторного отображения или структуры. Факторного отображения матрица (factor pattern matrix) – матрица коэффициентов, в которой столбцы соответствуют общим факторам, а строки – наблюдаемым переменным. Факторной структуры матрица (factor structure matrix) – матрица коэффициентов корреляции между переменными и факторами, в случае ортогональных факторов совпадает с матрицей факторного отображения. Характерность (unique component) – доля дисперсии наблюдаемой переменной, не связанная с общими факторами и свойственная именно данной переменной.
Комментарии
Екатерина 26 Янв 2012, 18:44
Отлично!!, СПС большое
Рашид 20 Янв 2009, 11:28
Спасибо за предоставленную информацию
Шурик 12 Сен 2008, 22:34
А где примеры?
|