Решение задач с нормальными законами в системе "Статистика"
Метод дискриминантного анализа впервые был применен в сфере банковской деятельности, а именно - в кредитном анализе. Здесь наиболее четко прослеживается основной подход метода, подразумевающий привлечение прошлого опыта: необходимо определить, чем отличаются заемщики, вернувшие в срок кредит, от тех, кто этого не сделал. Полученная информация должна быть использована при решении судьбы новых заемщиков. Иначе говоря, применение метода имеет цель: построение модели, предсказывающей, к какой из групп относятся данные потребители, исходя из набора предсказывающих переменных (предикторов), измеренных в интервальной шкале. Дискриминатный анализ связан со строгими предположениями относительно предикторов: для каждой группы они должны иметь многомерное нормальное распределение с идентичными ковариационными матрицами.
Основные положения дискриминантного анализа легко понять из представления исследуемой области, как состоящей из отдельных совокупностей, каждая из которых характеризуется переменными с многомерным нормальным распределением. Дискриминантный анализ пытается найти линейные комбинации таких показателей, которые наилучшим образом разделяют представленные совокупности.
При использовании метода дискриминантного анализа главным показателем является точность классификации, и этот показатель можно легко определить, оценив долю правильно классифицированных при помощи прогностического уравнения наблюдений. Если исследователь работает с достаточно большой выборкой, применяется следующий подход: выполняется анализ по части данных (например, по половине), а затем прогностическое уравнение применяется для классификации наблюдений во второй половине данных. Точность прогноза оценивается, т.е. происходит перекрестная верификация. В дискриминантном анализе существуют методы пошагового отбора переменных, помогающие осуществить выбор предсказывающих переменных.
Итак, целью дискриминантного анализа является получение прогностического уравнения, которое можно будет использовать для предсказания будущего поведения потребителей. Например, в отношении клиентов банка существует необходимость на основе некоторого набора переменных (возраст, годовой доход, семейное положение и т.п.) уметь относить их к одной из нескольких взаимоисключающих групп с большими или меньшими рисками не возврата кредита. Исследователь располагает некоторыми статистическими данными (значениями переменных) в отношении лиц, принадлежность которых к определенной группе уже известна. В примере с банком эти данные будут содержать статистику по уже предоставленным кредитам с информацией о том, вернул ли заемщик кредит или нет. Необходимо определить переменные, которые имеют существенное значение для разделения наблюдений на группы, и разработать алгоритм для отнесения новых клиентов к той или иной группе.
1. ДИСКРИМИНАНТНЫЙ АНАЛИЗ
1.1 Методы классификации с обучением
Дискриминантный анализ является разделом многомерного статистического анализа, который включает в себя методы классификации многомерных наблюдений по принципу максимального сходства при наличии обучающих признаков.
В дискриминантном анализе формулируется правило, по которому объекты подмножества подлежащего классификации относятся к одному из уже существующих (обучающих) подмножеств (классов). На основе сравнения величины дискриминантной функции классифицируемого объекта, рассчитанной по дискриминантным переменным, с некоторой константой дискриминации.
В общем случае задача различения (дискриминации) формулируется следующим образом. Пусть результатом наблюдения над объектом является реализация k - мерного случайного вектора . Требуется установить правило, согласно которому по наблюденному значению вектора х объект относят к одной из возможных совокупностей . Для построения правила дискриминации все выборочное пространство R значений вектора х разбивается на области так, что при попадании х в объект относят к совокупности .
Правило дискриминации выбирается в соответствии с определенным принципом оптимальности на основе априорной информации о совокупностях извлечения объекта из . При этом следует учитывать размер убытка от неправильной дискриминации. Априорная информация может быть представлена как в Виде некоторых сведений о функции мерного распределения признаков в каждой совокупности, так и в виде выборок из этих совокупностей. Априорные вероятности могут быть либо заданы, либо нет. Очевидно, что рекомендации будут тем точнее, чем полнее исходная информация.
С точки зрения применения дискриминантного анализа наиболее важной является ситуация, когда исходная информация о распределении представлена выборками из них. В этом случае задача дискриминации ставится следующим образом.
Пусть выборка из совокупности , причем каждый - й объект выборки представлен k – мерным вектором параметров . Произведено дополнительное наблюдение над объектом, принадлежащим одной из совокупностей . Требуется построить правило отнесения наблюдения х к одной из этих совокупностей.
Обычно в задаче различения переходят от вектора признаков, хapaктeризующих объект, к линейной функции от них, дискриминантной функции гиперплоскости, наилучшим образом разделяющей совокупность выборочных точек.
Наиболее изучен случай, когда известно, что распределение векторов признаков в каждой совокупности нормально, но нет информации о параметрах этих распределений. Здесь естественно заменить неизвестные параметры распределения в дискриминантной функции их наилучшими оценками. Правило дискриминации можно основывать на отношении правдоподобия.
Непараметрические методы дискриминации не требуют знаний о точном функциональном виде распределений и позволяют решать задачи дискриминации на основе незначительной априорной информации о совокупностях, что особенно ценно для практических применений.
В параметрических методах эти точки используются для оценки параметров статистических функций распределения. В параметрических методах построения функции, как правило, используется нормальное распределение.
1.2 Линейный дискриминантный анализ
Выдвигаются предположения:
1) имеются разные классы объектов;
2) каждый класс имеет нормальную функцию плотности от k переменных
;
, (1.1)
rде µ (i) - вектор математических ожиданий переменных размерности k;
- ковариационная матрица при n=n;
- обратная матрица.
Матрица - положительно определена.
В случае если параметры известны дискриминацию можно провести следующим образом.
Имеются функции плотности нормально pacпределенных классов. Задана точка х в пространстве k измерений. Предполагая, что имеет наибольшую плотность, необходимо отнести точку х к i-му классу. Существует доказательство, что если априорные вероятности для определяемых точек каждого класса одинаковы и потери при неправильной классификации i-й группы в качестве j-й не зависят от i и j, то решающая процедура минимизирует ожидаемые потери при неправильной классификации.
Ниже приведен пример оценки параметра многомерногo нормального pacпределения µ и Σ.
µ и Σ мoгyт быть оценены по выборочным данным: и для классов. Задано l выборок из некоторых классов. Математические ожидания мoгyт быть оценены средними значениями
(1.2)
Несмещенные оценки элементов ковариационной матрицы Σ есть
(1.3)
Cледовательно, можно определить и по l выборкам в каждом классе при помощи (1.2), (1.3), получив оценки, точку х необходимо отнести к классу, для которой функция f(х) максимальна.
Необходимо ввести предположение, что все классы, среди которых должна проводиться дискриминация, имеют нормальное распределение с одной и той же ковариационной матрицей Σ.
В результате существенно упрощается выражение для дискриминантной функции.
Класс, к которому должна принадлежать точка х, можно определить на
основе неравенства
(1.4)
Необходимо воспользоваться формулой (1.1) для случая, когда их ковариационные матрицы равны:, а ( есть вектор математических ожиданий класса i. Тогда (1.4) можно представить неравенством их квадратичных форм
(1.5)
Если имеется два вектора Z и W, то скалярное произведение можно записать . В выражении (1.5) необходимо исключить справа и слева, поменять у всех членов суммы знаки. Теперь преобразовать
Аналогично проводятся преобразования по индексу i. Необходимо сократить правую и левую часть неравенства (1.5) на 2 и, используя запись квадратичных форм, получается
(1.6)
Необходимо ввести обозначения в выражение (1.6):
Тогда выражение (1.6) примет вид
(1.7)
Следствие: проверяемая точка х относится к классу i, для которого линейная функция
(1.8)
Преимущество метода линейной дискриминации Фишера заключается в линейности дискриминантной функции (1.8) и надежности оценок ковариационных матриц классов.
Пример
Имеются два класса с параметрами и . По выборкам из этих совокупностей объемом n1 n2 получены оценки и . Первоначально проверяется гипотеза о том, что ковариационные матрицы равны. В случае если оценки и статистически неразличимы, то принимается, что и строится общая оценка , основанная на суммарной выборке объемом n1+n2 , после чего строится линейная дискриминантная функция Фишера (1.8).
2. ДИСКРИМИНАНТНЫЙ АНАЛИЗ ПРИ НОРМАЛЬНОМ ЗАКОНЕ РАСПРЕДЕЛЕНИЯ ПОКАЗАТЕЛЕЙ
Имеются две генеральные совокупности Х и У, имеющие трехмерный нормальный закон распределения с неизвестными, но равными ковариационными матрицами.
Алгоритм выполнения дискриминантного анализа включает основные этапы:
1. Исходные данные представляются либо в табличной форме в виде q подмножеств (обучающих выборок) Mk и подмножества М0 объектов подлежащих дискриминации, либо сразу в виде матриц X(1), X(2), ..., X(q), размером (nk×):
Таблица 1
Номер подмножества Mk (k = 1, 2, ..., q) | Номер объекта, i (i = 1, 2, ..., nk) | Свойства (показатель), j (j = 1, 2, ..., ) | |||
x1 | x2 | … | x0 | ||
Подмножество M1 (k = 1) | 1 | … | |||
2 | … | ||||
… | … | … | … | … | |
1 | … | ||||
Подмножество M2 (k = 2) | 1 | … | |||
2 | … | ||||
… | … | … | … | … | |
2 | … | ||||
… | … | … | … | … | … |
Подмножество Mq (k = q) | 1 | … | |||
2 | … | ||||
… | … | … | … | … | |
nq | … | ||||
Подмножество M0, подлежащее дискриминации | 1 | … | |||
2 | … | ||||
… | … | … | … | … | |
m | … |
Категории:
- Астрономии
- Банковскому делу
- ОБЖ
- Биологии
- Бухучету и аудиту
- Военному делу
- Географии
- Праву
- Гражданскому праву
- Иностранным языкам
- Истории
- Коммуникации и связи
- Информатике
- Культурологии
- Литературе
- Маркетингу
- Математике
- Медицине
- Международным отношениям
- Менеджменту
- Педагогике
- Политологии
- Психологии
- Радиоэлектронике
- Религии и мифологии
- Сельскому хозяйству
- Социологии
- Строительству
- Технике
- Транспорту
- Туризму
- Физике
- Физкультуре
- Философии
- Химии
- Экологии
- Экономике
- Кулинарии
Подобное:
- Экономико-математический практикум
РОССИЙСКАЯ ФЕДЕРАЦИЯМИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕ
- Экономико-статистический анализ цен
Цена является рыночной характеристикой товара и представляет собой денежное выражение стоимости товаров или то, за сколько покупател
- Анализ хозяйственной деятельности автосервиса
Глава 1. Теоретические основы оценки деятельности предприятия1.1 Улучшение экологической деятельности предприятия1.2 Основы стоимостно
- Аутсорсинг в инновационной деятельности предприятия
1. Аутсорсинг как форма организации деятельности предприятия1.1 Понятие аутсорсинга, его виды, достоинства и недостатки1.2 Использовани
- Економічна теорія
1. Політеком мікроекон та макро як складові економ теоріїОб'єктом вивчення для всіх економічних дисциплін є економіка в цілому. Проте я
- Еластичність попиту та пропонування, способи її визначення та застосування в практиці господарської діяльності підприємства
Курсова робота"Еластичність попиту та пропонування, способи її визначення та застосування в практиці господарської діяльності підпри
- Система нефтепродуктообеспечения и газоснабжения в структуре ОАО НК "Роснефть"
Нефтепродуктообеспечение - процесс перемещения нефтепродуктов основными видами транспорта (железнодорожный, трубопроводный, автомоб
Copyright © https://www.referat-web.com/. All Rights Reserved