Warning: session_name(): Cannot change session name when session is active in /home/stalko/rodina-ru.com/docs/dokuwiki/inc/init.php on line 231

Warning: session_set_cookie_params(): Cannot change session cookie parameters when session is active in /home/stalko/rodina-ru.com/docs/dokuwiki/inc/init.php on line 232
======Ошибки первого и второго рода====== **Ошибки первого рода** ([[английский-язык|англ.]] //type I errors, α errors, false positives//) и **ошибки второго рода** ([[английский-язык|англ.]] //type II errors, β errors, false negatives//) в [[математическая-статистика|математической статистике]] — это ключевые понятия задач проверки статистических гипотез. Тем не менее, данные понятия часто используются и в других областях, когда речь идёт о принятии «бинарного» решения (да/нет) на основе некоего критерия (теста, проверки, измерения), который с некоторой вероятностью может давать ложный результат. =====Определения===== Пусть дана выборка {\mathbf {X}}=(X_{1},\ldots ,X_{n})^{{\top }} из неизвестного совместного распределения {\mathbb {P}}^{{{\mathbf {X}}}}, и поставлена бинарная задача проверки статистических гипотез: {\begin{matrix}H_{0}\\H_{1},\end{matrix}} где H_{0} — [[нулевая-гипотеза|нулевая гипотеза]], а H_1 — [[альтернативная-гипотеза|альтернативная гипотеза]]. Предположим, что задан статистический критерий f:{\mathbb {R}}^{n}\to \{H_{0},H_{1}\}, сопоставляющий каждой реализации выборки \mathbf {X}=\mathbf {x} одну из имеющихся гипотез. Тогда возможны следующие четыре ситуации: - Распределение {\mathbb {P}}^{{{\mathbf {X}}}} выборки \mathbf {X} соответствует гипотезе H_{0}, и она точно определена статистическим критерием, то есть f({\mathbf {x}})=H_{0}. - Распределение {\mathbb {P}}^{{{\mathbf {X}}}} выборки \mathbf {X} соответствует гипотезе H_{0}, но она неверно отвергнута статистическим критерием, то есть f({\mathbf {x}})=H_{1}. - Распределение {\mathbb {P}}^{{{\mathbf {X}}}} выборки \mathbf {X} соответствует гипотезе H_1, и она точно определена статистическим критерием, то есть f({\mathbf {x}})=H_{1}. - Распределение {\mathbb {P}}^{{{\mathbf {X}}}} выборки \mathbf {X} соответствует гипотезе H_1, но она неверно отвергнута статистическим критерием, то есть f({\mathbf {x}})=H_{0}. Во втором и четвертом случае говорят, что произошла статистическая ошибка, и её называют **ошибкой первого и второго рода** соответственно. ((ГОСТ Р 50779.10-2000. «Статистические методы. Вероятность и основы статистики. Термины и определения.». [[http://protect.gost.ru/v.aspx?control=8&baseC=-1&page=0&month=-1&year=-1&search=&RegNum=1&DocOnPageCount=15&id=130411&pageK=A982F469-855A-4B0B-9443-710141B75665|Стр. 26]]))(([[http://www.stats.gla.ac.uk/steps/glossary/hypothesis_testing.html|Valerie J. Easton, John H. McColl. Statistics Glossary: Hypothesis Testing.]])) {| ! colspan="2" rowspan="2"|   ! colspan="2"| Верная гипотеза |- !  H_{0}  !  H_1  |- ! rowspan="2"| Результат\\  применения \\ критерия !  H_{0}  | style="background:#ddffdd;"| H_{0} верно принята | style="background:#ffdddd;"|  H_{0} неверно принята \\ (Ошибка //второго// рода) |- !  H_1  | style="background:#ffdddd;"|  H_{0} неверно отвергнута \\ (Ошибка //первого// рода) | style="background:#ddffdd;"| H_{0} верно отвергнута |} =====О смысле ошибок первого и второго рода===== Из определения выше видно, что **ошибки первого и второго рода** являются взаимно-симметричными, то есть если поменять местами гипотезы H_{0} и H_1, то //ошибки первого рода// превратятся в //ошибки второго рода// и наоборот. Тем не менее, в большинстве практических ситуаций путаницы не происходит, поскольку принято считать, что //нулевая гипотеза// H_{0} соответствует состоянию «по умолчанию» (естественному, наиболее ожидаемому положению вещей) — например, что обследуемый человек здоров, или что проходящий через рамку металлодетектора пассажир не имеет запрещённых металлических предметов. Соответственно, //альтернативная гипотеза// H_1 обозначает противоположную ситуацию, которая обычно трактуется как менее вероятная, неординарная, требующая какой-либо реакции. С учётом этого //ошибку первого рода// часто называют **ложной тревогой**, **ложным срабатыванием** или **ложноположительным срабатыванием** — например, анализ крови показал наличие заболевания, хотя на самом деле человек здоров, или металлодетектор выдал сигнал тревоги, сработав на металлическую пряжку ремня. Слово «положительный» в данном случае не имеет отношения к желательности или нежелательности самого события. Термин широко используется в медицине. Например, тесты, предназначенные для диагностики заболеваний, иногда дают положительный результат (т.е. показывают наличие заболевания у пациента), когда на самом деле пациент этим заболеванием не страдает. Такой результат называется ложноположительным. В других областях обычно используют словосочетания со схожим смыслом, например, «ложное срабатывание», «ложная тревога» и т.п. В информационных технологиях часто используют английский термин false positive без перевода. Из-за возможности ложных срабатываний не удаётся полностью автоматизировать борьбу со многими видами угроз. Как правило, вероятность ложного срабатывания коррелирует с вероятностью пропуска события (ошибки второго рода). То есть: чем более чувствительна система, тем больше опасных событий она детектирует и, следовательно, предотвращает. Но при повышении чувствительности неизбежно вырастает и вероятность ложных срабатываний. Поэтому чересчур чувствительно (параноидально) настроенная система защиты может выродиться в свою противоположность и привести к тому, что побочный вред от неё будет превышать пользу. Соответственно, //ошибку второго рода// иногда называют **пропуском события** или **ложноотрицательным срабатыванием** — человек болен, но анализ крови этого не показал, или у пассажира имеется холодное оружие, но рамка металлодетектора его не обнаружила (например, из-за того, что чувствительность рамки отрегулирована на обнаружение только очень массивных металлических предметов). Слово «отрицательный» в данном случае не имеет отношения к желательности или нежелательности самого события. Термин широко используется в медицине. Например, тесты, предназначенные для диагностики заболеваний, иногда дают отрицательный результат (т.е. показывают отсутствие заболевания у пациента), когда на самом деле пациент страдает этим заболеванием. Такой результат называется ложноотрицательным. В других областях обычно используют словосочетания со схожим смыслом, например, «пропуск события», и т.п. В информационных технологиях часто используют английский термин false negative без перевода. Степень чувствительности системы защиты должна представлять собой компромисс между вероятностью ошибок первого и второго рода. Где именно находится точка баланса, зависит от оценки рисков обоих видов ошибок. =====Вероятности ошибок (уровень значимости и мощность)===== Вероятность ошибки первого рода при проверке [[статистическая-гипотеза|статистических гипотез]] называют [[уровень-значимости|уровнем значимости]] и обычно обозначают греческой буквой \alpha (отсюда название \alpha-errors). Вероятность ошибки второго рода не имеет какого-то особого общепринятого названия, на письме обозначается греческой буквой \beta (отсюда \beta-errors). Однако с этой величиной тесно связана другая, имеющая большое статистическое значение — **мощность критерия**. Она вычисляется по формуле (1-\beta ). Таким образом, чем выше мощность, тем меньше вероятность совершить ошибку второго рода. Обе эти характеристики обычно вычисляются с помощью так называемой [[функция-мощности|функции мощности]] критерия. В частности, вероятность ошибки первого рода есть функция мощности, вычисленная при нулевой гипотезе. Для критериев, основанных на выборке фиксированного объема, вероятность ошибки второго рода есть единица минус функция мощности, вычисленная в предположении, что распределение наблюдений соответствует альтернативной гипотезе. Для [[последовательный-статистический-критерий|последовательных критериев]] это также верно, если критерий останавливается с вероятностью единица (при данном распределении из альтернативы). В статистических тестах обычно приходится идти на компромисс между приемлемым уровнем //ошибок первого и второго рода//. Зачастую для принятия решения используется пороговое значение, которое может варьироваться с целью сделать тест более строгим или, наоборот, более мягким. Этим пороговым значением является [[уровень-значимости|уровень значимости]], которым задаются при проверке [[статистическая-гипотеза|статистических гипотез]]. Например, в случае металлодетектора повышение чувствительности прибора приведёт к увеличению риска //ошибки первого рода// (ложная тревога), а понижение чувствительности — к увеличению риска //ошибки второго рода// (пропуск запрещённого предмета). =====Примеры использования===== ====Радиолокация==== В задаче радиолокационного обнаружения воздушных целей, прежде всего, в системе ПВО ошибки первого и второго рода, с формулировкой «ложная тревога» и «пропуск цели» являются одним из основных элементов как теории, так и практики построения [[радиолокационная-станция|радиолокационных станций]]. Вероятно, это первый пример последовательного применения статистических методов в целой технической области. ====Компьютеры==== Понятия ошибок первого и второго рода широко используются в области компьютеров и программного обеспечения. ===Компьютерная безопасность=== Наличие уязвимостей в вычислительных системах приводит к тому, что приходится, с одной стороны, решать задачу сохранения целостности компьютерных данных, а с другой стороны — обеспечивать нормальный доступ легальных пользователей к этим данным (см. [[компьютерная-безопасность|компьютерная безопасность]]). Moulton (1983, с.125) отмечает, что в данном контексте возможны следующие нежелательные ситуации: * когда //авторизованные пользователи// классифицируются как //нарушители// (//ошибки первого рода//) * когда //нарушители// классифицируются как //авторизованные пользователи// (//ошибки второго рода//) ===Фильтрация спама=== //Ошибка первого рода// происходит, когда механизм блокировки/фильтрации [[спам|спама]] ошибочно классифицирует легитимное [[email]]-сообщение как спам и препятствует его нормальной доставке. В то время как большинство [[спам#-d0-a4-d0-b8-d0-bb-d1-8c-d1-82-d1-80-d0-b0-d1-86-d0-b8-d0-be-d0-bd-d0-bd-d1-8b-d0-b5-d0-bc-d0-b5-d1-82-d0-be-d0-b4-d1.8b|«антиспам»-алгоритмов]] способны блокировать/фильтровать большой процент нежелательных email-сообщений, гораздо более важной задачей является минимизировать число «ложных тревог» (ошибочных блокировок нужных сообщений). //Ошибка второго рода// происходит, когда антиспам-система ошибочно пропускает нежелательное сообщение, классифицируя его как «не спам». Низкий уровень таких ошибок является индикатором эффективности антиспам-алгоритма. Пока не удалось создать антиспамовую систему без корреляции между вероятностью ошибок первого и второго рода. Вероятность пропустить спам у современных систем колеблется в пределах от 1% до 30%. Вероятность ошибочно отвергнуть валидное сообщение — от 0,001 % до 3 %. Выбор системы и её настроек зависит от условий конкретного получателя: для одних получателей риск потерять 1% хорошей почты оценивается как незначительный, для других же потеря даже 0,1% является недопустимой. ===Вредоносное программное обеспечение=== Понятие //ошибки первого рода// также используется, когда [[антивирусная-программа|антивирусное]] программное обеспечение ошибочно классифицирует безвредный файл как [[компьютерный-вирус|вирус]]. Неверное обнаружение может быть вызвано особенностями [[эвристика|эвристики]], либо неправильной [[сигнатура-атаки|сигнатурой вируса]] в базе данных. Подобные проблемы могут происходить также и с анти[[троянские-программы|троянскими]] и анти[[spyware|шпионскими]] программами. ===Поиск в компьютерных базах данных=== При поиске в базе данных к //ошибкам первого рода// можно отнести документы, которые выдаются поиском, несмотря на их [[релевантность|иррелевантность]] (несоответствие) поисковому запросу. Ошибочные срабатывания характерны для [[полнотекстовый-поиск|полнотекстового поиска]], когда поисковый [[алгоритм]] анализирует полные тексты всех хранимых в базе данных документов и пытается найти соответствия одному или нескольким терминам, заданным пользователем в запросе. Большинство ложных срабатываний обусловлены сложностью [[естественный-язык|естественных языков]], многозначностью слов: например, «home» может обозначать как «место проживания человека», так и «корневую страницу веб-сайта». Число подобных ошибок может быть снижено за счёт использования специального [[словарь|словаря]]. Однако это решение относительно дорогое, поскольку подобный словарь и разметка документов ([[индексация-в-поисковых-системах|индексирование]]) должны создаваться экспертом. ===Оптическое распознавание текстов (OCR)=== Разнообразные детектирующие алгоритмы нередко выдают //ошибки первого рода//. Программное обеспечение [[оптическое-распознавание-символов|оптического распознавания текстов]] может распознать букву «a» в ситуации, когда на самом деле изображены несколько точек. ===Досмотр пассажиров и багажа=== //Ошибки первого рода// регулярно встречаются каждый день в компьютерных системах предварительного досмотра пассажиров в аэропортах. Установленные в них детекторы предназначены для предотвращения проноса оружия на борт самолёта; тем не менее, [[чувствительность|уровень чувствительности]] в них зачастую настраивается настолько высоко, что много раз за день они срабатывают на незначительные предметы, такие как ключи, пряжки ремней, монеты, мобильные телефоны, гвозди в подошвах обуви и т.п. (см. [[обнаружение-взрывчатых-веществ|обнаружение взрывчатых веществ]], [[металлодетектор|металлодетекторы]]). Таким образом, соотношение числа //ложных тревог// (идентифицикация благопристойного пассажира как правонарушителя) к числу //правильных срабатываний// (обнаружение действительно запрещённых предметов) очень велико. ===Биометрия=== Ошибки //первого// и //второго// рода являются большой проблемой в системах [[биометрия|биометрического]] сканирования, использующих распознавание [[иридоскопия|радужной оболочки]] или [[распознавание-человека-по-сетчатке-глаза|сетчатки]] глаза, [[распознавание-лица-человека|черт лица]] и т.д. Такие сканирующие системы могут ошибочно отождествить кого-то с другим, «известным» системе человеком, информация о котором хранится в базе данных (к примеру, это может быть лицо, имеющее право входа в систему, или подозреваемый преступник и т.п.). Противоположной ошибкой будет неспособность системы распознать легитимного зарегистрированного пользователя, или опознать подозреваемого в преступлении.((Данный пример как раз характеризует случай, когда классификация ошибок будет зависеть от назначения системы: если биометрическое сканирование используется для допуска сотрудников (//нулевая гипотеза//: «проходящий сканирование человек действительно является сотрудником»), то ошибочное отождествление будет //ошибкой второго рода//, а «неузнавание» — //ошибкой первого рода//; если же сканирование используется для опознания преступников (//нулевая гипотеза//: «проходящий сканирование человек не является преступником»), то ошибочное отождествление будет //ошибкой первого рода//, а «неузнавание» — //ошибкой второго рода//.)) ====Массовая медицинская диагностика (скрининг)==== В медицинской практике есть существенное различие между //[[медицинский-скрининг|скринингом]]// и //[[медицинское-тестирование|тестированием]]//: * //Скрининг// включает в себя относительно //дешёвые// тесты, которые проводятся для большой группы людей при отсутствии каких-либо клинических признаков болезни (например, [[мазок-папаниколау|мазок Папаниколау]]). * //Тестирование// подразумевает гораздо более //дорогие//, зачастую инвазивные, процедуры, которые проводятся только для тех, у кого проявляются клинические признаки заболевания, и которые, в основном, применяются для подтверждения предполагаемого диагноза. К примеру, в большинстве штатов в США обязательно прохождение новорожденными процедуры //скрининга// на [[оксифенилкетонурия|оксифенилкетонурию]] и [[гипотиреоз]], помимо других [[врождённые-аномалии|врождённых аномалий]]. Несмотря на высокий уровень //ошибок первого рода//, эти процедуры //скрининга// считаются целесообразными, поскольку они существенно увеличивают вероятность обнаружения этих расстройств на самой ранней стадии.((Относительно скрининга новорожденных, последние исследования показали, что количество //ошибок первого рода// в 12 раз больше, чем количество верных обнаружений (Gambrill, 2006. [[http://www.nlm.nih.gov/medlineplus/news/fullstory_34471.html|[1]]]))) Простые анализы крови, используемые для //скрининга// потенциальных [[донорство-крови|доноров]] на [[вич|ВИЧ]] и [[гепатит]], имеют существенный уровень //ошибок первого рода//; однако в арсенале врачей есть гораздо более точные (и, соответственно, дорогие) тесты для проверки, действительно ли человек инфицирован каким-либо из этих вирусов. Возможно, наиболее широкие дискуссии вызывают //ошибки первого рода// в процедурах скрининга на рак груди ([[маммография]]). В США уровень //ошибок первого рода// в маммограммах достигает 15%, это самый высокий показатель в мире.((Одним из последствий такого высокого уровня //ошибок первого рода// в США является то, что за произвольный 10-летний период половина обследуемых американских женщин получают как минимум одну [[ложноположительный|ложноположительную]] маммограмму. Такие ошибочные маммограммы обходятся дорого, приводя к ежегодным расходам в 100 миллионов долларов на последующее (ненужное) лечение. Кроме того, они вызывают излишнюю тревогу у женщин. В результате высокого уровня подобных //ошибок первого рода// в США, примерно у 90-95% женщин, получивших хотя бы раз в жизни положительную маммограмму, на самом деле заболевание отсутствует.)) Самый низкий уровень наблюдается в [[нидерланды|Нидерландах]], 1%.((Наиболее низкие уровни этих ошибок наблюдаются в северной Европе, где маммографические плёнки считываются дважды, и для дополнительного тестирования устанавливается повышенное [[пороговое-значение|пороговое значение]] (высокий порог снижает [[статистическая-эффективность|статистическую эффективность]] теста).)) ====Медицинское тестирование==== //Ошибки второго рода// являются существенной проблемой в [[медицинское-тестирование|медицинском тестировании]]. Они дают пациенту и врачу ложное убеждение, что заболевание отсутствует, в то время как в действительности оно есть. Это зачастую приводит к неуместному или неадекватному лечению. Типичным примером является доверие результатам [[кардиотестирование|кардиотестирования]] при выявлении коронарного [[атеросклероз|атеросклероза]], хотя известно, что кардиотестирование выявляет только те затруднения кровотока в [[коронарная-артерия|коронарной артерии]], которые вызваны [[стеноз|стенозом]]. //Ошибки второго рода// вызывают серьёзные и трудные для понимания проблемы, особенно когда искомое условие является широкораспространённым. Если тест с 10%-ным уровнем //ошибок второго рода// используется для обследования группы, где вероятность «истинно-положительных» случаев составляет 70%, то многие отрицательные результаты теста окажутся ложными. (См. [[теорема-байеса#-d0-9f-d1-80-d0-b8-d0-bc-d0-b5-d1-80-d0-be-d1-88-d0-b8-d0-b1-d0-ba-d0-b8-d0-bf-d0-b5-d1-80-d0-b2-d0-be-d0-b3-d0-be-d1-80-d0-be-d0-b4-d0.b0|Теорему Байеса]]). //Ошибки первого рода// также могут вызывать серьёзные и трудные для понимания проблемы. Это происходит, когда искомое условие является редким. Если уровень //ошибок первого рода// у теста составляет один случай на десять тысяч, но в тестируемой группе образцов (или людей) вероятность «истинно-положительных» случаев составляет в среднем один случай на миллион, то большинство положительных результатов этого теста будут ложными.((Вероятность того, что выдаваемый тестом результат окажется //ошибкой первого рода//, может быть вычислена при помощи [[теорема-байеса#-d0-9f-d1-80-d0-b8-d0-bc-d0-b5-d1-80-d0-be-d1-88-d0-b8-d0-b1-d0-ba-d0-b8-d0-bf-d0-b5-d1-80-d0-b2-d0-be-d0-b3-d0-be-d1-80-d0-be-d0-b4-d0.b0|Теоремы Байеса]].)) ====Исследования сверхъестественных явлений==== Термин //ошибка первого рода// был взят на вооружение исследователями в области [[паранормальные-явления|паранормальных явлений]] и [[привидения|привидений]] для описания фотографии или записи или какого-либо другого свидетельства, которое ошибочно трактуется как имеющее паранормальное происхождение — в данном контексте //ошибка первого рода// — это какое-либо несостоятельное «медиасвидетельство» (изображение, видеозапись, аудиозапись и т.д.), которое имеет //обычное// объяснение.((На некоторых сайтах приведены примеры ошибок первого рода, например: [[http://the-atlantic-paranormal-society.com/images/tapspics/index.html|Атлантическое Сообщество Паранормальных явлений (The Atlantic Paranormal Society, TAPS)]] (недоступная ссылка с 13-05-2013 (1285 дней)) и [[http://www.moorestownghostresearch.com/FalsePositives.html|Морстаунская организация по Исследованию Привидений (Moorestown Ghost Research)]] (недоступная ссылка с 13-05-2013 (1285 дней) — [[https://web.archive.org/web/*/http://www.moorestownghostresearch.com/FalsePositives.html|история]]).)) =====См. также===== * [[статистическая-значимость|Статистическая значимость]] * [[атака-второго-рода|Атака второго рода]] * [[случаи-ложного-срабатывания-систем-предупреждения-о-ракетном-нападении|Случаи ложного срабатывания систем предупреждения о ракетном нападении]] * [[roc-кривая|ROC-кривая]] {{tag>"Математическая статистика" Ошибки "Теория информации"}}