ПОЛИГРАФ - ФОРУМ

York

Доклад мой про "католические " и "православные" распределния имеет несерьёзный характер - шутку, в которой, наверняка, есть доля правды. "Католическое" распределение построено для Дых, ЭДА и АД; а православное для Дых, КГР (95%) и ФПГ.

И чуть было не забыл ещё одно обстоятельство, которое, возможно, играет какую - то роль. На заморских полиграммах все измерения производились вручную. На наших были взяты данные, которые выдавали ПО полиграфов (за исключением полиграмм Лафайет)

vladkazackoff

York, еще упомяну, что эти 100 полиграмм - специально подобранные для обучения полиграфологов, т.е. более наглядные.
При обучении полиграфологов проблема подобрать именно наглядную полиграмму, а не просто полиграмму. Полиграмм полно, а именно очень наглядных обычно маловато.

$erP

$erP

Если объективизировать субъективность восприятия разницы между "православием" и "католицизмом" (по данным, представленным York'ом), то получается следующее.

Для теста с тремя релевантными вопросами, три повтора, чтобы не превысить порог в 5% ошибки (остаться в диапазоне точности 95% и более)

Для Лгущих.
"Православие"
Решение должно приниматься на -8 баллах и менее. При этом в зону неопределенности (-7 баллов и более) попадёт 40% всех лгущих.

"Католицизм".
Решение должно приниматься на -5 баллах и менее. При этом в зону неопределенности (-4 балла и более) попадёт 8% всех лгущих.

Для правдивых.
"Православие".
Решение должно приниматься на +7 баллах и более. При этом в зону неопределенности (+6 баллов и менее) попадает 50% всех правдивых

"Католицизм".
Решение должно приниматься на +8 баллах и более. При этом в зону неопределенности (+7 баллов и менее) попадает 11% всех правдивых.

З.Ы. Если в "православии" математически оценивались те полиграммы, о которых я знаю, то... если по ним ставить "ручные" баллы... то по ощущениям, в неопределенку залетело бы точно не менее половины...

York

$erP

Сделал запрос в базу. Для "православных", в соответствии с предложенными Вами критериями, в неопределеёнку улетела 81 полиграмма из 178.

Для "католических" в соответствии - 21 из 100.

Что в принципе недалеко от расчётных значений для "православных", и подальше для "католиков". Можно с помощью бутстрепа посмотреть попададает ли это число в доверительный интервал.

$erP

А что за данные, из которых были получены средние и дисперсии? Большая выборка? Данные подчиняются нормальному распределению?

York

Эти распределения программа считает методом суммирования независимых дискретных величин. Суммируются статситические распределения относительных частот баллов для дыхания, кгр, кардио (ад и/или фпг). Распределения баллов для каналов эти берутся из выборки, из данных которые вводятся программу, она считает баллы и заносит их в базу данных. Затем простым запростом можно получить эти частоты. Ниже на картинке статистическое распределение баллов для КГР (для примера)

Таким образом программа расчитает распределения для любого количества пар сравнения (количества предъявлениё/повторов теста). Потом уже из полученных теоретических распределений вычисляются средние и дисперсии по обычным формулам для дискретных случайных величин.

Полученные таким образом распределения очень хорошо апроксимируются нормальным распределением с такми же средним и дисперсией (почти не отличимы вблизи среднего, и расходятся только на хвостах). Полученное таким образом разпределение баллов более правильное (в основном в хвостах), чем полученное апрокисмацией.

"Правоверность" такого расчёта ещё в том, что даёт возможность быстро посчитать распределения для любого количества пар сравнения. Например, ниже "каталическое" распределение баллов для шести пар сравнения (например, двух повторов тестов с тремя проверочными вопросами)

Как видно это уже другие дискретные случайные величины (другое среднее, дисперсия, да и принимаемых значений менбше чем для 9 пар сравнения)

Для полноты и законченности надо было встроить ещё тест критерия Хи2 для проверки соотвествия наблюдаемых данных и полученного теоретического распределения. Потом как-нибудь...

$erP

York, спасибо большое за подробные разъяснения... Но... я несколько не о том спрашивал... Впрочем, Бог бы с ним... С моей стороны было проявление простого любопытства, а не необходимости что-то знать...

York

Отсутствие взаимопонимания - это печалька(

В надежеде на достижение хотя бы некоторого взаимопонимания построил в Экселе распределение вероятностей нормального распределения с параметрами для шести сравниваемых пар (средним и стандартным отклонением, которые указаны на скриншоте)

$erP

York, тоже постараюсь быть понятным...
Я имел в виду следующее...

Чтобы построить нормальное распределение, кое было представлено Вами, нужны средние и сигмы, в идеале рассчитанные на основе имеющегося распределения эмпирических частот.
При этом эмпирическое распределение должно подчиняться закону нормального распределения. Тогда средние и сигмы можно "класть" в основу построения теоретического распределения и считать полученное распределение нормальным.

Если эмпирического материала мало, то возникает проблема корректности отнесения распределения эмпирических частот к нормальному.

100 "католических" полиграмм... 50 из них лгущие, 50 правдивые.
Если эмпирический массив баллов получался лишь на основе того, что насчитала программа, то это всего лишь 50 баллов. Даже не строя распределение, можно быть уверенным, что данных маловато для того, чтобы считать его нормальным... хотелось бы побольше...

Собственно, мой вопрос был о том, каков массив эмпирических баллов, заложенный в основу обработки...
В качестве иллюстрации приведу "картинку" своих расчетов по проверке полученных мной данных нормальному распределению... Это из эксперимента по сравнению МКВС и Ю-Фазы...

$erP

Я уверен, что Ваши данные также подчиняются нормальному распределению. Но адекватно ли реальности его нынешнее теоретическое описание, выраженное в среднем и сигме?

10% неопределенности, ожидаемые теоретически, и 20% неопределенности, полученные практически, это, как говорится, "данные одного порядка"... которые, в целом, можно считать нормально согласующимися... Но разница между ними - в два раза... это несколько настораживает... и заставляет задуматься о точности вычислений...

Разумеется, может, это и мой косяк, недогляд... там надо очень осторожно смотреть граничное p-value... включенное оно (всё то что справа) или нет (все то что слева)... а разница включения-выключения может составлять 5%...

York

$erP

Я Вас понимаю. Постараюсь подробнее изложить и то как считает программа. Теоретическое распределение баллов можно получить так как описано у Вас. Правда сделаю одно замечание, которое мало влияет на конечный результат в данном случае, но имеет большую роль со стороны правильности применения математических методов. В одном случае неправильность может не оказать существенного влияния на конечный результат, а в другом незаметно сыграть злую шутку.

Нормальное распределение - это распределение непрерывной случайной величины, а полиграфные баллы - это дискретная случайная величина. Дискретная случайная величина может хорошо апрокисмироваться нормальным распределением, но от этого её распределение не становится нормальным, она не становится непрерывной случайной величиной. По этой причине применение к баллам математических методов (статистических тестов, вычисление некоторых параметров) как к непрерывной случайной величине может незаметно привести к существенной ошибке. С дискретными случайными величинами правильнее работать как с дискретными случайными величинами. В этом случае есть свои методы и тесты, хотя тут меньше возможностей чем в случае непрерывных случайных величин.

При подходе к суммарному баллу за тест как к дискретной случайной величине (что является верным) легко видеть, что он является суммой баллов по всем парам сравниваемых вопросов и измеряемых параметров. Для теста из трёх пар сравниваемых вопросов и трёх повторов, итоговый суммарный балл будет являтся суммой (если измеряется 3 физиологических параметра) 3*3*3 = 27 дискретных случайных величин - баллов присваиваемых физиологичесим параметрам. Для семипозиционной системы балл как дискретная случайная величина принимает семь значений 0т - 3 до +3. Дискретная случайная величина полностью описывается своим распределением. Если знать эти распределения для каждгого физиологического параметра, то есть знать с какой вероятностью она принимает свои значения (от -3 до +3), то можно вычислить распределение верояностьей для любой их суммы. Если получить оценку распределения вероятностей баллов по параметрам, как статистическое распределение (относительные частоты), то можно можно вычислить теоретическое распределение для любого количества повторов теста. Что, собственно говоря, и делается программой. Чтобы получить статистическое распределение баллов для каждого физиологического параметра надо намного меньше данных. Например для 50 тестов (три пары и три повтора) будет выборка из 50 * 9 = 450 элементов, которые распределяются по семи значениям. Ниже скриншот распределение баллов для КГР для причастных из "каталических" тестов.

Адекватность такого подхода к баллам я проверял ещё несколько лет назад на других данных (баллах). Под адекватностью имею ввиду то, что их можно суммировать, и получать распределение вероятностей их суммы, как независимые случайные дискретные величины.

Если подходить к баллам, как оно и должно быть, как к дискретным случайным величинам, то пользоваться понятием нормальнорго распределения нет необходимости. Что, повторюсь, является более верным, так как нормальное распределение = непрерывная случайная величина.

York

York

$erP

Не мог не пересчитать/ не перепроверить. Воспользовался апроксимацией нормальным распределением и пересчитал в Экселе.

У меня получились границы - [-5;6] и количество "католиков" теоретически отправленных в неопределённость 22,5. Соответствующий запрс в базу выдал 20 человек. По моим подсчётам теория хорошо согласуется с практикой.

Александр Калафати