Список форумов ПОЛИГРАФ - ФОРУМ ПОЛИГРАФ - ФОРУМ
Для общения по теме " Детекция лжи "
 
  На главную FAQFAQ   ПоискПоиск   ПользователиПользователи   ГруппыГруппы   РегистрацияРегистрация 
 ПрофильПрофиль   Войти и проверить личные сообщенияВойти и проверить личные сообщения   ВходВход 

Еще раз про статистическую значимость
На страницу Пред.  1, 2, 3 ... , 12, 13, 14  След.
 
Начать новую тему   Ответить на тему    Список форумов ПОЛИГРАФ - ФОРУМ -> Общий форум
Предыдущая тема :: Следующая тема  
Автор Сообщение
York



Зарегистрирован: 29.09.2010
Сообщения: 2603
Откуда: Вологда

СообщениеДобавлено: Сб Мар 02, 2019 11:48 am    Заголовок сообщения: Ответить с цитатой

$erP писал(а):
York писал(а):
Ответ верный, но не полный. Если мы узнали площадь сектора, то как найти чило Pi?


Александр Калафати писал(а):
Ну, по условием, ПИ - это соотношение между длинной окружности и её радиусом. В примере - можно вычислить через соотношение между количеством точек попавших в круг (площадь круга) и вне круга.


Нереально посчитать вручную количество точек внутри круга и за кругом. Тяжело, но реально посчитать количество точек на окружности и на радиусе.

Зная, что

пи = L/2R
L и R заменяем количеством точек, лежащих на окружности N(O) и радиусе... n(R)

С учетом того, что у нас в данном случае четверть окружности, получаем...

пи = N(0,25O)/2n(R)


Вы идёте в верном направление, но есть путь короче.

На рисунке представлена четверть от круга с единичным радиусом (r). Площадь кургаS = Pi * r^2/. r = 1 значит площадь сектора S_сек = Pi/4

Отсюда Pi = S_сек * 4. Вычисленная методом Монте - Карло оценка Pi представлено на рисунке Pi = 3.16667, а n = 3000.

Пусть N - кол - во точек попавших в сектор.

S_сек = N/n = Pi/4, отсюда N = (Pi * n)/4 = 2375
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
$erP
Site Admin


Зарегистрирован: 29.06.2005
Сообщения: 7851
Откуда: Москва

СообщениеДобавлено: Сб Мар 02, 2019 12:14 pm    Заголовок сообщения: Ответить с цитатой

York писал(а):
Вы идёте в верном направление, но есть путь короче.


Не... )))
"Короче" - это понятие имеет смысл лишь в варианте подсчета количества точек "на глаз"... Ибо если точки считаются компьютером - то вааще без разницы, как считать число "пи", ибо компьютерную разницу "короче - длиннее" в подсчете точек в целом круге или в небольшом секторе Вы вообще не заметите...

_________________
Мое почтение... $erP

................................... ЛЕГКО СОЛГАТЬ ТЯЖЕЛО
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
Александр Калафати



Зарегистрирован: 12.10.2011
Сообщения: 1852
Откуда: Москва

СообщениеДобавлено: Сб Мар 02, 2019 12:29 pm    Заголовок сообщения: Ответить с цитатой

York писал(а):
Александр Калафати писал(а):
Т.е. я насколько понял - у Вас 4 выборки по 10 000 итераций.

А они делали 10 000 выборок по распределению 292 случаев...


We created 10,000 resampled sets of size equivalent to the OSS development sample of confirmed ZCT cases (N=292).

Мы создали 10 000 пересчитанных выборок по размеру эквивалентных выборке полученной для OSS для подтвержденных случаев ZCT (N=292).


А вот это как раз случай когда "корова даёт молоко" и "молоко даёт корова" - одно и тоже.

Можно всё это проделать - построить десять тысячь выборок (у меня N = 394)/ У каждой выборки зафиксировать статистику, например, средний балл. Этот средний балл - это будет нерпрерывная случайная величина имеющая нормальное распределение и мат. ожидание (среднее значение) равное среднему материнской выборки, а не геню совокупности.

Придётся видимо "убить время" и на это Very Happy

Представте себе числовую прямую и наней мысленно отметье точку - значение мат. ожидания (среднее значение) балла. Затем отметье на этой же числовой прямой точку - средний балл реальной выборки. Эта точка может оказаться как слева так и справа от мат. ожидания. Для определённости - слева. Побутсрепим как "велят" американцы. Получим третью точку - среднее занчение средних значений балла 10 000 сгенерированых выборок. Эта третья точка может оказаться как слева так и справа от среднего балла реальной выборки. Если она окажется справа, то она будет ближе к матю ожиданию - и будет лучшей оценкой, а если слева - только ухудшит оценку. Но мы то не сможем сказать, что произошло так как заранее не знаем как расположены относительно друг друга точки мат. ожидания и среднего реальной выборки.


Я это подозревал. Но решил уточнить.
Но я так понял, что после всего можно как-то скомпенсировать ситуацию? Слово jacknife я встречал в публикациях. Попробую найти.

_________________
Быть, а не казаться.
http://polygraph-triumph.ru/
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
York



Зарегистрирован: 29.09.2010
Сообщения: 2603
Откуда: Вологда

СообщениеДобавлено: Сб Мар 02, 2019 12:55 pm    Заголовок сообщения: Ответить с цитатой

$erP

У меня есть, что Вам возразить)

С точки зрения чистой математики любая кривая (и прямая) имеет мощность меры нуль. По простому говоря, площадь кривой равна нулю. Точка тоже имеет меру нуль. Два таких худышки в жизни не имеют шансов на встретиться..) Т.е. вероятность попасть точкой в кривую равна нулю. Таким образом на любой заранее выбраной кривой окажется ноль точек.

Но вы, конечно, возразите, что вы можете взять любую упашую точку и указать бесконечно много кривых проходящих через неё и таким образом опровергнуть мои слова.

Но это не опровержение. Это очередной математический парадокс, связанный с тем фактом, что количество чисел между нулём и еденицей бесконечно много. Более того иx множество не счётно, то есть их болше чем всех натуральных чисел существующих в природе, а как известно их количество ни чем не ограничено - их бесконечно много. Т.е. действительных чисел больших нуля и меньших еденици "больше чем бесконечно много" (да простят меня математики за выражение в кавычках) Это математический факт - доказанная Кантором теорема.

Таким образом, если заранее выбрать математичесикие кривые - прямые и накидать математических точек, то 100 процентов гарантии, что ни на одной выбраной кривой не окажется ни одной математической точки.

А вот выбрав уже упавшую мат точку. действительно, можно указать бесконечно много проходящих через неё кривых.

Если вы возьмёте упавшую точку, то вы можете указать радиус проходящий через неё (это в силу симметричности окружности и того факта. что через две точки всегда можно провести одну прямую). Но сто 100 процентов гарантии, что на этом радиусе других математических точек не будет. А на окружности точно не будет ни одной математической точки. Обязательно найдётся радиус проходящий через точку в круге потому, что радиусов бесконечно много, а окружность окраничивающая круг только одна. Я вообще счас парадокс - парадокс приведу: окружности ограничивающей круг ваапче может не быть. Но это уже совсем дебри...

Серьёзныый теор.вер. начинается с теории меры.

Как же это сухая теория скажется на той реальности с которой мы сталкиваемся ежедневно - с компьютерным моделированием?

В силу того, что компьютеры опрерируют не действительными числами, а миеют ограничение в разрядности, по сути оперируют дискретным, ограниченым набором чисел, то на компьютерную кривую может насыпаться некоторое количество компьютерных точек, но о-о-о-о- чень мало. И определение Pi будет очень неточным. Если посмотреть на Вашу формулу, то можно сказать, что оно будет скорее в районе нуля. (Это конечно будет зависеть от выбора конкретного радиуса. )

Чтобы повысить точность можно повысить количестов падающих точек, тогда вырастет N, но и вырастет n. Таким образом отношение N/n останется по прежнему в малым, а требуемые вычислительные мощности (и требуемое время) резко возрастут.

Так, что я бы поостерёгся полагаться на мощь современных компьютеров.

Расписал в подробностях так как самого эта тема очень интересует


Последний раз редактировалось: York (Сб Мар 02, 2019 1:37 pm), всего редактировалось 2 раз(а)
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
York



Зарегистрирован: 29.09.2010
Сообщения: 2603
Откуда: Вологда

СообщениеДобавлено: Сб Мар 02, 2019 1:09 pm    Заголовок сообщения: Ответить с цитатой

Александр Калафати писал(а):


Я это подозревал. Но решил уточнить.
Но я так понял, что после всего можно как-то скомпенсировать ситуацию? Слово jacknife я встречал в публикациях. Попробую найти.


Не буду сейчас категоричен в своём утверждении, но сорее всего, что jacknife может дать лучшую оценку в случае маленькой выборки. Если выборка большая, то эффект от jacknife может быть мал. Хотя можно поэксперементировать...
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
$erP
Site Admin


Зарегистрирован: 29.06.2005
Сообщения: 7851
Откуда: Москва

СообщениеДобавлено: Сб Мар 02, 2019 1:37 pm    Заголовок сообщения: Ответить с цитатой

York
У меня есть чем возразить на Ваше возражение.
Вы правы... в рамках той теоретической модели, которую изложили.
И если бы речь шла о расчете на компьютере, то были бы правы вдвойне, поскольку при компьютерном моделировании вероятность встречи точки и линии окружности нулевая.

Для компьютерного моделирования и вычисления использование идеи пересечения точки с линей окружности вылилась бы в старинный подход с подсчетом пересечений случайно брошенного отрезка длиной L с линиями пространства параллельных прямых, расстояние между которыми равно R.

Но... в условиях задачи не было сказано про компьютерное моделирование... а приведенный аналоговый рисунок просто выталкивал на мысль о необходимости ручного подсчета точек... и оставалось только задуматься о варианте, когда этот подсчет действительно можно реально осуществить на практике... с меньшими затратами по времени и усилиями...

А так... да... Вы правы... в рамках той теоретической модели, которую изложили...

_________________
Мое почтение... $erP

................................... ЛЕГКО СОЛГАТЬ ТЯЖЕЛО
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
York



Зарегистрирован: 29.09.2010
Сообщения: 2603
Откуда: Вологда

СообщениеДобавлено: Сб Мар 02, 2019 1:45 pm    Заголовок сообщения: Ответить с цитатой

$erP
Понятно, что мы смотрели на задачу под разными углами. Это рабочая ситуация.

_________________
http://skl-ol.ru
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
$erP
Site Admin


Зарегистрирован: 29.06.2005
Сообщения: 7851
Откуда: Москва

СообщениеДобавлено: Сб Мар 02, 2019 2:37 pm    Заголовок сообщения: Ответить с цитатой

Александру большое спасибо за привлечение к обсуждению темы данной статьи... с языка сняли...

York писал(а):
Хотя тут нужен абсолютно точный перевод...

Абсолютно с Вами согласен... Ибо в контексте прочитанных ранее статей по использованию Монте-Карло для оценки различных параметров тестов интерпретация способов моделирования методом Монте-Карло в нынешней статьи воспринимается противоречиво...

Я по результатам прочтения английских слов считал, что берется, например, выборка из оценок 100 тестов причастных и непричастных. И из нее методом МК для солидности делается выборка из 10 000 оценок, и она уже обрабатывается... Это понятно... это логично...
С такой же интерпретацией выступает, например, Надежда Азарова в своем обзоре (2016 г.). Например, она пишет: "В презентациях {Нельсона - $erP} рассказывается, что в основе номративных таблиц с расчетом вероятности ошибки лежат данные 100 реально проведенных тестирований {выделено Н.Азаровой - $erP} (50 причастных и 50 непричастных) с подтвержденными результатами, которые затем были размножены до 10 000 тестирований методом моделирования {1) Монте-Карло; 2) выделено Н.Азаровой - $erP}


А как иначе?

Центральная предельная теорема (своими словами... по памяти... как понял... поправляйте, если что...) гласит, что если взять очень очень много (!) малочисленных (!) выборок и построить распределение их средних, то это распределение средних стремится к нормальному... со всеми вытекающими отсюда свойствами... То есть огромное количество выборок с малым количеством непонятно как распределенных значений дает в своей совокупности нормальное распределение этих значений...

И что с того? Нельсон пользуется этой теоремой с точностью до наоборот. Например, в статье 2011 года он пишет (мое изложение), что были взяты оценки 100 полиграмм от реальных тестирований, размножено до 10 000, они обработаны, изучены, по ним был сделан вывод, что это нормальное распределение. И далее - суперфишка - раз на 10 000 монтекарловских оценках получено нормальное распределение, значит и исходное распределение из оценок 100 полиграмм - тоже принадлежит к нормальному распределению.

Шиворот-на-выворот...

Мои замечания...

Во первых, выборка из +/- 292 оценок - это не малая выборка. Малая выборка - до 30ти случайных величин.

Во вторых, что такое выборка из 292х ... чего? 292 - это что? Не лез вглубь, но согласно обзору Н.Ю.Азаровой (2016 г.), 292 - это количество тестов с 149 DI и 143 NDI, которые были задействованы Крэполом в ранних исследованиях для разработки своей объективной системы оценки, положенной в основу OSS-1. Данные использованы в дальнейших исследованиях, в т.ч. и Нельсоном в 2008 г. (обсуждаемая статья). То есть 292 - речь идет об итоговых оценках на тест. И тогда...

В третьих, а зачем вообще генерировать 10 000 выборок по 292 оценки в каждой выборке = 2 920 000 оценок ? Смысл? Что это дает в сравнении с просто одной простой генерацией из 10 000 чисел?

В завершении на сегодня сошлюсь еще раз на Н.Азарову, которая оценивает использование метода с помощью цитаты из, что называется, хорошего учебника по математике: "...при росте числа испытаний методом Монте-Карло бутстрэп-оценка приближается к классической оценке - среднему арифметическому результатов наблюдений. Другими словами, бутстрэп-оценка отличается от классической только шумом псевдослучайных чисел".

Собственно, то, о чем говорим уже много страниц...

_________________
Мое почтение... $erP

................................... ЛЕГКО СОЛГАТЬ ТЯЖЕЛО
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
York



Зарегистрирован: 29.09.2010
Сообщения: 2603
Откуда: Вологда

СообщениеДобавлено: Сб Мар 02, 2019 3:52 pm    Заголовок сообщения: Ответить с цитатой

$erP писал(а):


Центральная предельная теорема (своими словами... по памяти... как понял... поправляйте, если что...) гласит, что если взять очень очень много (!) малочисленных (!) выборок и построить распределение их средних, то это распределение средних стремится к нормальному... со всеми вытекающими отсюда свойствами... То есть огромное количество выборок с малым количеством непонятно как распределенных значений дает в своей совокупности нормальное распределение этих значений...


Да.

$erP писал(а):

И что с того? Нельсон пользуется этой теоремой с точностью до наоборот. Например, в статье 2011 года он пишет (мое изложение), что были взяты оценки 100 полиграмм от реальных тестирований, размножено до 10 000, они обработаны, изучены, по ним был сделан вывод, что это нормальное распределение. И далее - суперфишка - раз на 10 000 монтекарловских оценках получено нормальное распределение, значит и исходное распределение из оценок 100 полиграмм - тоже принадлежит к нормальному распределению.


Феерично ! ))) Да это просто праздник какой - то...)))

Если серьёзно, то всё очень плохо. Таких сюриков в их статьях уже и не сосчитать

$erP писал(а):

В завершении на сегодня сошлюсь еще раз на Н.Азарову, которая оценивает использование метода с помощью цитаты из, что называется, хорошего учебника по математике: "...при росте числа испытаний методом Монте-Карло бутстрэп-оценка приближается к классической оценке - среднему арифметическому результатов наблюдений. Другими словами, бутстрэп-оценка отличается от классической только шумом псевдослучайных чисел".


А что за учебник? Плиззз
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
York



Зарегистрирован: 29.09.2010
Сообщения: 2603
Откуда: Вологда

СообщениеДобавлено: Сб Мар 02, 2019 4:16 pm    Заголовок сообщения: Ответить с цитатой

York писал(а):
Александр Калафати писал(а):
Т.е. я насколько понял - у Вас 4 выборки по 10 000 итераций.

А они делали 10 000 выборок по распределению 292 случаев...


We created 10,000 resampled sets of size equivalent to the OSS development sample of confirmed ZCT cases (N=292).

Мы создали 10 000 пересчитанных выборок по размеру эквивалентных выборке полученной для OSS для подтвержденных случаев ZCT (N=292).


А вот это как раз случай когда "корова даёт молоко" и "молоко даёт корова" - одно и тоже.

Можно всё это проделать - построить десять тысячь выборок (у меня N = 394)/ У каждой выборки зафиксировать статистику, например, средний балл. Этот средний балл - это будет нерпрерывная случайная величина имеющая нормальное распределение и мат. ожидание (среднее значение) равное среднему материнской выборки, а не геню совокупности.

Придётся видимо "убить время" и на это Very Happy

Представте себе числовую прямую и наней мысленно отметье точку - значение мат. ожидания (среднее значение) балла. Затем отметье на этой же числовой прямой точку - средний балл реальной выборки. Эта точка может оказаться как слева так и справа от мат. ожидания. Для определённости - слева. Побутсрепим как "велят" американцы. Получим третью точку - среднее занчение средних значений балла 10 000 сгенерированых выборок. Эта третья точка может оказаться как слева так и справа от среднего балла реальной выборки. Если она окажется справа, то она будет ближе к матю ожиданию - и будет лучшей оценкой, а если слева - только ухудшит оценку. Но мы то не сможем сказать, что произошло так как заранее не знаем как расположены относительно друг друга точки мат. ожидания и среднего реальной выборки.


Пацан сказал - пацан сделал)))

Чтобы представить хоть что - то материальное в подтверждение тому, что сказл привожу кусок кода и результаты вычислений.


Функция Gen() в цикле на 10000 итераций генерирует выборки из материнской, которая указана мною выше. Далее для каждой выборки вычисляется mean, std которые складируются в список.

В конце вычисляется среднее средних и среднее std. Численый результат до третьего знака совпадает с материнсой выборкой.

Представлена также гистограмма - самая, что ни на есть гистограмма нормального распределения. Можно ещё конечно и стат. тесты провести. А оно нуно, если и так всё ясно?
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
$erP
Site Admin


Зарегистрирован: 29.06.2005
Сообщения: 7851
Откуда: Москва

СообщениеДобавлено: Вс Мар 03, 2019 8:59 am    Заголовок сообщения: Ответить с цитатой

Во-первых, про это...
$erP писал(а):
Нельсон пользуется этой теоремой с точностью до наоборот. Например, в статье 2011 года он пишет (мое изложение), что были взяты оценки 100 полиграмм от реальных тестирований, размножено до 10 000, они обработаны, изучены, по ним был сделан вывод, что это нормальное распределение. И далее - суперфишка - раз на 10 000 монтекарловских оценках получено нормальное распределение, значит и исходное распределение из оценок 100 полиграмм - тоже принадлежит к нормальному распределению.


Цитата.

"Normative parameters for truthful and deceptive groups were calculated from a Monte Carlo space consisting of 100 simulated two-question ZCT examinations... The Monte Carlo space was recalculated for 10,000 iterations... Resampled distributions of mean and standard deviation statistics were normally distributed, indicating that the distributions of two-question ZCT scores can also be expected to be normally distributed".

"Нормативные параметры для правдивых и лгущих были вычислены из пространства Монте-Карло, содержащего 100 смоделированных тестов ZCT с 2RQ... Пространство Монте-Карло было пересчитано за 10 000 итераций... В полученной выборке статистики средних значений и стандартных отклонений были распределены нормально, что является показателем того, что баллы в тесте ZCT можно ожидать нормального распределенными"

Во-вторых, про это...

York писал(а):
$erP писал(а):
В завершении на сегодня сошлюсь еще раз на Н.Азарову, которая оценивает использование метода с помощью цитаты из, что называется, хорошего учебника по математике: "...при росте числа испытаний методом Монте-Карло бутстрэп-оценка приближается к классической оценке - среднему арифметическому результатов наблюдений. Другими словами, бутстрэп-оценка отличается от классической только шумом псевдослучайных чисел".
А что за учебник? Плиззз


Орлов А.И. Эконометрика. Учебник. М.:Издательство "Экзамен", 2002.

Прилагаю. Цитата в Главе 11, смотреть на стр. 17 в самом низу.

З.Ы. Сейчас смотрю как на новые ворота... "Пространство Монте-Карло было пересчитано за 10 000 итераций... В полученной выборке статистики средних значений и стандартных отклонений были распределены нормально..."
Помнится, где-то здесь сказал фразу "если я правильно понял понял термин итерация"...
Может, действительно, интерпретация Александра правильная... и 10 000 итераций - это не сгенерированные 10 000 баллов из 100 исходных баллов... а это 10 000 выборок по 100 сгенерированных оценок... с вычисленными по ним 10 000 средними и ст. отклонениями... которые уже и распределены нормально...

_________________
Мое почтение... $erP

................................... ЛЕГКО СОЛГАТЬ ТЯЖЕЛО
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
York



Зарегистрирован: 29.09.2010
Сообщения: 2603
Откуда: Вологда

СообщениеДобавлено: Вс Мар 03, 2019 1:38 pm    Заголовок сообщения: Ответить с цитатой

$erP писал(а):
... В полученной выборке статистики средних значений и стандартных отклонений были распределены нормально, что является показателем того, что баллы в тесте ZCT можно ожидать нормального распределенными"


Very Happy Можно ожидать нормального распределения, а можно и не ожидать...если не хочется..

$erP писал(а):


Орлов А.И. Эконометрика. Учебник. М.:Издательство "Экзамен", 2002.

Прилагаю. Цитата в Главе 11, смотреть на стр. 17 в самом низу.


Спасибо! Учебник не совсем по математике, а по эконометрике, но не суть - автор авторитетный специалист в обласи прикладной статистики.

Я не понял приведённую Азаровой фразу. Но прочтение первоисточника внесло ясность.

Цитата:

В каких случаях целесообразно применять бутстреп, а в каких - другие эконометрические методы? В период рекламной кампании встречались, в том числе в научно-популярных журналах, утверждения о том, что и для оценивания математического ожидания полезен бутстреп. Как показано в статье [22], это совершенно не так. При росте числа испытаний методом Монте-Карло бутстреп-оценка приближается к классической оценке - среднему арифметическому результатов наблюдений. Другими словами, бутстреп-оценка отличается от классической только шумом псевдослучайных чисел.


Главное для нас я виделил синим цветом - для оценивания мат ожидания (и других точечных оценок) бустреп бесполезен.

Я искал его статью ([22]) Орлов А.И. О реальных возможностях бутстрепа как статистического метода. // Заводская лаборатория. 1987. Т.53. No.10. С.82-85., но даже в архиве Заводской лаборатории её нет.

Хотя в принципе для "зрячего" это не столь важно. Достаточно знать и понимать две теоремы: закон больших чисел и ЦПТ, чтобы понять бесполезность бутсрепа в этих целях.

$erP писал(а):


З.Ы. Сейчас смотрю как на новые ворота... "Пространство Монте-Карло было пересчитано за 10 000 итераций... В полученной выборке статистики средних значений и стандартных отклонений были распределены нормально..."
Помнится, где-то здесь сказал фразу "если я правильно понял понял термин итерация"...
Может, действительно, интерпретация Александра правильная... и 10 000 итераций - это не сгенерированные 10 000 баллов из 100 исходных баллов... а это 10 000 выборок по 100 сгенерированных оценок... с вычисленными по ним 10 000 средними и ст. отклонениями... которые уже и распределены нормально...


Да это без разницы: сгенрировать 10 000 балов из 100 исходных или 10 000 выборок по 100 из 100 исходных. В перво случае будет работать закон больших чисел и параметры полученной выборки приблизятся к исходной. Я продемонстрировал это на 10 000 000 баллов. Картинки с этими результатами выше. А во - втором случае будет работать ЦПТ и вычисленные таким образом статистики (параметрв) будут близки к параметрам исходной выборки. Этот случай у меня приведён так же чуть выше. Вроде бы наглядней некуда.

Хотя из бутсрепа можно извлечь некоторую пользу. Например из полученного во втором случае распределения средних (гистограмма его приведена) можно получить 95% доверительный интервал для мат. ожидания ген. совокупности к которой принадлежит полученная выборка (среднее исходной выборки). И тогда мы можем сказать, что мы верим в то, что наша исходная выборка хорошая, её среднее близко к ген. совокупности, которую мы исследуем (из которой извлечена исходная) и таким образом есть большие шансы, что доверительный интервал покрывает и мат. ожидание этой ген. совокупности.

Опять таки это вопрос веры в то, что исходная выборка хорошая. Но на безрыбье и рыба рак. Для серьёзной работы, если ни чего другого нет то пусть будет хотя бы такой доверительный интервал.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
York



Зарегистрирован: 29.09.2010
Сообщения: 2603
Откуда: Вологда

СообщениеДобавлено: Вс Мар 03, 2019 2:02 pm    Заголовок сообщения: Ответить с цитатой

Александр Калафати писал(а):
Насколько я понял, они делают

The process of constructing resampled distributions is then repeated numerous times to construct a bootstrap distribution of resampled distributions. With each random case selection, the probability of selecting a case from within the normal range is dictated by the law of large numbers and the central limit theorem, which tell us that if we completed this process a large number of times, our parameter estimates will regress towards the mean of the population represented by the sample.


Процесс построения пересчитанных распределений затем многократно повторяется для построения bootstrap распределения пересчитанных распределений. При каждом случайном выборе вероятность выбора случая из нормального диапазона продиктована законом больших чисел и центральной предельной теоремой, которые говорят нам, что если мы завершим этот процесс большое количество раз, наши оценки параметров регрессируют к среднему значению популяции, представленной выборкой.


Из того, что писал $erP и из этого можно сделать вывод, что американские коллеги относятся к закону больших чисел и ЦПТ весьма альтернативным оборазом. Если б это была прблема только Нельсона, то остальные должны были бы его заклевать.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
$erP
Site Admin


Зарегистрирован: 29.06.2005
Сообщения: 7851
Откуда: Москва

СообщениеДобавлено: Вс Мар 03, 2019 3:51 pm    Заголовок сообщения: Ответить с цитатой

York писал(а):
Да это без разницы...
Ну... так, "для чистоты эксперимента"...
_________________
Мое почтение... $erP

................................... ЛЕГКО СОЛГАТЬ ТЯЖЕЛО
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
York



Зарегистрирован: 29.09.2010
Сообщения: 2603
Откуда: Вологда

СообщениеДобавлено: Пн Мар 04, 2019 11:33 am    Заголовок сообщения: Ответить с цитатой

Не смотря на критику бутстрепа не стоит списывать его сосчетов. Надо только понять как "его правильно приготовить")

Написал алгоритм, который использует бустреп. Генерируется 40_000 выборок объёмом как и исходная - 394. Из них отбираются "хорошие" - лишённые "генетических" недостатков. Путём определённых преобразований с помощью их моделируются выборки, для которых исходная реальная не является ген. своокупностью. И уже с помощью смоделированных выборок делается оценка мат. ожидания реальной ген. совокупности. При этом строится теоретичесоке распределение ген. совокупности.



Красный рисунок - полигон частот реальной выборки. Зелёным - теоретическое распределение ген. совокупности, полученное алгоритмом.

Сделал несколько десятков прогонов программы, чтобы увидеть своими глазами результаты. Появилась уверенность, что ЦПТ "перестала работать". Т.е. оценки мат. ожидания и std не сходятся к параметрам исходной выборки, а наблюдается сходимость к числам в районе: -1,78 и 2.32. При этом Chi2 тест каждый раз не отвергает гипотезу о том, что реальная выборка принадлежит ген. совокупности с вычисленными параметрами. Поэтому есть надежда, что вычисленные параметры служат лучшей оценкой мат. ожидания и std. ген. совокупности.

Числа сверху:
1 строка - вычисленные параметры mean и std
2 строка - результаты Chi2 теста
3 строка - 4125 - это число "хороших" отобранных выборок из 20_000 сгенерированных.

Конечно же надо доказать математически, что алгоритм даёт лучшую оценку, т.е. полученная точка всегда ближе к точке мат. ожидания. Проведённое моделирование даёт на это надежду. Но такое док - во потребует док -ва и некоторых других вещей, что, вообще говоря, приведёт к появлению новой дисциплины - полиметрики Very Happy

Это по аналогии с эконометрикой - дисциплина изучающая применение вероятостно - статистических методов в экономике.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
Показать сообщения:   
Начать новую тему   Ответить на тему    Список форумов ПОЛИГРАФ - ФОРУМ -> Общий форум Часовой пояс: GMT + 3
На страницу Пред.  1, 2, 3 ... , 12, 13, 14  След.
Страница 13 из 14

 
Перейти:  
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
You cannot attach files in this forum
You cannot download files in this forum


Powered by phpBB © 2001, 2005 phpBB Group
Рейтинг@Mail.ru Rambler's Top100