Определить параметры распределения - Алгоритмы

Народ, выручайте. С математикой похоже туго.

Итак есть у нас результаты статистического анализа некоторой случайной величины:
— мат. ожидание — m
— обе границы доверительного интервала — [l,u]
— доверительная вероятность — d

Самих данных нет.

Распределение неизвестно, но по обрывкам публикаций есть подозрение, что речь идет о распределении Вейбулла. В 2-параметрическом случае оно задается масштабом и формой (параметры lambda и k).

Их надо определить. Что делаю:

Взял формулы для мат. ожидания (m = lambda * Gamma(1 + 1/k)) и функции распределения (F(x,k,lambda) = 1 — exp(-(x/lambda)^k)), где Gamma — это гамма-функция

Итого имеем систему из двух уравнений с двумя неизвестными (lambda и k):
m = lambda * Gamma(1 + 1/k)
d = exp(-(l/lambda)^k) — exp(-(u/lambda)^k)

Ничего не перепутал? Как это дело решать, хотя бы приблизительно? Надо смотреть в сторону каких нибудь численных итеративных методов? Что-нибудь вроде Математики (которую до этого в глаза не видел) сумеет? Может попробовать скормить какому-нибудь пакету нелинейной оптимизации (задав тривиальную целевую функцию, а уравнения в качестве ограничений)?

Спасибо

Здравствуйте, kl, Вы писали:

kl>Итого имеем систему из двух уравнений с двумя неизвестными (lambda и k):
kl>m = lambda * Gamma(1 + 1/k)
kl>d = exp(-(l/lambda)^k) — exp(-(u/lambda)^k)

kl>Ничего не перепутал? Как это дело решать, хотя бы приблизительно?

Можно lambda из первого подставить во второе. Тогда получится уравнение с одной неизвестной, а это уже однозначно проще. Решать скорее всего придётся численно, но есть подозрение что уравнение сведётся к поиску нуля монотонной функции, а это уже совсем просто.

Здравствуйте, RomikT, Вы писали:

RT>Здравствуйте, kl, Вы писали:

kl>>Итого имеем систему из двух уравнений с двумя неизвестными (lambda и k):
kl>>m = lambda * Gamma(1 + 1/k)
kl>>d = exp(-(l/lambda)^k) — exp(-(u/lambda)^k)

kl>>Ничего не перепутал? Как это дело решать, хотя бы приблизительно?

RT>Можно lambda из первого подставить во второе. Тогда получится уравнение с одной неизвестной, а это уже однозначно проще. Решать скорее всего придётся численно, но есть подозрение что уравнение сведётся к поиску нуля монотонной функции, а это уже совсем просто.

Ага, спасибо, я уже сообразил, что протормозил. В общем после небольших плясок с бубном вокруг Математики все благополучно разрешилось.

Здравствуйте, kl, Вы писали:

kl>Итак есть у нас результаты статистического анализа некоторой случайной величины:
kl>- мат. ожидание — m
kl>- обе границы доверительного интервала — [l,u]
kl>- доверительная вероятность — d
kl>Самих данных нет.
kl>Распределение неизвестно, но по обрывкам публикаций есть подозрение, что речь идет о распределении Вейбулла. В 2-параметрическом случае оно задается масштабом и формой (параметры lambda и k).
kl>Их надо определить. Что делаю:
kl>Взял формулы для мат. ожидания (m = lambda * Gamma(1 + 1/k)) и функции распределения (F(x,k,lambda) = 1 — exp(-(x/lambda)^k)), где Gamma — это гамма-функция
kl>Итого имеем систему из двух уравнений с двумя неизвестными (lambda и k):
kl>m = lambda * Gamma(1 + 1/k)
kl>d = exp(-(l/lambda)^k) — exp(-(u/lambda)^k)

Вопрос: у них было распределение с известными параметрами, для которого они привели мат.ожидание и квантили, или данные, по которым они оценили мат.ожидание и доверительный интервал для мат.ожидания? Доверительный интервал и квантили -- разные вещи.

Вот, например, взяла природа нормальное распределение с параметрами (0,1) и нагенерила 100 наблюдений. Те товарищи нашли выборочное среднее и доверительный интервал и отрапортовали тебе: МО -0.01, ДИ [-0.20, 0.18]. Природа взяла и еще нагенерила миллион наблюдений. Те переоценили и выдали: МО 0.01, ДИ [-0.008, 0.012]. Заметь, в обоих случаях неизвестная дисперсия одна и та же, распределение то же, а интервал совсем другой.

Короче, во втором случае дела твои плохи...

Вот смотри вторую часть этого примера: Доверительный интервал для математического ожидания нормальной выборки. Там ищется доверительный интервал для МО нормального распределения в случае, когда дисперсия неизвестна. Т.е. они брали статистику такую, что: а) статистика зависит только от неизвестного МО распределения, не зависит от неизвестной дисперсии, б) при любом значении неизвестных параметров (обоих, разумеется) статистика имеет фиксированное известное распределение. Но это еще не все.
* Можно было взять эту статистику, можно было другую.
* Даже для одного метода оценки можно сдвигать интервал туда-сюда. Например, вместо t((1-a)/2) и t((1+a)/2) брать t((1-a)/4) и t((3+a)/4) (будем надеяться, что они брали симметричный интервал).
* Доверительный интервал зависит от количества данных в выборке. Чем больше данных, тем интервал уже (при тех же неизвестных параметрах).

Есть такой ГОСТ 11.007-75 "Прикладная статистика. Правила определения оценок и доверительных границ для параметров распределения Вейбулла." Там стандартные методы построения доверительных интервалов для этого распределения. Зная объем выборки, можно попытаться что-то оценить.

В примере по ссылке, допустим, я сказал тебе, что моя оценка МО 0, а интервал +-1. Что это тебе дает? Ну да, ты знаешь, что выборочное среднее равно 0, а выборочное среднее -- это лучшая оценка для неизвестного МО. Далее, ты знаешь, что t((1-alpha)/2,n-1)*S/sqrt(n)=1, а S -- несмещенная оценка для стандартного отклонения, но ты можешь вычислить S только при известном n.

Короче, тебе надо знать:
а) Размер их выборки.
б) Способ построения доверительного интервала.

Здравствуйте, vadimcher, Вы писали:

Ага, спасибо за развернутый ответ.

V>Вопрос: у них было распределение с известными параметрами, для которого они привели мат.ожидание и квантили, или данные, по которым они оценили мат.ожидание и доверительный интервал для мат.ожидания? Доверительный интервал и квантили -- разные вещи.

Данные. У меня правда есть размер выборки, а как отгадывать методику выбора ДИ — я еще подумаю. У них кстати он не отцентрован относительно среднего.

На самом деле все что мне надо — это оценить вероятности попадания этой величины в некоторые свои интервалы (отличные от их ДИ). Грубо говоря — аппроксимировать распределение дискретным набором значений.

Здравствуйте, kl, Вы писали:

kl>Здравствуйте, vadimcher, Вы писали:
kl>Ага, спасибо за развернутый ответ.
V>>Вопрос: у них было распределение с известными параметрами, для которого они привели мат.ожидание и квантили, или данные, по которым они оценили мат.ожидание и доверительный интервал для мат.ожидания? Доверительный интервал и квантили -- разные вещи.
kl>Данные. У меня правда есть размер выборки, а как отгадывать методику выбора ДИ — я еще подумаю. У них кстати он не отцентрован относительно среднего.

А он и не должен быть центрирован. Это только для симметричных распределений если одинаковую вероятность отсекают по краям.

kl>На самом деле все что мне надо — это оценить вероятности попадания этой величины в некоторые свои интервалы (отличные от их ДИ). Грубо говоря — аппроксимировать распределение дискретным набором значений.

Понятно. Ну тебе все равно придется оценивать параметры, судя по всему.

От:	kl	http://stardog.com
Дата:	06.10.10 19:06
Оценка:

	От:	RomikT
	Дата:	06.10.10 20:05
	Оценка:

От:	kl	http://stardog.com
Дата:	06.10.10 20:14
Оценка:

	От:	vadimcher
	Дата:	06.10.10 22:44
	Оценка:	10 (1)

От:	kl	http://stardog.com
Дата:	07.10.10 12:16
Оценка: