Экстремальный статистикинг и гистограмминг: как это работает?
От: Sinclair Россия https://github.com/evilguest/
Дата: 18.12.15 10:32
Оценка:
Всем привет. Не так давно я столкнулся с практической задачей из области статистики, при решении которой упёрся в ментальный тупик.
Надеюсь, что в этом форуме есть люди с IQ выше, чем у меня, которые придумают осмысленное решение.

Задачу я переформулировал, чтобы избежать ненужных ассоциаций с реальной работой; если найдётся решение в данной формулировке — то, надо полагать, оно подойдёт и для моей задачи.
С философской точки зрения, задача формулируется примерно так: "как не наврать в представлении статистического исследования".

С практической — давайте рассмотрим такой пример: есть куча камней.
Предположим, что камни характеризуются каким-то одним параметром — скажем, массой.
И вот теперь у пытливого ума возникают вопросы типа "а из каких камней состоит эта куча"?

У нас есть очевидные метрики, которые мы можем с этой кучи снять — например, получить её суммарную массу.
Можем посчитать количество камней в ней.
Деление одного на другое даст нам среднюю массу камня. Предположим, 1кг.
А вот дальше начинается тупик. Всякие статистические издания с уверенностью приводят убедительные графики типа такого:

(украдено здесь)
Ну, типа — будет график, из которого наглядно видно, что чаще всего встречаются камни весом в 1.2 кг, но затем гистограмма быстро обрывается, а у малых весов длиннее хвост — потому медиана и среднее не совпадают.
Но на практике возникает вопрос: а по каким интервалам раскладывать гистограмму? Неудачный выбор диапазонов смажет нам картину. Т.е. делаем диапазоны узкими — размазываем гистограмму в тонкий блин, показывающий уровень шума, и никаких особенностей глаз не видит. Выбираем "широкие" столбцы — получаем невнятицу, не видим общей картины.
Интуитивно понятно, что есть некая функция типа "плотность вероятности для камня из кучи иметь какую-то массу", но я решительно не понимаю, каким образом эту функцию восстановить, имея набор из двух-трёх миллионов камней. При этом их массы меняются, скажем так, от 1 грамма до 1500 граммов; интуитивно ясно, что частота встречаемости быстро спадает с ростом размера.

Дополнительную остроту блюду придаёт то, что распределение интересует не столько в штуках, сколько в граммах — т.е. мелких камней много, но весит каждый мало. Зато крупных камней мало.
Какую гистограмму надо построить, чтобы можно было быстро понять, как на общий вес кучи повлияет, например, её просеивание через сито определённого вида?
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.