Экстремальный статистикинг и гистограмминг: как это работает?
От: Sinclair Россия https://github.com/evilguest/
Дата: 18.12.15 10:32
Оценка:
Всем привет. Не так давно я столкнулся с практической задачей из области статистики, при решении которой упёрся в ментальный тупик.
Надеюсь, что в этом форуме есть люди с IQ выше, чем у меня, которые придумают осмысленное решение.

Задачу я переформулировал, чтобы избежать ненужных ассоциаций с реальной работой; если найдётся решение в данной формулировке — то, надо полагать, оно подойдёт и для моей задачи.
С философской точки зрения, задача формулируется примерно так: "как не наврать в представлении статистического исследования".

С практической — давайте рассмотрим такой пример: есть куча камней.
Предположим, что камни характеризуются каким-то одним параметром — скажем, массой.
И вот теперь у пытливого ума возникают вопросы типа "а из каких камней состоит эта куча"?

У нас есть очевидные метрики, которые мы можем с этой кучи снять — например, получить её суммарную массу.
Можем посчитать количество камней в ней.
Деление одного на другое даст нам среднюю массу камня. Предположим, 1кг.
А вот дальше начинается тупик. Всякие статистические издания с уверенностью приводят убедительные графики типа такого:

(украдено здесь)
Ну, типа — будет график, из которого наглядно видно, что чаще всего встречаются камни весом в 1.2 кг, но затем гистограмма быстро обрывается, а у малых весов длиннее хвост — потому медиана и среднее не совпадают.
Но на практике возникает вопрос: а по каким интервалам раскладывать гистограмму? Неудачный выбор диапазонов смажет нам картину. Т.е. делаем диапазоны узкими — размазываем гистограмму в тонкий блин, показывающий уровень шума, и никаких особенностей глаз не видит. Выбираем "широкие" столбцы — получаем невнятицу, не видим общей картины.
Интуитивно понятно, что есть некая функция типа "плотность вероятности для камня из кучи иметь какую-то массу", но я решительно не понимаю, каким образом эту функцию восстановить, имея набор из двух-трёх миллионов камней. При этом их массы меняются, скажем так, от 1 грамма до 1500 граммов; интуитивно ясно, что частота встречаемости быстро спадает с ростом размера.

Дополнительную остроту блюду придаёт то, что распределение интересует не столько в штуках, сколько в граммах — т.е. мелких камней много, но весит каждый мало. Зато крупных камней мало.
Какую гистограмму надо построить, чтобы можно было быстро понять, как на общий вес кучи повлияет, например, её просеивание через сито определённого вида?
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
Re: Экстремальный статистикинг и гистограмминг: как это работает?
От: Qulac Россия  
Дата: 18.12.15 11:20
Оценка: -1
Здравствуйте, Sinclair, Вы писали:

S>Всем привет. Не так давно я столкнулся с практической задачей из области статистики, при решении которой упёрся в ментальный тупик.

S>Надеюсь, что в этом форуме есть люди с IQ выше, чем у меня, которые придумают осмысленное решение.

S>Задачу я переформулировал, чтобы избежать ненужных ассоциаций с реальной работой; если найдётся решение в данной формулировке — то, надо полагать, оно подойдёт и для моей задачи.

S>С философской точки зрения, задача формулируется примерно так: "как не наврать в представлении статистического исследования".

S>С практической — давайте рассмотрим такой пример: есть куча камней.

S>Предположим, что камни характеризуются каким-то одним параметром — скажем, массой.
S>И вот теперь у пытливого ума возникают вопросы типа "а из каких камней состоит эта куча"?

S>У нас есть очевидные метрики, которые мы можем с этой кучи снять — например, получить её суммарную массу.

S>Можем посчитать количество камней в ней.
S>Деление одного на другое даст нам среднюю массу камня. Предположим, 1кг.
S>А вот дальше начинается тупик. Всякие статистические издания с уверенностью приводят убедительные графики типа такого:
S>Image: image.php
S>(украдено здесь)
S>Ну, типа — будет график, из которого наглядно видно, что чаще всего встречаются камни весом в 1.2 кг, но затем гистограмма быстро обрывается, а у малых весов длиннее хвост — потому медиана и среднее не совпадают.

S>Но на практике возникает вопрос: а по каким интервалам раскладывать гистограмму? Неудачный выбор диапазонов смажет нам картину. Т.е. делаем диапазоны узкими — размазываем гистограмму в тонкий блин, показывающий уровень шума, и никаких особенностей глаз не видит. Выбираем "широкие" столбцы — получаем невнятицу, не видим общей картины.


Результат еще будет зависить от того, с какой точность мы производим измерение массы камней, так как здесь тоже появляются интервалы вызванные дискретностью измерения.
Это вы сами решаете, является ли полученная информация при данной ширине интервала для вас полезной или нет, так что только практически.

S>Интуитивно понятно, что есть некая функция типа "плотность вероятности для камня из кучи иметь какую-то массу", но я решительно не понимаю, каким образом эту функцию восстановить, имея набор из двух-трёх миллионов камней. При этом их массы меняются, скажем так, от 1 грамма до 1500 граммов; интуитивно ясно, что частота встречаемости быстро спадает с ростом размера.


Если разделить ширину интервала на вероятность поподания в него одного камня, то мы получим плотность вероятности. Функция получиться из линейных кусочков.

S>Дополнительную остроту блюду придаёт то, что распределение интересует не столько в штуках, сколько в граммах — т.е. мелких камней много, но весит каждый мало. Зато крупных камней мало.

S>Какую гистограмму надо построить, чтобы можно было быстро понять, как на общий вес кучи повлияет, например, её просеивание через сито определённого вида?

Строите гистограмму, отношение площади криволинейной трапеции ограниченной данными значениями к площади всей гистограммы покажет какая часть кучи пройдет через сито.
Программа – это мысли спрессованные в код
Re: Экстремальный статистикинг и гистограмминг: как это работает?
От: andyp  
Дата: 18.12.15 11:30
Оценка: 10 (1)
Здравствуйте, Sinclair, Вы писали:


S>Но на практике возникает вопрос: а по каким интервалам раскладывать гистограмму? Неудачный выбор диапазонов смажет нам картину. Т.е. делаем диапазоны узкими — размазываем гистограмму в тонкий блин, показывающий уровень шума, и никаких особенностей глаз не видит. Выбираем "широкие" столбцы — получаем невнятицу, не видим общей картины.

S>Интуитивно понятно, что есть некая функция типа "плотность вероятности для камня из кучи иметь какую-то массу", но я решительно не понимаю, каким образом эту функцию восстановить, имея набор из двух-трёх миллионов камней. При этом их массы меняются, скажем так, от 1 грамма до 1500 граммов; интуитивно ясно, что частота встречаемости быстро спадает с ростом размера.

Т.е. все сводится к определению количества колодцев, на которые нужно разделить интервал [m_min, m_max] при построении гистограммы?

Несколько формул для определения количества бинов приведены в википедии, выбрать из них можно исходя из ожидаемой функции распределения.
https://en.wikipedia.org/wiki/Histogram

Как первое приближение прокатит sqrt(n), n — число камней.
Re: Экстремальный статистикинг и гистограмминг: как это работает?
От: watchmaker  
Дата: 18.12.15 12:00
Оценка: 30 (2)
Здравствуйте, Sinclair, Вы писали:

S>Интуитивно понятно, что есть некая функция типа "плотность вероятности для камня из кучи иметь какую-то массу", но я решительно не понимаю, каким образом эту функцию восстановить, имея набор из двух-трёх миллионов камней.

S>Какую гистограмму надо построить, чтобы можно было быстро понять, как на общий вес кучи повлияет, например, её просеивание через сито определённого вида?
Вот для этого нужно работать не с плотностями вероятности, а с функцией распределения (CDF). То есть считать какая доля камней будет иметь вес меньше заданного. Понятно, что в случае непрерывного распределения производная от CDF и будет задавать плотность вероятности. После какой-то регуляризации можно даже и от дискретного аналог производной взять. Вот только для задачи подсчёта числа объектов прошедших через сито это уже делать не нужно — можно всю информацию прямо из CDF получить.


S>Но на практике возникает вопрос: а по каким интервалам раскладывать гистограмму? Неудачный выбор диапазонов смажет нам картину. Т.е. делаем диапазоны узкими — размазываем гистограмму в тонкий блин, показывающий уровень шума, и никаких особенностей глаз не видит. Выбираем "широкие" столбцы — получаем невнятицу, не видим общей картины.

Есть интересные алгоритмы http://toyoizumilab.brain.riken.jp/hideaki/res/histogram.html#Scheme
И есть довольно простые и популярные эвристики попроще, навроде Freedman–Diaconis rule. И даже википедия сразу предлагает ещё тройку совсем простых способов: Number of bins and width если уж совсем невмоготу сложные формулы выписывать.
Re: Экстремальный статистикинг и гистограмминг: как это работает?
От: Кодт Россия  
Дата: 20.12.15 17:36
Оценка:
Здравствуйте, Sinclair, Вы писали:

S>Какую гистограмму надо построить, чтобы можно было быстро понять, как на общий вес кучи повлияет, например, её просеивание через сито определённого вида?


Так тебе нужна именно гистограмма, или результат интегрирования? (Суммарный вес камней, проходящих под порог массы каждого)?
Это же готовая функция — сумма(порог)
Ступенчатая, монотонно возрастающая.

Причём в области граммов и/или в районе медианы там будет много точек на абсциссе, а ближе к правому краю — мало. Поэтому, возможно, есть смысл выбрать не линейный масштаб (причём, как по абсциссе, так и по ординате).

Ну и "быстро понять", наверно, имеет смысл ещё и в сравнении с эталонным распределением масс камней. То есть, нарисовать реальный график и наложить на него прямую линию равномерного распределения, и сигмоиду нормального распределения.
Перекуём баги на фичи!
Re[2]: Экстремальный статистикинг и гистограмминг: как это работает?
От: Sinclair Россия https://github.com/evilguest/
Дата: 21.12.15 11:37
Оценка:
Здравствуйте, Кодт, Вы писали:

К>Так тебе нужна именно гистограмма, или результат интегрирования? (Суммарный вес камней, проходящих под порог массы каждого)?

К>Это же готовая функция — сумма(порог)
К>Ступенчатая, монотонно возрастающая.
Скорее, гистограмма. Идеально было бы определить, является ли распределение весов камней унимодальным/мультимодальным, и найти эти моды.

К>Ну и "быстро понять", наверно, имеет смысл ещё и в сравнении с эталонным распределением масс камней. То есть, нарисовать реальный график и наложить на него прямую линию равномерного распределения, и сигмоиду нормального распределения.


Тут основная засада — в том, что это должен быть необслуживаемый отчёт. Ну то есть типа тупой "прораб" запускает отчёт, и тот ему рассказывает "что нашлось".
А не так, что опытный статистик садится за рукоятки, и крутит их до получения убедительной картины, которую можно включить в статью.
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
Re[3]: Экстремальный статистикинг и гистограмминг: как это работает?
От: Кодт Россия  
Дата: 21.12.15 12:59
Оценка:
Здравствуйте, Sinclair, Вы писали:

К>>Так тебе нужна именно гистограмма, или результат интегрирования? (Суммарный вес камней, проходящих под порог массы каждого)?

S>Скорее, гистограмма. Идеально было бы определить, является ли распределение весов камней унимодальным/мультимодальным, и найти эти моды.

S>Тут основная засада — в том, что это должен быть необслуживаемый отчёт. Ну то есть типа тупой "прораб" запускает отчёт, и тот ему рассказывает "что нашлось".

S>А не так, что опытный статистик садится за рукоятки, и крутит их до получения убедительной картины, которую можно включить в статью.

Для прораба должно существовать некоторое идеальное распределение камней по фракциям, согласно ГОСТа или ТУ. И интересовать его будут именно отклонения.
То есть, берём гистограмму с шагом, указанным в ТУ (например, "песок — 1-10 г — 20%, гравий — 10-100 г — 30%, щебень — 100-1000 г — 30%, булыжник — 1000-оо г — 20%"), показываем фактическое и нормативное значения, и можем ещё в каждой фракции найти медиану, чтобы совсем интересно было.

Это — если проектировать скаду для тупого прораба.

Для многомодовых распределений...
Не будучи экспертом в статистике, предложу несколько "инженерных" решений, — т.е. таких, которые просто реализовать.

1) Нарезать гистограмму не с априорным шагом сетки, а на перцентили. Это и прорабу будет понятно: "первые 10% занимает 1-5г, вторые 10% — 5-10г (в сумме получается 20% и укладывается в норму по песку), и т.д."
Моды тоже обнаружатся, пусть и приблизительно.

2) Разложить на спектр идеальных одномодовых распределений. Только это не нормальные, а...
Очень грубо говоря, — найти первую моду, построить идеальную модель, вычесть её из реального распределения; на остатках найти вторую моду... потом третью... пока горбики не станут совсем уж мелкими

3) Метод прищуренного взгляда: наложить НЧ-фильтр (гауссово размытие) на гистограмму и найти максимумы, объявить их модами.
Кстати, я почти наверняка уверен, что мы имеем дело именно с логарифмической шкалой весов (примерно как выше в ТУ написано). Поэтому, перед тем, как прищуриваться, нужно перейти к логарифму веса камня, — тогда одинокие редкие булыжники сгруппируются поближе.
Перекуём баги на фичи!
Re[4]: Экстремальный статистикинг и гистограмминг: как это работает?
От: Sinclair Россия https://github.com/evilguest/
Дата: 22.12.15 07:39
Оценка:
Здравствуйте, Кодт, Вы писали:

К>Для прораба должно существовать некоторое идеальное распределение камней по фракциям, согласно ГОСТа или ТУ. И интересовать его будут именно отклонения.

В нашем случае никаких ГОСТ или ТУ нету.
Вот пример реальных данных — вес, скажем, в граммах: http://files.rsdn.ru/5743/StoneStats.csv

К>Для многомодовых распределений...

К>Не будучи экспертом в статистике, предложу несколько "инженерных" решений, — т.е. таких, которые просто реализовать.


К>1) Нарезать гистограмму не с априорным шагом сетки, а на перцентили. Это и прорабу будет понятно: "первые 10% занимает 1-5г, вторые 10% — 5-10г (в сумме получается 20% и укладывается в норму по песку), и т.д."

К>Моды тоже обнаружатся, пусть и приблизительно.
Вроде бы распределение одномодовое — видно, что частота встречаемости быстро спадает с размером.
Но если мы будем исследовать "массовый" состав нашей кучи, то видно, что топ-5 камней весят примерно столько же, сколько от 1 до 4х граммов.

К>3) Метод прищуренного взгляда: наложить НЧ-фильтр (гауссово размытие) на гистограмму и найти максимумы, объявить их модами.

К>Кстати, я почти наверняка уверен, что мы имеем дело именно с логарифмической шкалой весов (примерно как выше в ТУ написано). Поэтому, перед тем, как прищуриваться, нужно перейти к логарифму веса камня, — тогда одинокие редкие булыжники сгруппируются поближе.

Вот картинка отсчётов "общий вес" в логарифмической шкале:

Пока что всё, что из него понятно — это примерно одинаковые максимумы расположены при X ~ 6 и X ~ 3000. Так всё-таки, камней какого размера больше?
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
Re[5]: Экстремальный статистикинг и гистограмминг: как это работает?
От: Кодт Россия  
Дата: 22.12.15 11:38
Оценка:
Здравствуйте, Sinclair, Вы писали:

S>Вроде бы распределение одномодовое — видно, что частота встречаемости быстро спадает с размером.

И видно, что мода (и медиана тоже) — это 1 г.

S>Но если мы будем исследовать "массовый" состав нашей кучи, то видно, что топ-5 камней весят примерно столько же, сколько от 1 до 4х граммов.


Поставим вопрос иначе: а что именно хочет увидеть прораб? Ему ведь нужна какая-то определённая информация, а не "знаете ли вы, что у среднестатистического россиянина одна грудь и одно яичко?"
Перекуём баги на фичи!
Re[6]: Экстремальный статистикинг и гистограмминг: как это работает?
От: Sinclair Россия https://github.com/evilguest/
Дата: 23.12.15 07:32
Оценка:
Здравствуйте, Кодт, Вы писали:
К>Поставим вопрос иначе: а что именно хочет увидеть прораб? Ему ведь нужна какая-то определённая информация, а не "знаете ли вы, что у среднестатистического россиянина одна грудь и одно яичко?"
"Расскажите мне о моих камнях"
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
Re[7]: Экстремальный статистикинг и гистограмминг: как это р
От: Буравчик Россия  
Дата: 23.12.15 08:06
Оценка:
Здравствуйте, Sinclair, Вы писали:

S>Здравствуйте, Кодт, Вы писали:

К>>Поставим вопрос иначе: а что именно хочет увидеть прораб? Ему ведь нужна какая-то определённая информация, а не "знаете ли вы, что у среднестатистического россиянина одна грудь и одно яичко?"
S>"Расскажите мне о моих камнях"

К примеру есть камни
1, 1, 1 = сумма 3
2, 2, 2, 2 = сумма 8
5 = сумма 5
10 = сумма 10
ИТОГО: общий вес 26

Строим scatter plot
Каждый камень — точка на графике
По одной оси — количество камней данного веса
По другой оси — общий вес камней данного веса

Можно еще некую среднюю линию провести (диагональная)

ОБЩИЙ ВЕС
10|\ 10
9 | \ 
8 |  \      2
7 |   \
6 |    \
5 |  5  \ 
4 |      \ 
3 |      1\
2 |        \
1 |         \
0 +-----------------------
    КОЛВО


Итого:
Камни, которые дают наибольший вес — вверху
Камни, которые дают наибольшее количество — справа
Преобладающие камни — выше и правее диагональной линии

Можно рассматривать не отдельные камни, а группы камней
Для этого проводим кластерный анализ камней — камни делим на определенное количество групп, близких по весу.
Далее все то же самое, только для групп


Можно подкрепить данные графики таблицами:

Можно просто выписать таблицу весов камней, в порядке убывания общего веса, типа:
камень 10 — количество 1 — вес камней 10 — 38% от общего веса
камень 2 — количество 4 — вес камней 8 — 31% от общего веса
камень 5 — количество 1 — вес камней 5 — 19% от общего веса
...

Ну или для групп:
камни 1 и 2 — количество 7 — вес камней 11 — 42% от общего веса
камень 10 — количество 1 — вес камней 10 — 38% от общего веса
...

Аналогично таблица по количеству камней, а не по их весу (если данная информация интересна)
Best regards, Буравчик
Отредактировано 23.12.2015 8:07 Буравчик . Предыдущая версия .
Re[6]: Экстремальный статистикинг и гистограмминг: как это работает?
От: Sinclair Россия https://github.com/evilguest/
Дата: 23.12.15 08:30
Оценка:
Здравствуйте, Кодт, Вы писали:
S>>Вроде бы распределение одномодовое — видно, что частота встречаемости быстро спадает с размером.
К>И видно, что мода (и медиана тоже) — это 1 г.
Медиана тут 6г.
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
Re[8]: Экстремальный статистикинг и гистограмминг: как это р
От: Sinclair Россия https://github.com/evilguest/
Дата: 23.12.15 08:43
Оценка:
Здравствуйте, Буравчик, Вы писали:

Б>Можно еще некую среднюю линию провести (диагональная)


Б>
Б>ОБЩИЙ ВЕС
Б>10|\ 10
Б>9 | \ 
Б>8 |  \      2
Б>7 |   \
Б>6 |    \
Б>5 |  5  \ 
Б>4 |      \ 
Б>3 |      1\
Б>2 |        \
Б>1 |         \
Б>0 +-----------------------
Б>    КОЛВО
Б>


Вот как выглядит предложенный вами скаттер-плот для набора данных, который я опубликовал два поста назад:

Диагональную линию через него провести не получится.
Более того, проблема такой диаграммы — в её "нестабильности". Если вы попробуете кластеризовать камни, то точки будут кардинально сдвигаться.
Вот, допустим, у меня по 24 камня весом в 39 и 40 граммов. Обе точки лежат ниже и левее, например, точки "камни весом 25 граммов", которых у меня 56 штук общим весом в 1400 граммов.
Как только я объединю их в группу "камни от 39 до 40 граммов", они быстренько прыгнут вправо-вверх, т.к. у меня получится 48 камней суммарным весом 1896 граммов.
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
Re[9]: Экстремальный статистикинг и гистограмминг: как это р
От: Буравчик Россия  
Дата: 23.12.15 10:07
Оценка:
Здравствуйте, Sinclair, Вы писали:


S>Вот как выглядит предложенный вами скаттер-плот для набора данных, который я опубликовал два поста назад:


Расшифруйте "каких камней больше" — важно количество или общий вес камней или и то и другое?
Важен ли точный вес камня или идет приблизительный анализ (вес плюс-минус)?

Вообще, какого характера выводы вы хотите делать? Приведите пример на данном наборе. Какие камни (группы) на Ваш взгляд стоило бы отметить в данном наборе. Пока в рамках данного набора озвучены интересные максимумы (в районе 6 и 3000).

Добавлено: Забыл. Про сито был вопрос. Действительно, оба графика не дает информацию о последствиях сита.

S>Более того, проблема такой диаграммы — в её "нестабильности". Если вы попробуете кластеризовать камни, то точки будут кардинально сдвигаться.

S>Вот, допустим, у меня по 24 камня весом в 39 и 40 граммов. Обе точки лежат ниже и левее, например, точки "камни весом 25 граммов", которых у меня 56 штук общим весом в 1400 граммов.
S>Как только я объединю их в группу "камни от 39 до 40 граммов", они быстренько прыгнут вправо-вверх, т.к. у меня получится 48 камней суммарным весом 1896 граммов.

Это не нестабильность, а вопрос трактовки. Надо четко определить, различает ли оператор (пользователь) похожий (близкий) вес камней.
В группу можно объединять только такие камни, которые он не различает. В этом случае, например, в группе вместо камней 39 и 40 он будет видеть камни весом "около 39,5 грамм". Естественно, таких камней больше, что и отражается на графике.
Best regards, Буравчик
Отредактировано 23.12.2015 10:10 Буравчик . Предыдущая версия .
Re[10]: Экстремальный статистикинг и гистограмминг: как это р
От: Sinclair Россия https://github.com/evilguest/
Дата: 23.12.15 10:33
Оценка:
Здравствуйте, Буравчик, Вы писали:
Б>Расшифруйте "каких камней больше" — важно количество или общий вес камней или и то и другое?
Важно и то и другое. Потому, что куча состоит всё-таки из "массы".
Б>Важен ли точный вес камня или идет приблизительный анализ (вес плюс-минус)?
Нет, важен не точный вес камня. Задача носит принципиально исследовательский характер, с невнятными заранее целями. Просто очевидно, что просто говорить о среднем значении (при таком разбросе) не имеет смысла, а других признаков для классификации, кроме веса, у нас нет.

Б>Вообще, какого характера выводы вы хотите делать? Приведите пример на данном наборе.

Вот как раз вопрос, к нещастью, формулируется именно так — "какие выводы можно сделать про этот набор".

Б>Это не нестабильность, а вопрос трактовки. Надо четко определить, различает ли оператор (пользователь) похожий (близкий) вес камней.


Б>В группу можно объединять только такие камни, которые он не различает. В этом случае, например, в группе вместо камней 39 и 40 он будет видеть камни весом "около 39,5 грамм". Естественно, таких камней больше, что и отражается на графике.

Пользователю неудобно оперировать ~200 типами камней. Хочется дать ему примерно от 5 до 10 категорий, про которые можно рассказать что-то интересное.
Вопрос как раз и сводится к построению этой категоризации — так, чтобы она не была произвольной.
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
Re[11]: Экстремальный статистикинг и гистограмминг: как это
От: Буравчик Россия  
Дата: 23.12.15 10:47
Оценка:
Здравствуйте, Sinclair, Вы писали:

Б>>Расшифруйте "каких камней больше" — важно количество или общий вес камней или и то и другое?

S>Важно и то и другое. Потому, что куча состоит всё-таки из "массы".

Т.е. важна доля определенных групп камней в этой массе.

S>Нет, важен не точный вес камня. Задача носит принципиально исследовательский характер, с невнятными заранее целями. Просто очевидно, что просто говорить о среднем значении (при таком разбросе) не имеет смысла, а других признаков для классификации, кроме веса, у нас нет.


Еще один признак — количество камней (или доля в общем количестве).

Б>>Вообще, какого характера выводы вы хотите делать? Приведите пример на данном наборе.

S>Вот как раз вопрос, к нещастью, формулируется именно так — "какие выводы можно сделать про этот набор".

Есть еще наборы? У них похожие графики?
Best regards, Буравчик
Отредактировано 24.12.2015 0:31 Буравчик . Предыдущая версия . Еще …
Отредактировано 23.12.2015 10:48 Буравчик . Предыдущая версия .
Re[2]: Экстремальный статистикинг и гистограмминг: как это работает?
От: kfmn Россия  
Дата: 23.12.15 11:44
Оценка:
Здравствуйте, watchmaker, Вы писали:

W>Здравствуйте, Sinclair, Вы писали:


S>>Интуитивно понятно, что есть некая функция типа "плотность вероятности для камня из кучи иметь какую-то массу", но я решительно не понимаю, каким образом эту функцию восстановить, имея набор из двух-трёх миллионов камней.

S>>Какую гистограмму надо построить, чтобы можно было быстро понять, как на общий вес кучи повлияет, например, её просеивание через сито определённого вида?
W>Вот для этого нужно работать не с плотностями вероятности, а с функцией распределения (CDF). То есть считать какая доля камней будет иметь вес меньше заданного. Понятно, что в случае непрерывного распределения производная от CDF и будет задавать плотность вероятности. После какой-то регуляризации можно даже и от дискретного аналог производной взять. Вот только для задачи подсчёта числа объектов прошедших через сито это уже делать не нужно — можно всю информацию прямо из CDF получить.


S>>Но на практике возникает вопрос: а по каким интервалам раскладывать гистограмму? Неудачный выбор диапазонов смажет нам картину. Т.е. делаем диапазоны узкими — размазываем гистограмму в тонкий блин, показывающий уровень шума, и никаких особенностей глаз не видит. Выбираем "широкие" столбцы — получаем невнятицу, не видим общей картины.

W>Есть интересные алгоритмы http://toyoizumilab.brain.riken.jp/hideaki/res/histogram.html#Scheme
W>И есть довольно простые и популярные эвристики попроще, навроде Freedman–Diaconis rule. И даже википедия сразу предлагает ещё тройку совсем простых способов: Number of bins and width если уж совсем невмоготу сложные формулы выписывать.

Насколько я помню в этой книжке доказывалось, что минимальное по порядку убывания L2-отклонение гистограммы от реального графика плотности достигается, когда число корзин пропорционально кубическому корню из числа точек. Это соответствует сразу нескольким правилам, упомянутым в википедии.
Re: Экстремальный статистикинг и гистограмминг: как это работает?
От: Erop Россия  
Дата: 03.01.16 12:02
Оценка: 15 (1) +1
Здравствуйте, Sinclair, Вы писали:

S>Интуитивно понятно, что есть некая функция типа "плотность вероятности для камня из кучи иметь какую-то массу", но я решительно не понимаю, каким образом эту функцию восстановить, имея набор из двух-трёх миллионов камней. При этом их массы меняются, скажем так, от 1 грамма до 1500 граммов; интуитивно ясно, что частота встречаемости быстро спадает с ростом размера.


S>Дополнительную остроту блюду придаёт то, что распределение интересует не столько в штуках, сколько в граммах — т.е. мелких камней много, но весит каждый мало. Зато крупных камней мало.

S>Какую гистограмму надо построить, чтобы можно было быстро понять, как на общий вес кучи повлияет, например, её просеивание через сито определённого вида?

Если я верно тебя понял, то ты хотел бы автомат, анализирующий сколько и каких компонентов случайного распределения есть в смеси?
Тут возникает проблема с мат. моделью компоненты. Обычно берут нормально распределённую величину, но можно брать и другие.

Одно из стандартных решений этой задачи: EM-алгоритм
Вот ещё прикольный документик на тему: http://www.machinelearning.ru/wiki/images/9/98/Voron-ML-Bayes-slides.pdf

Отдельная проблема -- оценка числа компонент, она тоже освещена в лит-ре...
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Re[7]: Экстремальный статистикинг и гистограмминг: как это работает?
От: __kot2  
Дата: 05.01.16 20:20
Оценка:
Здравствуйте, Sinclair, Вы писали:
S>Здравствуйте, Кодт, Вы писали:
К>>Поставим вопрос иначе: а что именно хочет увидеть прораб? Ему ведь нужна какая-то определённая информация, а не "знаете ли вы, что у среднестатистического россиянина одна грудь и одно яичко?"
S>"Расскажите мне о моих камнях"
за этим может скрываться задача о классификации. типа, прорабу нужно понять, драгоценные есть тут камни или нет. стоит копать или не стоит. или еще что-то из раздела выбора нескольких вариантов что делать дальше прорабу.
если действия прораба не зависят от графика, то зачем ему вообще что-то говорить?
а если зависят, когда в одном случае будет делаться одно, в другом — другое, то можно вообще не смотреть на этот график, а просто заняться задачей классификации
Re[8]: Экстремальный статистикинг и гистограмминг: как это работает?
От: Sinclair Россия https://github.com/evilguest/
Дата: 11.01.16 10:15
Оценка:
Здравствуйте, __kot2, Вы писали:
__>если действия прораба не зависят от графика, то зачем ему вообще что-то говорить?
__>а если зависят, когда в одном случае будет делаться одно, в другом — другое, то можно вообще не смотреть на этот график, а просто заняться задачей классификации
Да, хорошая идея — давайте займёмся задачей классификации.
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.