Экстремальный статистикинг и гистограмминг: как это работает? - Этюды для программистов

Здравствуйте, Sinclair, Вы писали:

S>Всем привет. Не так давно я столкнулся с практической задачей из области статистики, при решении которой упёрся в ментальный тупик.

Можно, кстати, попробовать вообще тупой подход: не статистический ни разу. А именно старую добрую классику типа Дугласа-Пекера. Тогда ты и одиночные пики-выбросы не пропустишь и по наклону-длине отрезков сможешь оценить объём камней, соответствующих данному отрезку.
Подсознательно кажется, что оно всё равно сводится к статистике, но реализуется просто, быстро, наглядно и чисто алгоритмически.

Здравствуйте, Sinclair, Вы писали:
S>Здравствуйте, __kot2, Вы писали:
__>>если действия прораба не зависят от графика, то зачем ему вообще что-то говорить?
__>>а если зависят, когда в одном случае будет делаться одно, в другом — другое, то можно вообще не смотреть на этот график, а просто заняться задачей классификации
S>Да, хорошая идея — давайте займёмся задачей классификации.
для этого нужно больше данных и знания о задаче и классах. если тут по какой-то причине не хотите написать, но есть желание на эту поговорить, можете мне на почту kot.kotius@gmail.com

Здравствуйте, __kot2, Вы писали:

__>для этого нужно больше данных и знания о задаче и классах. если тут по какой-то причине не хотите написать, но есть желание на эту поговорить, можете мне на почту kot.kotius@gmail.com
Увы, никаких особенных данных о классах нету.
Распределения всегда выглядят примерно одинаково.

Здравствуйте, Sinclair, Вы писали:

S>С практической — давайте рассмотрим такой пример: есть куча камней.
S>Предположим, что камни характеризуются каким-то одним параметром — скажем, массой.
S>И вот теперь у пытливого ума возникают вопросы типа "а из каких камней состоит эта куча"?

S>Дополнительную остроту блюду придаёт то, что распределение интересует не столько в штуках, сколько в граммах — т.е. мелких камней много, но весит каждый мало. Зато крупных камней мало.

Имхо, это задача кластеризации, так что всякие k-means и прочая тебе помогут (для них есть свои алгоритмы, определяющие оптимальное количество компонентов в смеси).
Плюс, по сути, кластеризация — это просто когда у тебя смешаны значения, полученные из нескольких (обычно нормальных) распределений — типа есть своя гауссиана для мелких камней и своя для крупных, каждая со своей средней (массой/размером) и дисперсией.
Так что все сопутствующие алгоритмы (типа упомянутого ЕМ) в помощь — ты в результате получишь набор из средних и дисперий, которые лучше всего описывают твой набор данных.
Плюс оно отлично визуализируется обычно.

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	11.01.16 14:16
Оценка:

	От:	__kot2
	Дата:	11.01.16 18:15
	Оценка:

От:	Sinclair	https://github.com/evilguest/
Дата:	12.01.16 01:32
Оценка:

От:	jazzer	Skype: enerjazzer
Дата:	12.01.16 06:03
Оценка:	10 (1)