Re[8]: поговорим об объясненной дисперсии... - Алгоритмы

Здравствуйте, marx paul, Вы писали:

MP>Говоря упрощенно:
MP>Предсказывать длину тогмозного пути можно
а поцчему вы выбгали именно тогмозной путь?

MP>

В примере ты грубо говоря померял распределения проекций какого то вектора на пространства существенно меньше размерности. Потом пытаешься выбрать линейную комбинацию этих пространств, чтобы минимизировать какой-то момент (или набор моментов) этого вектора. Это, по сути, метод главных компонент. Если базис подпространств на которые ты что -то проектируешь не полон -- получишь оценку моментов исходного , в общем случае, не имеющую отношения к реальность. Зачем тебе это надо?

Здравствуйте, marx paul, Вы писали:

MP>Господа!

MP>приглашаю Вас обсудить вот какой вопрос:

Немного не в тему, но проведу аналогию с известным методом классификации — boosting (и его разновидности, например, AdaBoost). Этот метод (усиления слабых классификаторов) принимает решение на основании голосования множества неточных решений простых классификаторов. Результат голосования получается на удивление точным. Да таким точным, что boosting по быстродействию и точности потеснил SVM (которое в своё время потеснило нейросети). Возможно, что тебе стоит почитать про него.

В области машинного обучения близкая вашему вопросу тема — Bias-Variance Decomposition (tradeoff). По этим ключевым словам вы вполне сможете найти что-то релевантное.

Господа!

приглашаю Вас обсудить вот какой вопрос:

Допустим, мы предсказываем значение некой величины на основании неких данных — читай некой информации. Допустим, что эту величину мы можем предсказывать двумя разными способами. Сами способы различаются как в части алгоритма, так и в части информации (набора переменных), используемой для предсказания. Соответственно каждый из способов наряду с предсказаниями дает нам и "свою" ошибку предсказания, со своей дисперсией.

Теперь мы сравнили ошибки двух методов и поняли, что как среднее значение так и дисперсия ошибки обоих методов значимо отличаются друг от друга. Тогда мы можем сделать вот такие выводы:

1) раз дисперсии ошибок двух конкуррирующих методов разные, то скорее всего быть каждый из методов объясняет соостветсвенно разную часть дисперсии в предсказываемой величине
2) а если так, то значит комбинация этих двух методов, должна объяснять больше дисперсии в предсказываемой величине, чем каждый из рассматриваемых методов в отдельности

Руководствуясь этой мыслью мы "комбинируем" два предсказания тупым подбором веса, т.е. примерно так:

R = r1 * w + r2 * (1 — w)

где
R — предсказываемая величина
r1 — предсказание методом 1
r2 — предсказание методом 2
w — вес метода 1 в комбинируемом предсказании [0..1]

Методом перебора w мы выясняем, что при значении w=0,65 ошибка комбинированного предсказания минимальна и значимо меньше ошибок, производимых, каждым из комбинируемых методов.

Вот теперь можно подумать о сути всего произошедшего и ответить на следующие вопросы:

во-превых:
на сколько логичны с научной точки зрения выводы из пунктов 1) и 2) озвученные выше? Или приведенная в них аргументация уязвима? Если уязвима — то в чем?

во-вторых:
если при w=0,65 ошибка "комбинированного" предсказания уменьшается, то следует ли из этого, что
— "изолированные" предсказания каждого из методов действительно объясняют разные части дисперсии предсказываемой величины R?
— медот 1 (тот что предсказывает r1) объясняет больше дисперсии в предсказываемой величине, чем метод 2 и по-этому важнее для предсказания, чем метод 2?
-- какие еще мы можем сделать выводы из этой ситуации?

в-трертих:
существуют-ли научные публикации на затронутые выше темы (особенно о "взвешанной" комбинации предсказаний двумя методами и об интерпретации веса)

Заранее благодарен за Ваш инпут!

Здравствуйте, marx paul, Вы писали:

MP>Теперь мы сравнили ошибки двух методов и поняли, что как среднее значение так и дисперсия ошибки обоих методов значимо отличаются друг от друга. Тогда мы можем сделать вот такие выводы:

Если средние значимо отличаются, то мы измеряем разные вещи.

MP>Руководствуясь этой мыслью мы "комбинируем" два предсказания тупым подбором веса, т.е. примерно так:

MP>R = r1 * w + r2 * (1 — w)

MP>где
MP>R — предсказываемая величина
MP>r1 — предсказание методом 1
MP>r2 — предсказание методом 2
MP>w — вес метода 1 в комбинируемом предсказании [0..1]

MP>Методом перебора w мы выясняем, что при значении w=0,65 ошибка комбинированного предсказания минимальна и значимо меньше ошибок, производимых, каждым из комбинируемых методов.

Правильным подбором w мы можем сделать абсолютно точный вывод о среднем росте автомобилиста, по r1 --- среднему размеру пятна от насекомого, разбившегося об ветровое стекло, и r2 --- средней высоте деревьев вдоль трассы.

Здравствуйте, deniok, Вы писали:

D>Здравствуйте, marx paul, Вы писали:

MP>>Теперь мы сравнили ошибки двух методов и поняли, что как среднее значение так и дисперсия ошибки обоих методов значимо отличаются друг от друга. Тогда мы можем сделать вот такие выводы:

D>Если средние значимо отличаются, то мы измеряем разные вещи.

Имеется ввиду среднее значение ошибки.
Впрочем даже если бы средние предсказаний значимо различались бы, то из этого совершенно не следует, что измеряются разные вещи.
Речь-то идет о предсказаниях, а не об измерениях.

D>Правильным подбором w мы можем сделать абсолютно точный вывод о среднем росте автомобилиста, по r1 --- среднему размеру пятна от насекомого, разбившегося об ветровое стекло, и r2 --- средней высоте деревьев вдоль трассы.

Честно говоря, не понял Вашей иронии. r1 и r2 — это две оценки R, полученные разными методами.
Скорее всего, Вы не до конца поняли о чем речь.

Здравствуйте, marx paul, Вы писали:

MP>Здравствуйте, deniok, Вы писали:

D>>Здравствуйте, marx paul, Вы писали:

MP>>>Теперь мы сравнили ошибки двух методов и поняли, что как среднее значение так и дисперсия ошибки обоих методов значимо отличаются друг от друга. Тогда мы можем сделать вот такие выводы:

D>>Если средние значимо отличаются, то мы измеряем разные вещи.

MP>Имеется ввиду среднее значение ошибки.
MP>Впрочем даже если бы средние предсказаний значимо различались бы, то из этого совершенно не следует, что измеряются разные вещи.
MP>Речь-то идет о предсказаниях, а не об измерениях.

Я не знаю такого понятия "предсказание". Экстраполяция имеется ввиду, или что?

D>>Правильным подбором w мы можем сделать абсолютно точный вывод о среднем росте автомобилиста, по r1 --- среднему размеру пятна от насекомого, разбившегося об ветровое стекло, и r2 --- средней высоте деревьев вдоль трассы.

MP>Честно говоря, не понял Вашей иронии. r1 и r2 — это две оценки R, полученные разными методами.
MP>Скорее всего, Вы не до конца поняли о чем речь.

Я не понял, у нас есть априорное знание о значении R (тогда зачем оценки?) или нет (тогда откуда w?)

Здравствуйте, marx paul

В качестве количественной оценки ошибки предсказания предлагаю использовать среднеквадратическое отклонение s(r) предсказанного значения, от реализованного. Чем меньше s(r), тем качественнее предсказание. Тогда для каждого метода мы получим отдельную оценку, и выберем наиболее подходящий.

По формуле R = r1 * w + r2 * (1 — w).
Если между r1 и r2 нулевая корреляция и отсутствует зависимость, то формула может быть полезна, критерий полезности s(R) надо будет оценить экспериментально.
Если же корреляция положительная, то ошибки одного метода будут прибавлены к другому с разными весами. Если отрицательная, то все зависит от w.

Лучше синтезировать метод r3, r4 ... rN до достижения нужного показателя качества предсказания.

Здравствуйте, deniok, Вы писали:

D>Я не знаю такого понятия "предсказание". Экстраполяция имеется ввиду, или что?

предсказение — суть делание заключения о величине, которую еще не наблюдали.
можете понимать это как экстраполяцию, только экстраполяцию не известной функции.

D>>>Правильным подбором w мы можем сделать абсолютно точный вывод о среднем росте автомобилиста, по r1 --- среднему размеру пятна от насекомого, разбившегося об ветровое стекло, и r2 --- средней высоте деревьев вдоль трассы.

MP>>Честно говоря, не понял Вашей иронии. r1 и r2 — это две оценки R, полученные разными методами.
MP>>Скорее всего, Вы не до конца поняли о чем речь.

D>Я не понял, у нас есть априорное знание о значении R (тогда зачем оценки?) или нет (тогда откуда w?)

оценивать точность метода можно на имеющихся данных (in-sample forecasting) — т.е. на данных, которые сами по себе вовлечены в построение оценочной функции. Но тогда есть большая вероятность того, что полученная функция хорошо "работает" только на этих самых данных и совершенно непригодна для прогнозов (этот феномен еще называют overfitting).

Другой подход (out-of-sample forecastiong) состоит в том, чтобы часть имеющихся данных исключить из расчетов, ведущих к получению оценочной функции. Эти "свободные" данные (holdout) потом можно использовать для валидации метода.

Отвечая на Ваш вопрос:
да, значения R есть. Но они лежат в holdout'e — т.е. только для того, чтобы иметь возможность оценить ошибку out-of-sample. Назовем эти данные — R'. То есть мы с одной стороны рассчитываем R как бы полагая, что мы не знаем настоящих R'. А потом мы сравниваем рассчитанные R с их реальными значениями R', что и дает нам оценку ошибки. В контексте обсуждения r1, r2 и R суть три различные оценки одной и той же реальной (в момент оценки полагаемой неизвестной) величины R'.

Здравствуйте, TimurSPB, Вы писали:

TSP>В качестве количественной оценки ошибки предсказания предлагаю использовать среднеквадратическое отклонение s(r) предсказанного значения, от реализованного. Чем меньше s(r), тем качественнее предсказание. Тогда для каждого метода мы получим отдельную оценку, и выберем наиболее подходящий.

TSP>По формуле R = r1 * w + r2 * (1 — w).
TSP>Если между r1 и r2 нулевая корреляция и отсутствует зависимость, то формула может быть полезна, критерий полезности s(R) надо будет оценить экспериментально.
TSP>Если же корреляция положительная, то ошибки одного метода будут прибавлены к другому с разными весами. Если отрицательная, то все зависит от w.

ОК!
при w = 0,65 мы уже получили наименьшую среднеквадратическое отклонение s(r1,r2), которое (статистически значимо) меньше s(r1) и s(r2).

Теперь вопрос: что это, собственно, значит?

TSP>Лучше синтезировать метод r3, r4 ... rN до достижения нужного показателя качества предсказания.

лучше — оно, конечно, лучше. К сожалению, не всегда есть из чего синтезировать новые методы, это не всегда это экономически целесообразно и тем более не всегда ясно нужное значение показателя качества предсказания (ибо в идеале ошибка должна бы быть нулем). Именно такую ситуацию я и хотел бы рассмотреть. То есть когда есть r1, r2 и взвешенная комбинация r1 и r2. Хотелось бы имеено в этом ключе рассмотреть поставленные в топике вопросы.

Здравствуйте, marx paul, Вы писали:

Вообще говоря, если предсказания двух моделей сильно отличаются, то какая то из них (или обе) неверно (неадекватно) описывают данные. Т.е. не верны какие-то предположения относительно данных. Зачем смешивать сапоги с пирогами в этом случае?

Здравствуйте, denisko, Вы писали:

D>Здравствуйте, marx paul, Вы писали:

D>Вообще говоря, если предсказания двух моделей сильно отличаются, то какая то из них (или обе) неверно (неадекватно) описывают данные. Т.е. не верны какие-то предположения относительно данных. Зачем смешивать сапоги с пирогами в этом случае?

Да как Вам сказать...
Смысл есть, и большой.
Бывает так, что на исход дела влияют и сапоги и пироги. И предположения относительно данных верны, да не пОлны.

Говоря упрощенно:
Предсказывать длину тогмозного пути можно, например, зная только скорость автомобиля и его массу, или только скорость и силу сцепления шин с дорожным покрытием. Оба предсказания будут неточными. Но их комбинайция будет точнее, потому что каждое из этих предсказаний описывает соответственно "разную часть" дисперсии тормозного пути — т.е. разные факторы. Понимаю Ваше желание упаковать все факторы в одну модель. Но представьте себе на минуту, что нет очевидных способов свести все к одной модели. Вот и приходится тогда смешивать

Впрочем, смешивание тоже дает новую обощенную модель.

MP>Теперь вопрос: что это, собственно, значит?
Это значит, что данная формула работает лучше чем методы по отдельности, на тех данных, которые вы использовали для оценки.

TSP>>Лучше синтезировать метод r3, r4 ... rN до достижения нужного показателя качества предсказания.

MP>... тем более не всегда ясно нужное значение показателя качества предсказания (ибо в идеале ошибка должна бы быть нулем). ...

Идеалы это здорово.
Искать подходящее решение без конкретной целевой функции и определенных приемлемых значений это странно для инженера.
Должна быть цель, тогда будет смысл.

MP>Говоря упрощенно:
MP>Предсказывать длину тогмозного пути можно, например, зная только скорость автомобиля и его массу, или только скорость и силу сцепления шин с дорожным покрытием. Оба предсказания будут неточными.

И бесполезными, поскольку тот кто сделал такие модели явно далек от предметной области. Если их перемешать, то результат будет адекватен только при выполнении допущений, принятых для каждой из исходных.

MP>Но их комбинайция будет точнее, потому что каждое из этих предсказаний описывает соответственно "разную часть" дисперсии тормозного пути — т.е. разные факторы. Понимаю Ваше желание упаковать все факторы в одну модель. Но представьте себе на минуту, что нет очевидных способов свести все к одной модели. Вот и приходится тогда смешивать

Впрочем, смешивание тоже дает новую обощенную модель.

Плохой пример. Модель должна учитывать основные параметры. Степень адекватности всей модели не может превышать степень адекватности отдельных её составляющих.

Здравствуйте, TimurSPB, Вы писали:

MP>>Теперь вопрос: что это, собственно, значит?
TSP>Это значит, что данная формула работает лучше чем методы по отдельности, на тех данных, которые вы использовали для оценки.

Эт и так понятно. Вопрос интернпретации стоит в разрезе тезисов исходного топика.
Вот, например, меня интересует, могу ли я сказать, что метод r1 полтора раза важнее для предсказания, чем метод r2?
Могу ли я сказать, что метдоды действительно описвывают разные части дисперсии в предсказываемой величине?
И вообще, насколько (не)уязвима аргументация в пп 1) и 2)

TSP>>>Лучше синтезировать метод r3, r4 ... rN до достижения нужного показателя качества предсказания.

MP>>... тем более не всегда ясно нужное значение показателя качества предсказания (ибо в идеале ошибка должна бы быть нулем). ...

TSP>Идеалы это здорово.
TSP>Искать подходящее решение без конкретной целевой функции и определенных приемлемых значений это странно для инженера.
TSP>Должна быть цель, тогда будет смысл.

Ну дык
во-первых, RMSE->min норамльная такая целевая функция.
А во-вторых, коль скоро речь идет о "новом" методе предсказания, как тут можно однозначно говорить о пороге приемлемых значений? Ошика просто должна быть как можно меньше.

Здравствуйте, TimurSPB, Вы писали:

TSP>Плохой пример. Модель должна учитывать основные параметры. Степень адекватности всей модели не может превышать степень адекватности отдельных её составляющих.

Ню ню...
Кабы основные параметры да еще и связи меж ними заранее были бы все известны, то и моделировать альтернативные методы бы и не приходилось бы.
А так да — пример плохой. А знал бы хороший — и вопросов бы не было.

Здравствуйте, denisko, Вы писали:

D>Здравствуйте, marx paul, Вы писали:

MP>>Говоря упрощенно:
MP>>Предсказывать длину тогмозного пути можно
D>а поцчему вы выбгали именно тогмозной путь?

только чтобы показать, что смысл мешать два предсказания может быть.
взял что первое в голову пришло. (я ж на вопрос о сапогах и пирогах отвечал)

MP>>

D>В примере ты грубо говоря померял распределения проекций какого то вектора на пространства существенно меньше размерности. Потом пытаешься выбрать линейную комбинацию этих пространств, чтобы минимизировать какой-то момент (или набор моментов) этого вектора. Это, по сути, метод главных компонент.

спасибо за интересный подход к интерпретации!
Эт, коечно, не метод главных компонент, ибо компонеты получаются нифига не главные, да и даже не перпендикулярные.

D>Если базис подпространств на которые ты что -то проектируешь не полон -- получишь оценку моментов исходного , в общем случае, не имеющую отношения к реальности.

почему же не имеющую отношения к реальности? в идеале должна получиться наиболее короткая проекция исходного базиса на его неполную версию, что и соотвтетсвует минимальной ошибке.

D>Зачем тебе это надо?

дык как зачем?! ну нету полного базиса и взять его негде. и представления о нем нет.
можно, конечно все сделать при помощи SVD. Но тогда вырастает (для моей задачи) нежелательный геморрой в виде потери связи SVD базиса с вненим миром. В том смысле, что объяснять что же означают отдельные собственные вектора разложения в терминах внешнего мира становится затруднительным. Хотя численно SVD решение получается лучше.

Здравствуйте, marx paul, Вы писали:

MP>Здравствуйте, deniok, Вы писали:

D>>Я не знаю такого понятия "предсказание". Экстраполяция имеется ввиду, или что?

MP>предсказение — суть делание заключения о величине, которую еще не наблюдали.
MP>можете понимать это как экстраполяцию, только экстраполяцию не известной функции.

Безотносительно ко всему остальному (которое для меня пока выглядит какой-то каббалистикой) можно уточнить,
"величина R, которую еще не наблюдали" она случайная? Если так, то тогда нужно уточнить, r1 и r2 --- это точечные оценки какого параметра распределения этой R.

Здравствуйте, deniok, Вы писали:

D>Здравствуйте, marx paul, Вы писали:

MP>>Здравствуйте, deniok, Вы писали:

D>>>Я не знаю такого понятия "предсказание". Экстраполяция имеется ввиду, или что?

MP>>предсказение — суть делание заключения о величине, которую еще не наблюдали.
MP>>можете понимать это как экстраполяцию, только экстраполяцию не известной функции.

D>Безотносительно ко всему остальному (которое для меня пока выглядит какой-то каббалистикой) можно уточнить,
D>"величина R, которую еще не наблюдали" она случайная? Если так, то тогда нужно уточнить, r1 и r2 --- это точечные оценки какого параметра распределения этой R.

Величина эта стохастическая.
r1 и r2 — это оценки самой R.

Допустим, в кино идет фильм Х. Вы меня спрашиваете, на сколько пунктов по десятибальной шкале Вам понравится этот фильм?
А я Вам говорю: вот у меня есть два способа ответить на этот Ваш вопрос. Но ответы Вам пока не скажу. Тем не менее записываю их на бумажке.
Способ r1 говорит, что фильм Х Вам понравится на 8,5 баллов. Способ r2 говорит 9,5 баллов. Но если скомбимировать оба предсказания, то получится 8,9 баллов.
Теперь Вы смотрите этот фильм и оцениваете его на 9,0 баллов.
Вот только теперь мы сравниваем результаты и видим, что комбинированная оценка r1 и r2 дает наиболее точное предсказание.
И так для 10000 человек.

Здравствуйте, marx paul, Вы писали:

D>>Безотносительно ко всему остальному (которое для меня пока выглядит какой-то каббалистикой) можно уточнить,
D>>"величина R, которую еще не наблюдали" она случайная? Если так, то тогда нужно уточнить, r1 и r2 --- это точечные оценки какого параметра распределения этой R.

MP>Величина эта стохастическая.
MP>r1 и r2 — это оценки самой R.

R --- число выпавшее на кубике.
r1 --- в чётных бросаниях выпадает 3, в нечетных 1.
r2 --- всегда выпадает 2.
Внимание, вопрос: какое w "дает наиболее точное предсказание"? Доп.вопросы: что выражают дисперсии r1 и r2? "Объясняют" ли они дисперсию R?

MP>Допустим, в кино идет фильм Х. Вы меня спрашиваете, на сколько пунктов по десятибальной шкале Вам понравится этот фильм?
MP>А я Вам говорю: вот у меня есть два способа ответить на этот Ваш вопрос. Но ответы Вам пока не скажу. Тем не менее записываю их на бумажке.
MP>Способ r1 говорит, что фильм Х Вам понравится на 8,5 баллов. Способ r2 говорит 9,5 баллов. Но если скомбимировать оба предсказания, то получится 8,9 баллов.
MP>Теперь Вы смотрите этот фильм и оцениваете его на 9,0 баллов.
MP>Вот только теперь мы сравниваем результаты и видим, что комбинированная оценка r1 и r2 дает наиболее точное предсказание.
MP>И так для 10000 человек.

Чем я в этой модели отличаюсь от любого другого? Цифры 8,5 и 9,5 откуда? С меня снимаются какие-то параметры, чтобы их вычислить, так? Вот в нормальной статистике и изучают зависимость результата (9,0 для меня, что-то другое для кого-то другого) от этих параметров на всём массиве имеющихся данных. А предлагаемая игра с цифрами, ИМХО, каббалистика.

Здравствуйте, deniok, Вы писали:

D>Чем я в этой модели отличаюсь от любого другого? Цифры 8,5 и 9,5 откуда? С меня снимаются какие-то параметры, чтобы их вычислить, так? Вот в нормальной статистике и изучают зависимость результата (9,0 для меня, что-то другое для кого-то другого) от этих параметров на всём массиве имеющихся данных. А предлагаемая игра с цифрами, ИМХО, каббалистика.

Откуда берутся цифры — это долгая и нудная история. Но да, цифры берутся не случайно, а предсказываются на основании неких данных о вас (и, если продолжать пример с фильмами, то и) о фильмах, о других людях и их вкусах. Пускай r1 предскзывает Вашу оценку на основании соответсвия Ваших вкусов (которые известны) и параметров фильма, а r2 — на основании похожести Ваших вкусов на вкусы других людей и оценок, которые они дали фильму Х.

	От:	D14
	Дата:	17.02.10 23:52
	Оценка:	11 (2)

От:	denisko	http://sdeniskos.blogspot.com/
Дата:	18.02.10 12:59
Оценка:	4 (1) +1

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	18.02.10 12:04
Оценка:	4 (1)

	От:	hr0nix
	Дата:	19.02.10 12:22
	Оценка:	4 (1)

От:	marx paul	Провести онлайн-опрос
Дата:	17.02.10 22:25
Оценка: