Re[3]: [Need help] Метрика для сравнения наборов данных?
От: Lexey Россия  
Дата: 15.06.16 20:01
Оценка: 69 (1)
Здравствуйте, Sinix, Вы писали:

S>Я бы предпочёл натуральный интеллект искусственному.


Я бы тоже. Но некоторые особенности данных может быть проще играясь с MLем находить (нелинейные зависимости, всякие).

S>В смысле, наверняка ж это типовая задача — два псевдорандомных числа с нормальным распределением, нужно из результатов замеров получить что-то вроде "в 95% случаев время выполнения метода B будет в диапазоне 1.95..2.05 относительно метода A" + способ проверить эту гипотезу повторными замерами.


Погоди, а с чего ты решил, что они с нормальным распределением? Я вот бегло посмотрел гистограммки для простого случая. Нормальности там как-то не наблюдается.

S>С абсолютными величинами проще — берёшь перцентиль и не мучаешься. До этого перфтесты писал в основном для "тяжёлых" методов, в которых абсолютных величин было достаточно — , время выполнения было примерно одинаковым.


Попробуй разность логарифмов взять, как метрику (логарифм отношения).

S>С микробенчмарками всё сложнее, от машины к машине время легко гуляет в 2-3 раза, соответственно, сказать "мы проверяли на машине 1, производительность та же, что и на машине 2" не получается. Т.е. два варианта — или находим относительную метрику (т.е. сравниваем не напрямую, а время выполнения относительно базовой реализации), или смиряемся с тем, что результаты замеров на машине 1 не могут сравниваться с результатами замеров на машине 2.


По идее, желательно, как минимум, сложность алгоритма по количеству вычислений и по памяти учитывать. И пытаться каким-то эталонным тестом померять производительность хоста по вычислениям и по памяти. А потом нормировать результаты основного бенчмарка по результатам бенчмака хоста.
"Будь достоин победы" (c) 8th Wizard's rule.
Отредактировано 15.06.2016 20:05 Lexey . Предыдущая версия .
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.