Перейти к содержимому

Фотография

Анализ и гарфическое представление результатов


  • Авторизуйтесь для ответа в теме
Сообщений в теме: 5

#1 vaha

vaha

    Новый участник

  • Members
  • Pip
  • 22 сообщений
  • ФИО:Илья

Отправлено 17 мая 2011 - 12:00

Здравствуйте.
Подошел я к самому лакомому и "приятному" этапу - к работе с результатами =) И собственно появились вопросы, возможно кто-то уже сталкивался с ними:
1. Как посчитать среднее
С лету все вроде как просто - чем больше измерений, тем, согласно закону больших чисел, более точную оценку мы получим в итоге при подсчете среднего арифметического(допустим). Понятно так же, что кол-во итераций тестов ограничивается сверху выделенным временем.
Но проблема тут скорее всего концептуальная. В зависимости от конфигурации объекта, время карточки отображения которого мы считаем, результат может сильно колебаться. "Пустой" объект покажется пользователю за пол секунды, а "наполненный" за двадцать. И это не ошибка наполнения базы, это реальные данные. Причем "полных" объектов немного. Тоесть среднеарифметическое значение будет сильно зависеть от... того сколько попалось "тяжелых" объектов.
Нельзя замерять одинаковое кол-во "пустых" и "полных" объектов. Во-первых это скажется на общей производительности, когда "тяжелые" объекты будут вызываться чаще чем обычно, а во-вторых нет возможности при подготовке данных для теста эти объекты различить.
И еще парочка проблем связанных с вычислением результатов - большое кол-во типов объектов. Тоесть ручная обработка результатов отпадает. Автоматическая осложняется тем, что минимальный(время "пустого" объекта) и максимальный("время" полного) результаты варьируются от типа к типу - нельзя задать константу характеризующую понятие "долго".
Собственно вопрос сводится к подсчету "средней температуры по больнице". Но все же нужная некоторая оценка комфортности работы типа apdex - но во временном эквиваленте. Интуитивно кажется необходима кластеризация результатов(в пределах времени отклика типа объекта естественно) и выведение среднего значения с использованием весов кластера. Никто случаем не пытался с такими "мельницами" сражаться?
2. Второй вопрос касается ублажения PM'ов - графички =)
Есть результаты мониторинга сервера за несколько часов(потенциально это в ближайшем времени вырастает в дни). Какими средствами построить красивый, и похоже длинный, график? Красивый - это требование наличия сглаживания, потому что сжав пол дня в один экран получится не кривая, а целая область =). Excel на этом ведет себя малоадекватно, если не сказать дохнет=)
Вобщем то это нельзя назвать блажью руководства - средство для более простого восприятия данных.
  • 0

#2 OVA

OVA

    Опытный участник

  • Members
  • PipPipPipPip
  • 405 сообщений
  • ФИО:Высоцкий Сергей Павлович
  • Город:Новосибирск

Отправлено 17 мая 2011 - 15:19

А не надо считать среднее. :diablo:
По чартам можно вот такое посмотреть, например: http://code.google.c...-RU/apis/chart/
Вообще тысячи решений.
  • 0

#3 vaha

vaha

    Новый участник

  • Members
  • Pip
  • 22 сообщений
  • ФИО:Илья

Отправлено 17 мая 2011 - 16:53

А не надо считать среднее. :diablo:

Но что-то считать то надо, я и говорю что среднее тут бессмысленным значением получается. Нужно ввести некоторую норму, которая будет более менее адекватно отображать ситуацию - по крайней мере чтоб можно было сравнить два прогона тестов.

По чартам можно вот такое посмотреть, например: http://code.google.c...-RU/apis/chart/
Вообще тысячи решений.

Спасибо, попробую. Есть ли опыт работы с этими чартами? Есть сомнения по поводу работы с большими(за несколько десятков тысяч строк) объемами данных.
  • 0

#4 OVA

OVA

    Опытный участник

  • Members
  • PipPipPipPip
  • 405 сообщений
  • ФИО:Высоцкий Сергей Павлович
  • Город:Новосибирск

Отправлено 18 мая 2011 - 04:32

Но что-то считать то надо, я и говорю что среднее тут бессмысленным значением получается. Нужно ввести некоторую норму, которая будет более менее адекватно отображать ситуацию - по крайней мере чтоб можно было сравнить два прогона тестов.

Почитайте тут, например. Для начала вам должно хватить. Дальше можно группировать запросы и отдельно статистику по запросам рассматривать, например.

Спасибо, попробую. Есть ли опыт работы с этими чартами? Есть сомнения по поводу работы с большими(за несколько десятков тысяч строк) объемами данных.

Конкретно с этими нет. У меня сейчас ситуация такая что мы сами пишем софт для анализа данных и его можем спокойно использовать для работы с данными по нагрузке. Вам такое не советую, потому как это банально дорого).
Ну а вообще есть подозрение что несколько десятков тысяч строк это не так уж и много. Ну и если что для таких вещей как правило есть стандартные решения типа группировки данных и прочего бла бла бла. Все равно вам на большом масштабе не нужно все десятки тысяч разом. Они только на зуме понадобятся.

Тут есть парой топиков ниже про нагрузочное тестирование в Яндексе, там упоминались вот эти: http://code.google.com/p/flot/ ну и am-charts. Можете там спросить что и как) Я думаю Андрею не трудно будет ответить.
  • 0

#5 vaha

vaha

    Новый участник

  • Members
  • Pip
  • 22 сообщений
  • ФИО:Илья

Отправлено 18 мая 2011 - 06:54


Но что-то считать то надо, я и говорю что среднее тут бессмысленным значением получается. Нужно ввести некоторую норму, которая будет более менее адекватно отображать ситуацию - по крайней мере чтоб можно было сравнить два прогона тестов.

Почитайте тут, например. Для начала вам должно хватить. Дальше можно группировать запросы и отдельно статистику по запросам рассматривать, например.

Уже не хватает=)
Группировка запросов уже идет, и проблема возникает в пределах группы. Мне видится проблема близкая к "не смешивать в одну кучу запросы в секунду и количество работающих пользователей" - в том плане, что есть тенденция к разделению оценки запроса и бизнес-действия. Мухи отдельно, котлеты отдельно.
Использование квантилей наиболее адекватное решение на текущий момент, но тупо сложное для восприятия(да и сравнения) - навороченная табличка получится.
Хотя понимаю. что желаю получить формулу дял вычисления числа, поисывающее всё и вся :D


Спасибо, попробую. Есть ли опыт работы с этими чартами? Есть сомнения по поводу работы с большими(за несколько десятков тысяч строк) объемами данных.

Конкретно с этими нет. У меня сейчас ситуация такая что мы сами пишем софт для анализа данных и его можем спокойно использовать для работы с данными по нагрузке. Вам такое не советую, потому как это банально дорого).
Ну а вообще есть подозрение что несколько десятков тысяч строк это не так уж и много. Ну и если что для таких вещей как правило есть стандартные решения типа группировки данных и прочего бла бла бла. Все равно вам на большом масштабе не нужно все десятки тысяч разом. Они только на зуме понадобятся.

Тут есть парой топиков ниже про нагрузочное тестирование в Яндексе, там упоминались вот эти: http://code.google.com/p/flot/ ну и am-charts. Можете там спросить что и как) Я думаю Андрею не трудно будет ответить.

Кстати да, спасибо, забыл про топик этот.
  • 0

#6 OVA

OVA

    Опытный участник

  • Members
  • PipPipPipPip
  • 405 сообщений
  • ФИО:Высоцкий Сергей Павлович
  • Город:Новосибирск

Отправлено 18 мая 2011 - 09:38

Уже не хватает=)
Группировка запросов уже идет, и проблема возникает в пределах группы. Мне видится проблема близкая к "не смешивать в одну кучу запросы в секунду и количество работающих пользователей" - в том плане, что есть тенденция к разделению оценки запроса и бизнес-действия. Мухи отдельно, котлеты отдельно.
Использование квантилей наиболее адекватное решение на текущий момент, но тупо сложное для восприятия(да и сравнения) - навороченная табличка получится.
Хотя понимаю. что желаю получить формулу дял вычисления числа, поисывающее всё и вся :D

Боюсь тут чем-то придется жертвовать. У меня, слава б-гу, нет пока надобности рисовать красоту и понятность для менеджмента и заниматься аналогичной ерундой, так что мне тут трудно что-то советовать. То есть те же квантили в табличку лучше не пихать - будет не очень наглядно и красиво. Зато графики с ними можно сделать отличные. Как-то так, наверное.

Ну и вообще вопрос представления данных и их обработки довольно интересный и местами сильно упирается во вкусы. При этом регулярно надо балансировать между тем чтобы захламлять себе голову лишней (читай "не очень актуальной для анализа") информацией и полезностью картинки. То есть можно взять две крайности - логи и "график среднего отклика по серверу". Первое явно лучше для того чтобы понять "ZOMG WTF!?!?!?!?", но очень медленно, особенно если перебирать все глазками (утрирую, конечно, но иногда и такое приходится). Второе удобно для локализации проблемы. Отсюда и начнем - надо накручивать ровно то, что, как вы считаете, может вам помочь в локализации проблемы, при этом чтобы ваши таблички/графики не скатились к логам. Кидать все метрики бездумно в кучу вредно. Вы ничего не поймете.
  • 0


Количество пользователей, читающих эту тему: 0

0 пользователей, 0 гостей, 0 анонимных