Ряды распределения и группировки. Вариационные ряды и их виды
Различные выборочные значения назовемвариантами ряда значений и обозначим: х 1 , х 2 , …. Прежде всего произведем ранжирование вариантов, т.е. расположение их в порядке возрастания или убывания. Для каждого варианта указывается свой вес, т.е. число, которое характеризует вклад данного варианта в общую совокупность. В качестве весов выступают частоты или частости.
Частотой n i варианта х i называется число, показывающее сколько раз встречается данный вариант в рассматриваемой выборочной совокупности.
Частостью или относительной частотой w i варианта х i называется число, равное отношению частоты варианта к сумме частот всех вариантов. Частость показывает, какая часть единиц выборочной совокупности имеет данный вариант.
Последовательность вариантов с соответствующими им весами (частотами или частостями), записанная в порядке возрастания (или убывания), называется вариационным рядом .
Вариационные ряды бывают дискретными и интервальными.
Для дискретного вариационного ряда задаются точечные значения признака, для интервального – значения признака задаются в виде интервалов. Вариационные ряды могут показывать распределение частот или относительных частот (частостей), в зависимости от того, какая величина указывается для каждого варианта – частота или частость.
Дискретный вариационный ряд распределения частот имеет вид:
Частости находятся по формуле , i = 1, 2, …, m .
w 1 + w 2 + … + w m = 1.
Пример 4.1. Для данной совокупности чисел
4, 6, 6, 3, 4, 9, 6, 4, 6, 6
построить дискретные вариационные ряды распределения частот и частостей.
Решение . Объем совокупности равен n = 10. Дискретный ряд распределения частот имеет вид
Аналогичную форму записи имеют интервальные ряды.
Интервальный вариационный ряд распределения частот записывается в виде:
Сумма всех частот равна общему числу наблюдений, т.е. объему совокупности: n = n 1 + n 2 + … + n m .
Интервальный вариационный ряд распределения относительных частот (частостей) имеет вид:
Частость находится по формуле , i = 1, 2, …, m .
Сумма всех частостей равна единице: w 1 + w 2 + … + w m = 1.
Наиболее часто на практике применяются интервальные ряды. Если статистических выборочных данных очень много и их значения отличаются друг от друга на сколь угодно малую величину, то дискретный ряд для этих данных будет достаточно громоздким и неудобным для дальнейшего исследования. В этом случае применяют группировку данных, т.е. промежуток, содержащий все значения признака, разбивают на несколько частичных интервалов и, подсчитав частоту для каждого интервала, получают интервальный ряд. Запишем более подробно схему построения интервального ряда, предположив, что длины частичных интервалов будут одинаковыми.
2.2 Построение интервального ряда
Для построения интервального ряда нужно:
Определить число интервалов;
Определить длину интервалов;
Определить расположение интервалов на оси.
Для определения числа интервалов k существует формула Стерджеса, по которой
,
где n - объем всей совокупности.
Например, если имеется 100 значений признака (вариант), то рекомендуется для построения интервального ряда взять число интервалов равным интервалам.
Однако очень часто на практике число интервалов выбирает сам исследователь, учитывая, что это число не должно быть очень большим, чтобы ряд не был громоздким, но и не очень маленьким, чтобы не потерять некоторых свойств распределения.
Длина интервала h определяется по следующей формуле:
,
где x max и x min - это соответственно самое большое и самое маленькое значения вариантов.
Величину называют размахом ряда.
Для построения самих интервалов поступают по-разному. Один из самых простых способов заключается в следующем. За начало первого интервала принимают величину
. Тогда остальные границы интервалов находятся по формуле . Очевидно, что конец последнего интервала a
m+1 должен удовлетворять условию
После того как найдены все границы интервалов, определяют частоты (или частости) этих интервалов. Для решения этой задачи просматривают все варианты и определяют число вариант, попавших в тот или иной интервал. Полное построение интервального ряда рассмотрим на примере.
Пример 4.2. Для следующих статистических данных, записанных в порядке возрастания, построить интервальный ряд с числом интервалов, равным 5:
11, 12, 12, 14, 14, 15, 21, 21, 22, 23, 25, 38, 38, 39, 42, 42, 44, 45, 50, 50, 55, 56, 58, 60, 62, 63, 65, 68, 68, 68, 70, 75, 78, 78, 78, 78, 80, 80, 86, 88, 90, 91, 91, 91, 91, 91, 93, 93, 95, 96.
Решение. Всего n =50 значений вариантов.
Число интервалов задано в условии задачи, т.е. k =5.
Длина интервалов равна
.
Определим границы интервалов:
a 1 = 11 − 8,5 = 2,5; a 2 = 2,5 + 17 = 19,5; a 3 = 19,5 + 17 = 36,5;
a 4 = 36,5 + 17 = 53,5; a 5 = 53,5 + 17 = 70,5; a 6 = 70,5 + 17 = 87,5;
a 7 = 87,5 +17 = 104,5.
Для определения частоты интервалов посчитываем число вариантов, попавших в данный интервал. Например, в первый интервал от 2,5 до 19,5 попадают варианты 11, 12, 12, 14, 14, 15. Их число равно 6, следовательно, частота первого интервала равна n 1 =6. Частость первого интервала равна . Во второй интервал от 19,5 до 36,5 попадают варианты 21, 21, 22, 23, 25, число которых равно 5. Следовательно, частота второго интервала равна n 2 =5, а частость . Найдя аналогичным образом частоты и частости для всех интервалов, получим следующие интервальные ряды.
Интервальный ряд распределения частот имеет вид:
Сумма частот равна 6+5+9+11+8+11=50.
Интервальный ряд распределения частостей имеет вид:
Сумма частостей равна 0,12+0,1+0,18+0,22+0,16+0,22=1. ■
При построении интервальных рядов, в зависимости от конкретных условий рассматриваемой задачи, могут применяться и другие правила, а именно
1. Интервальные вариационные ряды могут состоять из частичных интервалов разной длины. Неравные длины интервалов позволяют выделить свойства статистической совокупности с неравномерным распределением признака. Например, если границы интервалов определяют численность жителей в городах, то целесообразно в данной задаче использовать неравные по длине интервалы. Очевидно, что для небольших городов имеет значение и небольшая разница в числе жителей, а для больших городов разница в десятки и сотни жителей не имеет существенного значения. Интервальные ряды с неравными длинами частичных интервалов исследуются, в основном, в общей теории статистики и их рассмотрение выходит за рамки данного пособия.
2. В математической статистике иногда рассматривают интервальные ряды, для которых левую границу первого интервала полагают равной –∞, а правую границу последнего интервала +∞. Это делается для того, чтобы приблизить статистическое распределение к теоретическому.
3. При построении интервальных рядов может оказаться, что значение какого-то варианта совпадает в точности с границей интервала. Лучше всего в этом случае поступить следующим образом. Если такое совпадение только одно, то считать, что рассматриваемый вариант со своей частотой попал в интервал, находящийся ближе к середине интервального ряда, если таких вариантов несколько, то либо все их отнести к правым от этих вариант интервалам, либо все – к левым.
4. После определения числа интервалов и их длины, расположение интервалов можно производить и по другому способу. Находят среднее арифметическое всех рассматриваемых значений вариантов х ср. и строят первый интервал таким образом, чтобы это среднее выборочное находилось бы внутри какого-то интервала. Таким образом, получаем интервал от х ср. – 0,5h до х ср.. + 0,5h . Затем влево и вправо, прибавляя длину интервала, строим остальные интервалы до тех пор, пока x min и x max не попадут соответственно в первый и последний интервалы.
5. Интервальные ряды при большом числе интервалов удобно записывать вертикально, т.е. интервалы записывать не в первой строке, а в первом столбце, а частоты (или частости) во втором столбце.
Выборочные данные могут рассматриваться как значения некоторой случайной величины Х . Случайная величина имеет свой закон распределения. Из теории вероятностей известно, что закон распределения дискретной случайной величины можно задать в виде ряда распределения, а непрерывной – с помощью функции плотности распределения. Однако существует универсальный закон распределения, который имеет место и для дискретной и для непрерывной случайных величин. Этот закон распределения задается в виде функции распределения F (x ) = P (X <x ). Для выборочных данных можно указать аналог функции распределения – эмпирическую функцию распределения.
Похожая информация.
Вариационный ряд – ряд, в котором сопоставлены (по степени возрастания или убывания) варианты и соответствующие им частоты
Варианты – отдельные количественные выражения признака. Обозначаются латинской буквой V . Классическое понимание термина "варианта" предполагает, что вариантой называется каждое уникальное значение признака, без учета количества повторов.
Например, в вариационном ряду показателей систолического артериального давления, измеренного у десяти пациентов:
110, 120, 120, 130, 130, 130, 140, 140, 160, 170;
вариантами являются только 6 значений:
110, 120, 130, 140, 160, 170.
Частота – число, показывающее, сколько раз повторяется варианта. Обозначается латинской буквой P . Сумма всех частот (которая, разумеется, равна числу всех исследуемых) обозначается как n .
- В нашем примере частоты будут принимать следующие значения:
- для варианты 110 частота Р = 1 (значение 110 встречается у одного пациента),
- для варианты 120 частота Р = 2 (значение 120 встречается у двух пациентов),
- для варианты 130 частота Р = 3 (значение 130 встречается у трех пациентов),
- для варианты 140 частота Р = 2 (значение 140 встречается у двух пациентов),
- для варианты 160 частота Р = 1 (значение 160 встречается у одного пациента),
- для варианты 170 частота Р = 1 (значение 170 встречается у одного пациента),
Виды вариационных рядов:
- простой - это ряд, в котором каждая варианта встречается только по одному разу (все частоты при этом равны 1);
- взвешенный - ряд, в котором одна или несколько вариант встречаются неоднократно.
Вариационный ряд служит для описания больших массивов чисел, именно в этой форме изначально представляются собранные данные большинства медицинских исследований. Для того, чтобы охарактеризовать вариационный ряд, рассчитываются специальные показатели, в том числе средние величины, показатели вариабельности (так называемой, дисперсии), показатели репрезентативности выборочных данных.
Показатели вариационного ряда
1) Средняя арифметическая - это обобщающий показатель, характеризующий размер изучаемого признака. Средняя арифметическая обозначается как M , представляет собой самый распространенный вид средней. Средняя арифметическая рассчитывается как отношение суммы значений показателей всех единиц наблюдения к числу всех исследуемых. Методика расчета средней арифметической различается для простого и взвешенного вариационного ряда.
Формула для расчета простой средней арифметической:
Формула для расчета взвешенной средней арифметической:
M = Σ(V * P)/ n
2) Мода – еще одна средняя величина вариационного ряда, соответствующая наиболее часто повторяющейся варианте. Или, если выразиться по другому, это варианта, которой соответствует наибольшая частота. Обозначается как Мо . Мода рассчитывается только для взвешенных рядов, так как в простых рядах ни одна из вариант не повторяется и все частоты равны единице.
Например, в вариационном ряду значений частоты сердечных сокращений:
80, 84, 84, 86, 86, 86, 90, 94;
значение моды составляет 86, так как данная варианта встречается 3 раза, следовательно ее частота - наибольшая.
3) Медиана – значение варианты, делящей вариационный ряд пополам: по обе стороны от нее находится равное число вариант. Медиана также, как и средняя арифметическая и мода, относится к средним величинам. Обозначается как Me
4) Среднее квадратическое отклонение (синонимы: стандартное отклонение, сигмальное отклонение, сигма) - мера вариабельности вариационного ряда. Является интегральным показателем, объединяющим все случаи отклонения вариант от средней. Фактически, отвечает на вопрос: насколько далеко и как часто варианты распространяются от средней арифметической. Обозначается греческой буквой σ ("сигма") .
При численности совокупности более 30 единиц, стандартное отклонение рассчитывается по следующей формуле:
Для малых совокупностей - 30 единиц наблюдения и менее - стандартное отклонение рассчитывается по другой формуле:
Практическое занятие 1
ВАРИАЦИОННЫЕ РЯДЫ РАСПРЕДЕЛЕНИЯ
Вариационным рядом или рядом распределения называют упорядоченное распределение единиц совокупности по возрастающим (чаще) или по убывающим (реже) значениям признака и подсчет числа единиц с тем или иным значением признака.
Существует 3 вида ряда распределения:
1) ранжированный ряд – это перечень отдельных единиц совокупности в порядке возрастания изучаемого признака; если численность единиц совокупности достаточно велика ранжированный ряд становится громоздким, и в таких случаях ряд распределения строится с помощью группировки единиц совокупности по значениям изучаемого признака (если признак принимает небольшое число значений, то строится дискретный ряд, а в противном случае – интервальный ряд);
2) дискретный ряд – это таблица, состоящая из двух столбцов (строк) – конкретных значений варьирующего признака X i и числа единиц совокупности с данным значением признака f i – частот; число групп в дискретном ряду определяется числом реально существующих значений варьирующего признака;
3) интервальный ряд – это таблица, состоящая из двух столбцов (строк) – интервалов варьирующего признака X i и числа единиц совокупности, попадающих в данный интервал (частот), или долей этого числа в общей численности совокупностей (частостей).
Числа, показывающие, сколько раз отдельные варианты встречаются в данной совокупности, называются частотами или весами вариант и обозначаются строчной буквой латинского алфавита f . Общая сумма частот вариационного ряда равна объему данной совокупности, т. е.
где k – число групп, n – общее число наблюдений, или объем совокупности.
Частоты (веса) выражают не только абсолютными, но и относительными числами – в долях единицы или в процентах от общей численности вариант, составляющих данную совокупность. В таких случаях веса называют относительными частотами или частостями. Общая сумма частностей равна единице
или
,
если частоты выражены в процентах от общего числа наблюдений п. Замена частот частостями не обязательна, но иногда оказывается полезной и даже необходимой в тех случаях, когда приходится сопоставлять друг с другом вариационные ряды, сильно отличающиеся по их объемам.
В зависимости от того, как варьирует признак – дискретно или непрерывно, в широком или узком диапазоне, – статистическая совокупность распределяется в безынтервальный или интервальный вариационные ряды. В первом случае частоты относятся непосредственно к ранжированным значениям признака, которые приобретают положение отдельных групп или классов вариационного ряда, во втором – подсчитывают частоты, относящиеся к отдельным промежуткам или интервалам (от – до), на которые разбивается общая вариация признака в пределах от минимальной до максимальной варианты данной совокупности. Эти промежутки, или классовые интервалы, могут быть равными и не равными по ширине. Отсюда различают равно- и неравноинтервальные вариационные ряды. В неравноинтервальных рядах характер распределения частот меняется по мере изменения ширины классовых интервалов. Неравноинтервальную группировку в биологии применяют сравнительно редко. Как правило, биометрические данные распределяются в равноинтервальные ряды, что позволяет не только выявлять закономерность варьирования, но и облегчает вычисление сводных числовых характеристик вариационного ряда, сопоставление рядов распределения друг с другом.
Приступая к построению равноинтервального вариационного ряда, важно правильно наметить ширину классового интервала. Дело в том, что грубая группировка (когда устанавливают очень широкие классовые интервалы) искажает типичные черты варьирования и ведет к снижению точности числовых характеристик ряда. При выборе чрезмерно узких интервалов точность обобщающих числовых характеристик повышается, но ряд получается слишком растянутым и не дает четкой картины варьирования.
Для получения хорошо обозримого вариационного ряда и обеспечения достаточной точности вычисляемых по нему числовых характеристик следует разбить вариацию признака (в пределах от минимальной до максимальной варианты) на такое число групп или классов, которое удовлетворяло бы обоим требованиям. Эту задачу решают делением размаха варьирования признака на число групп или классов, намечаемых при построении вариационного ряда:
,
где h – величина интервала; X м a x и X min – максимальное и минимальное значения в совокупности; k – число групп.
При построении
интервального ряда распределения
необходимо выбирать оптимальное число
групп (интервалов признака) и установливать
длину (размах) интервала. Поскольку при
анализе ряда распределения сравнивают
частоты в разных интервалах, необходимо,
чтобы длина интервалов была постоянной.
Если приходится иметь дело с интервальным
рядом распределения с неравными
интервалами, то для сопоставимости
нужно частоты или частости привести к
единице интервала, полученное значение
называется плотностью
ρ
,
то есть
.
Оптимальное число групп выбирается так, чтобы достаточной мере отразилось разнообразие значений признака в совокупности и в то же время закономерность распределении, его форма не искажалась случайными колебаниями частот. Если групп будет слишком мало, не проявится закономерность вариации; если групп будет чрезмерно много, случайные скачки частот исказят форму распределения.
Чаще всего число групп в ряду распределения определяют по формуле Стерждесса:
где n – численность совокупности.
Существенную помощь в анализе ряда распределения и его свойств оказывает графическое изображение. Интервальный ряд изображается столбиковой диаграммой, в которой основания столбиков, расположенные по оси абсцисс, – это интервалы значений варьирующего признака, а высоты столбиков – частоты, соответствующие масштабу по оси ординат. Диаграмма такого типа называется гистограммой.
Если имеется дискретный ряд распределения или используются середины интервалов, то графическое изображение такого ряда называется полигоном , которое получается соединением прямыми точек с координатами X i и f i .
Если по оси абсцисс откладывать значения классов, а по оси ординат – накопленные частоты с последующим соединением точек прямыми линиями, получается график, называемый кумулятой. Накопленные частоты находят последовательным суммированием, или кумуляцией частот в направлении от первого класса до конца вариационного ряда.
Пример . Имеются данные о яйценоскости 50 кур-несушек за 1 год, содержащихся на птицеферме (табл. 1.1).
Т а б л и ц а 1.1
Яйценоскость кур-несушек
№ курицы-несушки |
Яйценоскость, шт. |
№ курицы-несушки |
Яйценоскость, шт. |
№ курицы-несушки |
Яйценоскость, шт. |
№ курицы-несушки |
Яйценоскость, шт. |
№ курицы-несушки |
Яйценоскость, шт. |
Требуется построить интервальный ряд распределения и отобразить его графически в виде гистограммы, полигона и кумуляты.
Видно, что признак варьирует от 212 до 245 яиц, полученных от несушки за 1 год.
В нашем примере по формуле Стерждесса определим число групп:
k = 1 + 3,322lg 50 = 6,643 ≈ 7.
Рассчитаем длину (размах) интервала по формуле:
.
Построим интервальный ряд с 7 группами и интервалом 5 шт. яиц (табл. 1.2). Для построения графиков в таблице рассчитаем середину интервалов и накопленную частоту.
Т а б л и ц а 1.2
Интервальный ряд распределения яйценоскости
Группа кур-несушек по величине яйценоскости X i |
Число кур-несушек f i |
Середина интервала Х i ’ |
Накопленная частота f i ’ |
|
Построим гистограмму распределения яйценоскости (рис. 1.1).
Р и с. 1.1. Гистограмма распределения яйценоскости
Данные гистограммы показывают характерную для многих признаков форму распределения: чаще встречаются значения средних интервалов признака, реже – крайние (малые и большие) значения признака. Форма этого распределения близка к нормальному закону распределения, которое образуется, если на варьирующую переменную влияет большое число факторов, ни один из которых не имеет преобладающего значения.
Полигон и кумулята распределения яйценоскости имеют вид (рис. 1.2 и 1.3).
Р и с. 1.2. Полигон распределения яйценоскости
Р и с. 1.3. Кумулята распределения яйценоскости
Технология решения задачи в табличном процессоре Microsoft Excel следующая.
1. Введите исходные данные в соответствии с рис. 1.4.
2. Ранжируйте ряд.
2.1. Выделите ячейки А2:А51.
2.2. Щелкните левой кнопкой мыши на панели инструментов на кнопке <Сортировка по возрастанию > .
3. Определите величину интервала для построения интервального ряд распределения.
3.1. Скопируйте ячейку А2 в ячейку Е53.
3.2. Скопируйте ячейку А51 в ячейку Е54.
3.3. Рассчитайте размах вариации. Для этого введите в ячейку Е55 формулу =E54-E53 .
3.4. Рассчитайте число групп вариации. Для этого введите в ячейку Е56 формулу =1+3,322*LOG10(50) .
3.5. Введите в ячейку Е57 округленное число групп.
3.6. Рассчитайте длину интервала. Для этого введите в ячейку Е58 формулу =E55/E57 .
3.7. Введите в ячейку Е59 округленную длину интервала.
4. Постройте интервальный ряд.
4.1. Скопируйте ячейку Е53 в ячейку В64.
4.2. Введите в ячейку В65 формулу =B64+$E$59 .
4.3. Скопируйте ячейку В65 в ячейки В66:В70.
4.4. Введите в ячейку С64 формулу =B65 .
4.5. Введите в ячейку С65 формулу =C64+$E$59 .
4.6. Скопируйте ячейку С65 в ячейки С66:С70.
Результаты решения выводятся на экран дисплея в следующем виде (рис. 1.5).
5. Рассчитайте частоту интервалов.
5.1. Выполните команду Сервис , Анализ данных , щелкнув поочередно левой кнопкой мыши.
5.2. В диалоговом окне Анализ данных с помощью левой кнопки мыши установите: Инструменты анализа <Гистограмма> (рис. 1.6).
5.3. Щелкните левой кнопкой мыши на кнопке <ОК>.
5.4. На вкладке Гистограмма установите параметры в соответствии с рис. 1.7.
5.5. Щелкните левой кнопкой мыши на кнопке <ОК>.
Результаты решения выводятся на экран дисплея в следующем виде (рис. 1.8).
6. Заполните таблицу «Интервальный ряд распределения».
6.1. Скопируйте ячейки В74:В80 в ячейки D64:D70.
6.2. Рассчитайте сумму частот. Для этого выделите ячейки D64:D70 и щелкните левой кнопкой мыши на панели инструментов на кнопке <Автосумма > .
6.3. Рассчитайте середину интервалов. Для этого введете в ячейку Е64 формулу =(B64+C64)/2 и скопируйте в ячейки Е65:Е70.
6.4. Рассчитайте накопленные частоты. Для этого скопируйте ячейку D64 в ячейку F64. В ячейку F65 введите формулу =F64+D65 и скопируйте в ячейки F66:F70.
Результаты решения выводятся на экран дисплея в следующем виде (рис. 1.9).
7. Отредактируйте гистограмму.
7.1. Щелкните правой кнопкой мыши на диаграмме на названии «карман» и на появившейся вкладке нажмите кнопку <Очистить>.
7.2. Щелкните правой кнопкой мыши на диаграмме и на появившейся вкладке нажмите кнопку <Исходные данные>.
7.3. В диалоговом окне Исходные данные измените подписи оси Х. Для этого выделите ячейки В64:С70 (рис. 1.10).
7.5.
Нажмите
клавишу
Результаты выводятся на экран дисплея в следующем виде (рис. 1.11).
8. Постройте полигон распределения яйценоскости.
8.1. Щелкните левой кнопкой мыши на панели инструментов на кнопке <Мастер диаграмм > .
8.2. В диалоговом окне Мастер диаграмм (шаг 1 из 4) с помощью левой кнопки мыши установите: Стандартные <График> (рис. 1.12).
8.3. Щелкните левой кнопкой мыши на кнопке <Далее>.
8.4. В диалоговом окне Мастер диаграмм (шаг 2 из 4) установите параметры в соответствии с рис. 1.13.
8.5. Щелкните левой кнопкой мыши на кнопке <Далее>.
8.6. В диалоговом окне Мастер диаграмм (шаг 3 из 4) введите названия диаграммы и ос Y (рис. 1.14).
8.7. Щелкните левой кнопкой мыши на кнопке <Далее>.
8.8. В диалоговом окне Мастер диаграмм (шаг 4 из 4) установите параметры в соответствии с рис. 1.15.
8.9. Щелкните левой кнопкой мыши на кнопке <Готово>.
Результаты выводятся на экран дисплея в следующем виде (рис. 1.16).
9. Вставьте на графике подписи данных.
9.1. Щелкните правой кнопкой мыши на диаграмме и на появившейся вкладке нажмите кнопку <Исходные данные>.
9.2. В диалоговом окне Исходные данные измените подписи оси Х. Для этого выделите ячейки Е64:Е70 (рис. 1.17).
9.3.
Нажмите
клавишу
Результаты выводятся на экран дисплея в следующем виде (рис. 1.18).
Кумулята распределения строится аналогично полигону распределения на основе накопленных частот.
В результате освоения дайной главы студент должен: знать
- показатели вариации и их взаимосвязь;
- основные законы распределения признаков;
- сущность критериев согласия; уметь
- рассчитывать показатели вариации и критерии согласия;
- определять характеристики распределений;
- оценивать основные числовые характеристики статистических рядов распределения;
владеть
- методами статистического анализа рядов распределения;
- основами дисперсионного анализа;
- приемами проверки статистических рядов распределения на соответствие основным законам распределения.
Показатели вариации
При статистическом исследовании признаков различных статистических совокупностей большой интерес представляет изучение вариации признака отдельных статистических единиц совокупности, а также характера распределения единиц по данному признаку. Вариация - это различия индивидуальных значений признака у единиц изучаемой совокупности. Исследование вариации имеет большое практическое значение. По степени вариации можно судить о границах вариации признака, однородности совокупности по данному признаку, типичности средней, взаимосвязи факторов, определяющих вариацию. Показатели вариации используются для характеристики и упорядочения статистических совокупностей.
Результаты сводки и группировки материалов статистического наблюдения, оформленные в виде статистических рядов распределения, представляют собой упорядоченное распределение единиц изучаемой совокупности на группы по группировочному (варьирующему) признаку. Если за основу группировки взят качественный признак, то такой ряд распределения называют атрибутивным (распределение по профессии, по полу, по цвету и т.д.). Если ряд распределения построен по количественному признаку, то такой ряд называют вариационным (распределение по росту, весу, по размеру заработной платы и т.д.). Построить вариационный ряд - значит упорядочить количественное распределение единиц совокупности по значениям признака, подсчитать число единиц совокупности с этими значениями (частоту), результаты оформить в таблицу.
Вместо частоты варианта возможно применение ее отношения к общему объему наблюдений, которое называется частостью (относительной частотой).
Выделяют два вида вариационного ряда: дискретный и интервальный. Дискретный ряд - это такой вариационный ряд, в основу построения которого положены признаки с прерывным изменением (дискретные признаки). К последним можно отнести число работников на предприятии, тарифный разряд, количество детей в семье и т.д. Дискретный вариационный ряд представляет таблицу, которая состоит из двух граф. В первой графе указывается конкретное значение признака, а во второй - число единиц совокупности с определенным значением признака. Если признак имеет непрерывное изменение (размер дохода, стаж работы, стоимость основных фондов предприятия и т.д., которые в определенных границах могут принимать любые значения), то для этого признака возможно построение интервального вариационного ряда. Таблица при построении интервального вариационного ряда также имеет две графы. В первой указывается значение признака в интервале «от - до» (варианты), во второй - число единиц, входящих в интервал (частота). Частота (частота повторения) - число повторений отдельного варианта значений признака. Интервалы могут быть закрытые и открытые. Закрытые интервалы ограничены с обеих сторон, т.е. имеют границу как нижнюю («от»), так и верхнюю («до»). Открытые интервалы имеют какую-либо одну границу: либо верхнюю, либо нижнюю. Если варианты расположены по возрастанию или убыванию, то ряды называются ранжированными.
Для вариационных рядов существует два типа вариантов частотных характеристик: накопленная частота и накопленная частость. Накопленная частота показывает, в скольких наблюдениях величина признака приняла значения меньше заданного. Накопленная частота определяется путем суммирования значений частоты признака по данной группе со всеми частотами предшествующих групп. Накопленная частость характеризует удельный вес единиц наблюдения, у которых значения признака не превосходят верхнюю границу дайной группы. Таким образом, накопленная частость показывает удельный вес вариант в совокупности, имеющих значение не больше данного. Частота, частость, абсолютная и относительная плотности, накопленные частота и частость являются характеристиками величины варианта.
Вариации признака статистических единиц совокупности, а также характер распределения изучаются с помощью показателей и характеристик вариационного ряда, к числу которых относятся средний уровень ряда, среднее линейное отклонение, среднее квадратическое отклонение, дисперсия, коэффициенты осцилляции, вариации, асимметрии, эксцесса и др.
Для характеристики центра распределения применяются средние величины. Средняя представляет собой обобщающую статистическую характеристику, в которой получает количественное выражение типичный уровень признака, которым обладают члены изучаемой совокупности. Однако возможны случаи совпадения средних арифметических при разном характере распределения, поэтому в качестве статистических характеристик вариационных рядов рассчитываются так называемые структурные средние - мода, медиана, а также квантили, которые делят ряд распределения на равные части (квартили, децили, перцентили и т.д.).
Мода - это значение признака, которое встречается в ряду распределения чаще, чем другие его значения. Для дискретных рядов - это варианта, имеющая наибольшую частоту. В интервальных вариационных рядах с целью определения моды необходимо определить прежде всего интервал, в котором она находится, так называемый модальный интервал. В вариационном ряду с равными интервалами модальный интервал определяется по наибольшей частоте, в рядах с неравными интервалами - но наибольшей плотности распределения. Затем для определения моды в рядах с равными интервалами применяют формулу
где Мо - значение моды; х Мо - нижняя граница модального интервала; h - ширина модального интервала; / Мо - частота модального интервала; / Mo j - частота домодального интер- вала; / Мо+1 - частота послемодального интервала, а для ряда с неравными интервалами в данной формуле расчета вместо частот / Мо, / Мо, / Мо следует использовать плотности распределения Ум 0 _| , Ум 0> УМо+"
Если имеется единственная мода, то распределение вероятностей случайной величины называется унимодальным; если имеется более чем одна мода, оно называется многомодальным (полимодальным, мультимодальным), в случае двух мод - бимодальным. Как правило, многомодальность указывает, что исследуемое распределение не подчиняется закону нормального распределения. Для однородных совокупностей, как правило, характерны одновершинные распределения. Многовершинность свидетельствует также о неоднородности изучаемой совокупности. Появление двух и более вершин делает необходимой перегруппировку данных с целью выделения более однородных групп.
В интервальном вариационном ряду моду можно определить графически с помощью гистограммы. Для этого из верхних точек самого высокого столбца гистограммы до верхних точек двух смежных столбцов проводят две пересекающиеся линии. Затем из точки их пересечения опускают перпендикуляр на ось абсцисс. Значение признака на оси абсцисс, соответствующее перпендикуляру, является модой. Во многих случаях при характеристике совокупности в качестве обобщенного показателя отдается предпочтение моде, а не средней арифметической.
Медиана - это центральное значение признака, им обладает центральный член ранжированного ряда распределения. В дискретных рядах, чтобы найти значение медианы, сначала определяется ее порядковый номер. Для этого при нечетном числе единиц к сумме всех частот прибавляется единица, число делится на два. При четном числе единиц в ряду будет две медианные единицы, поэтому в этом случае медиана определяется как средняя из значений двух медианных единиц. Таким образом, медианой в дискретном вариационном ряду является значение, которое делит ряд на две части, содержащие одинаковое число вариантов.
В интервальных рядах после определения порядкового номера медианы отыскивается медиальный интервал по накопленным частотам (частостям), а затем при помощи формулы расчета медианы определяется значение самой медианы:
где Me - значение медианы; х Ме - нижняя граница медианного интервала; h - ширина медианного интервала; - сумма частот ряда распределения; /Д - накопленная частота домедианного интервала; / Ме - частота медианного интервала.
Медиану можно отыскать графически с помощью куму- ляты. Для этого на шкале накопленных частот (частостей) кумуляты из точки, соответствующей порядковому номеру медианы, проводится прямая, параллельная оси абсцисс, до пересечения с кумулятой. Далее из точки пересечения указанной прямой с кумулятой опускается перпендикуляр на ось абсцисс. Значение признака на оси абсцисс, соответствующее проведенной ординате (перпендикуляру), является медианой.
Медиана характеризуется следующими свойствами.
- 1. Она не зависит от тех значений признака, которые расположены по обе стороны от нее.
- 2. Она имеет свойство минимальности, которое заключается в том, что сумма абсолютных отклонений значений признака от медианы представляет собой минимальную величину по сравнению с отклонением значений признака от любой другой величины.
- 3. При объединении двух распределений с известными медианами невозможно заранее предсказать величину медианы нового распределения.
Эти свойства медианы широко используются при проектировании расположения пунктов массового обслуживания - школ, поликлиник, автозаправочных станций, водозаборных колонок и т.д. Например, если в определенном квартале города предполагается построить поликлинику, то расположить ее целесообразнее в такой точке квартала, которая делит пополам не длину квартала, а число жителей.
Соотношение моды, медианы и средней арифметической указывает на характер распределения признака в совокупности, позволяет оценить симметричность распределения. Если х Me то имеет место правосторонняя асимметрия ряда. При нормальном распределении х - Me - Мо.
К. Пирсон на основе выравнивания различных типов кривых определил, что для умеренно асимметричных распределений справедливы такие приближенные соотношения между средней арифметической, медианой и модой:
где Me - значение медианы; Мо - значение моды; х арифм - значение средней арифметической.
Если возникает необходимость изучить структуру вариационного ряда более подробно, то вычисляют значения признака, аналогичные медиане. Такие значения признака делят все единицы распределения на равные численности, их называют квантилями или градиентами. Квантили подразделяются на квартили, децили, перцентили и т.п.
Квартили делят совокупность на четыре равные части. Первую квартиль вычисляют аналогично медиане по формуле расчета первой квартили, предварительно определив первый квартальный интервал:
где Qi - значение первой квартили; x Q ^ - нижняя граница первого квартильного интервала; h - ширина первого квартального интервала; /, - частоты интервального ряда;
Накопленная частота в интервале, предшествующем первому квартильиому интервалу; Jq { - частота первого квартильного интервала.
Первая квартиль показывает, что 25% единиц совокупности меньше ее значения, а 75% - больше. Вторая квартиль равна медиане, т.е. Q 2 = Me.
По аналогии рассчитывают третью квартиль, предварительно отыскав третий квартальный интервал:
где - нижняя граница третьего квартильного интервала; h - ширина третьего квартильного интервала; /, - частоты интервального ряда; /X" - накопленная частота в интервале, предшествующем
г
третьему квартильиому интервалу; Jq - частота третьего квартильного интервала.
Третья квартиль показывает, что 75% единиц совокупности меньше ее значения, а 25% - больше.
Разность между третьей и первой квартилями представляет собой межквартильный интервал:
где Aq - значение межквартильного интервала; Q 3 - значение третьей квартили; Q, - значение первой квартили.
Децили делят совокупность на 10 равных частей. Дециль - это такое значение признака в ряду распределения, которому соответствуют десятые доли численности совокупности. По аналогии с квартилями первый дециль показывает, что 10% единиц совокупности меньше его значения, а 90% - больше, а девятый дециль выявляет, что 90% единиц совокупности меньше его значения, а 10% - больше. Соотношение девятого и первого децилей, т.е. децильный коэффициент, широко применяется при изучении дифференциации доходов для измерения соотношения уровней доходов 10% наиболее обеспеченного и 10% наименее обеспеченного населения. Перцентили делят ранжированную совокупность на 100 равных частей. Расчет, значение и применение перцентилей аналогичны децилям.
Квартили, децили и другие структурные характеристики можно определить графически по аналогии с медианой с помощью кумуляты.
Для измерения размера вариации используются следующие показатели: размах вариации, среднее линейное отклонение, среднее квадратическое отклонение, дисперсия. Величина размаха вариации целиком зависит от случайности распределения крайних членов ряда. Этот показатель представляет интерес в тех случаях, когда важно знать, какова амплитуда колебаний значений признака:
где R - значение размаха вариации; х тах - максимальное значение признака; х тт - минимальное значение признака.
При расчете размаха вариации значение подавляющего большинства членов ряда не учитывается, в то время как вариация связана с каждым значением члена ряда. Этого недостатка лишены показатели, представляющие собой средние, полученные из отклонений индивидуальных значений признака от их средней величины: среднее линейное отклонение и среднее квадратическое отклонение. Между индивидуальными отклонениями от средней и колеблемостью конкретного признака существует прямая зависимость. Чем сильнее колеблемость, тем больше абсолютные размеры отклонений от средней.
Среднее линейное отклонение представляет собой среднюю арифметическую из абсолютных величин отклонений отдельных вариантов от их средней величины.
Среднее линейное отклонение для несгруппированных данных
где / пр - значение среднего линейного отклонения; х,- - значение признака; х - п - число единиц совокупности.
Среднее линейное отклонение сгруппированного ряда
где / вз - значение среднего линейного отклонения; х, - значение признака; х - среднее значение признака для изучаемой совокупности; / - число единиц совокупности в отдельной группе.
Знаки отклонений в данном случае игнорируются, в противном случае сумма всех отклонений будет равна нулю. Среднее линейное отклонение в зависимости от группировки анализируемых данных рассчитывается по различным формулам: для сгруппированных и несгруниированных данных. Среднее линейное отклонение в силу его условности отдельно от других показателей вариации применяется на практике сравнительно редко (в частности, для характеристики выполнения договорных обязательств по равномерности поставки; в анализе оборота внешней торговли, состава работающих, ритмичности производства, качества продукции с учетом технологических особенностей производства и т.п.).
Среднее квадратическое отклонение характеризует, на сколько в среднем отклоняются индивидуальные значения изучаемого признака от среднего значения по совокупности, и выражается в единицах измерения изучаемого признака. Среднее квадратическое отклонение, являясь одной из основных мер вариации, широко используется при оценке границ вариации признака в однородной совокупности, при определении значений ординат кривой нормального распределения, а также в расчетах, связанных с организацией выборочного наблюдения и установлением точности выборочных характеристик. Среднее квадратическое отклонение но несгруипированным данным исчисляется по следующему алгоритму: каждое отклонение от средней возводится в квадрат, все квадраты суммируются, после чего сумма квадратов делится на число членов ряда и из частного извлекается квадратный корень:
где a Iip - значение среднего квадратического отклонения; Xj - значение признака; х - среднее значение признака для изучаемой совокупности; п - число единиц совокупности.
Для сгруппированных анализируемых данных среднее квадратическое отклонение данных рассчитывается по взвешенной формуле
где - значение среднего квадратического отклонения; Xj - значение признака; х - среднее значение признака для изучаемой совокупности; f x - число единиц совокупности в отдельной группе.
Выражение под корнем в обоих случаях носит название дисперсии. Таким образом, дисперсия вычисляется как средний квадрат отклонений значений признака от их средней величины. Для невзвешенных (простых) значений признака дисперсия определяется следующим образом:
Для взвешенных значений признака
Существует также специальный упрощенный способ расчета дисперсии: в общем виде
для невзвешенных (простых) значений признака
для взвешенных значений признака
с использованием метода отсчета от условного нуля
где а 2 - значение дисперсии; х,- - значение признака; х - среднее значение признака, h - величина группового интервала, т 1 - веса (А =
Дисперсия имеет самостоятельное выражение в статистике и относится к числу важнейших показателей вариации. Она измеряется в единицах, соответствующих квадрату единиц измерения изучаемого признака.
Дисперсия имеет следующие свойства.
- 1. Дисперсия постоянной величины равна нулю.
- 2. Уменьшение всех значений признака на одну и ту же величину Л не меняет величины дисперсии. Это означает, что средний квадрат отклонений можно вычислить не по заданным значениям признака, а по отклонениям их от какого-то постоянного числа.
- 3. Уменьшение веех значений признака в k раз уменьшает дисперсию в k 2 раз, а среднее квадратическое отклонение - в k раз, т.е. все значения признака можно разделить на какое-то постоянное число (скажем, на величину интервала ряда), исчислить среднее квадратическое отклонение, а затем умножить его на постоянное число.
- 4. Если исчислить средний квадрат отклонений от любой величины А у в той или иной степени отличающейся от средней арифметической, то он всегда будет больше среднего квадрата отклонений, исчисленного от средней арифметической. Средний квадрат отклонений при этом будет больше на вполне определенную величину - на квадрат разности средней и этой условно взятой величины.
Вариация альтернативного признака заключается в наличии или отсутствии изучаемого свойства у единиц совокупности. Количественно вариация альтернативного признака выражается двумя значениями: наличие у единицы изучаемого свойства обозначается единицей (1), а его отсутствие - нулем (0). Долю единиц, обладающих изучаемым свойством, обозначают через Р, а долю единиц, не обладающих этим свойством, - через G. Таким образом, дисперсия альтернативного признака равна произведению доли единиц, обладающих данным свойством (Р), на долю единиц, данным свойством не обладающих (G). Наибольшая вариация совокупности достигается в случаях, когда часть совокупности, составляющая 50% от всего объема совокупности, обладает признаком, а другая часть совокупности, также равная 50%, не обладает данным признаком, при этом дисперсия достигает максимального значения, равного 0,25, т.е. Р = 0,5, G = 1 - Р = 1 - 0,5 = 0,5 и о 2 = 0,5 0,5 = 0,25. Нижняя граница этого показателя равна нулю, что соответствует ситуации, при которой в совокупности отсутствует вариация. Практическое применение дисперсии альтернативного признака состоит в построении доверительных интервалов при проведении выборочного наблюдения.
Чем меньше значение дисперсии и среднего квадратического отклонения, тем однороднее совокупность и тем более типичной будет средняя величина. В практике статистики часто возникает необходимость сравнения вариаций различных признаков. Например, интересным является сравнение вариаций возраста рабочих и их квалификации, стажа работы и размера заработной платы, себестоимости и прибыли, стажа работы и производительности труда и т.д. Для таких сопоставлений показатели абсолютной колеблемости признаков непригодны: нельзя сравнивать колеблемость стажа работы, выраженного в годах, с вариацией заработной платы, выраженной в рублях. Для осуществления таких сравнений, а также сравнений колеблемости одного и того же признака в нескольких совокупностях с разными средними арифметическими используются показатели вариации - коэффициент осцилляции, линейный коэффициент вариации и коэффициент вариации, которые показывают меру колебаний крайних значений вокруг средней.
Коэффициент осцилляции :
где V R - значение коэффициента осцилляции; R - значение размаха вариации; х -
Линейный коэффициент вариации".
где Vj - значение линейного коэффициента вариации; I - значение среднего линейного отклонения; х - среднее значение признака для изучаемой совокупности.
Коэффициент вариации :
где V a - значение коэффициента вариации; а - значение среднего квадратического отклонения; х - среднее значение признака для изучаемой совокупности.
Коэффициент осцилляции - это процентное отношение размаха вариации к среднему значению изучаемого признака, а линейный коэффициент вариации - это отношение среднего линейного отклонения к среднему значению изучаемого признака, выраженное в процентах. Коэффициент вариации представляет собой процентное отношение среднего квадратического отклонения к среднему значению изучаемого признака. Как величина относительная, выраженная в процентах, коэффициент вариации применяется для сравнения степени вариации различных признаков. С помощью коэффициента вариации оценивается однородность статистической совокупности. Если коэффициент вариации меньше 33%, то исследуемая совокупность является однородной, а вариация слабой. Если коэффициент вариации больше 33%, то исследуемая совокупность является неоднородной, вариация сильной, а средняя величина - нетипичной и ее нельзя использовать как обобщающий показатель этой совокупности. Кроме того, коэффициенты вариации используются для сравнения колеблемости одного признака в различных совокупностях. Например, для оценки вариации стажа работы работников на двух предприятиях. Чем больше значение коэффициента, тем вариация признака существеннее.
На основе рассчитанных квартилей имеется возможность рассчитать также относительный показатель квартальной вариации по формуле
где Q2 и
Межквартильный размах определяется по формуле
Квартильное отклонение применяется вместо размаха вариации, чтобы избежать недостатков, связанных с использованием крайних значений:
Для неравноинтервальпых вариационных рядов рассчитывается также плотность распределения. Она определяется как частное от деления соответствующей частоты или частости на величину интервала. В неравноинтервальных рядах используются абсолютная и относительная плотности распределения. Абсолютная плотность распределения - это частота, приходящаяся на единицу длины интервала. Относительная плотность распределения - частость, приходящаяся на единицу длины интервала.
Все вышеотмеченное справедливо для рядов распределения, закон распределения которых хорошо описывается нормальным законом распределения или близок к нему.
Статистические ряды распределения представляют собой простейший вид группировки.
Статистический ряд распределения - это упорядоченное количественное распределение единиц совокупности на однородные группы по варьирующему (атрибутивному или количественному) признаку.
В зависимости от признака, положенного в основу образования групп, различают атрибутивные и вариационные ряды распределения.
Атрибутивными называют ряды распределения, построенные по качественным признакам, т.е. признакам, не имеющим числового выражения. Примером атрибутивного ряда распределения является распределение экономически активного населения РФ по полу в 2010 г. (табл. 3.10).
Таблица 3.10. Распределение экономически активного населения РФ по полу в 2010 г.
Вариационными называются ряды распределения, построенные по количественному признаку, т.е. признаку, имеющему числовое выражение.
Вариационный ряд распределения состоит из двух элементов: вариантов и частот.
Вариантами называют отдельные значения признака, которые он принимает в вариационном ряду.
Частотами являются численности отдельных вариантов или каждой группы вариационного ряда. Частоты показывают, как часто встречаются те или иные значения признака в изучаемой совокупности. Сумма всех частот определяет численность всей совокупности, ее объем.
Частостями называют частоты, выраженные в долях единицы или в процентах к итогу. Соответственно сумма частостей равна 1, или 100%.
В зависимости от характера вариации признака различают дискретные и интервальные вариационные ряды распределения.
Дискретный вариационный ряд распределения - это ряд распределения, в котором группы составлены по признаку, изменяющемуся прерывно, т.е. через определенное число единиц, и принимающему только целые значения. Например, распределение числа построенных квартир в Российской Федерации по числу комнат в них I! 2010 г. (табл. 3.11).
Таблица 3.11. Распределение числа построенных квартир в Российской Федерации по числу комнат в них в 2010 г.
Интервальный вариационный ряд распределения - это ряд распределения, в котором группировочный признак, составляющий основание группировки, может принимать в интервале любые значения, отличающиеся друг от друга на сколь угодно малую величину.
Построение интервальных вариационных рядов целесообразно прежде всего при непрерывной вариации признака (табл. 3.12), а также если дискретная вариация признака проявляется в широких пределах (табл. 3.13), т.е. число вариантов дискретного признака достаточно велико.
Таблица 3.12. Распределение субъектов Южного федерального округа РФ по площади территории на 1 января 2011 г.
Таблица 3.13. Распределение субъектов Центрального федерального округа РФ по числу муниципальных учреждений образования на 1 января 2011 г.
Правила построения рядов распределения аналогичны правилам построения группировки.
Анализ рядов распределения наглядно можно проводить на основе их графического изображения. Для этой цели строят полигон, гистограмму, распределения.
Полигон используют при изображении дискретных вариационных рядов распределения. Для его построения в прямоугольной системе координат по оси абсцисс в одинаковом масштабе откладывают ранжированные значения варьирующего признака, а по оси ординат наносят шкалу для выражения величины частот. Полученные на пересечении оси абсцисс (X) и оси ординат (У) точки соединяют прямыми линиями, в результате чего получают ломаную линию, называемую полигоном частот.
Гистограмму применяют для изображения интервального вариационного ряда. При построении гистограммы на оси абсцисс откладывают величины интервалов, а частоты изображают прямоугольниками, построенными на соответствующих интервалах. Высота столбиков должна быть пропорциональна частотам.
Гистограмма может быть преобразована в полигон распределения, если середины верхних сторон прямоугольников соединить прямыми линиями.
При построении гистограммы распределения вариационного ряда с неравными интервалами по оси ординат наносят не частоты, а плотность распределения признака в соответствующих интервалах. Плотность распределения - это частота, рассчитанная на единицу ширины интервала,
т.е. сколько единиц в каждой группе приходится па единицу величины интервала.
Для графического изображения вариационных рядов распределения может использоваться кумулятивная кривая. С помощью кумуляты изображают ряд накопленных частот. Накопленные частоты определяют путем последовательного суммирования частот по группам.
При построении кумуляты интервального вариационного ряда по оси абсцисс (X) откладывают варианты ряда, а по оси ординат (У) накопленные частоты, которые наносят на поле графика в виде перпендикуляров к оси абсцисс в верхних границах интервалов. Затем эти перпендикуляры соединяют и получают ломаную линию, т.е. кумуляту.
Если при графическом изображении вариационного ряда распределения в виде кумуляты оси X и У поменять местами, то получается огива.