Ряды распределения и группировки. Вариационные ряды и их виды -

Различные выборочные значения назовемвариантами ряда значений и обозначим: х 1 , х 2 , …. Прежде всего произведем ранжирование вариантов, т.е. расположение их в порядке возрастания или убывания. Для каждого варианта указывается свой вес, т.е. число, которое характеризует вклад данного варианта в общую совокупность. В качестве весов выступают частоты или частости.

Частотой n iварианта х i называется число, показывающее сколько раз встречается данный вариант в рассматриваемой выборочной совокупности.

Частостью или относительной частотой w iварианта х i называется число, равное отношению частоты варианта к сумме частот всех вариантов. Частость показывает, какая часть единиц выборочной совокупности имеет данный вариант.

Последовательность вариантов с соответствующими им весами (частотами или частостями), записанная в порядке возрастания (или убывания), называется вариационным рядом.

Вариационные ряды бывают дискретными и интервальными.

Для дискретного вариационного ряда задаются точечные значения признака, для интервального – значения признака задаются в виде интервалов. Вариационные ряды могут показывать распределение частот или относительных частот (частостей), в зависимости от того, какая величина указывается для каждого варианта – частота или частость.

Дискретный вариационный ряд распределения частот имеет вид:

Частости находятся по формуле , i = 1, 2, …, m.

w 1 + w 2 + … + w m = 1.

Пример 4.1.Для данной совокупности чисел

4, 6, 6, 3, 4, 9, 6, 4, 6, 6

построить дискретные вариационные ряды распределения частот и частостей.

Решение.Объем совокупности равен n = 10. Дискретный ряд распределения частот имеет вид

Аналогичную форму записи имеют интервальные ряды.

Интервальный вариационный ряд распределения частот записывается в виде:

Сумма всех частот равна общему числу наблюдений, т.е. объему совокупности: n = n 1 + n 2 + … + n m .

Интервальный вариационный ряд распределения относительных частот (частостей)имеет вид:

Частость находится по формуле , i = 1, 2, …, m.

Сумма всех частостей равна единице: w 1 + w 2 + … + w m = 1.

Наиболее часто на практике применяются интервальные ряды. Если статистических выборочных данных очень много и их значения отличаются друг от друга на сколь угодно малую величину, то дискретный ряд для этих данных будет достаточно громоздким и неудобным для дальнейшего исследования. В этом случае применяют группировку данных, т.е. промежуток, содержащий все значения признака, разбивают на несколько частичных интервалов и, подсчитав частоту для каждого интервала, получают интервальный ряд. Запишем более подробно схему построения интервального ряда, предположив, что длины частичных интервалов будут одинаковыми.

2.2 Построение интервального ряда

Для построения интервального ряда нужно:

Определить число интервалов;

Определить длину интервалов;

Определить расположение интервалов на оси.

Для определения числа интервалов k существует формула Стерджеса, по которой

где n — объем всей совокупности.

Например, если имеется 100 значений признака (вариант), то рекомендуется для построения интервального ряда взять число интервалов равным интервалам.

Однако очень часто на практике число интервалов выбирает сам исследователь, учитывая, что это число не должно быть очень большим, чтобы ряд не был громоздким, но и не очень маленьким, чтобы не потерять некоторых свойств распределения.

Длина интервала h определяется по следующей формуле:

где x max и x min — это соответственно самое большое и самое маленькое значения вариантов.

Величину называют размахом ряда.

Для построения самих интервалов поступают по-разному. Один из самых простых способов заключается в следующем. За начало первого интервала принимают величину . Тогда остальные границы интервалов находятся по формуле . Очевидно, что конец последнего интервала a m+1 должен удовлетворять условию

После того как найдены все границы интервалов, определяют частоты (или частости) этих интервалов. Для решения этой задачи просматривают все варианты и определяют число вариант, попавших в тот или иной интервал. Полное построение интервального ряда рассмотрим на примере.

Пример 4.2. Для следующих статистических данных, записанных в порядке возрастания, построить интервальный ряд с числом интервалов, равным 5:

11, 12, 12, 14, 14, 15, 21, 21, 22, 23, 25, 38, 38, 39, 42, 42, 44, 45, 50, 50, 55, 56, 58, 60, 62, 63, 65, 68, 68, 68, 70, 75, 78, 78, 78, 78, 80, 80, 86, 88, 90, 91, 91, 91, 91, 91, 93, 93, 95, 96.

Решение. Всего n=50 значений вариантов.

Число интервалов задано в условии задачи, т.е. k=5.

Длина интервалов равна .

Определим границы интервалов:

a 1 = 11 − 8,5 = 2,5; a 2 = 2,5 + 17 = 19,5; a 3 = 19,5 + 17 = 36,5;

a 4 = 36,5 + 17 = 53,5; a 5 = 53,5 + 17 = 70,5; a 6 = 70,5 + 17 = 87,5;

a 7 = 87,5 +17 = 104,5.

Для определения частоты интервалов посчитываем число вариантов, попавших в данный интервал. Например, в первый интервал от 2,5 до 19,5 попадают варианты 11, 12, 12, 14, 14, 15. Их число равно 6, следовательно, частота первого интервала равна n 1 =6. Частость первого интервала равна . Во второй интервал от 19,5 до 36,5 попадают варианты 21, 21, 22, 23, 25, число которых равно 5. Следовательно, частота второго интервала равна n 2 =5, а частость . Найдя аналогичным образом частоты и частости для всех интервалов, получим следующие интервальные ряды.

Интервальный ряд распределения частот имеет вид:

Сумма частот равна 6+5+9+11+8+11=50.

Интервальный ряд распределения частостей имеет вид:

Сумма частостей равна 0,12+0,1+0,18+0,22+0,16+0,22=1. ■

При построении интервальных рядов, в зависимости от конкретных условий рассматриваемой задачи, могут применяться и другие правила, а именно

1. Интервальные вариационные ряды могут состоять из частичных интервалов разной длины. Неравные длины интервалов позволяют выделить свойства статистической совокупности с неравномерным распределением признака. Например, если границы интервалов определяют численность жителей в городах, то целесообразно в данной задаче использовать неравные по длине интервалы. Очевидно, что для небольших городов имеет значение и небольшая разница в числе жителей, а для больших городов разница в десятки и сотни жителей не имеет существенного значения. Интервальные ряды с неравными длинами частичных интервалов исследуются, в основном, в общей теории статистики и их рассмотрение выходит за рамки данного пособия.

2. В математической статистике иногда рассматривают интервальные ряды, для которых левую границу первого интервала полагают равной –∞, а правую границу последнего интервала +∞. Это делается для того, чтобы приблизить статистическое распределение к теоретическому.

3. При построении интервальных рядов может оказаться, что значение какого-то варианта совпадает в точности с границей интервала. Лучше всего в этом случае поступить следующим образом. Если такое совпадение только одно, то считать, что рассматриваемый вариант со своей частотой попал в интервал, находящийся ближе к середине интервального ряда, если таких вариантов несколько, то либо все их отнести к правым от этих вариант интервалам, либо все – к левым.

4. После определения числа интервалов и их длины, расположение интервалов можно производить и по другому способу. Находят среднее арифметическое всех рассматриваемых значений вариантов х ср. и строят первый интервал таким образом, чтобы это среднее выборочное находилось бы внутри какого-то интервала. Таким образом, получаем интервал от х ср. – 0,5hдо х ср.. + 0,5h. Затем влево и вправо, прибавляя длину интервала, строим остальные интервалы до тех пор, пока x min и x max не попадут соответственно в первый и последний интервалы.

5. Интервальные ряды при большом числе интервалов удобно записывать вертикально, т.е. интервалы записывать не в первой строке, а в первом столбце, а частоты (или частости) во втором столбце.

Выборочные данные могут рассматриваться как значения некоторой случайной величины Х. Случайная величина имеет свой закон распределения. Из теории вероятностей известно, что закон распределения дискретной случайной величины можно задать в виде ряда распределения, а непрерывной – с помощью функции плотности распределения. Однако существует универсальный закон распределения, который имеет место и для дискретной и для непрерывной случайных величин. Этот закон распределения задается в виде функции распределения F(x) = P(Xx). Для выборочных данных можно указать аналог функции распределения – эмпирическую функцию распределения.

Похожая информация.

Вариационный ряд – ряд, в котором сопоставлены (по степени возрастания или убывания) варианты и соответствующие им частоты

Варианты – отдельные количественные выражения признака. Обозначаются латинской буквой V. Классическое понимание термина «варианта» предполагает, что вариантой называется каждое уникальное значение признака, без учета количества повторов.

Например, в вариационном ряду показателей систолического артериального давления, измеренного у десяти пациентов:

110, 120, 120, 130, 130, 130, 140, 140, 160, 170;

вариантами являются только 6 значений:

110, 120, 130, 140, 160, 170.

Частота – число, показывающее, сколько раз повторяется варианта. Обозначается латинской буквой P. Сумма всех частот (которая, разумеется, равна числу всех исследуемых) обозначается как n.

для варианты 110 частота Р = 1 (значение 110 встречается у одного пациента),
для варианты 120 частота Р = 2 (значение 120 встречается у двух пациентов),
для варианты 130 частота Р = 3 (значение 130 встречается у трех пациентов),
для варианты 140 частота Р = 2 (значение 140 встречается у двух пациентов),
для варианты 160 частота Р = 1 (значение 160 встречается у одного пациента),
для варианты 170 частота Р = 1 (значение 170 встречается у одного пациента),

Виды вариационных рядов:

простой— это ряд, в котором каждая варианта встречается только по одному разу (все частоты при этом равны 1);
взвешенный— ряд, в котором одна или несколько вариант встречаются неоднократно.

Вариационный ряд служит для описания больших массивов чисел, именно в этой форме изначально представляются собранные данные большинства медицинских исследований. Для того, чтобы охарактеризовать вариационный ряд, рассчитываются специальные показатели, в том числе средние величины, показатели вариабельности (так называемой, дисперсии), показатели репрезентативности выборочных данных.

Содержание страницы

Показатели вариационного ряда

1) Средняя арифметическая — это обобщающий показатель, характеризующий размер изучаемого признака. Средняя арифметическая обозначается как M, представляет собой самый распространенный вид средней. Средняя арифметическая рассчитывается как отношение суммы значений показателей всех единиц наблюдения к числу всех исследуемых. Методика расчета средней арифметической различается для простого и взвешенного вариационного ряда.

Формула для расчета простой средней арифметической:

Формула для расчета взвешенной средней арифметической:

M = Σ(V * P)/ n

2) Мода – еще одна средняя величина вариационного ряда, соответствующая наиболее часто повторяющейся варианте. Или, если выразиться по другому, это варианта, которой соответствует наибольшая частота. Обозначается как Мо. Мода рассчитывается только для взвешенных рядов, так как в простых рядах ни одна из вариант не повторяется и все частоты равны единице.

Например, в вариационном ряду значений частоты сердечных сокращений:

80, 84, 84, 86, 86, 86, 90, 94;

значение моды составляет 86, так как данная варианта встречается 3 раза, следовательно ее частота — наибольшая.

3) Медиана – значение варианты, делящей вариационный ряд пополам: по обе стороны от нее находится равное число вариант. Медиана также, как и средняя арифметическая и мода, относится к средним величинам. Обозначается как Me

4) Среднее квадратическое отклонение (синонимы: стандартное отклонение, сигмальное отклонение, сигма)— мера вариабельности вариационного ряда. Является интегральным показателем, объединяющим все случаи отклонения вариант от средней. Фактически, отвечает на вопрос: насколько далеко и как часто варианты распространяются от средней арифметической. Обозначается греческой буквой σ («сигма»).

При численности совокупности более 30 единиц, стандартное отклонение рассчитывается по следующей формуле:

Для малых совокупностей — 30 единиц наблюдения и менее — стандартное отклонение рассчитывается по другой формуле:

Практическоезанятие 1

ВАРИАЦИОННЫЕРЯДЫ РАСПРЕДЕЛЕНИЯ

Вариационнымрядомилирядомраспределенияназываютупорядоченноераспределение единиц совокупности повозрастающим (чаще) или по убывающим(реже) значениям признака и подсчетчисла единиц с тем или иным значениемпризнака.

Существует 3 видаряда распределения:

1) ранжированныйряд – этоперечень отдельных единиц совокупностив порядке возрастания изучаемогопризнака; если численность единицсовокупности достаточно великаранжированный ряд становится громоздким,и в таких случаях ряд распределениястроится с помощью группировки единицсовокупности по значениям изучаемогопризнака (если признак принимаетнебольшое число значений, то строитсядискретный ряд, а в противном случае –интервальный ряд);

2) дискретныйряд – этотаблица, состоящая из двух столбцов(строк) – конкретных значений варьирующегопризнака X iи числа единиц совокупности с даннымзначением признака f i– частот; число групп в дискретном рядуопределяется числом реально существующихзначений варьирующего признака;

3) интервальныйряд – этотаблица, состоящая из двух столбцов(строк) – интервалов варьирующегопризнака X iи числа единиц совокупности, попадающихв данный интервал (частот), или долейэтого числа в общей численностисовокупностей (частостей).

Числа,показывающие, сколько раз отдельныеварианты встречаются в данной совокупности,называются частотамииливесамиварианти обозначаются строчной буквой латинскогоалфавита f.Общаясумма частот вариационного ряда равнаобъему данной совокупности, т. е.

где k– число групп, n– общее число наблюдений, или объемсовокупности.

Частоты(веса) выражают не только абсолютными,но и относительными числами – в доляхединицы или в процентах от общейчисленности вариант, составляющихданную совокупность. В таких случаяхвеса называют относительнымичастотамииличастостями.Общаясумма частностей равна единице

или,

есличастоты выражены в процентах отобщего числа наблюдений п.Заменачастот частостями не обязательна, ноиногда оказывается полезной и даженеобходимой в тех случаях, когдаприходится сопоставлять друг с другомвариационные ряды, сильно отличающиесяпо их объемам.

Взависимости от того, как варьируетпризнак – дискретно или непрерывно, вшироком или узком диапазоне, –статистическая совокупностьраспределяется в безынтервальныйилиинтервальныйвариационныеряды. В первом случае частоты относятсянепосредственно к ранжированнымзначениям признака, которые приобретаютположение отдельных групп или классоввариационного ряда, во втором –подсчитывают частоты, относящиеся котдельным промежуткам или интервалам(от – до), на которые разбивается общаявариация признака в пределах отминимальной до максимальной вариантыданной совокупности. Эти промежутки,или классовые интервалы, могут бытьравными и не равными по ширине. Отсюдаразличают равно-и неравноинтервальные вариационныеряды.Внеравноинтервальных рядах характерраспределения частот меняется помере изменения ширины классовыхинтервалов. Неравноинтервальнуюгруппировку в биологии применяютсравнительно редко. Как правило,биометрические данные распределяютсяв равноинтервальные ряды, что позволяетне только выявлять закономерностьварьирования, но и облегчает вычислениесводных числовых характеристиквариационного ряда, сопоставлениерядов распределения друг с другом.

Приступаяк построению равноинтервальноговариационного ряда, важно правильнонаметить ширину классового интервала.Дело в том, что грубая группировка (когдаустанавливают очень широкие классовыеинтервалы) искажает типичные чертыварьирования и ведет к снижениюточности числовых характеристик ряда.При выборе чрезмерно узких интерваловточность обобщающих числовых характеристикповышается, но ряд получается слишкомрастянутым и не дает четкой картиныварьирования.

Дляполучения хорошо обозримого вариационного ряда иобеспечениядостаточной точности вычисляемых понему числовых характеристик следуетразбить вариацию признака (в пределахот минимальной до максимальной варианты)на такое число групп или классов, котороеудовлетворяло бы обоим требованиям.Эту задачу решают делением размахаварьирования признака на число группили классов, намечаемых при построениивариационного ряда:

где h– величина интервала; X м a xи X min– максимальноеи минимальное значения в совокупности;k– число групп.

При построенииинтервального ряда распределениянеобходимо выбирать оптимальное числогрупп (интервалов признака) и установливатьдлину (размах) интервала. Поскольку прианализе ряда распределения сравниваютчастоты в разных интервалах, необходимо,чтобы длина интервалов была постоянной.Если приходится иметь дело с интервальнымрядом распределения с неравнымиинтервалами, то для сопоставимостинужно частоты или частости привести кединице интервала, полученное значениеназывается плотностью ρ,то есть .

Оптимальное числогрупп выбирается так, чтобы достаточноймере отразилось разнообразие значенийпризнака в совокупности и в то же времязакономерность распределении, его формане искажалась случайными колебаниямичастот. Если групп будет слишком мало,не проявится закономерность вариации;если групп будет чрезмерно много,случайные скачки частот исказят формураспределения.

Чаще всего числогрупп в ряду распределения определяютпо формуле Стерждесса:

где n– численность совокупности.

Существеннуюпомощь в анализе ряда распределения иего свойств оказывает графическоеизображение. Интервальный ряд изображаетсястолбиковой диаграммой, в которойоснования столбиков, расположенные пооси абсцисс, – это интервалы значенийварьирующего признака, а высоты столбиков– частоты, соответствующие масштабупо оси ординат. Диаграмма такого типаназывается гистограммой.

Если имеетсядискретный ряд распределения илииспользуются середины интервалов, тографическое изображение такого ряданазывается полигоном,которое получается соединением прямымиточек с координатами X iи f i .

Еслипо оси абсцисс откладывать значенияклассов, а по оси ординат – накопленныечастоты с последующим соединениемточек прямыми линиями, получаетсяграфик, называемый кумулятой.Накопленные частоты находятпоследовательным суммированием, иликумуляциейчастот в направлении от первого классадо конца вариационного ряда.

Пример.Имеютсяданные о яйценоскости 50 кур-несушек за1 год, содержащихся на птицеферме(табл. 1.1).

Т а б л и ц а 1.1

Яйценоскостькур-несушек

№ курицы-несушки

Яйценоскость, шт.

№ курицы-несушки

Яйценоскость, шт.

№ курицы-несушки

Яйценоскость, шт.

№ курицы-несушки

Яйценоскость, шт.

№ курицы-несушки

Яйценоскость, шт.

Требуетсяпостроить интервальный ряд распределенияи отобразить его графически в видегистограммы, полигона и кумуляты.

Видно,что признак варьирует от 212 до 245 яиц,полученных от несушки за 1 год.

Внашем примере по формуле Стерждесса определим число групп:

k= 1 + 3,322lg50= 6,643≈ 7.

Рассчитаем длину(размах) интервала по формуле:

Построиминтервальный ряд с 7 группами и интервалом5 шт. яиц (табл. 1.2). Для построения графиковв таблице рассчитаем середину интервалови накопленную частоту.

Т а б л и ц а 1.2

Интервальныйряд распределения яйценоскости

Группа кур-несушек по величине яйценоскости

X i

Число кур-несушек

f i

Середина интервала

Х i ’

Накопленная частота

f i ’

Построим гистограммураспределения яйценоскости (рис. 1.1).

Р и с. 1.1. Гистограммараспределения яйценоскости

Данные гистограммыпоказывают характерную для многихпризнаков форму распределения: чащевстречаются значения средних интерваловпризнака, реже – крайние (малые и большие)значения признака. Форма этогораспределения близка к нормальномузакону распределения, которое образуется,если на варьирующую переменную влияетбольшое число факторов, ни один изкоторых не имеет преобладающего значения.

Полигон и кумулятараспределения яйценоскости имеют вид(рис. 1.2 и 1.3).

Р и с. 1.2. Полигонраспределения яйценоскости

Р и с. 1.3. Кумулятараспределения яйценоскости

Технология решениязадачи втабличномпроцессоре MicrosoftExcel следующая.

1.Введитеисходные данные в соответствии с рис.1.4.

2.Ранжируйте ряд.

2.1.Выделите ячейки А2:А51.

2.2.Щелкните левой кнопкой мыши на панелиинструментов на кнопке .

3.Определите величину интервала дляпостроения интервальногоряд распределения.

3.1.Скопируйте ячейку А2 в ячейку Е53.

3.2.Скопируйте ячейку А51 в ячейку Е54.

3.3.Рассчитайте размах вариации. Для этоговведите в ячейку Е55 формулу =E54-E53.

3.4.Рассчитайте число групп вариации. Дляэтого введите в ячейку Е56 формулу=1+3,322*LOG10(50).

3.5.Введите в ячейку Е57 округленное числогрупп.

3.6.Рассчитайте длину интервала. Для этоговведите в ячейку Е58 формулу =E55/E57.

3.7.Введите в ячейку Е59 округленную длинуинтервала.

4.Постройте интервальный ряд.

4.1.Скопируйте ячейку Е53 в ячейку В64.

4.2.Введите в ячейку В65 формулу =B64+$E$59.

4.3.Скопируйте ячейку В65 в ячейки В66:В70.

4.4.Введите в ячейку С64 формулу =B65.

4.5.Введите в ячейку С65 формулу =C64+$E$59.

4.6.Скопируйте ячейку С65 в ячейки С66:С70.

Результаты решениявыводятся на экран дисплея в следующемвиде (рис. 1.5).

5.Рассчитайте частоту интервалов.

5.1.Выполните командуСервис,Анализ данных,щелкнув поочередно левой кнопкой мыши.

5.2.Вдиалоговом окне Анализданныхс помощью левой кнопки мыши установите:Инструменты анализа  (рис. 1.6).

5.3.Щелкните левойкнопкой мыши на кнопке .

5.4.На вкладке Гистограммаустановите параметры в соответствии срис. 1.7.

5.5.Щелкните левой кнопкой мыши на кнопке.

Результаты решениявыводятся на экран дисплея в следующемвиде (рис. 1.8).

6.Заполните таблицу «Интервальный рядраспределения».

6.1.Скопируйте ячейки В74:В80 в ячейки D64:D70.

6.2.Рассчитайте сумму частот. Для этоговыделите ячейки D64:D70и щелкните левой кнопкой мыши на панелиинструментов на кнопке .

6.3.Рассчитайте середину интервалов. Дляэтого введете в ячейку Е64 формулу=(B64+C64)/2и скопируйте в ячейки Е65:Е70.

6.4.Рассчитайте накопленные частоты. Дляэтого скопируйте ячейку D64в ячейку F64.В ячейку F65введите формулу =F64+D65 и скопируйте вячейки F66:F70.

Результаты решениявыводятся на экран дисплея в следующемвиде (рис. 1.9).

7.Отредактируйте гистограмму.

7.1.Щелкните правой кнопкоймыши на диаграмме на названии «карман»и на появившейся вкладке нажмите кнопку.

7.2.Щелкните правой кнопкоймыши на диаграмме и на появившейсявкладке нажмите кнопку .

7.3.Вдиалоговом окне Исходныеданныеизмените подписи оси Х. Для этого выделитеячейки В64:С70 (рис. 1.10).

7.5.Нажмитеклавишу .

Результаты выводятсяна экран дисплея в следующем виде (рис.1.11).

8.Постройте полигон распределенияяйценоскости.

8.1.Щелкните левой кнопкой мыши на панелиинструментов на кнопке .

8.2.Вдиалоговом окне Мастердиаграмм (шаг 1 из 4)с помощью левой кнопки мыши установите:Стандартные  (рис. 1.12).

8.3.Щелкните левойкнопкой мыши на кнопке .

8.4.В диалоговом окне Мастердиаграмм (шаг 2 из 4)установите параметры в соответствии срис. 1.13.

8.5.Щелкните левой кнопкой мыши на кнопке.

8.6.Вдиалоговом окне Мастердиаграмм (шаг 3 из 4)введите названия диаграммы и ос Y(рис. 1.14).

8.7.Щелкните левой кнопкой мыши на кнопке.

8.8.Вдиалоговом окне Мастердиаграмм (шаг 4 из 4)установите параметры в соответствии срис. 1.15.

8.9.Щелкните левой кнопкой мыши на кнопке.

Результаты выводятсяна экран дисплея в следующем виде (рис.1.16).

9.Вставьте на графике подписи данных.

9.1.Щелкните правой кнопкоймыши на диаграмме и на появившейсявкладке нажмите кнопку .

9.2.Вдиалоговом окне Исходныеданныеизмените подписи оси Х. Для этого выделитеячейки Е64:Е70 (рис. 1.17).

9.3.Нажмитеклавишу .

Результаты выводятсяна экран дисплея в следующем виде (рис.1.18).

Кумулята распределениястроится аналогично полигону распределенияна основе накопленных частот.

В результате освоения дайной главы студент должен: знать

показатели вариации и их взаимосвязь;
основные законы распределения признаков;
сущность критериев согласия; уметь
рассчитывать показатели вариации и критерии согласия;
определять характеристики распределений;
оценивать основные числовые характеристики статистических рядов распределения;

владеть

методами статистического анализа рядов распределения;
основами дисперсионного анализа;
приемами проверки статистических рядов распределения на соответствие основным законам распределения.

Показатели вариации

При статистическом исследовании признаков различных статистических совокупностей большой интерес представляет изучение вариации признака отдельных статистических единиц совокупности, а также характера распределения единиц по данному признаку. Вариация — это различия индивидуальных значений признака у единиц изучаемой совокупности. Исследование вариации имеет большое практическое значение. По степени вариации можно судить о границах вариации признака, однородности совокупности по данному признаку, типичности средней, взаимосвязи факторов, определяющих вариацию. Показатели вариации используются для характеристики и упорядочения статистических совокупностей.

Результаты сводки и группировки материалов статистического наблюдения, оформленные в виде статистических рядов распределения, представляют собой упорядоченное распределение единиц изучаемой совокупности на группы по группировочному (варьирующему) признаку. Если за основу группировки взят качественный признак, то такой ряд распределения называют атрибутивным (распределение по профессии, по полу, по цвету и т.д.). Если ряд распределения построен по количественному признаку, то такой ряд называют вариационным (распределение по росту, весу, по размеру заработной платы и т.д.). Построить вариационный ряд — значит упорядочить количественное распределение единиц совокупности по значениям признака, подсчитать число единиц совокупности с этими значениями (частоту), результаты оформить в таблицу.

Вместо частоты варианта возможно применение ее отношения к общему объему наблюдений, которое называется частостью (относительной частотой).

Выделяют два вида вариационного ряда: дискретный и интервальный. Дискретный ряд— это такой вариационный ряд, в основу построения которого положены признаки с прерывным изменением (дискретные признаки). К последним можно отнести число работников на предприятии, тарифный разряд, количество детей в семье и т.д. Дискретный вариационный ряд представляет таблицу, которая состоит из двух граф. В первой графе указывается конкретное значение признака, а во второй — число единиц совокупности с определенным значением признака. Если признак имеет непрерывное изменение (размер дохода, стаж работы, стоимость основных фондов предприятия и т.д., которые в определенных границах могут принимать любые значения), то для этого признака возможно построение интервального вариационного ряда. Таблица при построении интервального вариационного ряда также имеет две графы. В первой указывается значение признака в интервале «от — до» (варианты), во второй — число единиц, входящих в интервал (частота). Частота (частота повторения) — число повторений отдельного варианта значений признака. Интервалы могут быть закрытые и открытые. Закрытые интервалы ограничены с обеих сторон, т.е. имеют границу как нижнюю («от»), так и верхнюю («до»). Открытые интервалы имеют какую-либо одну границу: либо верхнюю, либо нижнюю. Если варианты расположены по возрастанию или убыванию, то ряды называются ранжированными.

Для вариационных рядов существует два типа вариантов частотных характеристик: накопленная частота и накопленная частость. Накопленная частота показывает, в скольких наблюдениях величина признака приняла значения меньше заданного. Накопленная частота определяется путем суммирования значений частоты признака по данной группе со всеми частотами предшествующих групп. Накопленная частость характеризует удельный вес единиц наблюдения, у которых значения признака не превосходят верхнюю границу дайной группы. Таким образом, накопленная частость показывает удельный вес вариант в совокупности, имеющих значение не больше данного. Частота, частость, абсолютная и относительная плотности, накопленные частота и частость являются характеристиками величины варианта.

Вариации признака статистических единиц совокупности, а также характер распределения изучаются с помощью показателей и характеристик вариационного ряда, к числу которых относятся средний уровень ряда, среднее линейное отклонение, среднее квадратическое отклонение, дисперсия, коэффициенты осцилляции, вариации, асимметрии, эксцесса и др.

Для характеристики центра распределения применяются средние величины. Средняя представляет собой обобщающую статистическую характеристику, в которой получает количественное выражение типичный уровень признака, которым обладают члены изучаемой совокупности. Однако возможны случаи совпадения средних арифметических при разном характере распределения, поэтому в качестве статистических характеристик вариационных рядов рассчитываются так называемые структурные средние — мода, медиана, а также квантили, которые делят ряд распределения на равные части (квартили, децили, перцентили и т.д.).

Мода — это значение признака, которое встречается в ряду распределения чаще, чем другие его значения. Для дискретных рядов — это варианта, имеющая наибольшую частоту. В интервальных вариационных рядах с целью определения моды необходимо определить прежде всего интервал, в котором она находится, так называемый модальный интервал. В вариационном ряду с равными интервалами модальный интервал определяется по наибольшей частоте, в рядах с неравными интервалами — но наибольшей плотности распределения. Затем для определения моды в рядах с равными интервалами применяют формулу

где Мо — значение моды; х Мо — нижняя граница модального интервала; h — ширина модального интервала; / Мо — частота модального интервала; / Mo j — частота домодального интер- вала; / Мо+1 — частота послемодального интервала, а для ряда с неравными интервалами в данной формуле расчета вместо частот / Мо, / Мо, / Мо следует использовать плотности распределения Ум 0 _| , Ум 0> УМо+»

Если имеется единственная мода, то распределение вероятностей случайной величины называется унимодальным; если имеется более чем одна мода, оно называется многомодальным (полимодальным, мультимодальным), в случае двух мод — бимодальным. Как правило, многомодальность указывает, что исследуемое распределение не подчиняется закону нормального распределения. Для однородных совокупностей, как правило, характерны одновершинные распределения. Многовершинность свидетельствует также о неоднородности изучаемой совокупности. Появление двух и более вершин делает необходимой перегруппировку данных с целью выделения более однородных групп.

В интервальном вариационном ряду моду можно определить графически с помощью гистограммы. Для этого из верхних точек самого высокого столбца гистограммы до верхних точек двух смежных столбцов проводят две пересекающиеся линии. Затем из точки их пересечения опускают перпендикуляр на ось абсцисс. Значение признака на оси абсцисс, соответствующее перпендикуляру, является модой. Во многих случаях при характеристике совокупности в качестве обобщенного показателя отдается предпочтение моде, а не средней арифметической.

Медиана — это центральное значение признака, им обладает центральный член ранжированного ряда распределения. В дискретных рядах, чтобы найти значение медианы, сначала определяется ее порядковый номер. Для этого при нечетном числе единиц к сумме всех частот прибавляется единица, число делится на два. При четном числе единиц в ряду будет две медианные единицы, поэтому в этом случае медиана определяется как средняя из значений двух медианных единиц. Таким образом, медианой в дискретном вариационном ряду является значение, которое делит ряд на две части, содержащие одинаковое число вариантов.

В интервальных рядах после определения порядкового номера медианы отыскивается медиальный интервал по накопленным частотам (частостям), а затем при помощи формулы расчета медианы определяется значение самой медианы:

где Me — значение медианы; х Ме — нижняя граница медианного интервала; h — ширина медианного интервала; — сумма частот ряда распределения; /Д — накопленная частота домедианного интервала; / Ме — частота медианного интервала.

Медиану можно отыскать графически с помощью куму- ляты. Для этого на шкале накопленных частот (частостей) кумуляты из точки, соответствующей порядковому номеру медианы, проводится прямая, параллельная оси абсцисс, до пересечения с кумулятой. Далее из точки пересечения указанной прямой с кумулятой опускается перпендикуляр на ось абсцисс. Значение признака на оси абсцисс, соответствующее проведенной ординате (перпендикуляру), является медианой.

Медиана характеризуется следующими свойствами.

1. Она не зависит от тех значений признака, которые расположены по обе стороны от нее.
2. Она имеет свойство минимальности, которое заключается в том, что сумма абсолютных отклонений значений признака от медианы представляет собой минимальную величину по сравнению с отклонением значений признака от любой другой величины.
3. При объединении двух распределений с известными медианами невозможно заранее предсказать величину медианы нового распределения.

Эти свойства медианы широко используются при проектировании расположения пунктов массового обслуживания — школ, поликлиник, автозаправочных станций, водозаборных колонок и т.д. Например, если в определенном квартале города предполагается построить поликлинику, то расположить ее целесообразнее в такой точке квартала, которая делит пополам не длину квартала, а число жителей.

Соотношение моды, медианы и средней арифметической указывает на характер распределения признака в совокупности, позволяет оценить симметричность распределения. Если х Me то имеет место правосторонняя асимметрия ряда. При нормальном распределении х — Me — Мо.

К. Пирсон на основе выравнивания различных типов кривых определил, что для умеренно асимметричных распределений справедливы такие приближенные соотношения между средней арифметической, медианой и модой:

где Me — значение медианы; Мо — значение моды; х арифм — значение средней арифметической.

Если возникает необходимость изучить структуру вариационного ряда более подробно, то вычисляют значения признака, аналогичные медиане. Такие значения признака делят все единицы распределения на равные численности, их называют квантилями или градиентами. Квантили подразделяются на квартили, децили, перцентили и т.п.

Квартили делят совокупность на четыре равные части. Первую квартиль вычисляют аналогично медиане по формуле расчета первой квартили, предварительно определив первый квартальный интервал:

где Qi — значение первой квартили; x Q ^ — нижняя граница первого квартильного интервала; h — ширина первого квартального интервала; /, — частоты интервального ряда;

Накопленная частота в интервале, предшествующем первому квартильиому интервалу; Jq { — частота первого квартильного интервала.

Первая квартиль показывает, что 25% единиц совокупности меньше ее значения, а 75% — больше. Вторая квартиль равна медиане, т.е. Q 2 = Me.

По аналогии рассчитывают третью квартиль, предварительно отыскав третий квартальный интервал:

где — нижняя граница третьего квартильного интервала; h — ширина третьего квартильного интервала; /, — частоты интервального ряда; /X» — накопленная частота в интервале, предшествующем

третьему квартильиому интервалу; Jq — частота третьего квартильного интервала.

Третья квартиль показывает, что 75% единиц совокупности меньше ее значения, а 25% — больше.

Разность между третьей и первой квартилями представляет собой межквартильный интервал:

где Aq — значение межквартильного интервала; Q 3 — значение третьей квартили; Q, — значение первой квартили.

Децили делят совокупность на 10 равных частей. Дециль — это такое значение признака в ряду распределения, которому соответствуют десятые доли численности совокупности. По аналогии с квартилями первый дециль показывает, что 10% единиц совокупности меньше его значения, а 90% — больше, а девятый дециль выявляет, что 90% единиц совокупности меньше его значения, а 10% — больше. Соотношение девятого и первого децилей, т.е. децильный коэффициент, широко применяется при изучении дифференциации доходов для измерения соотношения уровней доходов 10% наиболее обеспеченного и 10% наименее обеспеченного населения. Перцентили делят ранжированную совокупность на 100 равных частей. Расчет, значение и применение перцентилей аналогичны децилям.

Квартили, децили и другие структурные характеристики можно определить графически по аналогии с медианой с помощью кумуляты.

Для измерения размера вариации используются следующие показатели: размах вариации, среднее линейное отклонение, среднее квадратическое отклонение, дисперсия. Величина размаха вариации целиком зависит от случайности распределения крайних членов ряда. Этот показатель представляет интерес в тех случаях, когда важно знать, какова амплитуда колебаний значений признака:

где R — значение размаха вариации; х тах — максимальное значение признака; х тт — минимальное значение признака.

При расчете размаха вариации значение подавляющего большинства членов ряда не учитывается, в то время как вариация связана с каждым значением члена ряда. Этого недостатка лишены показатели, представляющие собой средние, полученные из отклонений индивидуальных значений признака от их средней величины: среднее линейное отклонение и среднее квадратическое отклонение. Между индивидуальными отклонениями от средней и колеблемостью конкретного признака существует прямая зависимость. Чем сильнее колеблемость, тем больше абсолютные размеры отклонений от средней.

Среднее линейное отклонение представляет собой среднюю арифметическую из абсолютных величин отклонений отдельных вариантов от их средней величины.

Среднее линейное отклонение для несгруппированных данных

где / пр — значение среднего линейного отклонения; х,- — значение признака; х — п — число единиц совокупности.

Среднее линейное отклонение сгруппированного ряда

где / вз — значение среднего линейного отклонения; х, — значение признака; х — среднее значение признака для изучаемой совокупности; / — число единиц совокупности в отдельной группе.

Знаки отклонений в данном случае игнорируются, в противном случае сумма всех отклонений будет равна нулю. Среднее линейное отклонение в зависимости от группировки анализируемых данных рассчитывается по различным формулам: для сгруппированных и несгруниированных данных. Среднее линейное отклонение в силу его условности отдельно от других показателей вариации применяется на практике сравнительно редко (в частности, для характеристики выполнения договорных обязательств по равномерности поставки; в анализе оборота внешней торговли, состава работающих, ритмичности производства, качества продукции с учетом технологических особенностей производства и т.п.).

Среднее квадратическое отклонение характеризует, на сколько в среднем отклоняются индивидуальные значения изучаемого признака от среднего значения по совокупности, и выражается в единицах измерения изучаемого признака. Среднее квадратическое отклонение, являясь одной из основных мер вариации, широко используется при оценке границ вариации признака в однородной совокупности, при определении значений ординат кривой нормального распределения, а также в расчетах, связанных с организацией выборочного наблюдения и установлением точности выборочных характеристик. Среднее квадратическое отклонение но несгруипированным данным исчисляется по следующему алгоритму: каждое отклонение от средней возводится в квадрат, все квадраты суммируются, после чего сумма квадратов делится на число членов ряда и из частного извлекается квадратный корень:

где a Iip — значение среднего квадратического отклонения; Xj — значение признака; х — среднее значение признака для изучаемой совокупности; п — число единиц совокупности.

Для сгруппированных анализируемых данных среднее квадратическое отклонение данных рассчитывается по взвешенной формуле

где — значение среднего квадратического отклонения; Xj — значение признака; х — среднее значение признака для изучаемой совокупности; f x — число единиц совокупности в отдельной группе.

Выражение под корнем в обоих случаях носит название дисперсии. Таким образом, дисперсия вычисляется как средний квадрат отклонений значений признака от их средней величины. Для невзвешенных (простых) значений признака дисперсия определяется следующим образом:

Для взвешенных значений признака

Существует также специальный упрощенный способ расчета дисперсии: в общем виде

для невзвешенных (простых) значений признака для взвешенных значений признака с использованием метода отсчета от условного нуля

где а 2 — значение дисперсии; х,- — значение признака; х —среднее значение признака, h — величина группового интервала, т 1 — веса (А =

Дисперсия имеет самостоятельное выражение в статистике и относится к числу важнейших показателей вариации. Она измеряется в единицах, соответствующих квадрату единиц измерения изучаемого признака.

Дисперсия имеет следующие свойства.

1. Дисперсия постоянной величины равна нулю.
2. Уменьшение всех значений признака на одну и ту же величину Л не меняет величины дисперсии. Это означает, что средний квадрат отклонений можно вычислить не по заданным значениям признака, а по отклонениям их от какого-то постоянного числа.
3. Уменьшение веех значений признака в k раз уменьшает дисперсию в k 2 раз, а среднее квадратическое отклонение — в k раз, т.е. все значения признака можно разделить на какое-то постоянное число (скажем, на величину интервала ряда), исчислить среднее квадратическое отклонение, а затем умножить его на постоянное число.
4. Если исчислить средний квадрат отклонений от любой величины А у в той или иной степени отличающейся от средней арифметической, то он всегда будет больше среднего квадрата отклонений, исчисленного от средней арифметической. Средний квадрат отклонений при этом будет больше на вполне определенную величину — на квадрат разности средней и этой условно взятой величины.

Вариация альтернативного признака заключается в наличии или отсутствии изучаемого свойства у единиц совокупности. Количественно вариация альтернативного признака выражается двумя значениями: наличие у единицы изучаемого свойства обозначается единицей (1), а его отсутствие — нулем (0). Долю единиц, обладающих изучаемым свойством, обозначают через Р, а долю единиц, не обладающих этим свойством, — через G. Таким образом, дисперсия альтернативного признака равна произведению доли единиц, обладающих данным свойством (Р), на долю единиц, данным свойством не обладающих (G). Наибольшая вариация совокупности достигается в случаях, когда часть совокупности, составляющая 50% от всего объема совокупности, обладает признаком, а другая часть совокупности, также равная 50%, не обладает данным признаком, при этом дисперсия достигает максимального значения, равного 0,25, т.е. Р = 0,5, G = 1 — Р = 1 — 0,5 = 0,5 и о 2 = 0,5 0,5 = 0,25. Нижняя граница этого показателя равна нулю, что соответствует ситуации, при которой в совокупности отсутствует вариация. Практическое применение дисперсии альтернативного признака состоит в построении доверительных интервалов при проведении выборочного наблюдения.

Чем меньше значение дисперсии и среднего квадратического отклонения, тем однороднее совокупность и тем более типичной будет средняя величина. В практике статистики часто возникает необходимость сравнения вариаций различных признаков. Например, интересным является сравнение вариаций возраста рабочих и их квалификации, стажа работы и размера заработной платы, себестоимости и прибыли, стажа работы и производительности труда и т.д. Для таких сопоставлений показатели абсолютной колеблемости признаков непригодны: нельзя сравнивать колеблемость стажа работы, выраженного в годах, с вариацией заработной платы, выраженной в рублях. Для осуществления таких сравнений, а также сравнений колеблемости одного и того же признака в нескольких совокупностях с разными средними арифметическими используются показатели вариации — коэффициент осцилляции, линейный коэффициент вариации и коэффициент вариации, которые показывают меру колебаний крайних значений вокруг средней.

Коэффициент осцилляции:

где V R — значение коэффициента осцилляции; R — значение размаха вариации; х —

Линейный коэффициент вариации».

где Vj — значение линейного коэффициента вариации; I —значение среднего линейного отклонения; х — среднее значение признака для изучаемой совокупности.

Коэффициент вариации:

где V a — значение коэффициента вариации; а — значение среднего квадратического отклонения; х — среднее значение признака для изучаемой совокупности.

Коэффициент осцилляции — это процентное отношение размаха вариации к среднему значению изучаемого признака, а линейный коэффициент вариации — это отношение среднего линейного отклонения к среднему значению изучаемого признака, выраженное в процентах. Коэффициент вариации представляет собой процентное отношение среднего квадратического отклонения к среднему значению изучаемого признака. Как величина относительная, выраженная в процентах, коэффициент вариации применяется для сравнения степени вариации различных признаков. С помощью коэффициента вариации оценивается однородность статистической совокупности. Если коэффициент вариации меньше 33%, то исследуемая совокупность является однородной, а вариация слабой. Если коэффициент вариации больше 33%, то исследуемая совокупность является неоднородной, вариация сильной, а средняя величина — нетипичной и ее нельзя использовать как обобщающий показатель этой совокупности. Кроме того, коэффициенты вариации используются для сравнения колеблемости одного признака в различных совокупностях. Например, для оценки вариации стажа работы работников на двух предприятиях. Чем больше значение коэффициента, тем вариация признака существеннее.

На основе рассчитанных квартилей имеется возможность рассчитать также относительный показатель квартальной вариации по формуле

где Q2 и

Межквартильный размах определяется по формуле

Квартильное отклонение применяется вместо размаха вариации, чтобы избежать недостатков, связанных с использованием крайних значений:

Для неравноинтервальпых вариационных рядов рассчитывается также плотность распределения. Она определяется как частное от деления соответствующей частоты или частости на величину интервала. В неравноинтервальных рядах используются абсолютная и относительная плотности распределения. Абсолютная плотность распределения — это частота, приходящаяся на единицу длины интервала. Относительная плотность распределения — частость, приходящаяся на единицу длины интервала.

Все вышеотмеченное справедливо для рядов распределения, закон распределения которых хорошо описывается нормальным законом распределения или близок к нему.

Статистические ряды распределения представляют собой простейший вид группировки.

Статистический ряд распределения— это упорядоченное количественное распределение единиц совокупности на однородные группы по варьирующему (атрибутивному или количественному) признаку.

В зависимости от признака,положенного в основу образования групп, различают атрибутивные и вариационные ряды распределения.

Атрибутивныминазывают ряды распределения, построенные по качественным признакам, т.е. признакам, не имеющим числового выражения. Примером атрибутивного ряда распределения является распределение экономически активного населения РФ по полу в 2010 г. (табл. 3.10).

Таблица 3.10.Распределение экономически активного населения РФ по полу в 2010 г.

Вариационныминазываются ряды распределения, построенные по количественному признаку, т.е. признаку, имеющему числовое выражение.

Вариационный ряд распределения состоит из двух элементов: вариантов и частот.

Вариантаминазывают отдельные значения признака, которые он принимает в вариационном ряду.

Частотамиявляются численности отдельных вариантов или каждой группы вариационного ряда. Частоты показывают, как часто встречаются те или иные значения признака в изучаемой совокупности. Сумма всех частот определяет численность всей совокупности, ее объем.

Частостяминазывают частоты, выраженные в долях единицы или в процентах к итогу. Соответственно сумма частостей равна 1, или 100%.

В зависимости от характера вариации признакаразличают дискретные и интервальные вариационные ряды распределения.

Дискретный вариационный ряд распределения —это ряд распределения, в котором группы составлены по признаку, изменяющемуся прерывно, т.е. через определенное число единиц, и принимающему только целые значения. Например, распределение числа построенных квартир в Российской Федерации по числу комнат в них I! 2010 г. (табл. 3.11).

Таблица 3.11.Распределение числа построенных квартир в Российской Федерации по числу комнат в них в 2010 г.

Интервальный вариационный ряд распределения —это ряд распределения, в котором группировочный признак, составляющий основание группировки, может принимать в интервале любые значения, отличающиеся друг от друга на сколь угодно малую величину.

Построение интервальных вариационных рядов целесообразно прежде всего при непрерывной вариации признака (табл. 3.12), а также если дискретная вариация признака проявляется в широких пределах (табл. 3.13), т.е. число вариантов дискретного признака достаточно велико.

Таблица 3.12.Распределение субъектов Южного федерального округа РФ по площади территории на 1 января 2011 г.

Таблица 3.13.Распределение субъектов Центрального федерального округа РФ по числу муниципальных учреждений образования на 1 января 2011 г.

Правила построения рядов распределения аналогичны правилам построения группировки.

Анализ рядов распределения наглядно можно проводить на основе их графического изображения. Для этой цели строят полигон, гистограмму, распределения.

Полигониспользуют при изображении дискретных вариационных рядов распределения. Для его построения в прямоугольной системе координат по оси абсцисс в одинаковом масштабе откладывают ранжированные значения варьирующего признака, а по оси ординат наносят шкалу для выражения величины частот. Полученные на пересечении оси абсцисс (X)и оси ординат (У) точки соединяют прямыми линиями, в результате чего получают ломаную линию, называемую полигоном частот.

Гистограммуприменяют для изображения интервального вариационного ряда. При построении гистограммы на оси абсцисс откладывают величины интервалов, а частоты изображают прямоугольниками, построенными на соответствующих интервалах. Высота столбиков должна быть пропорциональна частотам.

Гистограмма может быть преобразована в полигон распределения, если середины верхних сторон прямоугольников соединить прямыми линиями.

При построении гистограммы распределения вариационного ряда с неравными интервалами по оси ординат наносят не частоты, а плотность распределения признака в соответствующих интервалах. Плотность распределения —это частота, рассчитанная на единицу ширины интервала,

т.е. сколько единиц в каждой группе приходится па единицу величины интервала.

Для графического изображения вариационных рядов распределения может использоваться кумулятивная кривая. С помощью кумулятыизображают ряд накопленных частот. Накопленные частоты определяют путем последовательного суммирования частот по группам.

При построении кумуляты интервального вариационного ряда по оси абсцисс (X)откладывают варианты ряда, а по оси ординат (У) накопленные частоты, которые наносят на поле графика в виде перпендикуляров к оси абсцисс в верхних границах интервалов. Затем эти перпендикуляры соединяют и получают ломаную линию, т.е. кумуляту.

Если при графическом изображении вариационного ряда распределения в виде кумуляты оси Xи У поменять местами, то получается огива.

Ряды распределения и группировки. Вариационные ряды и их виды

Отadmin

Показатели вариационного ряда

Показатели вариации

От admin

Похожая запись

Сушилки для рук в туалетах: гигиена, экономия и комфорт

Искусство релакса: как массажеры и кресла помогают восстановить силы

Как проходит профессиональная химчистка мягкой мебели

You missed

Велосипедная инфраструктура в жилых комплексах премиум-класса и её влияние на комфорт жизни

Как поддерживать велосипед в отличном состоянии: практические советы по обслуживанию

Звукоизоляционные и противопожарные двери для офисов

Модная обработка снимков: как превратить фото в произведение искусства