Щоб було легше зрозуміти статистику, необхідно пояснити деякі основні статистичні поняття.
Статистичний файл
Статистика має справу з явищами, які ми називаємо масові явища. Ми виділяємо два типи масових явищ. Один вид - це той, який зустрічається у великій кількості об’єктів - зріст, вага, колір очей, стать, вік, професія, кількість дітей тощо. Другий вид - це той, який є результатом великої кількості повторень, напр. багаторазове зважування предмета, багаторазові кидки кубиків, монет тощо. Ми називаємо об’єкти, які досліджує статистика статистичний файл - напр. сукупність людей, що проживають на певній території.
Основний статистичний файл сфера застосування N представляє сукупність усіх статистичних одиниць. Якщо немає можливості вивчити основний файл (за часом, з фінансових чи інших причин), ми створюємо з нього зразок файлу за наперед визначеними правилами. В ході опитування дані збираються лише для частини населення, т. Зв зразок. Потім ці дані використовуються для оцінки характеристик всієї сукупності. У цьому випадку слід забезпечити, щоб вибірка представляла відповідну сукупність. Наприклад, частка людей у віці до 18 років або частка жінок та чоловіків у вибраній вибірці домогосподарств повинна відображати реальність у загальній чисельності населення.
Ми повинні зробити виділення таким чином, щоб вибрані об’єкти мали властивість, якою володіє весь базовий файл. Ми називаємо це властивість статистичний знак (це може бути стать, професія, кількість дітей, вік, освіта тощо). Ми називаємо варіації, варіанти різних значень статистичного знака.
Статистичний знак
Статистичні символи можна розділити за різними аспектами. Основний поділ полягає на якісні та кількісні ознаки:
Якісні (категоріальні) особливості усно виражати властивість статистичної одиниці. Значення якісних символів зазвичай позначають цифрами, вони кодуються. Якісні ознаки ми поділяємо на:
- - іменні - імена символів, ми можемо називати їхні цінності, але не можемо класифікувати їх. Можна сказати, що вони різні або рівні (стать, колір очей, національність);
- - порядковий - послідовні символи, Ми можемо природним чином упорядкувати їх значення по порядку, але не можемо визначити, наскільки одне значення більше за інше (медаль - золото, срібло, бронза, звання в армії, якісне оцінювання учня - відмінно, дуже добре, добре, не вдалося, ми можемо виразити числову оцінку 1, 2, 3, 4).
Кількісні (кардинальні, числові) символи є дійсними числами, ми можемо сказати про їх значення, однакові чи різні, ми можемо розташувати їх по порядку, а також можемо визначити, наскільки одне значення більше іншого. Ці символи також мають нульове значення та одиницю виміру. Кількісні ознаки поділяються на:
- - дискретні символи - вони мають кінцеву, але злічену кількість варіацій, і всі варіації можуть бути пронумеровані натуральними числами 1, 2, 3, наприклад кількість дітей у сім'ї, кількість балів у тесті;
- - безперервнийсимволи - може мати різне числове значення від певного інтервалу (зріст тіла, дохід).
Інтервальні символи (диференціальні) - це ті, значення яких ми можемо розташувати по порядку, ми можемо визначити, наскільки одне значення більше іншого, і які різниці (інтервали) між значеннями, але ми не можемо визначити, у скільки разів одне значення більше ніж інший. Інтервальний символ не має природної нульової точки, але нульову точку можна визначити за домовленістю. Отже, значення інтервальних символів можна додавати або віднімати, але їх не можна множити і ділити. Вони можуть мати як позитивні, так і негативні значення, наприклад: знак "температура за Цельсієм" має узгоджений нуль - температуру плавлення льоду.
Пропорційні символи (пропорційні) - це особливі випадки інтервальних символів. Їх можна розташувати по порядку, і ми можемо визначити різницю між значеннями. Вони також мають природну нульову точку, абсолютну 0, що означає, що персонаж не існує. Їхні значення не можуть бути від’ємними, їх можна додавати, віднімати, множити та ділити. Наприклад, віковий символ має абсолютний нуль 0 років. 60-річний чоловік на 40 років старший за 20 років, і можна сказати, що він у 3 рази старший, ніж у свої двадцять.
Визначення значень статистичної ознаки в статистичному файлі називається статистичним опитуванням. При статистичній обробці даних ми часто замінюємо якісну ознаку кількісною.
(наприклад, якісна ознака статі: чоловіки = 1, жінки = 2).
Викликається символ, що має лише одне фіксоване значення постійний. Статистика в основному контролює символи, які мають принаймні дві або більше варіацій. Такий персонаж має ім’я змінна.
Статистична класифікація
Найкращий спосіб спростити та уточнити дані, отримані в результаті статистичних опитувань, - це організувати їх у певні групи - класи.
Метод упорядкування статистичних даних за певними групами (класами) за певною ознакою називається сортуванням.
класифікація = поділ статистичних одиниць на такі групи (класи), що характерні властивості досліджуваних явищ виділяються якнайкраще;
символ сортування = статистичний символ, який є критерієм сортування статистичного файлу;
клас = група статистичних одиниць з однаковим значенням (варіантом) символу.
Приклади сортування статистичних файлів:
- оцінюючи в школі, ми розрізняємо клас одиниць, клас парних, клас трійки, .
- класифікація осіб за досягнутим рівнем освіти - група з базовою освітою, група з середньою освітою, без GCSE, група з середньою освітою з GCSE.
Коли статистика має невелику кількість варіацій, кожна її варіація представляє окремий клас. Для подання таких даних використовується таблиця розподілу частот, яку також називають таблиця частот. Зазвичай мова йде про перший крок в обробці статистичних даних.
Розподіл частоти - таблиця частот
Таблиці частот використовуються для відображення даних, тобто чіткий спосіб упорядкування даних. Статистика класифікується за класами з певним числом і створюється розподіл частоти.
Таблиці частот містять інформацію:
- - на відстежувані значення символу та на частоту його появи у статистичному файлі (абсолютне число), число ni, вказує, скільки одиниць статистичного файлу належать до класу з певною властивістю або скільки одиниць файлу мають символьне значенняx i
- - про відносне представлення значень символів у файлі (відносна частота), = число vi, вказує, яка частина файлу належить до класу із заданою властивістю; визначається відношенням абсолютної чисельності ni та обсяг файлу n.
- - про включення індивідуального значення символу до загального розподілу частоти символу (кумулятивна частота)
Кількість віталень у домогосподарствах визначали з можливими результатами: 1, 2, 3, 4, 5+ (мається на увазі 5 і більше кімнат). У цьому опитуванні випадковим чином було обрано 25 респондентів, які проживали в квартирах із такою кількістю кімнат: 1, 3, 2, 4, 5+, 2, 3, 2, 5+, 1, 4, 2, 3, 3, 5+, 3, 3, 2, 4, 4, 2, 3, 4, 3, 2
Створіть таблицю розподілу частоти та відносної частоти. Спробуйте коротке тлумачення отриманих результатів, яке буде містити найчисленніше і найменш численні значення відстежуваного персонажа.
Рішення
Ми відмічаємо відстежуваного символа символом х (кількість житлових приміщень), яке може приймати значення x i (j = 1, 2, 3, 4, 5+). Позначаємо абсолютні числа ni, відносна достатність vj.
Таблиця: Абсолютна та відносна цифри відповідно до кількості віталень
Більшість людей проживають у домогосподарствах із трьома житловими кімнатами (32%), тоді як домогосподарства з однією вітальнею проживають у найменшій кількості людей (8%).
Середні значення
Ми знаємо дві основні групи числових характеристик для вивчення однієї статистичної ознаки:
характеристики позиції (центр) - висловити певний рівень характеру, навколо якого більш-менш зосереджені інші цінності персонажа;
характеристики мінливості - висловити, чим значення символу елементів множини відрізняються від обраної позиційної характеристики або між собою
Характеристики положення (рівні, центр) - числа, що характеризують т. зв "середнє значення" спостережуваної статистичної характеристики. Ми поділяємо їх на дві основні групи:
- середні - вони можуть бути простими або зваженими
(а) середнє арифметичне
б) геометричний діаметр
в) середня гармоніка
- інші середні значення - медіана, режим
Середнє арифметичне
Середньоарифметичне, загальноприйнятою мовою називається середній, - це сума значень групи чисел, поділена на кількість чисел у групі. Середнє значення можна розуміти як суму групи чисел в одне число.
Середнє арифметичне x̄ виражає обсяг значень X в середньому на одиницю файлу. Це визначається співвідношенням:
N - діапазон файлів,
x i - значення символу X на i-й одиниці.
Приклад
У групі у нас 9 чисел: 10, 12, 11, 15, 13, 35, 41, 23, 20. Сума цих 9 чисел дорівнює 180. Тоді сума 180 ділиться на число 9, щоб отримати середнє . В середньому 180/9 = 20.
Приклад
На основі статистичних звітів про народження та смертність та файлів про міграцію Статистичне управління Словацької Республіки готує річний баланс населення Словацької Республіки для всіх муніципалітетів.
Ми маємо середню (середню) кількість постійних мешканців в окремих регіонах Словацької Республіки станом на 31 грудня 2018 року (для кращої роботи з даними кількість жителів була округлена і подана в тисячах): Братиславський край 646, Трнавський край 562, Trenčín Region 588, Nitra Region 679, Zilina Region 691, Banská Bystrica Region 650, Prešov Region 823, Košice Region 798.
Обчисліть середнє арифметичне число жителів, які проживають в одному регіоні Словацької Республіки.
Рішення
Підставляємо дані у формулу середнього арифметичного. Не слід забувати, що ми будемо вставляти цифри в тисячах у формулу, тому отримана сукупність буде в тисячах.
x̄ = (646 + 562 + 588 + 679 + 691 + 650 + 823 + 798)/8 = 679 625 ≐ (приблизно) 680
Можна сказати, що в середньому в кожному регіоні Словацької Республіки проживає 680 тисяч жителів.
Середнє арифметичне (ілюстраційне відео може містити рекламу)
В офіційній статистиці це найпоширеніший тип середнього рівня середнє зважене, тому що рідко всі предмети мають однакове значення. За середньозваженим значенням кожен врахований предмет множиться на число (вагу), яке відображає відносну важливість товару, потім обчислюється результат, а потім ділиться на кількість предметів.
Середньозважене арифметичне x̄ ми використовуємо при роботі з відсортованим набором значень символів X. Для його обчислення використовуємо співвідношення:
N - діапазон файлів,
x i - значення символу X на i-й одиниці.
Середньозважене (ілюстративне відео на чеській мові може містити рекламу)
Геометричний діаметр (ілюстраційне відео може містити рекламу)
Режим
Mo є найпоширенішим значенням символу X, відповідно, у випадку відсортованого файлу, значення з найбільшим абсолютним достатком.
Приклад
Кількість віталень у домогосподарствах визначали з можливими результатами: 1, 2, 3, 4, 5+ (мається на увазі 5 і більше кімнат). Під час цього опитування випадковим чином було обрано 25 респондентів, кожен з яких проживав у квартирі з певною кількістю кімнат (перша жила в однокімнатній квартирі, друга - у трикімнатній квартирі: 1, 3, 2, 4, 5 +, 2, 3, 2, 5+, 1, 4, 2, 3, 3, 5+, 3, 3, 2, 4, 4, 2, 3, 4, 3, 2
Значення 3 є найпоширенішим у цьому прикладі, тобто режим є 3.
Mod (x) = 3, значення 3 є найпоширенішим, трапляється до 8 разів.
Медіана
Медіана Я - значення, яке ділить набір виявлених значень на 2 однаково численні групи, t. j. групи, перша з яких містить 50% статистичних одиниць, що мають значення символу X менше медіани, друга містить 50% решти статистичних одиниць, які мають значення більше медіани. Якщо ми відсортуємо всі значення символу за розміром у послідовність, що не зменшується (або не збільшується), то медіаною буде значення, яке знаходиться в середині розглянутої послідовності.
У випадку відсортованого файлу:
і - верхня межа класу, що передує медіаінтервалу,
N - діапазон файлів,
n1 - кількість усіх елементів нижче інтервалу середовища,
n2 - кількість елементів медіаінтервалу,
h - ширина класу.
Приклад
Розміри країв п’яти кубиків - 6, 8, 9, 10 та 11 (у см). Визначте медіанне значення:
(а) для їх поверхні,
(b) для обсягу цих кубиків.
Рішення
а) Спочатку обчислюємо поверхні (в см 2) окремих кубиків. Для заданих розмірів країв вони дорівнюють: 216, 384, 486, 600, 726.
Тепер можна визначити медіану:
Med (x) = x (n + 1)/2 = x6/2 = x3 = 486, оскільки n непарна.
б) Спочатку обчислюємо обсяги (в см 3) окремих кубиків. Для заданих розмірів ребер вони поступово дорівнюють: 216, 512, 729, 1000, 1331. Тепер можна визначити медіану:
Med (x) = x (n + 1)/2 = x6/2 = x3 = 729, оскільки n непарна.
Режим, медіана (ілюстраційне відео може містити рекламу)
Варіативність
Характеристики мінливості (мінливість, розсіювання) = цифри, що вказують на ступінь відхилення значень символу від обраного положення характеристики або одне від одного. До них належать:
- діапазон варіацій
- розсіювання
- стандартне відхилення
Діапазон варіацій vr є лише приблизною характеристикою мінливості значень спостережуваної ознаки. Вона визначається як різниця між найбільшим і найменшим значеннями кількісної ознаки, т. j. v r = хмакс - ххв .
Розсіювання
Розсіювання δ 2 являє собою середнє арифметичне квадратів відхилень від середнього x̄. Він визначається за формулою:
У випадку відсортованого файлу ми обчислюємо його відповідно до співвідношення:
N - діапазон файлів,
m - кількість класів у файлі,
nj - абсолютна достаток j-цього класу (j = 1, 2, . м),
xj - значення символу X, який представляє j-що клас.
Однією з важливих властивостей розсіювання є:
а) Дисперсія константи дорівнює нулю.
б) Якщо до всіх значень постійного символу додати, дисперсія не змінюється.
в) Якщо помножити всі значення символу на константу a, то дисперсія отриманих значень дорівнює добутку дисперсії вихідного набору і квадрату константи a .
Приклад
У магазині господарських товарів вони отримали партію 18 віників, тоді як мітли мали мати встановлену довжину 120 см. Однак вимірювання показали, що фактичні довжини такі:
117, 122, 125, 118, 119, 120, 122, 123, 116, 117, 121, 120, 123, 120, 119, 121, 124, 115.
Однозначно розсип віників.
Рішення
Спочатку обчислюємо середнє:
x̄ = (117 + 122 + 125 + 118 +. + 121 + 124 + 115)/18 = 2162/18 = 120.1
Підставляючи у формулу, ми обчислюємо дисперсію:
Отримана дисперсія становить 6,69.
Scatter (ілюстраційне відео може містити рекламу)
Вступ до дисперсії та стандартного відхилення (ілюстраційне відео може містити рекламу)
Стандартне (стандартне) відхилення δ визначається як δ = √δ 2 і вказує на те, як середні значення символу відхиляються від середнього арифметичного в даному наборі.
Стандартне відхилення (ілюстраційне відео може містити рекламу)