Rule of Sturges Explicație, aplicații și exemple



Sturges regulă este un criteriu utilizat pentru a determina numărul de clase sau intervale care sunt necesare pentru a reprezenta grafic un set de date statistice. Această regulă a fost enunțată în 1926 de matematicianul german Herbert Sturges.

Sturges a propus o metodă simplă, bazată pe numărul de eșantioane x care ar permite să se găsească numărul de clase și amplitudinea lor de interval. Norma Sturges este utilizată pe scară largă, în special în domeniul statisticii, în special pentru a construi histograme de frecvență.

index

  • 1 Explicație
  • 2 Aplicații
  • 3 Exemplu
  • 4 Referințe

explicație

Regula Sturges este o metodă empirică folosită pe larg în statisticile descriptive pentru a determina numărul de clase care trebuie să existe într-o histogramă de frecvență, pentru a clasifica un set de date care reprezintă un eșantion sau o populație.

În principiu, această regulă determină lățimea containerelor grafice, a histogramelor de frecvență.

Pentru a-și stabili regula, Herbert Sturges a considerat o diagramă de frecvență ideală, care constă din intervale K, unde intervalul i conține un anumit număr de eșantioane (i = 0, ... k - 1) reprezentate ca:

Acest număr de eșantioane este dat de numărul de moduri în care poate fi extras un subset dintr-un set; adică prin coeficientul binomial, exprimat după cum urmează:

Apoi, Sturges a relatat că histograma de frecvență se va apropia de o distribuție normală atunci când numărul de intervale (k) crește în funcție de teorema limită centrală. În așa fel încât să se poată calcula numărul de eșantioane din fiecare dintre intervalele:

Pentru a simplifica expresia, el a aplicat proprietățile logaritmelor în ambele părți ale ecuației:

Astfel, Sturges a stabilit că numărul optim de intervale k este dat de expresia:

De asemenea, poate fi exprimată ca:

În această expresie:

- k este numărul de clase.

- N este numărul total de observații din eșantion.

- Log este logaritmul comun de bază 10.

De exemplu, pentru a produce o histogramă de frecvență care exprimă un eșantion aleatoriu de înălțime de 142 copii, numărul de intervale sau clase pe care le va avea distribuția este:

k = 1 + 3,322 * înregistra10 (N)

k = 1 + 3,322* jurnal (142)

k = 1 + 3,322* 2,1523

k = 8,14 ≈ 8

Astfel, distribuția va fi în 8 intervale.

Numărul de intervale ar trebui să fie întotdeauna reprezentat de numere întregi. În cazurile în care valoarea este zecimal, trebuie să se aproximeze numărul cel mai apropiat.

aplicații

Regula Sturges se aplică în principal în statistici, deoarece permite efectuarea unei distribuții a frecvenței prin calcularea numărului de clase (k), precum și a lungimii fiecăruia dintre acestea, cunoscută și ca amplitudine.

Amplitudinea este diferența dintre limita superioară și cea inferioară a clasei, împărțită la numărul de clase și este exprimată:

Există multe reguli empirice care permit o distribuție a frecvenței. Cu toate acestea, regula Sturges este frecvent utilizată deoarece aproximează numărul de clase, care în general variază de la 5 la 15.

În acest fel, luați în considerare o valoare care reprezintă în mod adecvat un eșantion sau o populație; adică aproximarea nu reprezintă grupări extreme și nici nu funcționează cu un număr excesiv de clase care nu permit sintetizarea eșantionului.

exemplu

Este necesar să se efectueze o histogramă de frecvență în funcție de datele date, care corespund vârstelor obținute într-un studiu al bărbaților care efectuează exerciții într-o sală de gimnastică locală.

Pentru a determina intervalele trebuie să știți care este mărimea eșantionului sau numărul de observații; în acest caz, aveți 30.

Apoi se aplică regula Sturges:

k = 1 + 3,322 * înregistra10 (N)

k = 1 + 3,322* jurnal (30)

k = 1 + 3,322* 1,4771

k = 5,90 ≈ 6 intervale.

Din numărul de intervale, puteți calcula amplitudinea pe care acestea o vor avea; adică lățimea fiecărei bare reprezentată în histograma de frecvență:

Limita inferioară este considerată cea mai mică valoare a datelor, iar limita superioară este cea mai mare valoare. Diferența dintre limita superioară și cea inferioară este numită intervalul sau calea variabilei (R).

Din tabel avem că limita superioară este 46 și limita inferioară 13; în acest fel, amplitudinea fiecărei clase va fi:

Intervalele vor fi alcătuite dintr-o limită superioară și inferioară. Pentru a determina aceste intervale, începeți să numărați de la limita inferioară adăugând la el amplitudinea determinată de regula (6), după cum urmează:

Apoi, frecvența absolută este calculată pentru a determina numărul de bărbați care corespund fiecărui interval; în acest caz este:

- Intervalul 1: 13 - 18 = 9

- Intervalul 2: 19-24 = 9

- Interval 3: 25 - 30 = 5

- Interval 4: 31 - 36 = 2

- Interval 5: 37 - 42 = 2

- Intervalul 6: 43 - 48 = 3

Atunci când se adaugă frecvența absolută a fiecărei clase, aceasta trebuie să fie egală cu numărul total al eșantionului; în acest caz, 30.

Ulterior, se calculează frecvența relativă a fiecărui interval, împărțind frecvența absolută a acestui interval la numărul total de observații:

- Intervalul 1: fi = 9 ÷ 30 = 0,30

- Intervalul 2: fi = 9 ÷ 30 = 0,30

- Intervalul 3: fi = 5 ÷ 30 = 0.1666

- Intervalul 4: fi = 2 ÷ 30 = 0,0666

- Intervalul 5: fi = 2 ÷ 30 = 0,0666

- Intervalul 4: fi = 3 ÷ 30 = 0,10

Apoi, puteți face o masă care să reflecte datele, precum și diagrama de la frecvența relativă în raport cu intervalele obținute, așa cum se poate vedea în următoarele imagini:

În acest fel, regula Sturges permite determinarea numărului de clase sau intervale în care poate fi împărțit un eșantion, pentru a rezuma un eșantion de date prin pregătirea tabelelor și a graficelor.

referințe

  1. Alfonso Urquía, M.V. (2013). Modelarea și simularea evenimentelor discrete. UNED,.
  2. Altman Naomi, M. K. (2015). "Regresie liniară simplă". Metode naturale.
  3. Antúnez, R. J. (2014). Statistici în educație. Digital UNID.
  4. Fox, J. (1997). Aplicată analiză de regresie, modele liniare și metode asemănătoare. SAGE Publicații.
  5. Humberto Llinás Solano, C. R. (2005). Statistici descriptive și distribuții de probabilități. Universitatea din Nord.
  6. Panteleeva, OV (2005). Bazele probabilității și statisticii.
  7. O. Kuehl, M. O. (2001). Proiectarea experimentelor: Principiile statistice de proiectare și analiză a cercetării. Thomson Publishers.