Informații statistice: colectare, prelucrare, analiză

2026 Autor: Angel Austin | [email protected]. Modificat ultima dată: 2025-01-23 12:32:26

De-a lungul istoriei statisticilor, s-au făcut diferite încercări de a crea o taxonomie a nivelurilor de măsurare. Psihofizicianul Stanley Smith Stevens a definit scalele nominale, ordinale, pe intervale și proporționale.

Măsurătorile nominale nu au o ordine semnificativă a rangurilor între valori și permit orice conversie unu-la-unu.

Dimensiunile obișnuite au diferențe inexacte între valorile consecutive, dar au o ordine specifică a acestor valori și permit orice transformare care păstrează ordinea.

Măsurătorile cu intervale au distanțe semnificative între puncte, dar valoarea zero este arbitrară (ca în cazul măsurătorilor de longitudine și temperatură în Celsius sau Fahrenheit) și permite orice transformare liniară.

Dimensiunile raportului au atât o valoare zero semnificativă, cât și distanțele dintre diferite dimensiuni și permit orice transformare la scară.

Variabile și clasificarea informațiilor

Deoarece variabilelecare corespund doar măsurătorilor nominale sau ordinale nu pot fi măsurate în mod rezonabil numeric și sunt uneori grupate ca variabile categoriale. Măsurătorile raportului și intervalului sunt grupate ca variabile cantitative, care pot fi fie discrete, fie continue datorită naturii lor numerice. Astfel de distincții sunt adesea slab legate de tipul de date în informatică, deoarece variabilele categoriale dihotomice pot fi reprezentate prin valori booleene, variabile categorice politomice cu numere întregi arbitrare într-un tip de date integral și variabile continue cu componente reale care implică calcul în virgulă mobilă. Dar afișarea tipurilor de date de informații statistice depinde de clasificarea aplicată.

Alte clasificări

Au fost create și alte clasificări ale datelor statistice (informații). De exemplu, Mosteller și Tukey au făcut distincție între note, ranguri, acțiuni numărate, numărări, sume și solduri. Nelder a descris la un moment dat numărătoarele continue, rapoartele continue, corelarea numărărilor și modalitățile categorice de comunicare a datelor. Toate aceste metode de clasificare sunt folosite în colectarea de informații statistice.

Probleme

Întrebarea dacă este adecvat să se aplice diferite tipuri de metode statistice la datele obținute prin diferite proceduri de măsurare (colectare) este complicată de problemele legate de conversia variabilelor și de interpretarea precisă a întrebărilorcercetare. „Relația dintre date și ceea ce descrie reflectă pur și simplu faptul că anumite tipuri de afirmații statistice pot avea valori de adevăr care nu sunt invariante în anumite transformări. Dacă transformarea merită luată în considerare depinde de întrebarea la care încercați să răspundeți.

Ce este un tip de date

Tipul de date este o componentă fundamentală a conținutului semantic al unei variabile și controlează ce tipuri de distribuții de probabilitate pot fi utilizate în mod logic pentru a descrie variabila, operațiunile permise asupra acesteia, tipul de analiză de regresie folosită pentru a o prezice, etc. Conceptul de tip de date este similar cu conceptul de nivel de măsurare, dar mai specific - de exemplu, contorizarea datelor necesită o distribuție diferită (Poisson sau binom) decât pentru valorile reale nenegative, dar ambele se încadrează în aceeași nivelul de măsurare (scara coeficienților).

Scale

Au fost făcute diverse încercări de a crea o taxonomie a nivelurilor de măsurare pentru procesarea informațiilor statistice. Psihofizicianul Stanley Smith Stevens a definit scalele nominale, ordinale, de interval și proporționale. Măsurătorile nominale nu au o ordine semnificativă a rangurilor între valori și permit orice conversie unu-la-unu. Măsurătorile obișnuite au diferențe imprecise între valorile succesive, dar diferă în ordinea semnificativă a acestor valori și permitorice transformare care păstrează ordinea. Măsurătorile cu intervale au distanțe semnificative între măsurători, dar valoarea zero este arbitrară (ca în cazul măsurătorilor de longitudine și temperatură în Celsius sau Fahrenheit) și permite orice transformare liniară. Dimensiunile raportului au atât o valoare zero semnificativă, cât și distanțele dintre diferitele dimensiuni definite și permit orice transformare de scalare.

Datele care nu pot fi descrise folosind un singur număr sunt adesea incluse în vectori aleatori de variabile aleatoare reale, deși există o tendință în creștere de a le procesa singur. Astfel de exemple vor fi discutate mai jos.

Vectori aleatori

Elementele individuale pot fi sau nu corelate. Exemple de distribuții utilizate pentru a descrie vectori aleatori corelați sunt distribuția normală multivariată și distribuția t multivariată. În general, pot exista corelații arbitrare între orice element, cu toate acestea, aceasta devine adesea imposibil de gestionat peste o anumită dimensiune, necesitând constrângeri suplimentare asupra componentelor corelate.

Matrice aleatoare

Matricele aleatoare pot fi aranjate liniar și tratate ca vectori aleatori, totuși aceasta poate să nu fie o modalitate eficientă de a reprezenta corelații între diferite elemente. Unele distribuții de probabilitate sunt concepute special pentru matrice aleatoare, cum ar fi matricea normalădistribuție și distribuție Wishart.

Secvențe aleatorii

Uneori sunt considerați la fel ca vectori aleatori, dar în alte cazuri termenul este aplicat în mod specific cazurilor în care fiecare variabilă aleatoare se corelează numai cu variabilele din apropiere (ca într-un model Markov). Acesta este un caz special al rețelei bayesiene și este utilizat pentru secvențe foarte lungi, cum ar fi lanțuri de gene sau documente text lungi. Un număr de modele sunt special concepute pentru astfel de secvențe, cum ar fi secvențele Markov ascunse.

procese aleatorii

Sunt similare cu secvențele aleatoare, dar numai atunci când lungimea secvenței este nedefinită sau infinită, iar elementele din secvență sunt procesate unul câte unul. Acesta este adesea folosit pentru date care pot fi descrise ca serii cronologice. Acest lucru este adevărat când vine vorba, de exemplu, de prețul acțiunilor din ziua următoare.

Concluzie

Analiza informațiilor statistice depinde în întregime de calitatea colectării acestora. Acesta din urmă, la rândul său, este strâns legat de posibilitățile clasificării sale. Desigur, există multe tipuri de clasificare a informațiilor statistice, pe care cititorul le-ar putea vedea singur când citește acest articol. Cu toate acestea, prezența unor instrumente eficiente și o bună cunoaștere a matematicii, precum și cunoștințele în domeniul sociologiei, își vor face treaba, permițându-vă să efectuați orice anchetă sau studiu fără corecții semnificative pentru erori. Surse de informații statistice în formularoameni, organizații și alte subiecte de sociologie, din fericire, sunt reprezentate din abundență. Și nicio dificultate nu poate sta în calea unui adevărat explorator.