Model statistic: esența metodei, construcției și analizei

Cuprins:

Model statistic: esența metodei, construcției și analizei
Model statistic: esența metodei, construcției și analizei
Anonim

Un model statistic este o proiecție matematică care încorporează un set de ipoteze diferite despre generarea unor date eșantion. Termenul este adesea prezentat într-o formă mult idealizată.

Ipotezele exprimate în modelul statistic arată un set de distribuții de probabilitate. Multe dintre acestea au scopul de a aproxima corect distribuția din care este extras un anumit set de informații. Distribuțiile de probabilitate inerente modelelor statistice sunt cele care disting proiecția de alte modificări matematice.

Proiecție generală

modele de procese statistice
modele de procese statistice

Modelul matematic este o descriere a sistemului folosind anumite concepte și limbaj. Acestea se aplică științelor naturii (cum ar fi fizica, biologia, știința pământului, chimia) și disciplinelor de inginerie (cum ar fi informatica, inginerie electrică), precum și științele sociale (cum ar fi economie, psihologie, sociologie, științe politice).

Modelul poate ajuta la explicarea sistemului șistudiați influența diferitelor componente și faceți predicții despre comportament.

Modelele matematice pot lua multe forme, inclusiv sisteme dinamice, proiecții statistice, ecuații diferențiale sau parametri teoretici ai jocului. Acestea și alte tipuri se pot suprapune, iar acest model include multe structuri abstracte. În general, proiecțiile matematice pot include și componente logice. În multe cazuri, calitatea unui domeniu științific depinde de cât de bine sunt de acord modelele matematice dezvoltate teoretic cu rezultatele experimentelor repetate. Lipsa de acord între procesele teoretice și măsurătorile experimentale duce adesea la progrese importante pe măsură ce sunt dezvoltate teorii mai bune.

În științele fizice, modelul matematic tradițional conține un număr mare de următoarele elemente:

  • Ecuații de control.
  • Submodele suplimentare.
  • Definiți ecuații.
  • Ecuații constitutive.
  • Ipoteze și limitări.
  • Condiții inițiale și limită.
  • Constrângeri clasice și ecuații cinematice.

Formula

Un model statistic, de regulă, este stabilit de ecuații matematice care combină una sau mai multe variabile aleatoare și, eventual, alte variabile care apar în mod natural. În mod similar, proiecția este considerată „conceptul formal al unui concept”.

Toate testele de ipoteze statistice și evaluările statistice sunt obținute din modele matematice.

Introducere

modele statistice matematice
modele statistice matematice

În mod informal, un model statistic poate fi privit ca o ipoteză (sau un set de ipoteze) cu o anumită proprietate: permite calcularea probabilității oricărui eveniment. Ca exemplu, luați în considerare o pereche de zaruri obișnuite cu șase fețe. Trebuie explorate două ipoteze statistice diferite despre os.

Prima ipoteză este:

Pentru fiecare dintre zaruri, probabilitatea de a obține unul dintre numere (1, 2, 3, 4, 5 și 6) este: 1/6.

Din această ipoteză, putem calcula probabilitatea ambelor zaruri: 1:1/6×1/6=1/36.

Mai general, puteți calcula probabilitatea oricărui eveniment. Cu toate acestea, trebuie înțeles că este imposibil să se calculeze probabilitatea oricărui alt eveniment non-trivial.

Numai prima opinie colectează un model statistic matematic: datorită faptului că cu o singură presupunere este posibilă determinarea probabilității fiecărei acțiuni.

În eșantionul de mai sus cu permisiunea inițială, este ușor să determinați posibilitatea unui eveniment. Cu alte exemple, calculul poate fi dificil sau chiar nerealist (de exemplu, poate necesita mulți ani de calcule). Pentru o persoană care proiectează un model de analiză statistică, o astfel de complexitate este considerată inacceptabilă: implementarea calculelor nu ar trebui să fie practic imposibilă și teoretic imposibilă.

Definiție oficială

În termeni matematici, modelul statistic al unui sistem este de obicei considerat ca o pereche (S, P), unde S estesetul de observații posibile, adică spațiul eșantion, și P este setul de distribuții de probabilitate pe S.

Intuiția acestei definiții este următoarea. Se presupune că există o distribuție de probabilitate „adevărată” cauzată de procesul care generează anumite date.

Set

El este cel care determină parametrii modelului. Parametrizarea necesită, în general, valori diferite pentru a rezulta distribuții diferite, adică

Consecința modelului
Consecința modelului

trebuie să țină (cu alte cuvinte, trebuie să fie injectiv). Se spune că o parametrizare care îndeplinește cerința este identificabilă.

Exemplu

Graficul statisticilor
Graficul statisticilor

Să presupunem că există un anumit număr de studenți care au vârste diferite. Înălțimea copilului va fi legată stohastic de anul nașterii: de exemplu, când un școlar are 7 ani, acest lucru afectează probabilitatea de creștere, doar astfel încât persoana va fi mai în altă de 3 centimetri.

Puteți oficializa această abordare într-un model de regresie rectiliniu, de exemplu, după cum urmează: înălțimea i=b 0 + b 1agei + εi, unde b 0 este intersecția, b 1 este parametrul prin care vârsta este înmulţit la obţinerea monitorizării cotei. Acesta este un termen de eroare. Adică, se presupune că înălțimea este prezisă de vârstă cu o anumită eroare.

Un formular valid trebuie să corespundă tuturor punctelor de informare. Astfel, direcția rectilinie (nivel i=b 0 + b 1agei) nu este capabilă să fie o ecuație pentru un model de date - dacă nu răspunde clar la absolut toate punctele. i.efără excepție, toate informațiile se află perfect pe linie. Marja de eroare εi trebuie introdusă în ecuație, astfel încât formularul să se potrivească cu absolut toate informațiile.

Pentru a face o inferență statistică, trebuie mai întâi să presupunem niște distribuții de probabilitate pentru ε i. De exemplu, se poate presupune că distribuțiile lui ε i au o formă gaussiană cu medie zero. În acest caz, modelul va avea 3 parametri: b 0, b 1 și varianța distribuției gaussiene.

Puteți specifica în mod oficial modelul ca (S, P).

În acest exemplu, modelul este definit prin specificarea lui S și astfel se pot face unele ipoteze despre P. Există două opțiuni:

Această creștere poate fi aproximată printr-o funcție liniară a vârstei;

Că erorile de aproximare sunt distribuite ca în interiorul unui gaussian.

Observații generale

Parametrii statistici ai modelelor sunt o clasă specială de proiecție matematică. Ce face o specie diferită de alta? Deci modelul statistic este nedeterminist. Astfel, în ea, spre deosebire de ecuațiile matematice, anumite variabile nu au anumite valori, ci au în schimb o distribuție a posibilităților. Adică, variabilele individuale sunt considerate stocastice. În exemplul de mai sus, ε este o variabilă stocastică. Fără el, proiecția ar fi deterministă.

Construirea unui model statistic este adesea folosită, chiar dacă procesul material este considerat a fi determinist. De exemplu, aruncarea monedelor este, în principiu, o acțiune predeterminatoare. Cu toate acestea, acesta este încă în majoritatea cazurilor modelat ca stocastic (printr-un proces Bernoulli).

Conform lui Konishi și Kitagawa, există trei obiective pentru un model statistic:

  • Predicții.
  • Exploarea informațiilor.
  • Descrierea structurilor stocastice.

Dimensiunea proiecției

Să presupunem că există un model de predicție statistică, Modelul se numește parametric dacă O are o dimensiune finită. În soluție, trebuie să scrieți că

Diferența de model
Diferența de model

unde k este un număr întreg pozitiv (R reprezintă orice numere reale). Aici k se numește dimensiunea modelului.

De exemplu, putem presupune că toate datele provin dintr-o distribuție gaussiană univariată:

Formula statistică
Formula statistică

În acest exemplu, dimensiunea lui k este 2.

Și ca un alt exemplu, se poate presupune că datele constau din (x, y) puncte, care se presupune că sunt distribuite în linie dreaptă cu reziduuri gaussiene (cu medie zero). Atunci dimensiunea modelului economic statistic este egală cu 3: intersecția dreptei, panta acesteia și varianța distribuției reziduurilor. Trebuie remarcat faptul că în geometrie o linie dreaptă are o dimensiune de 1.

Deși valoarea de mai sus este din punct de vedere tehnic singurul parametru care are dimensiunea k, uneori se consideră că conține k valori distincte. De exemplu, cu o distribuție Gaussiană unidimensională, O este singurul parametru cu o dimensiune de 2, dar uneori se consideră că conține douăparametru individual - valoarea medie și abaterea standard.

Un model de proces statistic este neparametric dacă setul de valori O este infinit-dimensional. Este, de asemenea, semi-parametric dacă are atât parametri finiți cât și infiniti. În mod formal, dacă k este o dimensiune a lui O și n este numărul de eșantioane, modelele semi-parametrice și neparametrice au

Formula model
Formula model

atunci modelul este semi-parametric. În caz contrar, proiecția este neparametrică.

Modelele parametrice sunt cele mai frecvent utilizate statistici. În ceea ce privește proiecțiile semiparametrice și neparametrice, Sir David Cox a declarat:

„De obicei, acestea implică cele mai puține ipoteze despre textura și forma distribuției, dar includ teorii puternice despre autosuficiență.”

Modele imbricate

Nu le confundați cu proiecțiile pe mai multe niveluri.

Două modele statistice sunt imbricate dacă primul poate fi convertit în al doilea prin impunerea de constrângeri asupra parametrilor primului. De exemplu, setul tuturor distribuțiilor gaussiene are un set imbricat de distribuții cu medie zero:

Adică trebuie să limitați media în setul tuturor distribuțiilor gaussiene pentru a obține distribuții cu medie zero. Ca un al doilea exemplu, modelul patratic y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) are un model liniar încorporat y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - adică parametrul b2 este egal cu 0.

În ambele exemple, primul model are o dimensionalitate mai mare decât al doilea model. Acest lucru este adesea, dar nu întotdeauna. Un alt exemplu este setul de distribuții gaussiene cu medie pozitivă, care are dimensiunea 2.

Comparație de modele

model statistic
model statistic

Se presupune că există o distribuție de probabilitate „adevărată” la baza datelor observate induse de procesul care le-a generat.

Și, de asemenea, modelele pot fi comparate între ele, folosind analize exploratorii sau de confirmare. Într-o analiză exploratorie, se formulează diferite modele și se face o evaluare a cât de bine descrie fiecare dintre ele datele. Într-o analiză de confirmare, ipoteza formulată anterior este comparată cu cea inițială. Criteriile comune pentru aceasta includ P 2, factorul bayesian și probabilitatea relativă.

Gândul lui Konishi și Kitagawa

„Majoritatea problemelor dintr-un model statistic matematic pot fi considerate întrebări predictive. Ele sunt de obicei formulate ca comparații ale mai multor factori.”

În plus, Sir David Cox a spus: „Ca o traducere a subiectului, problema din modelul statistic este adesea cea mai importantă parte a analizei.”

Recomandat: