Ipotezele încorporate în modelarea statistică descriu un set de distribuții de probabilitate, dintre care unele se presupune că aproximează în mod adecvat distribuția. Un set specific de date este selectat din definiție. Distribuțiile de probabilitate inerente modelării statistice sunt cele care disting modelele statistice de alte modele matematice, nestatistice.
Conexiune cu matematica
Această metodă științifică își are rădăcinile în primul rând în matematică. Modelarea statistică a sistemelor este dată de obicei de ecuații matematice care relaționează una sau mai multe variabile aleatoare și, eventual, alte variabile non-aleatoare. Astfel, un model statistic este o „reprezentare formală a unei teorii” (Hermann Ader, citând Kenneth Bollen).
Toate testele de ipoteze statistice și toate estimările statistice sunt derivate din modele statistice. În general, modelele statistice fac parte din baza inferenței statistice.
Metode de statisticămodeling
În mod informal, un model statistic poate fi gândit ca o ipoteză statistică (sau un set de ipoteze statistice) cu o anumită proprietate: această ipoteză ne permite să calculăm probabilitatea oricărui eveniment. Ca exemplu, luați în considerare o pereche de zaruri obișnuite cu șase fețe. Vom studia două ipoteze statistice diferite despre os.
Prima ipoteză statistică constituie modelul statistic, deoarece cu o singură ipoteză putem calcula probabilitatea oricărui eveniment. Ipoteza statistică alternativă nu constituie un model statistic, deoarece cu o singură ipoteză nu putem calcula probabilitatea fiecărui eveniment.
În exemplul de mai sus cu prima ipoteză, este ușor de calculat probabilitatea unui eveniment. Cu toate acestea, în alte exemple, calculul poate fi complex sau chiar nepractic (de exemplu, poate necesita milioane de ani de calcul). Pentru ipoteza care constituie un model statistic, această dificultate este acceptabilă: efectuarea calculului nu trebuie să fie practic fezabilă, ci doar posibilă teoretic.
Exemple de modele
Să presupunem că avem o populație de școlari cu copii repartizați uniform. Înălțimea unui copil va fi legată stohastic de vârstă: de exemplu, când știm că un copil are 7 ani, acest lucru afectează probabilitatea ca copilul să aibă 5 picioare înălțime (aproximativ 152 cm). Am putea oficializa această relație într-un model de regresie liniară, de exemplu: creștere=b0 + b1agei+ εi, unde b0 este intersecția, b1 este parametrul cu care se înmulțește vârsta la obținerea prognozei de creștere, εi este termenul de eroare. Aceasta implică faptul că înălțimea este prezisă în funcție de vârstă, cu o anumită eroare.
Un model valid trebuie să se potrivească cu toate punctele de date. Deci, o linie dreaptă (heighti=b0 + b1agei) nu poate fi o ecuație pentru un model de date - cu excepția cazului în care se potrivește exact toate punctele de date, adică toate punctele de date se află perfect pe linie. Termenul de eroare εi trebuie inclus în ecuație pentru ca modelul să se potrivească cu toate punctele de date.
Pentru a face o inferență statistică, trebuie mai întâi să presupunem niște distribuții de probabilitate pentru εi. De exemplu, putem presupune că distribuțiile lui εi sunt gaussiene, cu medie zero. În acest caz, modelul va avea 3 parametri: b0, b1 și varianța distribuției gaussiene.
Descriere generală
Un model statistic este o clasă specială de model matematic. Ceea ce distinge un model statistic de alte modele matematice este faptul că este nedeterminist. Este folosit pentru modelarea datelor statistice. Astfel, într-un model statistic definit cu ecuații matematice, unele variabile nu au valori specifice, ci au distribuții de probabilitate; adică unele variabile sunt stocastice. În exemplul de mai sus, ε este o variabilă stocastică; fără această variabilă, modelul a fostar fi determinist.
Modelele statistice sunt adesea folosite în analiza și modelarea statistică, chiar dacă procesul fizic modelat este determinist. De exemplu, aruncarea monedelor este în principiu un proces determinist; totuși este de obicei modelat ca stocastic (prin un proces Bernoulli).
Modele parametrice
Modelele parametrice sunt cele mai frecvent utilizate modele statistice. În ceea ce privește modelele semi-parametrice și neparametrice, Sir David Cox a spus: „În general, acestea includ mai puține ipoteze despre structura și forma distribuției, dar de obicei conțin ipoteze puternice de independență”. La fel ca toate celel alte modele menționate, acestea sunt adesea folosite în metoda statistică de modelare matematică.
Modele pe mai multe niveluri
Modelele pe mai multe niveluri (cunoscute și ca modele liniare ierarhice, modele de date imbricate, modele mixte, coeficienți aleatori, modele cu efecte aleatoare, modele cu parametri aleatori sau modele partiționate) sunt modele cu parametri statistici care variază la mai mult de un nivel. Un exemplu este un model de realizare a elevilor care conține valori pentru elevi individuali, precum și pentru sălile de clasă în care sunt grupați elevii. Aceste modele pot fi gândite ca generalizări ale modelelor liniare (în special, regresia liniară), deși pot fi extinse și la modele neliniare. Aceste modele au devenitmult mai popular odată ce au devenit disponibile suficientă putere de calcul și software.
Modelele pe mai multe niveluri sunt potrivite în special pentru proiectele de cercetare în care datele pentru participanți sunt organizate la mai mult de un nivel (adică, date imbricate). Unitățile de analiză sunt de obicei indivizi (la un nivel inferior) care sunt imbricate în context/unități agregate (la un nivel superior). În timp ce cel mai scăzut nivel de date în modelele pe mai multe niveluri este de obicei individual, pot fi luate în considerare și măsurători repetate ale indivizilor. Astfel, modelele multinivel oferă un tip alternativ de analiză pentru analiza măsurilor repetate univariate sau multivariate. Pot fi luate în considerare diferențele individuale în curbele de creștere. În plus, modelele pe mai multe niveluri pot fi utilizate ca alternativă la ANCOVA, în care scorurile variabilelor dependente sunt ajustate pentru covariabile (de exemplu, diferențe individuale) înainte de testarea diferențelor de tratament. Modelele pe mai multe niveluri sunt capabile să analizeze aceste experimente fără presupunerea unor pante uniforme de regresie cerute de ANCOVA.
Modelele pe mai multe niveluri pot fi folosite pentru date cu mai multe niveluri, deși modelele cu două niveluri sunt cele mai comune, iar restul acestui articol se concentrează pe acestea. Variabila dependentă ar trebui examinată la cel mai scăzut nivel de analiză.
Selectare model
Selectare modeleste sarcina de a selecta dintr-un set de modele candidate date fiind datele, realizată în cadrul modelării statistice. În cele mai simple cazuri, se ia în considerare un set de date deja existent. Cu toate acestea, sarcina poate implica, de asemenea, proiectarea de experimente, astfel încât datele colectate să fie bine potrivite sarcinii de selecție a modelului. Având în vedere modele candidate cu putere predictivă sau explicativă similară, cel mai simplu model este probabil cea mai bună alegere (briciul lui Occam).
Konishi & Kitagawa spune: „Majoritatea problemelor de inferență statistică pot fi considerate probleme legate de modelarea statistică”. În mod similar, Cox a spus: „Cum se realizează traducerea subiectului în modelul statistic este adesea cea mai importantă parte a analizei.”
Selecția modelului se poate referi și la problema selectării câtorva modele reprezentative dintr-un set mare de modele de calcul în scopuri de decizie sau de optimizare în condiții de incertitudine.
Modele grafice
Modelul grafic, sau modelul grafic probabilistic, (PGM) sau modelul probabilistic structurat, este un model probabilistic pentru care graficul exprimă structura unei relații condiționate între variabile aleatoare. Ele sunt utilizate în mod obișnuit în teoria probabilităților, statistică (în special statistica bayesiană) și învățarea automată.
Modele econometrice
Modelele econometrice sunt modele statistice utilizate îneconometrie. Un model econometric definește relațiile statistice despre care se crede că există între diverse cantități economice legate de un anumit fenomen economic. Un model econometric poate fi derivat dintr-un model economic determinist care ia în considerare incertitudinea, sau dintr-un model economic care este el însuși stocastic. Cu toate acestea, este, de asemenea, posibil să se utilizeze modele econometrice care nu sunt legate de nicio teorie economică anume.