Testarea ipotezei este o procedură necesară în statistică. Un test de ipoteză evaluează două afirmații care se exclud reciproc pentru a determina care afirmație este cel mai bine susținută de datele eșantionului. Când se spune că o constatare este semnificativă din punct de vedere statistic, aceasta se datorează unui test de ipoteză.
Metode de verificare
Metodele de testare a ipotezelor statistice sunt metode de analiză statistică. De obicei, două seturi de statistici sunt comparate sau un set de date eșantionat este comparat cu un set de date sintetice dintr-un model idealizat. Datele trebuie interpretate în așa fel încât să adauge noi semnificații. Le puteți interpreta prin asumarea unei anumite structuri a rezultatului final și folosind metode statistice pentru a confirma sau respinge presupunerea. Ipoteza se numește ipoteză, iar testele statistice folosite în acest scop se numesc ipoteze statistice.
H0 și H1 ipoteze
Există două principaleconceptele de testare statistică a ipotezelor - așa-numita „ipoteză principală sau nulă” și „ipoteză alternativă”. Ele mai sunt numite și ipoteze Neyman-Pearson. Ipoteza testului statistic se numește ipoteza nulă, ipoteza principală sau H0 pe scurt. Este adesea menționată ca ipoteza implicită sau ipoteza că nimic nu s-a schimbat. O încălcare a ipotezei testului este adesea denumită prima ipoteză, ipoteză alternativă sau H1. H1 este prescurtarea unei alte ipoteze, deoarece tot ce știm despre ea este că datele H0 pot fi aruncate.
Înainte de a respinge sau de a nu respinge ipoteza nulă, rezultatul testului trebuie interpretat. O comparație este considerată semnificativă statistic dacă relația dintre seturile de date este puțin probabil să fie implementarea ipotezei nule în funcție de probabilitatea pragului - nivelul de semnificație. Există, de asemenea, criterii de bunătate pentru testarea ipotezelor statistice. Acesta este numele criteriului de testare a ipotezei, care este asociat cu presupusa lege a distribuției necunoscute. Aceasta este o măsură numerică a discrepanței dintre distribuțiile empirice și teoretice.
Procedura și criteriile de testare a ipotezelor statistice
Cele mai comune metode de selecție a ipotezelor se bazează fie pe criteriul de informare Akaike, fie pe coeficientul Bayesian. Testarea ipotezelor statistice este o tehnică cheie atât în inferență, cât și în inferența bayesiană, deși cele două tipuri au diferențe notabile. Teste de ipoteze statisticedefiniți o procedură care controlează probabilitatea de a decide în mod eronat cu privire la o ipoteză incorectă implicită sau nulă. Procedura se bazează pe cât de probabil este să funcționeze. Această probabilitate de a lua o decizie greșită este improbabilitatea ca ipoteza nulă să fie adevărată și că nu există nicio ipoteză alternativă anume. Testul nu poate arăta dacă este adevărat sau fals.
Metode alternative ale teoriei deciziei
Există metode alternative de teorie a deciziei, în care ipotezele nule și prima sunt luate în considerare pe picior de egalitate. Alte abordări de luare a deciziilor, cum ar fi teoria bayesiană, încearcă să echilibreze consecințele deciziilor proaste pe toate posibilitățile, mai degrabă decât să se concentreze pe o singură ipoteză nulă. O serie de alte abordări pentru a decide care dintre ipoteze este corectă se bazează pe date, care dintre ele au proprietățile dorite. Dar testarea ipotezelor este abordarea dominantă a analizei datelor în multe domenii ale științei.
Testarea ipotezei statistice
Ori de câte ori un set de rezultate diferă de un alt set, trebuie să se bazeze pe testarea ipotezelor statistice sau pe testele ipotezelor statistice. Interpretarea lor necesită o înțelegere adecvată a valorilor p și a valorilor critice. De asemenea, este important de înțeles că, indiferent de nivelul de semnificație, testele pot conține în continuare erori. Prin urmare, concluzia poate să nu fie corectă.
Procesul de testare constă înmai mulți pași:
- Se creează o ipoteză inițială pentru cercetare.
- Sunt indicate ipotezele nule și alternative relevante.
- Explică ipotezele statistice despre eșantionul din test.
- Determinarea testului potrivit.
- Selectați nivelul de semnificație și pragul de probabilitate sub care va fi respinsă ipoteza nulă.
- Distribuția statisticii testului ipotezei nule arată posibilele valori la care ipoteza nulă este respinsă.
- Calcul în curs.
- Se ia o decizie de respingere sau acceptare a ipotezei nule în favoarea unei alternative.
Există o alternativă care utilizează o valoare p.
Teste de semnificație
Datele pure nu au nicio utilitate practică fără interpretare. În statistică, atunci când vine vorba de a pune întrebări despre date și de a interpreta rezultate, se folosesc metode statistice pentru a asigura acuratețea sau probabilitatea răspunsurilor. La testarea ipotezelor statistice, această clasă de metode se numește testare statistică sau teste de semnificație. Termenul „ipoteză” amintește de metodele științifice, în care sunt investigate ipotezele și teoriile. În statistică, un test de ipoteză are ca rezultat o cantitate dată de o ipoteză dată. Vă permite să interpretați dacă o presupunere este adevărată sau dacă a fost făcută o încălcare.
Interpretarea statistică a testelor
Teste de ipotezăsunt folosite pentru a determina care rezultate ale cercetării vor duce la respingerea ipotezei nule pentru un nivel prestabilit de semnificație. Rezultatele unui test de ipoteză statistică trebuie interpretate astfel încât să se poată continua lucrul asupra acestuia. Există două forme comune de criterii de testare a ipotezelor statistice. Acestea sunt valorile p și valorile critice. În funcție de criteriul selectat, rezultatele obținute trebuie interpretate diferit.
Ce este o valoare p
Ieșirea este descrisă ca fiind semnificativă statistic atunci când se interpretează valoarea p. De fapt, acest indicator înseamnă probabilitatea de eroare dacă ipoteza nulă este respinsă. Cu alte cuvinte, poate fi folosit pentru a denumi o valoare care poate fi folosită pentru a interpreta sau cuantifica un rezultat al unui test și pentru a determina probabilitatea de eroare în respingerea ipotezei nule. De exemplu, puteți efectua un test de normalitate pe un eșantion de date și puteți constata că există șanse mici de valori aberante. Cu toate acestea, ipoteza nulă nu trebuie respinsă. Un test de ipoteză statistică poate returna o valoare p. Acest lucru se face prin compararea valorii lui p cu o valoare de prag predeterminată numită nivel de semnificație.
Nivel de semnificație
Nivelul de semnificație este adesea scris cu litera minusculă grecească „alfa”. Valoarea generală utilizată pentru alfa este 5% sau 0,05. O valoare alfa mai mică sugerează o interpretare mai fiabilă a ipotezei nule. Valoarea p este comparată cuvaloarea alfa preselectată. Rezultatul este semnificativ statistic dacă valoarea p este mai mică decât alfa. Nivelul de semnificație poate fi inversat scăzându-l din unul. Acest lucru se face pentru a determina nivelul de încredere al ipotezei având în vedere datele eșantionului observat. Când se utilizează această metodă de testare a ipotezelor statistice, valoarea P este probabilistică. Aceasta înseamnă că în procesul de interpretare a rezultatului unui test statistic, nu se știe ce este adevărat sau fals.
Teoria testării ipotezelor statistice
Respingerea ipotezei nule înseamnă că există suficiente dovezi statistice că pare probabilă. În caz contrar, înseamnă că nu există suficiente statistici pentru a-l respinge. Testele statistice se pot gândi în termenii dihotomiei de respingere și acceptare a ipotezei nule. Pericolul testării statistice a ipotezei nule este că, dacă este acceptată, poate părea adevărată. În schimb, ar fi mai corect să spunem că ipoteza nulă nu este respinsă deoarece nu există suficiente dovezi statistice pentru a o respinge.
Acest moment confundă adesea figuranții începători. Într-un astfel de caz, este important să vă amintiți că rezultatul este probabilist și că chiar și acceptarea ipotezei nule are totuși o mică șansă de eroare.
Ipoteza nulă adevărată sau falsă
Interpretarea valorii lui p nu înseamnă că zeroipoteza este adevărată sau falsă. Aceasta înseamnă că s-a făcut o alegere de a respinge sau nu ipoteza nulă la un anumit nivel de semnificație statistică pe baza datelor empirice și a testului statistic ales. Prin urmare, valoarea p poate fi considerată ca probabilitatea datelor date în baza unei ipoteze predeterminate încorporate în testele statistice. Valoarea p este o măsură a cât de probabil va fi observat eșantionul de date dacă ipoteza nulă este adevărată.
Interpretarea valorilor critice
Unele teste nu revin p. În schimb, pot returna o listă de valori critice. Rezultatele unui astfel de studiu sunt interpretate într-un mod similar. În loc să compare o singură valoare p cu un nivel predeterminat de semnificație, statistica testului este comparată cu o valoare critică. Dacă se dovedește a fi mai puțin, înseamnă că nu a fost posibilă respingerea ipotezei nule. Dacă este mai mare sau egală, ipoteza nulă trebuie respinsă. Semnificația algoritmului de testare a ipotezelor statistice și interpretarea rezultatului acestuia este similară cu valoarea p. Nivelul de semnificație ales este o decizie probabilistică de a respinge sau nu ipoteza testului de bază, având în vedere datele.
Erori în testele statistice
Interpretarea unui test de ipoteză statistică este probabilistică. Sarcina de a testa ipotezele statistice nu este de a găsi o afirmație adevărată sau falsă. Dovezile de testare pot fi eronate. De exemplu, dacă alfa a fost de 5%, aceasta înseamnă că în cea mai mare parte 1 din 20ipoteza nulă va fi respinsă din greşeală. Sau nu va fi din cauza zgomotului statistic din eșantionul de date. Având în vedere acest punct, o valoare p mică la care să se respingă ipoteza nulă poate însemna că este falsă sau că a fost făcută o eroare. Dacă se comite acest tip de eroare, rezultatul se numește fals pozitiv. Și o astfel de eroare este o eroare de primul fel la testarea ipotezelor statistice. Pe de altă parte, dacă valoarea p este suficient de mare pentru a însemna respingerea ipotezei nule, poate însemna că este adevărată. Sau nu este corectă și a avut loc un eveniment improbabil din cauza căruia a fost făcută eroarea. Acest tip de eroare se numește fals negativ.
Probabilitatea de erori
La testarea ipotezelor statistice, există încă șansa de a face oricare dintre aceste tipuri de erori. Datele false sau concluziile false sunt destul de probabile. În mod ideal, ar trebui ales un nivel de semnificație care să minimizeze probabilitatea uneia dintre aceste erori. De exemplu, testarea statistică a ipotezelor nule poate avea un nivel foarte scăzut de semnificație. Deși niveluri de semnificație precum 0,05 și 0,01 sunt comune în multe domenii ale științei, cel mai frecvent utilizat nivel de semnificație este 310^-7 sau 0,0000003. Este adesea denumit „5-sigma”. Aceasta înseamnă că concluzia a fost aleatorie, cu o probabilitate de 1 din 3,5 milioane de repetări independente ale experimentelor. Exemplele de testare a ipotezelor statistice poartă adesea astfel de erori. Acesta este și motivul pentru care este important să avem rezultate independente.verificare.
Exemple de utilizare a verificării statistice
Există mai multe exemple comune de testare a ipotezelor în practică. Una dintre cele mai populare este cunoscută sub numele de „Degustarea ceaiului”. Dr. Muriel Bristol, un coleg cu fondatorul biometriei, Robert Fisher, a susținut că poate spune cu siguranță dacă a fost adăugat mai întâi la o ceașcă de ceai sau lapte. Fisher s-a oferit să-i dea opt căni (patru din fiecare soi) la întâmplare. Statistica testului a fost simplă: numărarea numărului de succese în alegerea unei cupe. Regiunea critică a fost singurul succes din 4, probabil bazat pe criteriul obișnuit al probabilității (< 5%; 1 din 70 ≈ 1,4%). Fisher a susținut că nu este necesară o ipoteză alternativă. Doamna a identificat corect fiecare cană, ceea ce a fost considerat un rezultat semnificativ statistic. Această experiență a condus la cartea lui Fisher Statistical Methods for Researchers.
Exemplu inculpat
Procedura de judecată statistică este comparabilă cu o instanță penală în care inculpatul este prezumat nevinovat până la dovedirea vinovăției. Procurorul încearcă să dovedească vinovăția inculpatului. Numai atunci când există suficiente dovezi pentru o acuzație poate fi găsit vinovat. La începutul procedurii, există două ipoteze: „Inculpatul nu este vinovat” și „Inculpatul este vinovat”. Ipoteza nevinovăției poate fi respinsă doar atunci când eroarea este foarte puțin probabilă pentru că nu se dorește condamnarea unui inculpat nevinovat. O astfel de eroare se numește eroare de tip I și apariția eirar controlat. Ca o consecință a acestui comportament asimetric, eroarea de tip II, adică achitarea făptuitorului, este mai frecventă.
Statisticile sunt utile atunci când se analizează cantități mari de date. Acest lucru se aplică în egală măsură și testării ipotezelor, care pot justifica concluziile chiar dacă nu există nicio teorie științifică. În exemplul de degustare a ceaiului, era „evident” că nu există nicio diferență între turnarea laptelui în ceai sau turnarea ceaiului în lapte.
Aplicarea practică reală a testării ipotezelor include:
- testare dacă bărbații au mai multe coșmaruri decât femeile;
- atribuire document;
- Evaluarea influenței lunii pline asupra comportamentului;
- determinarea intervalului în care un liliac poate detecta o insectă folosind un ecou;
- alegerea celui mai bun mijloc de a renunța la fumat;
- Se verifică dacă autocolantele pentru bara de protecție reflectă comportamentul proprietarului mașinii.
Testarea ipotezelor statistice joacă un rol important în statistică în general și în inferența statistică. Testarea valorii este folosită ca un înlocuitor pentru comparația tradițională a valorii prezise și a rezultatului experimental la baza metodei științifice. Atunci când o teorie este capabilă doar să prezică semnul unei relații, testele de ipoteză dirijată pot fi configurate astfel încât doar un rezultat semnificativ statistic să susțină teoria. Această formă de teorie a evaluării este cea mai rigidăcritica privind utilizarea testării ipotezelor.