Regresia logistică: model și metode

Cuprins:

Regresia logistică: model și metode
Regresia logistică: model și metode
Anonim

Metode de regresie logistică și analiză discriminantă sunt utilizate atunci când este necesar să se diferențieze clar respondenții pe categorii țintă. În acest caz, grupurile în sine sunt reprezentate de niveluri ale unui parametru cu o singură variantă. Să aruncăm o privire mai atentă asupra modelului de regresie logistică și să aflăm de ce este necesar.

regresie logistică
regresie logistică

Informații generale

Un exemplu de problemă în care se utilizează regresia logistică este clasificarea respondenților în grupuri care cumpără și nu cumpără muștar. Diferențierea se realizează în funcție de caracteristicile socio-demografice. Acestea includ, în special, vârsta, sexul, numărul de rude, veniturile etc. În operațiuni, există criterii de diferențiere și o variabilă. Acesta din urmă codifică categoriile țintă în care, de fapt, respondenții ar trebui împărțiți.

Nuances

Ar trebui spus că gama de cazuri în care se aplică regresia logistică este mult mai restrânsă decât pentru analiza discriminantă. În acest sens, se are în vedere utilizarea acesteia din urmă ca metodă universală de diferențieremai preferat. Mai mult, experții recomandă începerea studiilor de clasificare cu analiză discriminantă. Și numai în caz de incertitudine cu privire la rezultate, puteți utiliza regresia logistică. Această nevoie se datorează mai multor factori. Regresia logistică este utilizată atunci când există o înțelegere clară a tipului de variabile independente și dependente. În consecință, este selectată una dintre cele 3 proceduri posibile. În analiza discriminantă, cercetătorul se ocupă întotdeauna de o singură operație statică. Acesta implică o variabilă dependentă și mai multe variabile categorice independente cu orice tip de scară.

Vizualizări

Sarcina unui studiu statistic care utilizează regresia logistică este de a determina probabilitatea ca un anumit respondent să fie repartizat unui anumit grup. Diferențierea se realizează în funcție de anumiți parametri. În practică, în funcție de valorile unuia sau mai multor factori independenți, este posibil să se clasifice respondenții în două grupuri. În acest caz, are loc regresia logistică binară. De asemenea, parametrii specificați pot fi utilizați la împărțirea în grupuri de mai mult de două. Într-o astfel de situație are loc regresia logistică multinomială. Grupurile rezultate sunt exprimate în niveluri ale unei singure variabile.

regresie logistică
regresie logistică

Exemplu

Să presupunem că există răspunsuri ale respondenților la întrebarea dacă sunt interesați de oferta de cumpărare a unui teren în suburbiile Moscovei. Opțiunile sunt „nu”si da. Este necesar să se afle ce factori au o influență predominantă asupra deciziei potențialilor cumpărători. Pentru a face acest lucru, respondenților li se pun întrebări despre infrastructura teritoriului, distanța până la capitală, zona sitului, prezența / absența unei clădiri rezidențiale etc. Folosind regresia binară, este posibil să se distribuie respondenții în două grupuri. Primul îi va include pe cei care sunt interesați de achiziție – potențiali cumpărători, iar al doilea, respectiv, pe cei care nu sunt interesați de o astfel de ofertă. Pentru fiecare respondent, în plus, se va calcula probabilitatea de a fi repartizat într-una sau alta categorie.

Caracteristici comparative

Diferența față de cele două opțiuni de mai sus este numărul diferit de grupuri și tipul de variabile dependente și independente. În regresia binară, de exemplu, se studiază dependența unui factor dihotomic de una sau mai multe condiții independente. Mai mult, acesta din urmă poate avea orice tip de scară. Regresia multinomială este considerată o variație a acestei opțiuni de clasificare. În ea, mai mult de 2 grupuri aparțin variabilei dependente. Factorii independenți trebuie să aibă fie o scară ordinală, fie o scară nominală.

Regresie logistică în spss

În pachetul statistic 11-12 a fost introdusă o nouă versiune de analiză - ordinal. Această metodă este utilizată atunci când factorul dependent aparține aceleiași scale de nume (ordinale). În acest caz, variabilele independente sunt selectate de un tip specific. Ele trebuie să fie fie ordinale, fie nominale. Clasificarea în mai multe categorii este considerată cea mai mareuniversal. Această metodă poate fi utilizată în toate studiile care utilizează regresia logistică. Cu toate acestea, singura modalitate de a îmbunătăți calitatea unui model este să utilizați toate cele trei tehnici.

verificarea calității adecvării și regresia logistică
verificarea calității adecvării și regresia logistică

Clasificare ordinară

Trebuie spus că mai devreme în pachetul statistic nu a existat o posibilitate tipică de a efectua analize specializate pentru factori dependenți cu o scară ordinală. Pentru toate variabilele cu mai mult de 2 grupuri, a fost utilizată varianta multinominală. Analiza ordinală introdusă relativ recent are o serie de caracteristici. Acestea țin cont de specificul scalei. Între timp, în materialele didactice, regresia logistică ordinală nu este adesea considerată o tehnică separată. Acest lucru se datorează următoarelor: analiza ordinală nu are avantaje semnificative față de multinomială. Cercetatorul poate folosi aceasta din urma in prezenta atat a unei variabile dependente ordinale cat si a unei variabile nominale. În același timp, procesele de clasificare în sine aproape că nu diferă unele de altele. Aceasta înseamnă că efectuarea analizei ordinale nu va cauza dificultăți.

Opțiune de analiză

Să luăm în considerare un caz simplu - regresia binară. Să presupunem că, în procesul cercetării de marketing, se evaluează cererea de absolvenți ai unei anumite universități metropolitane. În chestionar, respondenților li s-au pus întrebări, inclusiv:

  1. Ești angajat? (ql).
  2. Introduceți anul absolvirii (q 21).
  3. Care este mediascor de absolvire (mediu).
  4. Sex (q22).

Regresia logistică va evalua impactul factorilor independenți aver, q 21 și q 22 asupra variabilei ql. Mai simplu spus, scopul analizei va fi acela de a determina angajarea probabilă a absolvenților pe baza informațiilor despre domeniu, anul de absolvire și GPA.

indicator de regresie sigmoidă logistică
indicator de regresie sigmoidă logistică

Regresie logistică

Pentru a seta parametrii folosind regresia binară, utilizați meniul Analizați►Regresiune►Binară Logistică. În fereastra Regresie logistică, selectați factorul dependent din lista de variabile disponibile din stânga. Este ql. Această variabilă trebuie plasată în câmpul Dependent. După aceea, este necesar să se introducă factori independenți în diagrama Covariate - q 21, q 22, aver. Apoi trebuie să alegeți cum să le includeți în analiză. Dacă numărul de factori independenți este mai mare de 2, atunci se folosește metoda de introducere simultană a tuturor variabilelor, care este setată implicit, dar pas cu pas. Cea mai populară modalitate este Backward:LR. Folosind butonul Selectați, puteți include în studiu nu toți respondenții, ci doar o anumită categorie țintă.

Definiți variabilele categoriale

Butonul Categoric ar trebui folosit atunci când una dintre variabilele independente este nominală cu mai mult de 2 categorii. În această situație, în fereastra Definire variabile categoriale, doar un astfel de parametru este plasat în secțiunea Covariabile categoriale. În acest exemplu, nu există o astfel de variabilă. După aceea, în lista derulantă urmează Contrastselectați elementul Deviație și apăsați butonul Modificare. Ca urmare, din fiecare factor nominal se vor forma mai multe variabile dependente. Numărul acestora corespunde numărului de categorii ale stării inițiale.

Salvați variabile noi

Folosind butonul Salvare din caseta de dialog principală a studiului, se setează crearea de noi parametri. Acestea vor conține indicatorii calculați în procesul de regresie. În special, puteți crea variabile care definesc:

  1. Aparținând unei anumite categorii de clasificare (afiliație la grup).
  2. Probabilitatea de a atribui un respondent la fiecare grup de studiu (Probabilități).

Când folosește butonul Opțiuni, cercetătorul nu primește opțiuni semnificative. În consecință, poate fi ignorată. După ce faceți clic pe butonul „OK”, rezultatele analizei vor fi afișate în fereastra principală.

coeficientul de regresie logistică
coeficientul de regresie logistică

Verificarea calității pentru adecvare și regresie logistică

Luați în considerare testele omnibus din tabelul coeficienților modelului. Afișează rezultatele analizei calității aproximării modelului. Datorită faptului că a fost setată o opțiune pas cu pas, trebuie să vă uitați la rezultatele ultimei etape (Pasul 2). Un rezultat pozitiv va fi luat în considerare dacă se găsește o creștere a indicatorului Chi-pătrat la trecerea la etapa următoare la un grad ridicat de semnificație (Sig. < 0,05). Calitatea modelului este evaluată în linia Model. Dacă se obține o valoare negativă, dar nu este considerată semnificativă cu materialitatea generală ridicată a modelului, ultimapoate fi considerat practic adecvat.

Mese

Model Summary face posibilă estimarea indicelui de varianță total, care este descris de modelul construit (indicele R Square). Se recomandă utilizarea valorii Nagelker. Parametrul Nagelkerke R Square poate fi considerat un indicator pozitiv dacă este peste 0,50. După aceea, se evaluează rezultatele clasificării, în care indicatorii efectivi de apartenență la una sau alta categorie studiată sunt comparați cu cei prevăzuți pe baza modelului de regresie. Pentru aceasta se folosește Tabelul de Clasificare. De asemenea, ne permite să tragem concluzii despre corectitudinea diferențierii pentru fiecare grup luat în considerare.

model de regresie logistică
model de regresie logistică

Următorul tabel oferă o oportunitate de a afla semnificația statistică a factorilor independenți introduși în analiză, precum și fiecare coeficient de regresie logistică nestandardizată. Pe baza acestor indicatori, este posibil să se prezică apartenența fiecărui respondent din eșantion la un anumit grup. Folosind butonul Salvare, puteți introduce noi variabile. Acestea vor conține informații despre apartenența la o anumită categorie de clasificare (Predictedcategory) și probabilitatea de a fi incluse în aceste grupuri (Predicted probabilities membership). După ce faceți clic pe „OK”, rezultatele calculului vor apărea în fereastra principală a regresiei logistice multinomiale.

Primul tabel, care conține indicatori importanți pentru cercetător, este Informații de adaptare a modelului. Un nivel ridicat de semnificație statistică ar indica calitate în altă șiadecvarea utilizării modelului în rezolvarea problemelor practice. Un alt tabel semnificativ este Pseudo R-Square. Vă permite să estimați proporția varianței totale în factorul dependent, care este determinată de variabilele independente selectate pentru analiză. Conform tabelului Teste ale raportului de probabilitate, putem trage concluzii despre semnificația statistică a acestora din urmă. Estimările parametrilor reflectă coeficienți nestandardizați. Ele sunt utilizate în construcția ecuației. În plus, pentru fiecare combinație de variabile a fost determinată semnificația statistică a impactului acestora asupra factorului dependent. Între timp, în cercetarea de marketing, devine adesea necesară diferențierea respondenților pe categorii nu individual, ci ca parte a grupului țintă. Pentru aceasta, se folosește tabelul Observat și Predicte Frecvențe.

Aplicație practică

Metoda de analiză considerată este utilizată pe scară largă în munca comercianților. În 1991, a fost dezvoltat indicatorul de regresie sigmoidă logistică. Este un instrument ușor de utilizat și eficient pentru prezicerea prețurilor probabile înainte ca acestea să se „supraîncălzească”. Indicatorul este prezentat pe diagramă ca un canal format din două linii paralele. Ele sunt distanțate în mod egal de tendință. Lățimea coridorului va depinde numai de intervalul de timp. Indicatorul este utilizat atunci când lucrați cu aproape toate activele - de la perechi valutare la metale prețioase.

regresie logistică în spss
regresie logistică în spss

În practică, au fost dezvoltate 2 strategii cheie pentru utilizarea instrumentului: pentru evaziune șipentru o tură. În acest ultim caz, comerciantul se va concentra pe dinamica modificărilor de preț în cadrul canalului. Pe măsură ce valoarea se apropie de linia de sprijin sau de rezistență, se pune un pariu pe probabilitatea ca mișcarea să înceapă în direcția opusă. Dacă prețul se apropie de granița superioară, atunci puteți scăpa de activ. Dacă este la limita inferioară, atunci ar trebui să vă gândiți la cumpărare. Strategia de breakout implică utilizarea comenzilor. Sunt instalate în afara limitelor la o distanță relativ mică. Ținând cont de faptul că prețul în unele cazuri le încalcă pentru o perioadă scurtă de timp, ar trebui să jucați în siguranță și să setați stop losses. În același timp, desigur, indiferent de strategia aleasă, comerciantul trebuie să perceapă și să evalueze cât mai calm situația apărută pe piață.

Concluzie

Astfel, utilizarea regresiei logistice vă permite să clasificați rapid și ușor respondenții în categorii în funcție de parametrii dați. Când analizați, puteți utiliza orice metodă anume. În special, regresia multinomială este universală. Cu toate acestea, experții recomandă utilizarea combinată a tuturor metodelor descrise mai sus. Acest lucru se datorează faptului că în acest caz calitatea modelului va fi semnificativ mai mare. Aceasta, la rândul său, va extinde gama aplicației sale.

Recomandat: