Rețele bayesiene: definiție, exemple și cum funcționează

Cuprins:

Rețele bayesiene: definiție, exemple și cum funcționează
Rețele bayesiene: definiție, exemple și cum funcționează
Anonim

O credință, o rețea de decizie, un model bayesian (ian) sau un model de grafic aciclic condus de probabilități este o schemă variantă (un tip de model statistic) care reprezintă un set de variabile și dependențele lor condiționate printr-un grafic aciclic direcționat (DAG).).

De exemplu, o rețea bayesiană poate reprezenta relații probabilistice între boli și simptome. Având în vedere acestea din urmă, rețeaua poate fi folosită pentru a calcula posibilitatea de a avea diverse boli. În videoclipul de mai jos puteți vedea un exemplu de rețea de credință bayesiană cu calcule.

Image
Image

Eficiență

Algoritmii eficienți pot efectua inferențe și învățare pe rețele bayesiene. Rețelele care modelează variabile (cum ar fi semnalele de vorbire sau secvențele de proteine) sunt numite rețele dinamice. Generalizările rețelelor bayesiene care pot reprezenta și rezolva probleme în condiții de incertitudine se numesc diagrame de influență.

Esență

FormalRețelele bayesiene sunt DAG-uri ale căror noduri reprezintă variabile în sens bayesian: pot fi valori observate, variabile ascunse, parametri necunoscuți sau ipoteze. Pentru că este foarte interesant.

Exemplu de rețea bayesiană

Două evenimente pot determina umezeala iarbă: un stropitor activ sau ploaia. Ploaia are un efect direct asupra folosirii aspersoarei (si anume ca atunci cand ploua, aspersorul este de obicei inactiv). Această situație poate fi modelată folosind o rețea bayesiană.

Formula tipică
Formula tipică

Simulare

Deoarece rețeaua Bayesiană este un model complet pentru variabilele sale și relațiile lor, poate fi folosită pentru a răspunde întrebărilor probabilistice despre acestea. De exemplu, poate fi folosit pentru a actualiza cunoștințele despre starea unui subset de variabile atunci când sunt observate alte date (variabile de evidență). Acest proces interesant se numește inferență probabilistică.

A posteriori oferă o statistică suficientă universal pentru aplicațiile de descoperire atunci când alegeți valori pentru un subset de variabile. Astfel, acest algoritm poate fi considerat un mecanism de aplicare automată a teoremei lui Bayes la probleme complexe. În imaginile din articol puteți vedea exemple de rețele de credințe bayesiene.

Rețea bayesiană practică
Rețea bayesiană practică

Metode de ieșire

Cele mai comune metode de inferență exactă sunt: eliminarea variabilelor, care elimină (prin integrare sau însumare) neobservabilulparametrii non-interogare unul câte unul prin alocarea sumei produsului.

Faceți clic pe propagarea unui „arboresc” care memorează în cache calculele, astfel încât multe variabile pot fi interogate simultan și noi dovezi pot fi propagate rapid; și potrivirea și/sau căutarea recursivă, care permit compromisuri între spațiu și timp și potrivesc eficiența eliminării variabilelor atunci când este folosit suficient spațiu.

Toate aceste metode au o complexitate deosebită care depinde exponențial de lungimea rețelei. Cei mai comuni algoritmi de inferență aproximativă sunt eliminarea mini-segmentului, propagarea ciclică a credinței, propagarea credinței generalizate și metodele variaționale.

Tipuri de rețele
Tipuri de rețele

Rețea

Pentru a specifica pe deplin rețeaua Bayesiană și, astfel, pentru a reprezenta pe deplin distribuția de probabilitate comună, este necesar să se precizeze pentru fiecare nod X distribuția de probabilitate pentru X datorată părinților lui X.

Repartizarea lui X în mod condiționat de către părinții săi poate avea orice formă. Este obișnuit să lucrați cu distribuții discrete sau gaussiene, deoarece simplifică calculele. Uneori sunt cunoscute doar constrângerile de distribuție. Puteți utiliza apoi entropia pentru a determina distribuția unică care are cea mai mare entropie având în vedere constrângerile.

În mod similar, în contextul specific al unei rețele bayesiene dinamice, distribuția condiționată pentru evoluția temporală a latenteistarea este de obicei setată pentru a maximiza rata de entropie a procesului aleator implicit.

Web Bayesian de încredere
Web Bayesian de încredere

Maximizarea directă a probabilității (sau a probabilității posterioare) este adesea dificilă, având în vedere prezența variabilelor neobservate. Acest lucru este valabil mai ales pentru o rețea de decizie bayesiană.

Abordare clasică

Abordarea clasică a acestei probleme este algoritmul de maximizare a așteptărilor, care alternează calcularea valorilor așteptate ale variabilelor neobservate dependente de datele observate cu maximizarea probabilității totale (sau a valorii posterioare), presupunând că valoarea așteptată calculată anterior valorile sunt corecte. În condiții de regularitate moderată, acest proces converge în valorile maxime (sau maxime a posteriori) ale parametrilor.

O abordare bayesiană mai completă a parametrilor este de a le trata ca variabile suplimentare neobservate și de a calcula distribuția posterioară completă pe toate nodurile, având în vedere datele observate, și apoi de a integra parametrii. Această abordare poate fi costisitoare și poate duce la modele mari, făcând abordările clasice de reglare a parametrilor mai accesibile.

În cel mai simplu caz, o rețea bayesiană este definită de un expert și apoi utilizată pentru a efectua inferențe. În alte aplicații, sarcina de a determina este prea dificilă pentru un om. În acest caz, structura rețelei neuronale bayesiene și parametrii distribuțiilor locale trebuie învățați printre date.

Rețele bayesiene
Rețele bayesiene

Metodă alternativă

O metodă alternativă de învățare structurată folosește căutarea de optimizare. Acest lucru necesită aplicarea unei funcții de evaluare și a unei strategii de căutare. Un algoritm comun de notare este probabilitatea posterioară a unei structuri date de antrenament, cum ar fi BIC sau BDeu.

Timpul necesar pentru o căutare exhaustivă care returnează o structură care maximizează scorul este supraexponențial în numărul de variabile. Strategia de căutare locală face modificări incrementale pentru a îmbunătăți estimarea structurii. Friedman și colegii săi au luat în considerare utilizarea informațiilor reciproce între variabile pentru a găsi structura dorită. Ele restricționează setul de candidați părinți la k noduri și le caută în detaliu.

O metodă deosebit de rapidă pentru a studia exact BN este de a imagina problema ca o problemă de optimizare și de a o rezolva folosind programarea cu numere întregi. Constrângerile de aciclicitate sunt adăugate programului întreg (IP) în timpul soluției sub formă de planuri de tăiere. O astfel de metodă poate rezolva probleme până la 100 de variabile.

Grafice și rețele
Grafice și rețele

Rezolvarea problemelor

Pentru a rezolva probleme cu mii de variabile, este nevoie de o abordare diferită. Una este să alegeți mai întâi o comandă și apoi să găsiți structura BN optimă în raport cu acea comandă. Aceasta implică lucrul în spațiul de căutare a posibilelor ordonări, ceea ce este convenabil deoarece este mai mic decât spațiul structurilor de rețea. Mai multe comenzi sunt apoi selectate și evaluate. Această metodă s-a doveditcel mai bine disponibil în literatură atunci când numărul de variabile este mare.

O altă metodă este să te concentrezi pe o subclasă de modele descompuse pentru care MLE-urile sunt închise. Apoi puteți găsi o structură consistentă pentru sute de variabile.

Studiarea rețelelor bayesiene cu o lățime limitată de trei linii este necesară pentru a oferi o inferență precisă, interpretabilă, deoarece complexitatea celui mai rău caz a acestora din urmă este exponențială în lungimea arborelui k (conform ipotezei timpului exponențial). Cu toate acestea, ca proprietate globală a graficului, crește foarte mult complexitatea procesului de învățare. În acest context, K-tree poate fi folosit pentru o învățare eficientă.

Rețea scurtă
Rețea scurtă

Dezvoltare

Dezvoltarea unui Web Bayesian de încredere începe adesea cu crearea unui DAG G astfel încât X să satisfacă o proprietate Markov locală în raport cu G. Uneori, acesta este un DAG cauzal. Sunt estimate distribuțiile de probabilitate condiționată ale fiecărei variabile peste părinții ei în G. În multe cazuri, în special atunci când variabilele sunt discrete, dacă distribuția comună a lui X este produsul acestor distribuții condiționate, atunci X devine o rețea bayesiană în raport cu G.

„Pătura cu noduri” a lui Markov este un set de noduri. Cuvertura Markov face nodul independent de restul spațiului liber al nodului cu același nume și este suficient de cunoștințe pentru a calcula distribuția acestuia. X este o rețea bayesiană în raport cu G dacă fiecare nod este independent condiționat de toate celel alte noduri, având în vedere Markovianul săupătură.

Recomandat: