Scalarea multidimensională: definiție, scopuri, obiective și exemplu

Cuprins:

Scalarea multidimensională: definiție, scopuri, obiective și exemplu
Scalarea multidimensională: definiție, scopuri, obiective și exemplu
Anonim

Scalarea multivariate (MDS) este un instrument pentru vizualizarea nivelului de similitudine a cazurilor individuale dintr-un set de date. Se referă la un set de metode de ordonare aferente utilizate în vizualizarea informațiilor, în special pentru afișarea informațiilor conținute într-o matrice de distanță. Aceasta este o formă de reducere a dimensionalității neliniare. Algoritmul MDS urmărește să plaseze fiecare obiect într-un spațiu N-dimensional în așa fel încât distanțele dintre obiecte să fie păstrate cât mai bine posibil. Fiecărui obiect i se atribuie apoi coordonate în fiecare dintre cele N dimensiuni.

Numărul de dimensiuni ale graficului MDS poate depăși 2 și este specificat a priori. Selectarea N=2 optimizează plasarea obiectelor pentru graficul de dispersie 2D. Puteți vedea exemple de scalare multidimensională în imaginile din articol. Exemplele cu simboluri în limba rusă sunt deosebit de ilustrative.

Scalare multidimensională
Scalare multidimensională

Esență

Metoda de scalare multidimensională (MMS,MDS) este un set extins de instrumente clasice care generalizează procedura de optimizare pentru un set de funcții de pierdere și matrice de intrare a distanțelor cunoscute cu ponderi și așa mai departe. În acest context, o funcție de pierdere utilă se numește stres, care este adesea minimizat printr-o procedură numită majorare a stresului.

Manual

Există mai multe opțiuni pentru scalarea multidimensională. Programele MDS reduc automat sarcina pentru a obține o soluție. Miezul algoritmului nemetric MDS este un proces de optimizare dublu. În primul rând, trebuie găsită transformarea optimă de proximitate monotonă. În al doilea rând, punctele de configurare trebuie să fie poziționate optim, astfel încât distanțele lor să se potrivească cât mai aproape cu valorile de proximitate scalate.

Exemplu de scalare multidimensională
Exemplu de scalare multidimensională

Extindere

O extensie a scalei metrice multidimensionale în statistici în care spațiul țintă este un spațiu neeuclidian neted arbitrar. Unde diferențele sunt distanțe pe o suprafață și spațiul țintă este o suprafață diferită. Programele tematice vă permit să găsiți un atașament cu o distorsiune minimă a unei suprafețe în alta.

Pași

Există mai mulți pași în realizarea unui studiu folosind scalarea multivariată:

  1. Formularea problemei. Ce variabile doriți să comparați? Câte variabile vrei să compari? În ce scop va fi folosit studiul?
  2. Obținerea datelor de intrare. Respondenților li se pun o serie de întrebări. Pentru fiecare pereche de produse, li se cere să evalueze asemănarea (de obicei pe o scară Likert de 7 puncte de la foarte asemănător la foarte diferit). Prima întrebare ar putea fi pentru Coca-Cola/Pepsi, de exemplu, următoarea pentru bere, următoarea pentru Dr. Pepper etc. Numărul de întrebări depinde de numărul de mărci.
Scalare la distanță
Scalare la distanță

Abordări alternative

Există alte două abordări. Există o tehnică numită „Perceptual Data: Derived Approach” în care produsele sunt descompuse în atribute, iar evaluarea se face pe o scară diferențială semantică. O altă metodă este „abordarea datelor despre preferințe”, în care respondenții sunt întrebați despre preferințe, mai degrabă decât despre asemănări.

Acesta constă din următorii pași:

  1. Lansarea programului statistic MDS. Software-ul pentru efectuarea procedurii este disponibil în multe pachete software statistice. Există adesea o alegere între MDS metric (care se ocupă cu date de nivel de interval sau raport) și MDS non-metric (care se ocupă de date ordinale).
  2. Determinarea numărului de măsurători. Cercetătorul trebuie să determine numărul de măsurători pe care dorește să le creeze pe computer. Cu cât sunt mai multe măsurători, cu atât potrivirea statistică este mai bună, dar cu atât interpretarea rezultatelor este mai dificilă.
  3. Afișați rezultatele și definiți măsurători - programul statistic (sau modulul aferent) va afișa rezultatele. Harta va afișa fiecare produs (de obicei în 2D).spaţiu). Apropierea produselor între ele indică fie asemănarea, fie preferința lor, în funcție de abordarea utilizată. Cu toate acestea, modul în care măsurătorile corespund de fapt cu măsurătorile comportamentului sistemului nu este întotdeauna clar. Aici se poate face o judecată subiectivă de conformitate.
  4. Verificați rezultatele pentru fiabilitate și validitate - calculați R-pătrat pentru a determina proporția variației datelor scalate care poate fi luată în considerare prin procedura MDS. Pătratul R 0,6 este considerat nivelul minim acceptabil. R pătratul 0,8 este considerat bun pentru scalarea metrică, în timp ce 0,9 este considerat bun pentru scalarea non-metrică.
Rezultate scalare multivariată
Rezultate scalare multivariată

Diverse teste

Alte teste posibile sunt testele de stres de tip Kruskal, testele de date împărțite, testele de stabilitate a datelor și testele de fiabilitate retestare. Scrieți în detaliu despre rezultatele testului. Împreună cu cartografierea, trebuie specificată cel puțin o măsură a distanței (de ex. indicele Sorenson, indicele Jaccard) și a fiabilității (de exemplu, valoarea tensiunii).

Este de asemenea foarte de dorit să se ofere un algoritm (de exemplu, Kruskal, Mather) care este adesea determinat de programul utilizat (uneori înlocuind raportul algoritmului), dacă ați dat o configurație de pornire sau ați avut o alegere aleatorie, număr de rulări de dimensiuni, rezultatele Monte Carlo, numărul de iterații, scorul de stabilitate și variația proporțională a fiecărei axe (r-pătrat).

Metoda de analiză a datelor și informațiilor vizualescalare multidimensională

Vizualizarea informațiilor este studiul reprezentărilor interactive (vizuale) ale datelor abstracte pentru a îmbunătăți cunoașterea umană. Datele abstracte includ atât date numerice, cât și date nenumerice, cum ar fi informații textuale și geografice. Cu toate acestea, vizualizarea informațiilor diferă de vizualizarea științifică: „este informațională (vizualizarea informațiilor) atunci când este aleasă o reprezentare spațială și scivis (vizualizarea științifică) atunci când este dată o reprezentare spațială.”

Domeniul vizualizării informațiilor a apărut din cercetările în interacțiunea om-calculator, aplicații informatice, grafică, design vizual, psihologie și metode de afaceri. Este din ce în ce mai folosit ca o componentă esențială în cercetarea științifică, bibliotecile digitale, extragerea datelor, datele financiare, cercetarea pieței, controlul producției și așa mai departe.

Metode și principii

Vizualizarea informațiilor sugerează că metodele de vizualizare și interacțiune profită de bogăția percepției umane, permițând utilizatorilor să vadă, să exploreze și să înțeleagă simultan cantități mari de informații. Vizualizarea informațiilor își propune să creeze abordări pentru comunicarea datelor abstracte, a informațiilor într-un mod intuitiv.

Scalare multidimensională a culorilor
Scalare multidimensională a culorilor

Analiza datelor este o parte integrantă a tuturor cercetărilor aplicate și soluționării problemelor din industrie. Cel maiAbordările fundamentale ale analizei datelor sunt vizualizarea (histograme, diagrame de dispersie, diagrame de suprafață, hărți arbore, diagrame de coordonate paralele etc.), statistica (testarea ipotezelor, regresia, PCA etc.), analiza datelor (potrivire etc.)..d.) și metode de învățare automată (clustering, clasificare, arbori de decizie etc.).

Dintre aceste abordări, vizualizarea informațiilor sau analiza vizuală a datelor este cea mai dependentă de abilitățile cognitive ale personalului analitic și permite descoperirea unor perspective acționale nestructurate care sunt limitate doar de imaginația și creativitatea umană. Un analist nu trebuie să învețe tehnici complexe pentru a putea interpreta vizualizările datelor. Vizualizarea informațiilor este, de asemenea, o schemă de generare a ipotezelor care poate și este de obicei însoțită de analize mai analitice sau formale, cum ar fi testarea statistică a ipotezelor.

Studiu

Studiul modern al vizualizării a început cu grafica computerizată, care „de la bun început a fost folosită pentru a studia probleme științifice. Cu toate acestea, în primii ani, lipsa puterii grafice a limitat adesea utilitatea acesteia. A început prioritatea vizualizării. să se dezvolte în 1987, odată cu lansarea unui software special pentru grafică computerizată și vizualizare în calculul științific De atunci, au existat mai multe conferințe și ateliere organizate în comun de IEEE Computer Society și ACM SIGGRAPH.

Au acoperit subiectele generale de vizualizare a datelor, vizualizare a informațiilor și vizualizare științifică,precum și zone mai specifice, cum ar fi redarea volumului.

Scalare multidimensională a mărcii
Scalare multidimensională a mărcii

Rezumat

Scalarea multidimensională generalizată (GMDS) este o extensie a scalării multidimensionale metrice în care spațiul țintă este non-euclidian. Când diferențele sunt distanțe pe o suprafață, iar spațiul țintă este o altă suprafață, GMDS vă permite să găsiți imbricarea unei suprafețe în alta cu o distorsiune minimă.

GMDS este o nouă linie de cercetare. În prezent, principalele aplicații sunt recunoașterea obiectelor deformabile (de exemplu, pentru recunoașterea feței 3D) și maparea texturii.

Scopul scalarii multidimensionale este de a reprezenta date multidimensionale. Datele multidimensionale, adică datele care necesită mai mult de două sau trei dimensiuni pentru a fi reprezentate, pot fi dificil de interpretat. O abordare a simplificării este să presupunem că datele de interes se află pe o varietate neliniară încorporată într-un spațiu de dimensiuni mari. Dacă colectorul are o dimensiune suficient de mică, datele pot fi vizualizate în spațiu cu dimensiuni reduse.

Multe dintre metodele de reducere a dimensionalității neliniare sunt legate de metodele liniare. Metodele neliniare pot fi clasificate pe scară largă în două grupe: cele care oferă cartografiere (fie de la spațiu de dimensiuni mari la încorporare de dimensiuni reduse, sau invers) și cele care oferă pur și simplu vizualizare. În contextul învățării automate, metodele de cartografiere pot fi privite cao etapă preliminară a extragerii caracteristicilor, după care se aplică algoritmi de recunoaștere a modelelor. De obicei, cele care oferă doar vizualizări se bazează pe date de proximitate - adică măsurători de distanță. Scalare multidimensională este, de asemenea, destul de comună în psihologie și alte științe umaniste.

Scalare multidimensională diagonală
Scalare multidimensională diagonală

Dacă numărul de atribute este mare, atunci spațiul șirurilor posibile unice este, de asemenea, exponențial. Astfel, cu cât dimensiunea este mai mare, cu atât devine mai dificilă înfățișarea spațiului. Acest lucru cauzează o mulțime de probleme. Algoritmii care operează pe date cu dimensiuni mari tind să aibă o complexitate de timp foarte mare. Reducerea datelor la mai puține dimensiuni face adesea algoritmii de analiză mai eficienți și îi poate ajuta pe algoritmii de învățare automată să facă predicții mai precise. Acesta este motivul pentru care scalarea datelor multidimensionale este atât de populară.

Recomandat: