Data Mining este Concept, analiză algoritmică, scop și aplicație

Cuprins:

Data Mining este Concept, analiză algoritmică, scop și aplicație
Data Mining este Concept, analiză algoritmică, scop și aplicație
Anonim

Dezvoltarea tehnologiei informației aduce rezultate practice. Dar sarcini precum găsirea, analizarea și utilizarea informațiilor nu au primit încă un instrument eficient de în altă calitate. Există instrumente de analiză și cantitative, chiar funcționează. Dar încă nu a avut loc o revoluție calitativă în utilizarea informațiilor.

Cu mult înainte de apariția tehnologiei informatice, o persoană trebuia să prelucreze cantități mari de informații și să facă față acestora la maximum din experiența sa și de capacitățile tehnice disponibile.

Dezvoltarea cunoștințelor și abilităților a satisfăcut întotdeauna nevoi reale și a corespuns sarcinilor curente. Data mining este o denumire colectivă folosită pentru a face referire la un set de metode de descoperire a cunoștințelor necunoscute anterior, nebanale, practic utile și accesibile în date, necesare pentru luarea deciziilor în diverse domenii ale activității umane.

Uman, inteligență, programare

O persoană știe întotdeauna cum să acționeze în orice situație. Ignoranța sau o situație necunoscută nu îl împiedică să ia o decizie. Obiectivitatea și caracterul rezonabil al oricărei decizii umane pot fi puse la îndoială, dar vor fi acceptate.

Inteligenta se bazeaza pe: „mecanism” ereditar, cunostinte dobandite, active. Cunoștințele sunt aplicate pentru a rezolva problemele care apar în fața unei persoane.

  1. Inteligenta este un set unic de cunostinte si abilitati: oportunitati si fundatie pentru viata si munca umana.
  2. Inteligenta evolueaza constant, iar actiunile umane au un impact asupra altor oameni.

Programarea este prima încercare de a oficializa reprezentarea datelor și procesul de creare a algoritmilor.

Om, inteligență, programare
Om, inteligență, programare

Inteligenta artificiala (IA) este o pierdere de timp si resurse, dar rezultatele incercarilor nereusite ale secolului trecut in domeniul AI au ramas in memorie, au fost folosite in diverse sisteme experte (inteligente) si au fost transformate, în special, în algoritmi (reguli) și analiza datelor matematice (logice) și data mining.

Informații și căutarea obișnuită a unei soluții

O bibliotecă obișnuită este un depozit de cunoștințe, iar cuvintele și graficele tipărite nu au dat încă palma tehnologiei computerizate. Cărțile despre fizică, chimie, mecanică teoretică, design, istorie naturală, filozofie, științe naturale, botanică, manuale, monografii, lucrări ale oamenilor de știință, materiale pentru conferințe, rapoarte despre activitățile de dezvoltare etc. sunt întotdeauna relevante și de încredere.

Library este o mulțime de surse diferite care diferăforma de prezentare a materialului, originea, structura, continutul, stilul de prezentare etc.

Bibliotecă: cărți, reviste și alte materiale tipărite
Bibliotecă: cărți, reviste și alte materiale tipărite

În exterior, totul este vizibil (lizibil, accesibil) pentru înțelegere și utilizare. Puteți rezolva orice problemă, setați corect sarcina, justificați soluția, scrieți un eseu sau un referat, să selectați material pentru o diplomă, să analizați surse pe tema unei dizertații sau a unui raport științific și analitic.

Orice problemă de informare poate fi rezolvată. Cu perseverența și priceperea cuvenită, se va obține un rezultat precis și de încredere. În acest context, Data Mining este o abordare complet diferită.

Pe lângă rezultat, o persoană primește „linkuri active” către tot ceea ce a fost vizualizat în procesul de atingere a obiectivului. Se poate face referire la sursele pe care le-a folosit în rezolvarea problemei și nimeni nu va contesta faptul existenței sursei. Aceasta nu este o garanție a autenticității, dar este o mărturie sigură căruia îi este „dezabonată” responsabilitatea pentru autenticitate. Din acest punct de vedere, Data Mining înseamnă îndoieli mari cu privire la fiabilitate și nicio legătură „active”.

Rezolvând mai multe probleme, o persoană obține rezultate și își extinde potențialul intelectual la multe „legături active”. Dacă o nouă sarcină „activează” un link deja existent, persoana respectivă va ști cum să o rezolve: nu este nevoie să cauți nimic din nou.

„Legătura activă” este o asociere fixă: cum și ce să faci într-un anumit caz. Creierul uman își amintește automat tot ceea ce i se pare potențial interesant, util.sau probabil că va fi nevoie în viitor. În multe feluri, acest lucru se întâmplă la nivel subconștient, dar de îndată ce apare o sarcină care poate fi asociată cu o „legătură activă”, aceasta apare instantaneu în minte și se va obține o soluție fără căutare suplimentară de informații. Data Mining este întotdeauna o repetare a algoritmului de căutare, iar acest algoritm nu se modifică.

Căutare obișnuită: probleme „artistice”

Biblioteca de matematică și căutarea de informații în ea este o sarcină relativ slabă. Găsirea unui mod sau altul de a rezolva o integrală, de a construi o matrice sau de a efectua operația de adunare a două numere imaginare este laborioasă, dar simplă. Trebuie să sortați o serie de cărți, dintre care multe sunt scrise într-o anumită limbă, să găsiți textul potrivit, să îl studiați și să obțineți soluția necesară.

De-a lungul timpului, enumerarea va deveni familiară, iar experiența acumulată vă va permite să navigați prin informațiile bibliotecii și alte probleme matematice. Acesta este un spațiu informativ limitat de întrebări și răspunsuri. O trăsătură caracteristică: o astfel de căutare a informațiilor acumulează cunoștințe pentru rezolvarea unor probleme similare. Căutarea de informații de către o persoană lasă urme („linkuri active”) în memoria sa cu privire la posibilele soluții la alte probleme.

În ficțiune, găsiți răspunsul la întrebarea: „Cum trăiau oamenii în ianuarie 1248?” foarte greu. Este și mai greu de răspuns la întrebarea ce era pe rafturile magazinelor și cum era organizat comerțul cu alimente. Chiar dacă un scriitor a scris clar și direct despre acest lucru în romanul său, dacă numele acestui scriitor a putut fi găsit, atunci se îndoiesc desprefiabilitatea datelor primite va rămâne. Fiabilitatea este o caracteristică critică a oricărei cantități de informații. Sursa, autorul și dovezile care exclud falsitatea rezultatului sunt importante.

Circumstanțe obiective ale unei anumite situații

Omul vede, aude, simte. Unii specialiști sunt fluenți într-un sentiment unic - intuiția. Enunțarea problemei necesită informații, procesul de rezolvare a problemei este cel mai adesea însoțit de o rafinare a enunțului problemei. Aceasta este cea mai mică problemă care vine cu mutarea informațiilor în măruntaiele unui sistem informatic.

Informații în spațiul virtual
Informații în spațiul virtual

Biblioteca și colegii de muncă sunt participanți indirecti la procesul de decizie. Designul cărții (sursa), grafica din text, caracteristicile împărțirii informațiilor în titluri, notele de subsol după fraze, indexul subiectului, lista surselor primare - totul evocă asocieri la o persoană care afectează indirect procesul de rezolvare. problema.

Momentul și locul rezolvării problemei sunt esențiale. O persoană este astfel aranjată încât acordă involuntar atenție la tot ceea ce o înconjoară în procesul de rezolvare a unei probleme. Poate distrage atenția sau poate fi stimulant. Data Mining nu va „înțelege” niciodată.

Informații în spațiul virtual

O persoană a fost întotdeauna interesată doar de informații fiabile despre un eveniment, fenomen, obiect, algoritm pentru rezolvarea unei probleme. Omul și-a imaginat întotdeauna exact cum poate atinge scopul dorit.

Apariția computerelor și a sistemelor informaționale ar fi trebuit să ușureze viața unei persoane, dar totul a devenit doar mai complicat. Informațiile au migrat în măruntaiele sistemelor informatice și au dispărut din vedere. Pentru a selecta datele necesare, trebuie să creați un algoritm corect sau să formulați o interogare la baza de date.

Date din interiorul sistemului informatic
Date din interiorul sistemului informatic

Întrebarea trebuie să fie corectă. Abia atunci poți obține un răspuns. Dar îndoielile cu privire la autenticitate rămân. În acest sens, Data Mining este într-adevăr „săpături”, este „extracție de informații”. Așa este la modă să traducem această frază. Versiunea rusă este data mining sau tehnologie de data mining.

În lucrările specialiștilor autorizați, sarcinile Data Mining sunt indicate după cum urmează:

  • clasificare;
  • clustering;
  • asociație;
  • secvență;
  • prognoză.

Din punctul de vedere al practicii care ghidează o persoană în prelucrarea manuală a informaţiei, toate aceste poziţii sunt discutabile. În orice caz, o persoană prelucrează informațiile automat și nu se gândește la clasificarea datelor, la compilarea grupurilor tematice de obiecte (clustering), la căutarea modelelor temporale (secvență) sau la prezicerea rezultatului.

Toate aceste poziții din mintea umană sunt reprezentate de cunoștințe active, care acoperă mai multe poziții și folosesc dinamic logica procesării datelor inițiale. Subconștientul unei persoane joacă un rol important, mai ales atunci când este specialist într-un anumit domeniu de cunoaștere.

Exemplu: comerț cu ridicata al echipamentelor informatice

Sarcina este simplă. Sunt câtevazeci de furnizori de echipamente informatice si periferice. Fiecare are o listă de prețuri în format xls (fișier Excel), care poate fi descărcată de pe site-ul oficial al furnizorului. Este necesar să se creeze o resursă web care citește fișierele Excel, le convertește în tabele de baze de date și permite clienților să selecteze produsele dorite la cele mai mici prețuri.

Problemele apar imediat. Fiecare furnizor oferă propria versiune a structurii și conținutului fișierului xls. Puteți obține fișierul descarcându-l de pe site-ul furnizorului, comandându-l prin e-mail sau obținerea unui link de descărcare prin contul dvs. personal, adică prin înregistrarea oficială la furnizor.

Magazin virtual de calculatoare
Magazin virtual de calculatoare

Rezolvarea problemei (la început) este simplă din punct de vedere tehnologic. La încărcarea fișierelor (date inițiale), se scrie un algoritm de recunoaștere a fișierelor pentru fiecare furnizor și datele sunt plasate într-un tabel mare de date inițiale. După ce toate datele au fost primite, după ce s-a stabilit mecanismul de schimbare continuă (zilnic, săptămânal sau la schimbare) a datelor proaspete:

  • schimbați sortimentul;
  • modificări de preț;
  • clarificarea cantității din stoc;
  • ajustarea termenilor de garanție, specificațiilor etc.

De aici încep adevăratele probleme. Chestia este că furnizorul poate scrie:

  • notebook Acer;
  • notebook Asus;
  • laptop Dell.

Vorbim despre același produs, dar de la diferiți producători. Cum să potriviți notebook=laptop sau cum să eliminați Acer, Asus și Dell dintr-o linie de produse?

Pentruumanul nu este o problemă, dar cum va „înțelege” algoritmul că Acer, Asus, Dell, Samsung, LG, HP, Sony sunt mărci comerciale sau furnizori? Cum se potrivește „imprimantă” și imprimantă, „scaner” și „MFP”, „copiator” și „MFP”, „căști” cu „cască”, „accesorii” cu „accesorii”?

Crearea unui arbore de categorii pe baza datelor sursă (fișiere sursă) este deja o problemă atunci când trebuie să setați totul la automat.

Eșantionarea datelor: săpături ale „proaspăt turnate”

Sarcina de a crea o bază de date a furnizorilor de echipamente informatice a fost rezolvată. A fost construit un arbore de categorii, funcționează un tabel comun cu oferte de la toți furnizorii.

Sarcini tipice de extragere a datelor în contextul acestui exemplu:

  • găsiți un produs la cel mai mic preț;
  • selectați articolul cu cel mai mic cost de expediere și preț;
  • analiza produsului: caracteristici și prețuri în funcție de criterii.

În munca reală a unui manager care utilizează date de la câteva zeci de furnizori, vor exista multe variante ale acestor sarcini și chiar mai multe situații reale.

De exemplu, există un furnizor „A” care vinde ASUS VivoBook S15: plată anticipată, livrare la 5 zile de la primirea efectivă a banilor. Există un furnizor „B” al aceluiași produs de același model: plata la primire, livrarea după încheierea contractului în termen de o zi, prețul este de o dată și jumătate mai mare.

Data Mining începe - „săpături”. Expresii figurative: „săpăturile” sau „exploatarea datelor” sunt sinonime. Este vorba despre cum să obțineți un motiv pentru a lua o decizie.

Furnizorii „A” și „B” au un istoric al livrărilor. Notaplata anticipată în primul caz contra plată la primire în al doilea caz, ținând cont de faptul că eșecul de livrare în al doilea caz este cu 65% mai mare. Riscul de penalități din partea clientului este mai mare/mai mic. Cum și ce să determinați și ce decizie să luați?

Pe de altă parte: baza de date a fost creată de un programator și un manager. Dacă programatorul și managerul s-au schimbat, cum să determinați starea curentă a bazei de date și să învățați cum să o utilizați corect? De asemenea, va trebui să faci mine de date. Data Mining oferă o varietate de metode matematice și logice cărora nu le pasă ce fel de date sunt cercetate. Aceasta oferă soluția corectă în unele cazuri, dar nu în toate.

Trecerea în virtualitate și găsirea sensului

Metodele de extragere a datelor devin semnificative de îndată ce informațiile sunt scrise în baza de date și au dispărut din „câmpul vizual”. Comerțul cu echipamente informatice este o sarcină interesantă, dar este doar o afacere. Cât de bine este organizat în companie depinde de succesul acesteia.

Schimbările climatice de pe planetă și vremea dintr-un anumit oraș interesează toată lumea, nu doar experților profesioniști în climă. Mii de senzori efectuează citiri ale vântului, umidității, presiunii, date de la sateliții artificiali de pe Pământ și există o istorie a datelor de ani și secole.

Datele meteo nu se referă doar la a decide dacă aduceți sau nu o umbrelă la serviciu. Tehnologiile Data Mining sunt zborul în siguranță al unui avion de linie, funcționarea stabilă a unei autostrăzi și aprovizionarea fiabilă cu produse petroliere pe mare.

Datele „brute” sunt trimise la informațiisistem. Sarcinile Data Mining sunt să le transforme într-un sistem sistematizat de tabele, să stabilească legături, să evidențieze grupuri de date omogene și să detecteze modele.

Clima, vremea și date brute
Clima, vremea și date brute

Metodele matematice și logice încă de pe vremea analizei cantitative OLAP (On-line Analytical Processing) și-au arătat caracterul practic. Aici, tehnologia vă permite să găsiți sensul și să nu îl pierdeți, ca în exemplul vânzării de echipamente informatice.

În plus, în sarcinile globale:

  • afaceri transnaționale;
  • gestionarea transportului aerian;
  • studiul intestinelor pământului sau probleme sociale (la nivel de stat);
  • studiu al efectului medicamentelor asupra unui organism viu;
  • prevederea consecințelor construcției unei întreprinderi industriale etc.

Tehnologiile

Data Mine și transformarea datelor „fără sens” în date reale care vă permit să luați decizii obiective este singura opțiune.

Posibilitățile umane se termină acolo unde există o cantitate mare de informații brute. Sistemele de extragere a datelor își pierd utilitatea acolo unde este necesar să vadă, să înțeleagă și să simtă informații.

Distribuție rezonabilă a funcțiilor și obiectivitate

Omul și computerul ar trebui să se completeze reciproc - aceasta este o axiomă. Scrierea unei disertații este o prioritate pentru o persoană, iar un sistem informațional este de ajutor. Aici, datele pe care le are tehnologia Data Mining sunt euristice, reguli, algoritmi.

Pregătirea unei prognoze meteo săptămânale este prioritatea sistemului informatic. Omul gestionează datele, dar își bazează deciziile pe rezultatele calculelor sistemului. Combină metodele Data Mining, clasificarea datelor de specialitate, controlul manual al aplicării algoritmilor, compararea automată a datelor din trecut, prognoza matematică și multe cunoștințe și abilități ale oamenilor reali implicați în aplicarea sistemului informațional.

Omul și computerul
Omul și computerul

Teoria probabilității și statisticile matematice nu sunt cele mai „favorite” și mai ușor de înțeles domenii de cunoaștere. Mulți specialiști sunt foarte departe de ei, dar metodele dezvoltate în aceste domenii dau rezultate aproape 100% corecte. Prin aplicarea sistemelor bazate pe ideile, metodele și algoritmii Data Mining, soluțiile pot fi obținute în mod obiectiv și fiabil. În caz contrar, este pur și simplu imposibil să obții o soluție.

Faraonii și misterele secolelor trecute

Istoria a fost rescris periodic:

  • state - de dragul intereselor lor strategice;
  • oameni de știință autorizați - de dragul convingerilor lor subiective.

Este greu de spus ce este adevărat și ce este fals. Utilizarea Data Mining ne permite să rezolvăm această problemă. De exemplu, tehnologia de construire a piramidelor a fost descrisă de cronicari și studiată de oamenii de știință în diferite secole. Nu toate materialele au ajuns pe internet, nu totul este unic aici și este posibil ca multe date să nu aibă:

  • moment descris în timp;
  • momentul scrierii descrierii;
  • date pe care se bazează descrierea;
  • autor(i), opinii (linkuri) luate în considerare;
  • confirmarea obiectivității.

Bbiblioteci, temple și „locuri neașteptate” puteți găsi manuscrise din diferite secole și dovezi materiale ale trecutului.

Obiectiv interesant: să punem totul laol altă și să descoperiți „adevărul”. Caracteristica problemei: informațiile pot fi obținute de la prima descriere de către un cronicar, în timpul vieții faraonilor, până în secolul actual, în care această problemă este rezolvată prin metode moderne de mulți oameni de știință.

Motiv pentru utilizarea Data Mining: munca manuală nu este posibilă. Prea multe cantități:

  • surse de informații;
  • limbi de reprezentare;
  • cercetători care descriu același lucru în moduri diferite;
  • date, evenimente și termeni;
  • probleme de corelare a termenului;
  • analiza statisticilor pe grupuri de date poate diferi de-a lungul timpului etc.

La sfârșitul secolului trecut, când un alt fiasco al ideii de inteligență artificială a devenit evident nu numai profanului, ci și unui specialist sofisticat, a apărut ideea: „de a recrea personalitatea”.

De exemplu, conform lucrărilor lui Pușkin, Gogol, Cehov, se formează un anumit sistem de reguli, logici de comportament și se creează un sistem informațional care poate răspunde la anumite întrebări așa cum ar face o persoană: Pușkin, Gogol sau Cehov. Teoretic, o astfel de sarcină este interesantă, dar în practică este extrem de dificil de implementat.

Totuși, ideea unei astfel de sarcini sugerează o idee foarte practică: „cum se creează o căutare inteligentă de informații”. Internetul este o mulțime de resurse în curs de dezvoltare, o bază de date uriașă și aceasta este o oportunitate excelentă de a aplica Data Mining în combinație cu resurse umane.logica în formatul dezvoltării comune.

Masina si omul impreuna
Masina si omul impreuna

O mașină și un om în pereche este o sarcină excelentă și un succes indubitabil în domeniul „arheologiei informației”, săpături de în altă calitate în date și rezultate care vor pune ceva la îndoială, dar fără îndoială vă vor permite pentru a obține noi cunoștințe și va fi solicitat în societate.

Recomandat: