Ce este lingvistica corpus?

Cuprins:

Ce este lingvistica corpus?
Ce este lingvistica corpus?
Anonim

Cu câteva decenii în urmă, oamenii de știință nu puteau decât să viseze la automatizarea cercetării lingvistice. Lucrarea a fost făcută manual, un număr mare de studenți au fost implicați în ea, a existat o probabilitate semnificativă de eroare de „neatenție” și, cel mai important, totul a durat mult, mult timp.

Odată cu dezvoltarea tehnologiei informatice, a devenit posibil să se efectueze cercetări mult mai rapid, iar astăzi una dintre domeniile promițătoare în studiul limbii este lingvistica corpusului. Caracteristica sa principală este utilizarea unor cantități mari de informații textuale, consolidate într-o singură bază de date, marcate într-un mod special și numite corpus.

Astăzi, există multe corpuri create în scopuri diferite, bazate pe materiale lingvistice diferite, acoperind de la milioane la zeci de miliarde de unități lexicale. Această direcție este recunoscută ca promițătoare și demonstrează progrese semnificative în atingerea obiectivelor aplicate și de cercetare. Profesionişti, într-un fel sau altul de a facelimbaj natural, se recomandă să vă familiarizați cu corpurile de text cel puțin la un nivel de bază.

Istoria lingvisticii corpus

Formarea acestei direcții este legată de crearea Corpului Brown în SUA la începutul anilor 60 ai secolului trecut. Colecția de texte a constat din doar 1 milion de forme de cuvinte, iar astăzi un corpus al unui astfel de volum ar fi complet necompetitiv. Acest lucru se datorează în mare măsură ritmului de dezvoltare a tehnologiei informatice, precum și cererii tot mai mari pentru noi resurse de cercetare.

În anii '90, lingvistica corpus a fost transformată într-o disciplină cu drepturi depline și independentă, culegeri de texte au fost compilate și marcate pentru câteva zeci de limbi. În această perioadă, de exemplu, British National Corpus a fost creat pentru 100 de milioane de cuvinte folosite.

lingvistica corpusului
lingvistica corpusului

Pe măsură ce această direcție a lingvisticii se dezvoltă, volumul textelor devine mai mare (și atinge miliarde de unități de vocabular), iar marcajul devine din ce în ce mai divers. Astăzi, în spațiul de internet, puteți găsi corpuri de vorbire scrisă și orală, multilingve și educaționale, axate pe ficțiune sau literatură academică, precum și multe alte varietăți.

Ce cazuri există

Tipurile de corpus în lingvistica corpus pot fi reprezentate în mai multe moduri. Este clar intuitiv că baza clasificării poate fi limba textelor (rusă, germană), modul de acces (sursă deschisă, sursă închisă, reclamă), genul materialului sursă (ficțiune).literatură, documentar, academic, jurnalism).

metode de lingvistică a corpusului
metode de lingvistică a corpusului

Într-un mod interesant, se realizează generarea de materiale reprezentând vorbirea orală. Întrucât înregistrarea deliberată a unui astfel de discurs ar crea condiții artificiale pentru respondenți, iar materialul rezultat nu putea fi numit „spontan”, lingvistica modernă a corpusului a mers pe direcția inversă. Voluntarul este dotat cu microfon, iar în timpul zilei sunt înregistrate toate conversațiile la care participă. Oamenii din jur, desigur, nu pot ști că, în cursul unei conversații de zi cu zi, ei contribuie la dezvoltarea științei.

Ulterior, înregistrările audio primite sunt stocate în banca de date și sunt însoțite de text tipărit ca o transcriere. În acest fel, marcajul necesar pentru a crea un corpus de vorbire vorbită de zi cu zi devine posibil.

Aplicație

Acolo unde este posibil să folosiți limbajul, este posibil să folosiți corpuri de text. Scopul utilizării metodelor corpus în lingvistică poate fi:

  • Crearea de programe de sentiment care sunt utilizate pe scară largă în politică și afaceri pentru a urmări feedback-ul pozitiv și negativ de la alegători și respectiv clienți.
  • Conectarea sistemului informatic la dicționare și traducători pentru a le îmbunătăți performanța.
  • Diverse sarcini de cercetare care contribuie la înțelegerea structurii limbii, a istoriei dezvoltării acesteia și a previziunilor schimbării acesteia în viitorul apropiat.
  • Dezvoltarea sistemelor de extracție a informațiilor pe baza morfologică,caracteristici sintactice, semantice și alte caracteristici.
  • Optimizarea activității diferitelor sisteme lingvistice etc.

Utilizarea shell-urilor

Interfața de resurse este similară cu un motor de căutare tipic și solicită utilizatorului să introducă un cuvânt sau o combinație de cuvinte pentru a căuta în baza de informații. Pe lângă formularul exact de solicitare, puteți utiliza versiunea extinsă, care vă permite să găsiți informații textuale după aproape orice criteriu lingvistic.

lingvistica computerizată și de corpus
lingvistica computerizată și de corpus

Baza pentru căutare poate fi:

  • aparținând unui anumit grup de părți de vorbire;
  • caracteristici gramaticale;
  • semantică;
  • colorare stilistică și emoțională.

De asemenea, puteți combina criteriile de căutare pentru o succesiune de cuvinte: de exemplu, găsiți toate aparițiile unui verb la timpul prezent, persoana întâi, singular, urmate de prepoziția „în” și un substantiv în cazul acuzativ. Rezolvarea unei sarcini atât de simple necesită utilizatorului câteva secunde și necesită doar câteva clicuri de mouse în câmpurile date.

Proces de creare

Căutarea în sine poate fi efectuată atât în toate subcorpurile, cât și într-unul, special selectat, în funcție de nevoile la atingerea unui anumit scop:

  1. În primul rând, se stabilește ce texte vor sta la baza corpusului. În scopuri practice, sunt adesea folosite materiale jurnalistice, din ziare, comentarii pe internet. În proiectele de cercetare, cel mai multdiverse tipuri de corpuri, dar textele trebuie selectate pe o bază comună.
  2. Setul de texte rezultat este preprocesat, erorile sunt corectate, dacă există, este pregătită o descriere bibliografică și extralingvistică a textului.
  3. Toate informațiile non-textuale sunt filtrate: graficele, imaginile, tabelele sunt șterse.
  4. Jetoanele, de obicei cuvinte, sunt alocate pentru procesare ulterioară.
  5. În sfârșit, se efectuează marcajul morfologic, sintactic și de altă natură a setului de elemente rezultat.

Rezultatul tuturor operațiilor efectuate este o structură sintactică cu un set de elemente distribuite peste ea, pentru fiecare dintre acestea fiind definite o parte de vorbire, trăsături gramaticale și, în unele cazuri, semantice.

Dificultăți în crearea cazurilor

Este important să înțelegeți că pentru a obține un corpus, nu este suficient să adunați multe cuvinte sau propoziții. Pe de o parte, o colecție de texte trebuie să fie echilibrată, adică să prezinte diferite tipuri de texte în anumite proporții. Pe de altă parte, conținutul cazului trebuie marcat într-un mod special.

lingvistica corpus lui Zaharov
lingvistica corpus lui Zaharov

Prima problemă se rezolvă prin acord: de exemplu, colecția cuprinde 60% texte de ficțiune, 20% documentare, o anumită proporție este acordată prezentării în scris a discursului oral, acte legislative, lucrări științifice etc.. Rețeta ideală pentru un corpus echilibrat astăzi nu există.

A doua întrebare referitoare la marcarea conținutului este mai dificil de rezolvat. Există programe și algoritmi speciali utilizați pentru marcarea automată a textelor, dar nu dau un rezultat 100%, pot provoca eșecuri și necesită o rafinare manuală. Oportunitățile și problemele în rezolvarea acestei probleme sunt descrise în detaliu în lucrarea lui V. P. Zakharov privind lingvistica corpus.

Markupul textului se realizează la mai multe niveluri, pe care le vom enumera mai jos.

Markup morfologic

De pe banca școlii, ne amintim că în limba rusă există diferite părți de vorbire și fiecare dintre ele are propriile caracteristici. De exemplu, un verb are categorii de dispoziție și timp pe care un substantiv nu le are. Un vorbitor nativ refuză substantivele și conjugă verbele fără ezitare, dar munca manuală nu este potrivită pentru a marca un corpus de 100 de milioane de cuvinte. Toate operațiunile necesare pot fi efectuate de un computer, totuși, pentru aceasta trebuie predat.

Markupul morfologic este necesar pentru ca computerul să „înțeleagă” fiecare cuvânt ca o parte a vorbirii care are anumite caracteristici gramaticale. Deoarece o serie de reguli regulate funcționează în limba rusă (ca în orice altă limbă), este posibil să se construiască o procedură automată pentru analiza morfologică prin introducerea unui număr de algoritmi în mașină. Cu toate acestea, există excepții de la regulă, precum și diverși factori de complicare. Drept urmare, analiza pură pe computer astăzi este departe de a fi ideală și chiar și erorile de 4% dau o valoare de 4 milioane de cuvinte într-un corpus de 100 de milioane de unități, necesitând o rafinare manuală.

Această problemă este descrisă în detaliu de cartea lui V. P. Zakharov „Corpus Linguistics”.

Markup sintactic

Analiza sau analiza sintactică este o procedură care determină relația cuvintelor dintr-o propoziție. Cu ajutorul unui set de algoritmi, devine posibilă determinarea subiectului, predicatului, adăugărilor și diferitelor turnuri de vorbire în text. Aflând care cuvinte din secvență sunt principale și care sunt dependente, putem extrage eficient informații din text și putem instrui mașina să returneze doar informațiile care ne interesează ca răspuns la o solicitare de căutare.

laboratoare de lingvistică a corpusului din universitățile ruse
laboratoare de lingvistică a corpusului din universitățile ruse

Apropo, motoarele de căutare moderne folosesc acest lucru pentru a oferi numere specifice în loc de texte lungi ca răspuns la întrebări relevante precum: „câte calorii sunt într-un măr” sau „distanța de la Moscova la Sankt Petersburg”. Cu toate acestea, pentru a înțelege chiar și elementele de bază ale procesului descris, va trebui să vă familiarizați cu „Introducerea în lingvistica corpusului” sau cu un alt manual de bază.

Markup semantic

Semantica unui cuvânt este, în termeni simpli, sensul său. O abordare larg aplicabilă în analiza semantică este atribuirea de etichete unui cuvânt, reflectând apartenența acestuia la un set de categorii și subcategorii semantice. Astfel de informații sunt valoroase pentru optimizarea algoritmilor de analiză a sentimentelor de text, referințe automate și pentru efectuarea altor sarcini folosind metode de lingvistică corpus.

Există o serie de „rădăcini” ale arborelui, care sunt cuvinte abstracte care ausemantică foarte largă. Pe măsură ce acest arbore se ramifică, se formează noduri care conțin din ce în ce mai multe elemente lexicale specifice. De exemplu, cuvântul „creatură” poate fi asociat cu concepte precum „om” și „animal”. Primul cuvânt va continua să se ramifică în diferite profesii, termeni de rudenie, naționalitate, iar al doilea - în clase și tipuri de animale.

Utilizarea sistemelor de recuperare a informațiilor

Sferele de utilizare ale lingvisticii corpus acoperă o mare varietate de domenii de activitate. Corpurile sunt folosite pentru compilarea și corectarea dicționarelor, crearea de sisteme automate de traducere, rezumatul, extragerea faptelor, determinarea sentimentelor și alte procesări de text.

lingvistică corpus tipuri de corpus
lingvistică corpus tipuri de corpus

În plus, astfel de resurse sunt utilizate în mod activ în studiul limbilor lumii și al mecanismelor de funcționare a limbii în ansamblu. Accesul la volume mari de informații pregătite în prealabil contribuie la studiul rapid și cuprinzător al tendințelor de dezvoltare a limbilor, formarea de neologisme și ture stabile de vorbire, modificări ale semnificațiilor unităților lexicale etc.

Deoarece lucrul cu volume atât de mari de date necesită automatizare, astăzi există o interacțiune strânsă între computer și lingvistica corpus.

Corpus național al limbii ruse

Acest corpus (abreviat NKRC) include o serie de subcorpuri care permit utilizarea resursei pentru a rezolva o mare varietate de sarcini.

Materialele din baza de date NCRA sunt împărțite în:

  • despre publicațiile din mass-media din anii 90 și 2000ani, atât intern, cât și străin;
  • înregistrări ale discursului oral;
  • texte marcate accentul (adică cu semne de accent);
  • vorbire în dialect;
  • opere poetice;
  • materiale cu marcaj sintactic etc.

Sistemul informațional include și subcorpuri cu traduceri paralele ale lucrărilor din rusă în engleză, germană, franceză și multe alte limbi (și invers).

De asemenea, baza de date are o secțiune de texte istorice reprezentând vorbirea scrisă în limba rusă în diferite perioade ale dezvoltării sale. Există, de asemenea, un corpus de instruire care poate fi util cetățenilor străini în stăpânirea limbii ruse.

Corpusul național al limbii ruse include 400 de milioane de unități lexicale și, în multe privințe, este înaintea unei părți semnificative a corpurilor limbilor europene.

Perspective

Un fapt în favoarea recunoașterii acestui domeniu ca promițător este prezența laboratoarelor de lingvistică corpus în universitățile ruse, precum și în cele străine. Cu utilizarea și cercetarea în cadrul resurselor considerate de regăsire a informațiilor se asociază dezvoltarea unor domenii în domeniul tehnologiilor în alte, sisteme de întrebări-răspuns, dar despre acest lucru s-a discutat mai sus.

istoria lingvisticii corpusului
istoria lingvisticii corpusului

Se preconizează dezvoltarea ulterioară a lingvisticii corpusului la toate nivelurile, de la tehnic, în ceea ce privește introducerea de noi algoritmi care optimizează procesele de căutare și procesare a informațiilor, extinderea capacităților computerelor, creșterea capacității operaționale.memorie și terminând cu cele casnice, pe măsură ce utilizatorii găsesc din ce în ce mai multe modalități de a folosi acest tip de resursă în viața de zi cu zi și la locul de muncă.

În concluzie

La mijlocul secolului trecut, 2017 părea un viitor îndepărtat, în care navele spațiale navighează în întinderile Universului, iar roboții fac toată munca pentru oameni. În realitate însă, știința este plină de „puncte goale” și face încercări disperate de a răspunde la întrebări care au tulburat omenirea de secole. Întrebările legate de funcționarea limbii ocupă locul de mândrie aici, iar lingvistica de corpus și computațională ne poate ajuta să le răspundem.

Procesarea unor cantități mari de date vă permite să detectați modele care anterior erau inaccesibile, să preziceți dezvoltarea anumitor caracteristici ale limbajului, să urmăriți formarea cuvintelor aproape în timp real.

La nivel global practic, corpurile pot fi considerate, de exemplu, ca un potențial instrument de evaluare a sentimentului public - Internetul este o bază de date actualizată continuu cu diverse texte create de utilizatori reali: acestea sunt comentarii, recenzii, articole., și multe alte forme de vorbire.

În plus, lucrul cu corpora contribuie la dezvoltarea acelorași mijloace tehnice care sunt implicate în regăsirea informațiilor, cunoscute nouă de la serviciile Google sau Yandex, traducere automată, dicționare electronice.

Se poate spune cu siguranță că lingvistica corpus face doar primii pași și se va dezvolta rapid în viitorul apropiat.

Recomandat: