Ai întâlnit acest concept de mai multe ori în viață dacă ai trebuit să lucrezi cu texte. În special, ai putea apela la calculatoare online care realizează exact analiza de frecvență a textului. Aceste instrumente utile arată de câte ori apare un anumit caracter sau literă în orice pasaj de text. Adesea este afișat și un procent. De ce este nevoie de asta? Cum contribuie analiza de frecvență a textului la „crăparea” cifrurilor simple? Care este esența lui, cine a inventat-o? Vom răspunde la acestea și la alte întrebări importante pe această temă pe parcursul articolului.
Definiție
Analiza de frecvență este una dintre varietățile criptoanalizei. Se bazează pe presupunerea oamenilor de știință cu privire la existența unei distribuții statistice non-triviale a caracterelor individuale și a secvențelor lor regulate atât în text simplu, cât și în text cifrat.
Se crede că o astfel de distribuție, până la înlocuirea caracterelor individuale, va fi păstrată și în procesele de criptare/decriptare.
Caracteristica procesului
Acum să aruncăm o privire la analiza frecvenței în termeni simpli. Aceasta implică faptul că numărul de apariții ale aceluiași caracter alfabetic în texte de lungime suficientă este același în diferite texte scrise în aceeași limbă.
Și acum cum rămâne cu criptarea monoalfabetică? Se presupune că, dacă există un caracter cu o probabilitate atât de similară de apariție în secțiunea cu text cifrat, atunci este realist să presupunem că este acea literă cifrată.
Adepții analizei de frecvență a textului aplică același raționament diagramelor (secvențe de două litere). Trigrame - aceasta este pentru cazul cifrurilor deja polialfabetice.
Istoria metodei
Analiza de frecvență a cuvintelor nu este o descoperire a modernității. Este cunoscut lumii științifice încă din secolul al IX-lea. Crearea sa este asociată cu numele Al-Kindi.
Dar cazurile cunoscute de aplicare a metodei de analiză a frecvenței aparțin unei perioade mult mai ulterioare. Cel mai frapant exemplu aici este descifrarea hieroglifelor egiptene, produsă în 1822 de J.-F. Champollion.
Dacă ne întoarcem la ficțiune, putem găsi multe referințe interesante la această metodă de decriptare:
- Conan Doyle - „The Dancing Men”.
- Jules Verne - „Copiii căpitanului Grant”.
- Edgar Poe - „Gold Bug”.
Totuși, de la mijlocul secolului trecut, majoritatea algoritmilor utilizați în criptare au fost dezvoltați ținând cont de rezistența lor la o astfel de criptoanaliza de frecvență. Prin urmare eaastăzi, ele sunt folosite cel mai adesea doar pentru formarea viitorilor criptografi.
Metoda de bază
Să prezentăm acum analiza răspunsului în frecvență în detaliu. Acest tip de analiză se bazează direct pe faptul că testul constă din cuvinte, iar cele, la rândul lor, din litere. Numărul de litere care umple alfabetele naționale este limitat. Literele pot fi enumerate pur și simplu aici.
Cele mai importante caracteristici ale unui astfel de text vor fi atât repetarea literelor, diverse bigrame, trigrame și n-grame, cât și compatibilitatea diferitelor litere între ele, alternarea consoanelor/vocalelor și altele. varietăți ale acestor simboluri.
Ideea principală a metodelor este de a număra aparițiile posibilelor n-grame (notate cu nm) în texte clare suficient de lungi pentru analiză (notate cu T=t1t2…tl) compuse din litere ale alfabetului național (notat cu {a1, a2, …, an}). Toate cele de mai sus cauzează câteva m-grame consecutive ale textului:
t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.
Dacă acesta este numărul de apariții ale m-gramei ai1ai2…țintește într-un anumit text T și L este numărul total de m-grame analizate de cercetător, atunci este posibil să se stabilească empiric că pentru L suficient de mare, frecvențele pentru un astfel de m-gram vor fi puțin diferite unele de altele.
Litere frecvente ale alfabetului rus
Dar analiza timp-frecvență, în ciuda numelui similar, nu are nimic de-a face cu subiectul conversației noastre. Acest tip de analiză se efectuează ptsemnale de la stațiile radar cu observare scăzută folosind o transformare wavelet specială.
Acum să revenim la subiectul principal. Când efectuați o analiză de frecvență, puteți afla ce litere ale alfabetului rus se găsesc cel mai des în textele destul de voluminoase (procent de la 0,062 la 0,018):
- A.
- V.
- D.
- F.
- I.
- K.
- M.
- O.
- R.
- T.
- F.
- T.
- Sh.
- b.
- E.
- I.
Chiar și o regulă mnemonică specială a fost introdusă, care ajută la învățarea celor mai comune litere ale alfabetului rus. Pentru a face acest lucru, este suficient să vă amintiți un singur cuvânt - „hayloft”.
În cazuri generale, frecvența de utilizare a literelor în termeni procentuali este stabilită simplu: specialistul numără de câte ori apare litera în text, apoi împarte valoarea rezultată la numărul total de caractere din text. Și pentru a exprima această valoare ca procent, este suficient să o înmulțiți cu 100.
Este important de luat în considerare că frecvența va depinde nu numai de volumul textului, ci și de natura acestuia. De exemplu, în sursele tehnice litera „F” apare mult mai des decât în ficțiune. Prin urmare, pentru rezultate obiective, un specialist trebuie să tasteze texte de natură și stil variat pentru cercetare.
Bi-, tri-, patru grame
În textele semnificative, puteți găsi, de asemenea, cele mai comune (respectiv, cele mairepetate) combinaţii de două sau mai multe litere. De asemenea, specialiștii au întocmit mai multe tabele, care indică frecvențele digramelor similare ale diferitelor alfabete.
În ceea ce privește limba rusă, analiza de frecvență a sistemelor de texte voluminoase semnificative a făcut posibilă stabilirea celor mai comune bigrame și trigrame:
- EN.
- ST.
- DAR
- NU.
- ON.
- RA.
- OV.
- KO.
- VO.
- STO.
- NOU
- ENO.
- TOV.
- OVA.
- OVO.
Relații preferate de litere între ele
Și acestea nu sunt toate posibilitățile pe care analiza frecvenței le poate oferi cercetătorilor de text. Prin sistematizarea informațiilor din tabele similare de bigrame și trigrame, este posibilă extragerea datelor despre cele mai comune combinații de litere. Sau, cu alte cuvinte, relațiile lor preferate unul cu celăl alt.
Un astfel de studiu amplu a fost deja realizat de experți. Rezultatul a fost un tabel în care, împreună cu fiecare literă a alfabetului, erau indicați vecinii ei. Mai mult, acele personaje care se găsesc adesea atât imediat înainte, cât și după el. Literele din tabel nu sunt scrise întâmplător. Mai aproape de simbol sunt indicați cei mai frecventi vecini, mai departe - mai rari.
Luați în considerare exemple:
- Litera „A”. Aici se disting următoarele conexiuni preferate: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. De aici vedem că cel mai adesea înainte de „A” în texte apare „H” („NA”). Și după „A” cel mai adesea în textele în rusă putem întâlni „L”("AL").
- Litera „M”. Experții au identificat astfel de conexiuni preferate: „I-s-a-i-e-o-M-i-e-o-u-a-n-p-s”.
- Litera „b”. Conexiunile preferate sunt următoarele: „n-s-t-l-b-n-k-v-p-s-e-o-i”.
- Scrisoarea „Sh”. Conexiuni preferate: „e-b-a-i-u-Sch-e-i-a”.
- Litera „P”. Legături preferate cu acest simbol al alfabetului rus: „v-s-u-a-i-e-o-P-o-r-e-a-u-i-l”.
Ce definește analiza?
Programele moderne de analiză a textului în frecvență ajută la studierea unor volume mari dintr-o mare varietate de articole, eseuri, pasaje și așa mai departe. Următoarele informații sunt furnizate cercetătorului în mod standard:
- Numărul total de caractere din text.
- Numărul de spații utilizate de autor.
- Număr de cifre.
- Informații despre semnele de punctuație utilizate - puncte, virgule etc.
- Numărul de litere din fiecare dintre alfabetele disponibile - chirilic, latin etc.
- Informații despre frecvența de utilizare a fiecărei litere și simbol din text - numărul de mențiuni și procentul față de întregul text.
Lupta împotriva supraoptimizării și suprasaturarii
De ce se efectuează analiza frecvenței textului? Este doar în scop de curiozitate - pentru a stabili ce personaje din textul scris s-au dovedit a fi frecvent întâlnite? Nu, principala aplicație a analizei este practică și se află în altă parte.
N-gramele includ nu numai bigramele și trigramele stabile. La acelasicategoriile includ cuvinte cheie (etichete), alocații. Adică combinații stabile formate din două sau mai multe cuvinte. Ele se disting prin faptul că astfel de compoziții apar împreună în text și poartă în același timp o anumită încărcătură semantică.
Acest lucru joacă în mâinile specialiștilor SEO fără scrupule. În munca lor, uneori abuzează de repetarea etichetelor și a cuvintelor cheie în text pentru a crește în mod artificial relevanța unei anumite pagini web. Ei încearcă să înșele sistemul cu un astfel de „scam”: transformând o combinație naturală cu combinația obișnuită de cuvinte, tradițională pentru limba rusă („cumpără o haină de nurcă”) într-una inconsistentă. Adică, obținut prin rearanjarea cuvintelor într-un astfel de N-gram natural ("cumpărați o haină de nurcă").
Dar astăzi, algoritmii de căutare au învățat să detecteze supraoptimizarea la fel de eficient ca suprasaturarea textului cu cuvinte cheie, etichete care afectează clasarea rezultatelor pe pagina de căutare. Paginile supraoptimizate sunt acum, dimpotrivă, clasate mai jos în funcție de interogarea utilizatorului. Și oamenii înșiși nu au tendința de a citi text fără sens, suprasaturat cu etichete, preferând informații utile despre o altă resursă.
Ajutor la analiza privată pentru specialiștii SEO
Astfel, filtrele de text moderne ale motoarelor de căutare dau astăzi preferință acelor pagini de Internet, a căror informație este nu doar ușor de citit, ci și utile vizitatorilor. Pentru a-și optimiza munca pentru noi standarde, specialiștii SEOși apelează la analiza de frecvență a textului. Multe servicii populare îl oferă astăzi.
Analiza de frecvență ajută la revizuirea textului în curs de pregătire pentru publicare pentru caracter informativ. Eliminați redundanța inutilă a etichetelor și a frazelor cheie. De asemenea, vă permite să atrageți atenția autorului asupra combinațiilor nefirești de cuvinte care trezesc suspiciuni în filtrele de text ale motoarelor de căutare.
Analiza de frecvență a textului ajută astfel la determinarea frecvenței de menționare a unui anumit caracter în sursă. Metoda este folosită astăzi pentru a evalua supraîncărcarea textului cu etichete, permutări nenaturale ale cuvintelor.