Prelucrarea limbajului natural

În ultimul deceniu comunicarea într-un limbaj cât mai natural cu mașinăriile și sistemele din jurul nostru a devenit o necesitate reală. Gândiți-vă doar la asistentul digital de pe smartphone ori la o aplicație avansată de traducere: am dori ca software-ul să ne înțeleagă chiar și din vorbe spuse pe jumătate, iar apoi să execute instrucțiunile. Aceste sisteme se bazează pe inteligența artificială, care permite calculatorului interpretarea comenzii la un nivel superior. Astfel putem obține informații mai relevante și mai exacte.

Utilizatorii noștri sunt ajutați de o procedură de prelucrare a limbajului natural numită modelul BERT (Natural Language Processing). În acest articol, vă prezentăm procedurile de procesare efectuate cu modelul BERT, sfera serviciilor bazate pe acesta și planurile pe viitor.

Despre modelul Bert

Modelul elaborat de Google în anul 2018 se bazează pe învățare automatizată, scopul acestuia fiind îmbunătățirea felului în care computerul transformă limbajul natural în modele matematice. În acest fel, expresiile folosite în motorul de căutare se pot înțelege cu mai multă precizie. Importanța modelului constă în faptul că BERT este capabil să interpreteze cuvintele în context.

După cum sugerează și numele, baza învățării automate începe cu instruirea algoritmului asupra sarcinii de îndeplinit. În cazul nostru, modelul BERT trebuia să cunoască limba maghiară. Pentru a ajunge la acest deziderat, am instruit modelul pe corpusul propriu al Arcanum, care conține peste 10 miliarde de cuvinte maghiare. În procesul de rulaj, modelul citește practic totalitatea celor 10 miliarde de cuvinte din textul digitalizat și caută scheme, relații, tipare și conexiuni matematice. Astfel, după anumite ajustări BERT devine capabil să îndeplinească sarcini care conțin limba maghiară. Bazându-ne pe acest model, putem dezvolta în viitor mai multe servicii pentru utilizatorii maghiari ai Arcanum.

Recunoașterea numelor proprii

După ce s-a analizat ceea ce utilizatorii încearcă să găsească când utilizează baza noastră de date, s-a observat că de cele mai multe ori se caută nume proprii - de persoane, așezări sau instituții. Însă ortografia acestor nume proprii se poate schimba de-a lungul timpului în funcție evoluția gramaticii sau de contextul politic. În plus, un nume propriu poate adesea să se refere la entități diferite, lucru care poate prezenta dificultăți în procesul de căutare. De exemplu, introducerea numelui „Kossuth” ne oferă rezultate nu numai pentru persoana istorică, ci și pentru numeroasele școli, instituții și nume de străzi care îi poartă numele. De asemenea, când se caută cuvântul „lenti”, rezultatele afișează orașul Lenti din județul Zala și intrările care semnifică ideea de „mai jos”, precum în sintagma „citatul de mai jos”.

Pentru a îmbunătăți recunoașterea numelor proprii, am folosit modelul BERT marcând (cu alte cuvinte „adnotând”) zece categorii de nume proprii într-un fișier text de aproximativ opt mii de paragrafe (circa 450 de mii de cuvinte), precum persoană, instituție, loc, adresă, eveniment etc. Acest set de informații marcate manual a servit ca mod de instruire pentru ca tehnologia BERT să fie capabilă de a recunoaște numele proprii în texte.

1803. október 17-én Söjtörön született Deák Ferenc , és itt töltötte gyerekkorát. Pályája a reformkori ellenzéktől az 1867-es , a forradalmat és szabadságharcot lezáró kiegyezés létrehozásáig ívelt. Az 1832-36-os országgyűlésen Zala vármegye követe, 1848-ban az első felelős magyar kormány igazságügy-minisztere volt. A forradalom után visszavonult Kehidára , majd 1854-ben Pestre költözött, hogy létrehozza nagy művét - a kiegyezést. Szülőhelyén a kiállítás ezt az életutat tekinti át.

Figure 1. Un exemplu din baza de date pt. instruirea algoritmului

Utilizatorii noștri pot observa aceste nume printre sugestii atunci când se folosește caseta de căutare în text integral. Odată cu începerea introducerii unui cuvânt, inteligența artificială încearcă să găsească cele mai potrivite nume proprii din baza de date și le oferă ca sugestii bazate pe relevanță. Sistemul poate gestiona, de asemenea, greșeli simple de scriere și ortografii diferite.

Figure 2. Variații pe numele fostului președinte vietnamez

Tehnologii pentru răspunsuri automatizate

Programarea computerelor pentru a înțelege și a răspunde unor întrebări formulate în limbaj natural a fost o provocare de lungă durată pentru oamenii de știință și lingviști. În 2018, Google a lansat „Talk to Books”, serviciu care utilizează inteligența artificială, interpretează întrebarea formulată și încearcă să afle răspunsuri cât mai corecte și relevante bazându-se pe textul complet din peste 100.000 de cărți. Deoarece acest serviciu se bazează tot pe modelul BERT, am început să experimentăm pentru a crea o metodă de căutare similară. În acest scop, am construit propria noastră baza de date de instructaj: am selectat o sută de articole în limba maghiară de pe Wikipedia, am formulat în jur de zece mii de întrebări, și apoi am marcat răspunsurile corecte la întrebări. Acest set de întrebări formulate în limbaj natural și răspunsurile indicate de noi constituie baza de instruire a algoritmului. În urma acestui proces, algoritmul a învățat să interpreteze întrebările în limba maghiară și deja este capabil să găsească răspunsuri la întrebări din orice bază de date.

Bronx

Bronxul este cel mai nordic district al orașului New York, care coincide cu județul Bronx. Este singurul dintre cele cinci districte ale orașului care se situează mai mult pe continent decât pe insulă.

Conform recensământului din 2010, avea o populație de 1.385.108 locuitori. Dacă fiecare district ar fi un oraș separat, Bronx ar fi al nouălea oraș american în privința populației. Populația a scăzut în anii 1960 și apoi a început să crească din nou. Cea mai mare populație a fost numărată în 1950. Bronx este al patrulea cel mai populat cartier dintre cele cinci districte din New York și al cincilea cel mai populat district din aglomerarea din New York. Deși în limbajul comun se numește pur și simplu „Bronxul”, nu există adjectiv („The”) în numele oficial al districtului.

Denumit după numele râului Bronx și , din moment ce râurile sunt de obicei folosite cu un adjectiv în limba engleză (de exemplu, „the Hudson”), asta a rămas și în numele districtului. Râul a fost numit după un suedez , Jonas Bronc, care era ofițer de marină și în 1641 avea o proprietate de 2 km² între râul Harlem și Bronx (sau pe numele de indian Aquahung).

  1. Care este populația din Bronx?
  2. Care este districtul cel mai nordic din New York?
  3. Câte districte are New York-ul?
  4. De ce a luat numele Bronx?
  5. Din ce naționalitate și-a luat numele râul Bronx?
  6. Care a fost ocupația lui Jonas Bronck?
  7. Care este cea mai înaltă clădire din Bronx?

Figure 1. Sample from our question-answering training dataset

Scopul nostru este acela de a-i ajuta pe utilizatori să găsească răspunsuri relevante la întrebările lor într-un mod cât mai simplu.


* Corpusul este un termen care reprezintă colecția datelor scrise sau înregistrate în limba vorbită.

Încercați aici

Milioane de pagini din reviste științifice și de specialitate, respectiv ale unor reviste săptămânale și cotidiene..

Testez
Încercați aici

Milioane de pagini din reviste științifice și de specialitate, respectiv ale unor reviste săptămânale și cotidiene.

Testez

Arcanum logo

Arcanum se ocupă cu digitalizarea în masă, cu arhivarea și cu publicarea materialelor tipărite.

Despre noi Contact Apariții în presă

Languages