Természetesnyelv-feldolgozás az Arcanumban

Az elmúlt évtizedben jelentős mértékben nőtt az igény arra, hogy természetes nyelvhasználatunknak megfelelő módon kommunikálhassunk a minket körülvevő gépekkel és rendszerekkel. Gondoljunk itt az okostelefonunk digitális asszisztensére, vagy akár egy fejlett fordítóprogramra: szeretnénk, hogy a szoftver akár félmondatokból is megértsen minket, majd ennek alapján hajtson végre utasításokat. Az ehhez hasonló rendszerek alapját a mesterséges intelligencia adja, amelynek segítségével a gép magasabb szinten tudja értelmezni a megadott parancsot, így pedig pontosabb, relevánsabb információt kaphatunk.

Az Arcanum felhasználóit a BERT-modell nevű természetesnyelv-feldolgozó eljárás (az angol szakirodalomban Natural Language Processing) is segíti. Ebben a cikkben bemutatjuk BERT-modellel végzett feldolgozó eljárásokat, valamint az ezekre épült szolgáltatások körét és jövőbeni terveit is ismertetjük.

A BERT-modellről röviden

Ezt a gépi tanulást felhasználó modellt azzal a céllal fejlesztette ki a Google 2018 körül, hogy a számítógép hatékonyabban tudja leírni az emberek természetes nyelvhasználatát a matematika segítségével, és ezáltal pontosabban megértse a keresőjébe írt kifejezéseket. A modell jelentősége abban rejlik, hogy a BERT képes a szavakat a szövegkörnyezetükben értelmezni.

Ahogyan azt a kifejezés neve is sejteti, a gépi tanulás alapja az, hogy először megtanítsuk a gépnek az elvégzendő feladatot. A mi esetünkben a BERT-modellnek meg kellett ismernie a magyar nyelvet. Ehhez az Arcanum saját, 10 milliárd magyar nyelvű szót tartalmazó korpuszán * futtattuk a modellt. Futtatáskor a modell gyakorlatilag végigolvassa a 10 milliárd szónyi digitalizált szövegek összességét, miközben matematikai összefüggéseket és mintázatokat keres. Ezáltal a modell képessé válik arra, hogy – némi finomhangolást követően – magyar nyelvű szövegekkel végezzen feladatokat. Erre a modellre építkezve aztán többféle szolgáltatást fejleszthetünk ki az Arcanum felhasználóinak számára.

Tulajdonnév felismerés

A felhasználói szokásokat elemezve feltűnt, hogy leggyakrabban tulajdonnevekre keresnek az adatbázisunkban, úgymint személynevek, településnevek, intézménynevek. Azonban ezeknek a tulajdonneveknek – kiváltképpen a személyneveknek – az írásmódja akár többször is megváltozhat az aktuális divat vagy politikai eszme függvényében. Mindemellett a kutatók előtt ismert az a gyakori jelenség, hogy egy tulajdonnévhez többféle entitás tartozhat, amelyek között nehéz a keresést differenciálni. Például Kossuth nevét beírva nemcsak a történelmi alakról kapunk találatokat, de a nevét viselő megannyi iskoláról, intézményről, utcanévről is. De említhetnénk a Zala megyei Lenti városát is, amelyre keresve gyakran az egyszerű melléknév is megjelenik a találatok között, például „a lenti idézet”.

A tulajdonnév-felismerés fejlesztéséhez tehát a már megismert BERT-modellt használtuk fel úgy, hogy mintegy nyolcezer bekezdésből (kb. 450 ezer szó) álló szövegállományban megjelöltünk (más szóval „annotáltunk”) tíz tulajdonnév-kategóriát, például személy, intézmény, helyszín, cím, esemény, stb. Ez a kézzel jelölt adathalmaz szolgált tanítóadatként ahhoz, hogy a BERT-modell a teljes ADT-állományban felismerje a tulajdonneveket.

1803. október 17-én Söjtörön született Deák Ferenc , és itt töltötte gyerekkorát. Pályája a reformkori ellenzéktől az 1867-es , a forradalmat és szabadságharcot lezáró kiegyezés létrehozásáig ívelt. Az 1832-36-os országgyűlésen Zala vármegye követe, 1848-ban az első felelős magyar kormány igazságügy-minisztere volt. A forradalom után visszavonult Kehidára , majd 1854-ben Pestre költözött, hogy létrehozza nagy művét - a kiegyezést. Szülőhelyén a kiállítás ezt az életutat tekinti át.

1.ábra. Minta a tulajdonnév-tanító adadatbázisból

Ezeket a tulajdonneveket láthatjuk akkor is, amikor az ADT szabadszavas keresőjét használjuk, és a keresőmező alatt megjelennek a keresési javaslatok. Amint a felhasználó elkezd begépelni egy szót, a keresőben dolgozó mesterséges intelligencia megpróbálja megtalálni a leginkább egyező tulajdonneveket az adatbázisban, és valószínűségi alapon felkínálja azokat lehetséges keresőszavaknak. A rendszer képes kezelni az egyszerű elgépeléseket és a különböző írásmódokat is.

*2 . ábra. Variációk az egykori vietnami elnökre*

Kérdés automatikus megválaszolása

Régóta jelent kihívást nyelvészeknek és programozóknak egyaránt az, hogy miként tudná a gép az ember természetes nyelvhasználatával feltett kérdéseket értelmezni, és azokat megválaszolni. 2018-ban a Google elindította a Talk to Books nevű szolgáltatását, amelyben a mesterséges intelligencia értelmezi a feltett kérdést, és bő 100 ezernyi könyv teljes szövegében próbál rá értelmes, releváns válaszokat kihozni. Mivel ez a szolgáltatás is a már megismert BERT-modellen alapszik, ezért elkezdtünk az Arcanumnál kísérletezni egy hasonló keresési módszer megalkotásán. Ehhez felépítettük a saját tanulóadat halmazunkat: kiválasztottunk száz magyar nyelvű Wikipedia-szócikket, majd ezekhez kapcsolódóan nagyságrendileg tízezer kérdést írtunk, majd a kérdésekhez tartozó válaszokat megjelöltünk a szócikkekben. A természetes nyelven megfogalmazott kérdések és azokra adott válaszok együttese jelenti az algoritmus betanításának alapját. A tanítás eredményeképpen az algoritmus megtanulta értelmezni a magyar nyelvű kérdéseket, és a kérdésekre képes válaszokat találni tetszőleges nagy adatbázisban.

Bronx

Bronx New York városának legészakibb kerülete, amely egybeesik Bronx megyével. A város öt kerülete közül ez az egyetlen, amelynek nagyobb része van szárazföldön, mint szigeten.

A 2010-es népszámlálás adatai szerint 1 385 108 lakosa volt. Ha minden kerület önálló városnak számítana, akkor Bronx volna a kilencedik legnépesebb amerikai város. A népességben az 1960-as években csökkenés mutatkozott, majd ez újra növekedésnek indult. A legmagasabb népességet 1950-ben számlálták.Bronx a negyedik legnépesebb New York öt kerülete közül, és az ötödik legnépesebb járás a New York-i agglomerációban. Bár a köznyelvben egyszerűen „The Bronx” a neve, a járás hivatalos nevében nincs névelő („The”).

Nevét a Bronx folyóról kapta, és mivel a folyókat az angol nyelvben általában névelővel használják, (pl. „the Hudson”) ez a járás nevében is benne maradt. A folyót egy svédről , Jonas Bronckról nevezték el, aki tengerészkapitány volt és 1641-ben egy 2 km² méretű birtoka volt a Harlem folyó és a Bronx (vagy akkori indián nevén Aquahung) folyó között.

Mennyi a lakossága Bronx-nak?
Melyik New York legészakibb kerülete?
Hány kerülete van New Yorknak?
Miről kapta nevét Bronx?
Milyen nemzetiségű emberről kapta a nevét a Bronx folyó?
Mi volt Jonas Bronck foglalkozása?
~~Melyik Bronx legmagasabb épülete?~~

3. ábra. Minta a kérdés-megválaszolás feladat tanuló adatbázisából

A célunk az, hogy a jövőben a felhasználóink minden eddiginél egyszerűbben találjanak releváns választ a kérdéseikre.

A legfontosabb magyar nyelvű lexikonokra épített kérdés megválaszolónkat itt próbálhatja ki !

* A korpusz egy nyelvészeti kifejezés, jelentése a ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye.

Itt tudja kipróbálni

Több száz magyar nyelvű nyomtatott tudományos folyóirat, hivatalos lap, napilapok, hetilapok, könyvek, évente mintegy 4-5 millió új oldallal.

Kipróbálom

Itt tudja kipróbálni

Több száz magyar nyelvű nyomtatott tudományos folyóirat, hivatalos lap, napilapok, hetilapok, könyvek, évente mintegy 4-5 millió új oldallal.

Kipróbálom

Természetesnyelv-feldolgozás az Arcanumban

Tartalom

A BERT-modellről röviden

Tulajdonnév felismerés

Kérdés automatikus megválaszolása

Itt tudja kipróbálni