Wikipediából tanul a program
2006.09.23. 11:00
A hatékony szövegbányászathoz elengedhetetlen bizonyos szemantikus kapcsolatokat ismerni az egyes szavak közt. Az erre a célra kifejlesztett számítógépes-nyelvészeti eszközök nem képesek lépést tartani az interneten használt nyelv rendkívül gyors fejlődésével. Azok a szótárak, lexikonok, melyeket a felhasználók készítenek közvetlenül, sokkal alkalmasabbak erre a feladatra.
Ha újsághírek, blogok vagy fórumok tömegéből akarunk a tartalmukat illetően következtetésekre jutni, vagy valamilyen információra vadászunk a neten, fontos hogy az az értelmező szótár, vagy szinonimaszótár, amit az általunk használt szoftver alkalmaz, lépést tartson az internetes nyelv változásával.
Szinte naponta jelennek meg új mozaikszavak, rövidítések, szlengkifejezések, amelyek pillanatok alatt az internetes köznyelv részévé válhatnak. Ezekkel a szavakkal a hagyományos szövegelemző programok nem tudnak mit kezdeni, hisz nem ismerik őket. Minél több ilyen szót tartalmaz egy adott szöveg, gépi úton annál kevésbé tudjuk megítéltetni bizonyos szempontok szerint a tartalmát, annál kevésbé tudunk automatizált módon következtetni jelentésére.
Az ilyen programok általában a WordNet nevű szemantikus lexikont használták, melyben az egyes szavak, kifejezések nem csak definiálva vannak, hanem előre meghatározott kapcsolat-típusokkal is össze vannak kötve egymással. Az egyik legismertebb kapcsolat-típus a szinonima, de az ellentétes jelentésű szavak is az annak megfelelő kapcsolattal vannak ellátva. Fogalmaknál, pl. a kutya esetében, az adatbázis tartalmazza, hogy ez a fogalom részhalmaza az emlősök fogalmának, ami a gerincesek fogalmának része, és így tovább.
A WordNet vagy a hozzá hasonló fogalmi hálózatok elengedhetetlen kellékei a nyelvi alkalmazásoknak, hisz mind a beszélgető robotoknak, mind a szövegbányász szoftvereknek, mind a cikkeket kivonatoló programoknak egy bizonyos mértékig "tudniuk" kell, hogy az egyes szavak jelentése miképp viszonyul egymáshoz. Az írországi Universit Collage Dublin Kreatív Nyelvi Rendszerek Laboratóriumának kutatói azt a célt tűzték ki maguknak, hogy a WordNetet valamilyen automatizált módon bővítsék, a nehézkes manuális szócikk-hozzáadás mellett.
Linkelési hasmenés
Egy olyan lexikont kerestek, mely precíz, megbízható definíciókat ad, az egyes kifejezések szemantikusan is össze vannak kapcsolva egymással és nem utolsó sorban korszerű: az élő nyelv elemeit tartalmazza. Tony Veale és kollégái a Wikipédiát találták a legalkalmasabbnak erre a feladatra, hisz pontos meghatározásai, állandó bővülése mellett az egyes szócikkek keresztbe is vannak linkelve egymással, ami jó kiindulópontot jelent a szemantikai kapcsolatok feltérképezésére.
ZeitGeist, azaz Korszellem névre keresztelt programjuk csak akkor fogad el tartalmi kapcsolatot két kifejezés között, ha azok kölcsönösen be vannak linkelve egymás oldalain. Veale szerint a "linkelési hasmenés" sajnos igen jellemző a Wikipediára is, így inkább lemondanak meglévő, de ezáltal a szabály által kiszűrt szemantikai kapcsolatokról, minthogy nem létező, vagy csak áttételesen értelmezhető kapcsolatokat képezzenek le adatbázisukba.
A kutatók programjukkal az újonnan keletkező szavak háromnegyedét képesek elhelyezni a már meglévő szavak fogalmi rendszerében. Az ismeretlen szavak előfordulási környezetének további elemzése még ennél is nagyobb arányt tenne lehetővé, de ennek megvalósítása még egyelőre várat magára.
Forrás: index.hu http://index.hu/tech/net/wikiai0922/
|