Achoimre
Seo é leathanach baile Líonra Séimeantach na Gaeilge (“LSG” mar ghiorrúchán, nó, as Béarla, The Irish Language Semantic Network), bunachar sonraí ina bhfuil focail Ghaeilge agus gaolta séimeantacha eatarthu. Uaireanta tugtar wordnet ar líonra séimeantach den chineál seo, ainmnithe as an WordNet Béarla a forbraíodh sna 1980í in Ollscoil Princeton, S.A.M. Ba é sin an chéad líonra séimeantach cuimsitheach i dteanga ar bith. Tabhair faoi deara go bhfuil líonra séimeantach i bhfad níos saibhre ná “teasáras” traidisiúnta ina bhfuil focail chomhchiallacha agus, b'fhéidir, focail fhrithchiallacha. Ach tá gaolta níos saibhre ar fáil i LSG (agus i líonraí séimeantacha eile), mar shampla hipearainmneacha agus hiopainmneacha (téarmaí níos leithne/níos cúinge) míorainmneacha agus holainmneacha (páirt vs. iomlán), srl.
Is féidir líonraí séimeantacha a úsáid i raon leathan feidhmchlár a bhaineann le Próiseáil Teangacha Nádúrtha. Úsáidtear iad i gcórais imdhealaithe athbhríochta, achoimriú agus innéacsú de cháipéisí, agus aisfháil faisnéise. Nuair atá na focail i líonra áirithe nasctha le focail i dteanga eile (nascanna le Béarla atá i LSG), is féidir an líonra a úsáid chun córas ríomhaistriúcháin a fheabhsú. Go ginearálta, ó dhearcadh na hintleachta saorga, stórálann líonra séimeantach roinnt eolais faoin saol mór atá de dhíth ar ríomhairí chun téacsanna a thuiscint agus a phróiseáil ar bhealach fiúntach.
Ar an taobh deas den leathanach seo, feicfidh tú íomhá bheag den líonra ina iomláine (cliceáil chun leagan lánmhéide a fheiceáil). Mar a tharlaíonn, íomhá shimplithe atá ann — seasann gach nód san íomhá do chnuasach d'fhocail chomhchiallacha ab fhéidir cur leis an íomhá mar chraobhacha breise. Rud éigin cosúil leis an líonra seo, ach níos mó agus níos casta faoi mhílte is dócha, atá neadaithe in inchinn gach cainteora Gaeilge — déantar nascanna séimeantacha den chineál seo go hinstinneach agus ar bhuille boise. Leis an mbrabhsálaí tríthoiseach, is féidir leat “eitilt” tríd an líonra agus é a láimhseáil ar bhealaí éagsúla.
Íoslódáil
Fiú mura bhfuil suim agat i mbogearraí a dhéanann próiseáil ar theangacha nádúrtha, seans go mbainfidh tú úsáid as an mbunachar sonraí mar sin féin, agus dá bhrí seo tugaim rochtain air ar bhealaí éagsúla:
- Mar theasáras saibhrithe, i bhfoirm PDF. Tabhair faoi deara go bhfuil gach focal sa teasáras ina chrostagairt hipearnaisc. Is féidir an comhad PDF (beagnach 50MB!) a íoslódáil go díreach, is é sin nó na foinsí LaTeX a fháil más mian leat an PDF a thógáil duit féin (mar shampla le clófhoirne eile). Ba chóir duit an comhad a shábháil go logánta ar do ríomhaire chun bandaleithead a choigilt.
- Mar chuid de na feidhmchláir LibreOffice nó OpenOffice.org. Suiteáiltear an teasáras sa dá fheidhmchlár seo mar chuid de bhreiseán a thagann i bpacáiste amháin in éindí leis an litreoir GaelSpell agus rialacha a bhaineann le fleiscíní i nGaeilge. Gheobhaidh tú an breiseán agus na treoracha suiteála d'OpenOffice.org anseo agus an breiseán do LibreOffice anseo. Feicfidh tú pictiúr den teasáras ar obair in OpenOffice.org ar dheis (cliceáil chun leagan lánmhéide a fheiceáil).
- An bunachar sonraí iomlán, easpórtáilte mar chomhad XML i bhformáid LMF (Lexical Markup Framework), formáid inphróiseáilte is féidir a úsáid i mbogearraí eile. Tá an comhad seo, chomh maith leis an gcód go léir a bhaineann leis an tionscadal, ar fáil ón suíomh forbartha ar GitHub (is é lsg-lmf.zip an comhad le híoslódáil).
Sainghnéithe
- Bunachar sonraí cuimsitheach. Tá 32742 bunchiall, 36262 ceannfhocal agus 77596 ciall ar leith ann, le téarmaíocht chomhaimseartha, focail liteartha, focail chanúnacha, béarlagair, srl. san áireamh.
- Saorcheadúnas. Cosúil le WordNet Princeton (ach, faraor, neamhchosúil leis an gcuid is mó de líonraí séimeantacha eile), is bogearra oscailte é LSG. Go sonrach, tá na sonraí go léir, an teasáras PDF san áireamh, ar fáil de réir coinníollacha an GNU Free Documentation License. Tugann an ceadúnas seo saoirse duit — saoirse na sonraí a chóipeáil nó a dháileadh, athraithe nó gan athrú, chomh fada is a dháileann tú iad faoin cheadúnas céanna.
- Nascanna le Béarla. Tá gach iontráil i LSG nasctha le cnuasach d'fhocail chomhchiallacha (“synset”) i WordNet Princeton. Is cuid thábhachtach é seo de mo chuid oibre ar ríomhaistriúchán idir Béarla agus An Ghaeilge, tionscadal atá idir lámha fós.
- Nuashonraithe go minic. Déanfaidh mé nuashonrú ar an líonra go rialta agus nuair a bheidh ceartúcháin agus feabhsúcháin le déanamh. Sa chaoi seo, is féidir cumhacht na Gaeilge mar theanga bheo a thaispeáint, trí théarmaíocht agus frásaí nua a chur leis.
- Foclóir comhroinnte. Úsáidim bunachar sonraí amháin chun LSG, litreoirí GaelSpell, agus An Gramadóir a chruthú. Nuair a fheabhsaítear an foclóir i dtionscadal amháin, téann na feabhsúcháin sin i bhfeidhm ar na tionscadail eile freisin, go huathoibríoch.