Elhuyar Fundazioaren logoa

Elhuyar Fundazioa - Hizkuntza Zerbitzuak 

Itzuli orriaren hasierara

I+G unitatea

Lexiko- eta terminologia-erauzketa

ElexBI 

Helburuak eta azalpen orokorra

Proiektu honen helburu zehatza da gaztelania-euskara itzulpen-memorietatik termino baliokideen bikoteak automatikoki erauzteko teknikak lantzea eta teknika horiek inplementatuz tresna bat garatzea. Helburu hori ikertze-alor zabalago baten baitan kokatuta dago: corpus paraleloetatik baliokidetza lexikalak erauztea.

Gaur egun, itzulpen-memorietan oinarritutako laguntza-sistema askotan, terminologia elebidunak erauzteko modulua integratu da, sistemaren datu-base terminologikoa erdiautomatikoki aberasteko aukera ematen duena. Sistema horiek ez dute euskara automatikoki prozesatzeko tresnarik, eta, beraz, teknika estatistiko hutsak erabiltzen dituzte euskararekin. Euskara hizkuntza eranskaria izaki, testu-formen agerkidetzan oinarritutako neurri estatistikoen balioak sakabanatuak dira, eta, beraz, ez dira adierazgarriak. Ondorioz, euskara-gaztelania itzulpen-memoriekin lortzen dituzten emaitzak ez dira onak.

ELexBIren bidez, euskararen izaera kontuan hartzen duen erauzlea eskaini nahi dugu. Horretarako, gaur egun corpus paraleloetatik baliabide lexikalak eta terminologikoak erauzteko teknikak aztertu dira. Proposatu eta garatu diren sistema gehienen oinarrian, teknika estatistikoak daude (batik bat itzulpen automatiko estatistikoaren testuinguruan garatuak); horiekin batera, teknika linguistikoak, batez ere terminologia-erauzketaren testuinguruan landuak. Azkenaldian, bi teknika-mota horiez baliatzeko joera nabaria da. Gure saiakuntzetan ere, erauzketa-prozesuan teknika linguistikoak eta estatistikoak konbinatuta lortu dira emaitzarik onenak, eta beste zenbait 'heuristiko' erabiltzeak ere areago hobetzen ditu emaitzak.

Oro har, prozesuaren egitura honelakoa da: hizkuntza bakoitzeko termino hautagaiak (bakunak zein hitz anitzekoak) aldez aurretik identifikatu (teknika linguistikoak erabiliz), eta gero hautagaiak parekatzea (nagusiki, teknika estatistikoen bidez).

Hizkuntza bakoitzeko termino hautagaiak identifikatzeko, tresna hauek erabiltzen ditu ELexBIk: euskararako, Elhuyar Fundazioak IXA taldearekin lankidetzak garatutako Erauzterm termino-erauzlea; gaztelaniazko testua prozesatzeko, UPCko Centre de Tecnologies i Aplicacions del Llenguatge i la Parla (TALP) eta Bartzelonako Unibertsitateko Centre de Llenguatge i Computació erakundeek garatutako Freeling software libreko paketea.

ELexBI tresna

ELexBIren diagrama orokorra

 

Baliokideak hautatzeko, urratsez urratseko algoritmoa erabiltzen du ELexBIk:

  • Lehen urratsean, bikote 'seguruenak' hautatzen ditu, hau da, izenburu, atalburu eta antzekoetako termino-bikoteak (baldin hizkuntza bakoitzeko termino hautagaiak dagokion izenburu osoa hartzen badu)

  • Ondoren, hautagaien antza hartzen da kontuan (LCSR neurria > 0,8 dutenak hautatzen dira)

  • Azkenik, hautagaien segmentu bereko agerkidetza hartzen da kontuan, elkartze-neurri estatistikoen bidez (AM): elkarrekiko informazioa (MI), egiantz-arrazoia (LR), khi karratua (χ2), t neurria, Dice koefizientea

Erabiltzailearen interfazea:

 

Gizarteratzea
Itzuli orriaren hasierara

Zerbitzuak

Itzuli orriaren hasierara
Elhuyar Ikaslearen Hiztegia
25,65€Erosi
Elhuyar Sinonimoen Kutxa. Sinonimo eta antonimoen hiztegia (3. edizioa)
Elhuyar Sinonimoen Kutxa. Sinonimo eta antonimoen hiztegia (3. edizioa)
19,00€Erosi
Itzuli orriaren hasierara Itzuli orriaren hasierara

Copyright © 2007 Elhuyar Fundazioa | Lege-oharra | Web-mapa | Erabiltzaile-kopurua: 856789

webmaster@elhuyar.com

Diseinua: Blanco

Itzuli orriaren hasierara