Elhuyar Fundazioak Web-corpusen Ataria aurkeztu du, eta kontsultagai jarri du
Elhuyar Fundazioak Web-corpusen Ataria eratu du, eta aste honetan aurkeztu du San Telmo Museoan, Badu Bada erakusketaren barruan. Atari hau kontsultagai jarri du Elhuyarrek, eta erabiltzaileek hiru baliabide izango dituzte eskura:
- Euskarazko corpus elebakarra: Orain arte eratu den euskarazko corpusik handiena da, alde handiz gainera, 125 milioi hitz inguru jasotzen baititu. Interneten dauden mota eta arlo guztietako testuak biltzen ditu, eta linguistikoki etiketatuta daude.
- Euskara-gaztelania corpus paraleloa: Webean automatikoki atzemandako euskara-gaztelania gune eta dokumentu elebidunak esaldi mailan parekatu dira, automatikoki ere bai. 18 milioi hitz inguru ditu corpus honek, eta egungo euskara-gaztelaniako corpus paralelo publiko handiena da. Aurrekoa bezala, linguistikoki etiketatuta dago. Oso baliagarria da hizkuntza bateko hitz edo esapide bat beste hizkuntzan nola eman den jakiteko.
- Euskarazko corpusetik automatikoki erautzitako hitz-konbinazioak: euskarazko corpusetik automatikoki erauzitako hiru motatako konbinazioak eskaintzen dira: izen+aditz, izen+izen eta izen+izenondo. Horren bidez, erabiltzaileak ikus dezake, esaterako, izen jakin batekin zein aditz konbinatzen diren, neurri estatistiko batzuen arabera ordenatuta, baita horien testuinguruak bistaratu ere.
Web-corpusen Atariari buruzko artikulu zabal, mamitsu eta xehetasunez beterikoa argitaratu dugu Elhuyarren I+Gko blog-komunikatean.
RT @zuzeu: Elhuyar Fundazioak Web-corpusen Ataria aurkeztu du, eta kontsultagai jarri du: Elhuyar Fundazioak Web-corpusen… http://t.co …