Umap, Twitterreko euskarazko jarduna, joerekin eta rankingarekin orain

Twitterreko euskarazko jardunaren batzaileak, Umap-ek, bigarren bizialdi bat hasi zuen atzo Umap.eu webgune berrituan. Duela bi urte hasitako esperientzian oinarrituta, azpiegitura teknikoa aldatu eta berriro da martxan Umap: Twitterreko euskarazko jarduna automatikoki filtratzen duen erreminta.

umap-portada

UMAP proiektuak 2010. urtean eman zituen lehenengo urratsak. Twitterrek ematen duen APIari esker, Twitterreko jarduna streaming bidez jarraitzen dugu, denbora errealean eta automatikoki, eta euskaldunon jarduna filtratzen saiatzen gara.

2010ean martxan jarritako azpiegitura teknikoa bere mugara iritsi zen 2012ko udan (Twitterrek berak ipintzen dituen murrizketa batzuekin egin genuen topo), eta orain erabat berrituta aurkeztu dugu.

Asmoa da, hortaz, Twitterreko euskarazko jarduna jasotzea. Beste hizkuntza nagusiago batzuen artean bizi nahian gabiltzanon ahotsa bistaratzea.

Nola dabil Umap? Lehenengo urrats batean euskaldunak izan daitezkeen erabiltzaileak jarraitzen ditugu, eta hortik abiatuta euskarazko txioak detektatu eta bahetzen ditugu.

Datu horiekin, eta algoritmo batzuk aplikatuta, gauza bi lortzen ditugu:

  1. Euskaldunon joerak (TT)
  2. Euskal tuiterlarien rankinga

Joerak

Euskal tuiterlarion jarduna jasotzen dugu denbora errealean. Horri esker, euskaldunon arteko Joerak (TT, Trending Topic) identifikatu ditzakegu. Hauexek dira, hortaz, gurean pil-pilean dauden gaiak.

Bakarrik #traola duten hitzak kontatzen ditugu. Zenbait traol errepikakor ez dira zenbatzen (automatiko gehitutakoak, spam saiakerak, ostiraletako, #ff traola eta abar).

Umap-ek aukera ematen du azken 6-12-24 edo 48 orduetako joerak ikusteko; eta historikoa ere kontsultatu daiteke.

Sailkapena

Gure robotak euskal tuiterlari gehientsuenak jarraitzen dituenez, guztien zerrenda ikusteko aukera ere ematen dizu: Euskal Twitterlarien komunitatea osatzen dugunon zerrenda. Zenbat euskal tuiterlari dago sarean? Zeintzuk dira? Twitterreko euskarazko komunitatea nortzuk osatzen dugu? Jakin badakigu batzuek ihes egingo digutela, baina uste dugu aktiboenak, behintzat, detektatzeko gai dela gure robota.

Gainera, tuiterlarien arteko sailkapena edo Rankinga ere proposatzen digu Umapek. Horretarako algoritmo bat aplikatzen die euskal tuiterlari guztiei, besteak beste ondorengo faktoreak kontuan hartuta: jarraitzaile kopurua, jasotako bertxioak, idatzitako euskarazko txioen interesa, eta abar. Azken batean, erabiltzaile interesgarrienak detektatu eta sailkatzen ditugu; #euscool-enak, badakizue. Zuzeu-ren Twitterreko kontua, 6. postuan dago aste honetan.

Ranking hau astelehenero eguneratzen da, aurreko asteko jarduna aintzat hartuta; sailkapen horretako tuiterlarien artean, beraz, berriak sartuko dira astero, eta beste batzuk desagertuko (itxitakoak, inaktiboak, euskaraz txiokatu ez dutenak, eta abar).

Milaka tuiterlari jarraitzen ditugu (gure robotek detektatzen dituzten guztiak), eta parametro minimo batzuk betetzen dituztenak zerrenda honetara igarotzen dira. Une honetan 3180 euskal tuiterlari aktibo gaude; ez askoz gehiago sarean (euskaraz eta maiztasun minimoarekin txiokatzen dutenak, behintzat).

Soziolinguistika denbora errealean

Tuiterlari bakoitzaren hizkuntza erabilera ere neurtzen du Umap-ek, ez bakarrik zuzenean idatzitakoetan, baita egiten ditugun bertxioen kasuan ere bai. Horra, Hasier Etxeberriaren jardunaren irudia, adibidez. Rankingean beherakada bat izan bazuen joan den astean, beharbada izango zen erdarazko txio batzuk gehiago egin zituelako Egunkariaren itxieraren 10. urteurrena dela eta (hipotesi bat da).

Hasier Etxeberria Umap-en

Ondorioz, datu soziolinguistikoak ateratzeko tresna ere bada Umap. Eguneko jardun orokorraren edo traol batzuen jarraipena eginez, adibidez, datu are aberatsagoak atera daitezke, baina oraingoz, profil indibidualetan ikusten dira gauza hauek. Beste kasu bat aipatzearren: EITB Kirolak kontuaren grafikoetan ikusten da kontu honetatik gehiago egiten dela gaztelaniaz euskaraz baino, nahiz eta zuzeneko emanaldi guztiak euskaraz izaten diren ETB1en.

Bai Umap.eu zein Sustatuko albistegi automatikoa RobSoc plataformaren emaitza dira, Codesyntaxek garatutako produktu teknologikoa. Erdarazko produktu batean ere ari gara aplikatzen azpiegitura berbera: Niagarank.es.

Garapen hauek Gipuzkoako Foru Aldundiaren eta Eusko Jaurlaritzaren diru-laguntzak jaso dituzte.

4 pentsamendu “Umap, Twitterreko euskarazko jarduna, joerekin eta rankingarekin orain”-ri buruz