Euskarazko testuak TTS teknologiarekin nola entzun
Lagun batek egin didan galderaren aitzakitan, TTS teknologia erabiliz euskarazko testuak nola “entzun” daitezken ikusiko dugu artikuluan. Gaiaren inguruan egindako ekarpenak estimatuak dira.
Aurrekariak
Ahots sintesia, TTS edo Text To Speech teknologia, testu bat audiora bihurtzeko teknologia da. Wikipedian honi buruzko info sakona badago, beraz ez naiz gai honen inguruan gehiegi luzatuko.
TTS teknologia erabiliz nabarmen ugaldu da zerbitzu eta baliabideen eskaintza azken urteetan bainan erabiltzaileok eskura genituen tresna hauek guztiak euskara ahazten zuten. Gabezi horri erantzuteko tresna urriak ditugu euskaldunok, bainan web bitartez eskura daitezkenak (eta nik ezagutzen ditudanak) bi baino ez dira. Alde batetik Euskal Herriko Unibertsitateko Aholab laborategiak garatutako AhoTTS aplikazioa eta bestetik Gipuzkoako Foru Aldundiko Kultura Departamentuako Euskararen Zerbitzu Plataformaren pean garaturiko TTS tresna. Azkeneko tresna honen baliabide guztiak erabiltzeko webgunean erregistratu beharra dago.
Azkeneko baliabide hau da artikuluan azalduko dudana.
Euskararen Zerbitzu Plataforma
Euskararen Zerbitzu Plataformako, aurrerantzean EZP, TTS tresna erabiltzeko jarraitu beharreko pausoak hauek dira:
- Webgunean erregistratu. Eskatzen dituen datuak oinarrizkoak dira. Erabiltzaile berria sortu eta webgunean sartutakoan EZPren baliabide ezberdinak ezkerreko zutabean ikusiko ditugu eta horrekin batera dagokigun API gakoa. API bat zer den eta adibidez Susa Argitaletxeko liburu elektronikoen arduradunek zertarako erabili dezaketen aurrerago azalduko dut.
- Text To Speech tresna aukeratuko dugu.
- Agertuko zaigun kutxan, audiora bihurtu nahi ditugun testuak txertatu ditzazkegu, testu kate soil bat edo fitxategi bat.
- Testu kate soila sartzen badugu, zenbait karaktere ez ditu ongi identifikatzen ta akatsa ematen du, batipat /-()%&$· ta pelaje horrelakoak. Nik artikulu honen lehen parrafoa sartu dut eta bertan agertzen diren () ikurrak kendu beharra izan ditut tresnak bihurketa apropos egin zezan. Tresnak itzuli didan .mp3 fitxategia hemen entzun dezakezue. Beraz, sartu nahi duzun testua ahalik eta “garbiena” izaten saiatu beharra dago. Hau zuzentzen Foru Aldundiko arduradunek badute nondik hasi.
- Eskuratuko dugun audioaren oinarrizko parametro batzu gure nahierara moldatu ditzazkegu: Bolumena, tonua eta abiadura. Nik egin ditudan frogetan emaitzarik egokiena lortze aldera parametro hauetan abiadura zertxobait moteldu dut soilik. Hala ere, hau subjetiboa da. Frogak egin beharko dituzue.
- “Aukera aurreratuak” aukeran sakatuaz azaltzen diren parametro ezberdinak frogatu ditut ta ez dut aldaketarik somatu. Hau ere subjetiboa izango da.
Fitxategia bihurtu
Hitz testu kateak itzultzea bezain interesgarria testu fitxategiak audiora bihurtu ta bueltan .mp3 fitxategia lortzea da. Ikus ditzagun jarraitu beharreko pausoak eta kontuan izan beharreko zenbait ohar aukera honen inguruan.
- Fitxategia itzultzeko tresnaren fitxa irekiko dugu.
- Itzuli nahi dugun fitxategia gure PCan aukeratuko dugu.
- Hemen ere parametro ezberdinekin jolastu dezakegu. As you wish.
- “Bidali” botoian sakatuko dugu fitxategia bidali eta .mp3 formatodun fitxategia eskuratzeko.
- .txt formatoan dauden fitxategiak itzultzen ditu soilik. .pdf, .doc eta antzekoak ez ditu ezagutzen. .doc fitxategien audio bihurketa egiten du baina 432 byteko fitxategia eskuratzen duzu saiatzen zaren uneoro. Bug bat izango da. Bihurtu nahi ditugun testuak .txt formatora itzuli beharko ditugu ezinbestean. Hala ere hau ez da aparteko arazoa eta Interneten lan hori egiten duten doako web zerbitzuak erabili ditzazkegu.
Kasu praktikoa: Susa Argitaletxeko liburu elektroniko baten itzulpen prozesua.
Teknologia guztiak ez dute ezertarako balio baldin eta aplikazio praktiko eta erabilgarriak aurkitzen ez badira. Testu fitxategi baten .mp3 audiorako itzulpenaren alde praktikoa Susa Argitaletxeak 2011. urtean hasitako liburu elektronikoen dendatik eskuratutako liburu batekin egingo dugu.
ZuZeun gaudenez eta froga egite aldera, Hasier Etxeberriaren Iturrino Handia nobelaren .pdf fitxategia erabiliko dugu. Dendan liburuak bi formatoetan daudelarik, EZPren TTS tresnak ez du ePub formatoa ezagutzen. Gabezia zuzendu beharko lukete.
Legalak garenez, ta prozesua tajuz egite aldera, aurretik Susaren liburuari dagozkion 3,54€ak ordainduko ditugu. Uxkeri bat lortzen dugun zerbitzu apartarengatik. Nik ere ordainketa egin dudala ikus dezazuen, Susak bidali didan baieztapen emaila ikusi dezakezue.
- Nobelaren .pdf formatoa eskuratu ondoren, .txt formatora pasa beharko dugu. Horretarako Interneten dauden doako web zerbitzuen artean ConvertPDFtoTEXT aukeratu dut. Hamaika dauzkazue eskuragarri.
- Lortu dugun .txt fitxategia hemen eskuragarri duzue. 150KB. ditu, arina beraz.
- Azkeneko pausoa. Eskuratu dugun .txt fitxategia TTS zerbitzura bidaliko dugu, eta automatikoki fitxategiaren .mp3 bertsioa jasoko dugu. Igo dugun .txt fitxategia txikia izanik, .mp3 fitxategia EZPko zerbitzariak di-da batean sortuko du. Azpikaldeko irudian horren adibidea duzue.
API gakoa izatearen garrantzia
Arestian aipatu dudan bezala, EZPn izena ematen dugunean erabiltzaile guztiek API gako bat lortzen dute. Gako hau izatea ezinbestekoa da hirugarren alde batek EZPren baliabideak erabiliz aplikazio edo garapen informatiko bat programatu nahi badu. Facebook, YouTube, Twitter, GureGipuzkoa, Flickr… web zerbitzu hauek guztiek beraien APIa duten bezala, EZPren baitan dauden tresna guztiek ere berea dute. TTS tresnarena hau da.
TTS tresna honen moldaketa bat egun Gipuzkoa2.net blogaren euskarazko artikuluetan txertaturik dago eta testua entzuteko aukera eskaintzen du. Hala ere blog hori Joomla! CMS plataforma batean oinarritua dagoelarik, Joomlarentzat garaturiko pluginak ez du balioko WordPressen oinarritutako ZuZeu bezalako blog plataforma batentzat. ZuZeuko artikuluak .mp3 formatoan eskuragarri jarri nahiko balitz, WordPress plataforman erabilgarria izan dadin programazio eta doitze lan bat egin beharko litzake.
Susa Argitaletxearentzat zenbait ideia
Gaikaldean azaldu dudan prozesua luzea da eta “a manubrio” egin beharra dago eta horrela egitea ez da bideragarria bere erabiltzaileak “mimatu” nahi dituen webgune batentzat. Zentzu horretan, demagun Susa Argitaletxeak eskaintzen dituen liburu elektronikoen .pdf eta .ePub formatuei .mp3 formatua gehitu nahi diela. Hartara erabiltzaileek liburuaren audio bertsioa beraien mugikor edo gailura jeitsi eta liburua “entzuteko”. Kasu honetan, Susan bi gauza egin beharko lituzkete:
- Liburuak .txt bertsiora bihurtu eta berauk prestatu .mp3 konbertsioa ahalik eta txukunena izan dadin, karaktere arraoak ekidinez batipat. Moldaketa honek lana suposatzen du.
- Beraien API gakoa erabiliz, beraien webgunea TTS tresnaren APIarekin lotuko duen garapena egin, hartara pluginaren ardura, mantentzea eta kostua GFAren esku egon dadin, edo bestela, liburuen .mp3 fitxategiak behin sortu eta beraien webgunean zintzilikatu. Azkeneko aukerak APIari egindako eskaera kopurua nabarmen gutxituko lituzke.
Eta Susa aipatzen dudan bezala, beste edozein argitaletxerentzat ere balioko luke, GureBook.com barne 😉
Hausnarketak
Tresna hauek oraindik inorrek modu masiboan ez erabiltzeak harritzen nau. Oker nabil, ez nau harritzen: EZPren tresnen berri lau katuk ezagutzen baidute eta bere garapena eta soporte teknikoa geldirik daudela baidirudite. Bestalde, EZPren biziraupena zalantzan dago, edo behintzat niri horrela iruditzen zait, Gipuzkoako Foru Aldundiko Euskara zuzendaria den Zigor Etxaburuaren adierazpenei kaso egiten badiegu bederen: “…Gipuzkoa 2.0 programa jada desagertu da. Etxaburuak zehaztu bezala”
Pena izango litzake Gipuzkoa 2.0 programaren baitan garatu ziren garapenak (Euskararen Zerbitzu Plataforma, GipuzkoaMatic, GureGipuzkoa, GipuzkoSfera, Meta…) “zakar” kontuengatik bertan behera uztea, aldiz, tragedia bat izango litzake berauk ezjakintasunagatik desageraraztea. Opino.
Lagun pare batek jada jakinarazi didate, bainan erregistro prozesuak akatsa ematen du. FYI.