Google, Amazon, pilota eta bueno
Google, Amazon, pilota eta bueno –
2014ko 4terdiko finalaren atarian, Xabier Euzkitzek Oinatz Bengoetxeari elkarrizketa hau egin zion:
Artikuluko tituluarekin dagoen lotura misteriotsua bazaizu, Oinatzek 21 segundutan esandako bueno kopurua zenba zenezake. 4 zenbatu ditut, hots 0.19 bueno/s-ko buenobiadura. Harrigarria ezta? Txikitatik partidak ikusi arren ez nintzen hortaz ohartu. Duela gutxi, euskara berriki entzuten duten bi belarrik, pilotariek bueno asko esaten zituztela irakatsi zidaten. Hanka bizkorrenak dituen pilotaria Oinatz dela entzuna dut, baina bera al da buenoabiadura handiena duena? Hori jakiteko, lan asko egin beharra dago:
- Etb nahieran era joan,
- pilota partida guztiak ikusi,
- partidetako elkarrizketak entzun,
- elkarrizketa bakoitzan:
- pilotaria izendatu,
- esandako bueno kopurua zenbatu, eta
- elkarrizketaren luzera gorde.
Hainbesteko lana izanda ez da harritzekoa buenoabiadura ranking-a inork egin ez izana. Baina gu-geuk egin baino, Google ta Amazon-ek saltzen dituzten inteligentzia artifizialak proba ditzazkegu.
Hasteko, soinutik hitzak atera omen ditzakete:
Goiko pasartean Google-ek azpikoa ulertzen du:
aimar eta irujo irujo eta aimar handitan erakusten du ala dela-ta da vagueira española navarra
Ez dabil hain gaizki, baina barnategi batera joan beharra dauka oraindik.
Honek euskaraz ez daki, baina estatu batuetako gazteleraz bai:
...
{
"start_time": "6.23", "end_time": "6.55", "alternatives": [
{ "confidence": "0.7435", "content": "buenos" }
...
{
"start_time": "10.69", "end_time": "11.12", "alternatives": [
{ "confidence": "1.0000", "content": "bueno" }
....
{
"start_time": "15.59", "end_time": "15.83", "alternatives": [
{ "confidence": "0.9308", "content": "Bueno" }
...
Irakurle zorrotzak, bigarren bueno-a non den galdetuko digu? Ba ez dago:
-
-
- Oinatz-ek esandako
egia esan bueno kriston
-en ordez, esa cristovam
idatzi baitu Amazonek.
- Oinatz-ek esandako
-
Baina bueno, zorrotz zorrotza ez bada ere, Amazonekin moldatuko gara [0]. Ondoren, partidek ordu ta piko irauten badute, elkarrizketek ez dituzte 3 minutu gainditzen. Hortaz, elkarrizketak noiz diren aurkitzen dituen programa bat eginda, transkribitzeko lana labur genezake.
Google cloud vision [1] irudietan dauden letrak irakurtzeko gai da (besteak beste). Horra adibidez bi iruditan irakurritakoa:
['Meitb.eus\n20/0\nCODETE\nDIAZABAL\nDIAZABAL\nIONELE\nDIAZABAL\nMOTZA FALTA\nDAZABAL\nun\ncodere\nAPUESTAS\ncodere\nAPUESTAS\n??\n', 'Meitb', '.', 'eus', '20', '/', '0', 'CODETE', 'DIAZABAL', 'DIAZABAL', 'IONELE', 'DIAZABAL', 'MOTZA', 'FALTA', 'DAZABAL', 'un', 'codere', 'APUESTAS', 'codere', 'APUESTAS', '??']
['Meitb.eus,\n1912\nESKU PILOTA PROFESIONALA\nESKU PILOTA PROFESIONALA ESKU PILOTA PRESIONALA\nJI\nDVUE\nESKU PILOTA PROFESIONALA\nESKU PILOTA\nKUPILOTA PROFESIONALA\n??\nESKU PILOTA\nPLOTA PROFESIONALA\nESKU\nESKU PILOTA PROFESIONALA\ncerca EO E K\nSO-E 5K Porens\n2 3 K o rea Spain\nK aporan\nqora ZOE\nOES\n5 K g road\n...]
Elkarrizketan EUSKU, PILOTA ta PROFESIONALA hitzak agertzen dira baina partidan ez [2]. Orain, elkarrizketak noiz hasi ta noiz bukatzen diren detektatzeko, azpikoa egin genezake:
- Partiduko minutu bakoitzari argazki bat hartu, ta Google-i bidali.
- Elkarrizketa bada: segunduro ezker ta eskuin mugitu, argazkia hartu, Google-i bidali, elkarrizketaren hasiera ta bukaerak aurkitu arte.
Bukatzeko, Etb nahieran-eko P/Pilota eskuz: Profesionalak 2018/Jaialdiak 2018 atalan dauden 40 bideo analizatu ditugu. Bertan 45 pilotariri egindako ehun bat elkarrizketa aurkitu ditugu [3].
Elkarrizketa horietako buenobiadura ranking-a, 4 elkarrizketa baino gehiago dituzten pilotariak sailkatuta, hemen daukazue [4]:
- josé javier zabaleta: 0.0825 bueno/s (6)
- victor esteban: 0.0697 bueno/s (4)
- oinatz bengoetxea: 0.0694 bueno/s (6)
- jokin altuna: 0.0644 bueno/s (9)
- beñat rezusta: 0.0596 bueno/s (4)
- danel elezkano: 0.0583 bueno/s (6)
- joanes bakaikoa: 0.0580 bueno/s (7)
- aimar olaizola: 0.0476 bueno/s (5)
- unai laso: 0.0459 bueno/s (4)
- jon ander peña: 0.0406 bueno/s (4)
- iker irribarria: 0.0281 bueno/s (4)
- iñaki artola: 0.0266 bueno/s (5)
- joseba ezkurdia: 0.0214 bueno/s (9)
- jon ander albisu: 0.0195 bueno/s (4)
Jakin beharra dago hiru pilotarik ez dutela bueno bakar bat ere baliatu:
- jon alberdi (1)
- jon erasun (1)
- xabier erostarbe (1)
Konklusio gixa, ariketa honek hauxe irakatsi dit:
- Ordenagailuek, bideo ta soinuak ulertzeko gaitasun nahiko ona dute.
- Programatzen dakien batek, inteligentzia artifizialari buruz ezer jakin gabe, gaitasun horiek eskuragarri ditu gaur egun, diru-truk.
- Zerbitzu horiek, Google, Amazon etab-ekiko menpekotasuna areagotu dezakete.
Ta bukatu aintzin, ea azpiko bideoa gustoko duzun:
[0]: Amazon transcribe-en kostua:
- Lehen urtean, hilabeteko lehen 60 minutuak urririk,
- besteak $0.0004 segunduka.
[1]: Google cloud-vision-en kostua:
- 0 – 1000 irudi: urririk
- 1001-5.000.000 irudi: $1.50 (1000 irudirentzat)
- 5,000,001–20,000,000: $0.60 (1000 irudirentzat)
[2]: Irudi bat elkarrizketa denez erabakitzeko, gure programari machine-learning pixkat bat egin arazi diogu, letrak ez baitira beti garbi garbi ageri. Labur labur, Levennshtein distantzia ta Regresio logistikoa baliatu ditugu.
[3]: Pilotariak eskuz identifikatu ditugu.
[4]: Elkarrizketa kopurua parentesitan ezarri dugu.