Download presentation
Presentation is loading. Please wait.
Published byCarolina Quintanilha Modified over 5 years ago
1
Metodologia Hizkuntzaren Azterketa eta Prozesamenduan
I. Alegria, Arantza Diaz de Ilarraza, Kepa Sarasola IXA taldea EHU Euskal Herriko Unibertsitatea
2
Motibazioa Hizkuntza-Teknologiak funtsezkoak dira Informazio eta Komunikazioaren Gizartea esaten dugun horretan Epe ertainean pertsona eta makinen arteko komunikazioa geure hizkuntzan egin ahal izango dugu, ez makinaren hizkuntzan Tresna mugatuak izango dira, eta beti error a batekin, baina, hala ere, laguntza ederra emango digute.
3
Motibazioa Aplikazio erabilgarriak
Gaur egun badira zenbait hizkuntza-aplikazio eskuragarri Testu-ediziorako laguntzak Itzulpen-laguntzak Informazio-masa handiak kudeatzeko sistemak (dokumentu bilatzaileak, datu-bilatzaileak...) Hizketaren tratamendua Bigarren hizkuntza ikasteko sistemak ...
4
Motibazioa Aplikazio erabilgarriak
Testu-ediziorako laguntzak Ortografia-zuzentzaileak eta estilo-zuzentzaileak Hiztegi-kontsultak on-line On-line testu-editoreekin. Elhuyar(Gazt-Eusk), UZEI sinon. Hiztegi elektroniko aurreratuak: eEH Euskal Hiztegia Era askotako hiztegi ugari: Itzulpen-laguntzak Informazio-masa handiak kudeatzeko sistemak (dokumentu bilatzaileak, datu-bilatzaileak...) Hizketaren tratamendua Bigarren hizkuntza ikasteko sistemak ...
6
300 hiztegi Internet bidez kontsultagarri www.yourdictionary.com
7
300 hiztegi Internet bidez kontsultagarri www.yourdictionary.com
8
300 hiztegi Internet bidez kontsultagarri www.yourdictionary.com
9
9 hiztegi euskararako www.yourdictionary.com
10
100 hiztegi baino gehiago gaztelaniarako www.yourdictionary.com
11
Gaztelaniarako hiztegi berezituak
12
Gaztelaniaren aldakuntzetarako hiztegiak www.yourdictionary.com
13
Ingeleserako 870 hiztegi baino gehiago www.yourdictionary.com
Bilatu “interface” hitza hiztegi guzti horietan...
14
49 hiztegitan aurkitu ditu
“interface” hitza... 49 hiztegitan aurkitu ditu
15
“Computing”–eko 49 hiztegitan aurkitu ditu
“Interface” hitza... “Computing”–eko 49 hiztegitan aurkitu ditu
16
Motibazioa Aplikazio erabilgarriak
Testu-ediziorako laguntzak Itzulpen-laguntzak Itzulpenerako zirriborroak sortzen Dokumentuen azaleko ulertzen (Web) Itzulpen-memoriak Informazio-masa handiak kudeatzeko sistemak (dokumentu bilatzaileak, datu-bilatzaileak...) Hizketaren tratamendua Bigarren hizkuntza ikasteko sistemak ...
17
Aldibereko itzulpena Web bidez eta doanik
katalan<->gaztelania
18
Motibazioa Aplikazio erabilgarriak
Testu-ediziorako laguntzak Itzulpen-laguntzak Itzulpenerako zirriborroak sortzen Dokumentuen azaleko ulertzen (Web) Itzulpen-memoriak Informazio-masa handiak kudeatzeko sistemak (dokumentu bilatzaileak, datu-bilatzaileak...) Hizketaren tratamendua Bigarren hizkuntza ikasteko sistemak ...
22
katalana<->gaztelania
Web-orrien Itzulpena doanik katalana<->gaztelania
23
orriaren itzulpena
24
Motibazioa Aplikazio erabilgarriak
Testu-ediziorako laguntzak Itzulpen-laguntzak Itzulpenerako zirriborroak sortzen Dokumentuen azaleko ulertzen (Web) Itzulpen-memoriak Informazio-masa handiak kudeatzeko sistemak (dokumentu bilatzaileak, datu-bilatzaileak...) Hizketaren tratamendua Bigarren hizkuntza ikasteko sistemak ...
25
Itzulpen-memorien kudeaketa
Web bidez Code&syntax, DELI
26
Gestión de memorias de traducción por web
Code&syntax, DELI
27
Motibazioa Aplikazio erabilgarriak
Testu-ediziorako laguntzak Itzulpen-laguntzak Informazio-masa handiak kudeatzeko sistemak Dokumentu-bilatzaileak (~Google) Datu-bilatzaileak Laburpen automatikoak Question-Answering Hizketaren tratamendua Hizketa testua bihurtzen duten sistemak Testuak irakurtzen dutenak Bigarren hizkuntza ikasteko sistemak ...
28
Dokumentu-bilatzaileak
(lematizazioarekin) Ez da bilatzen “saguarekin” “sagu” baizik Zaborrik ez da agertzen sagu-rekin hasten direnak baina ez dagozkio “sagu” hitzari Adibidez: “saguzar” Atzizkidun hitzak aurkitzen dira “saguen”, “saguaren”, “sagua”, “saguetan”
29
Dokumentu-bilatzaileak
(lematizazioarekin) Zaborrik ez da agertzen Saguzar-ekin aurkitutako 33 artikulu ez dira azaldu sagu bilatzerakoan (284 artikulu)
30
Motibazioa Aplikazio erabilgarriak
Testu-ediziorako laguntzak Itzulpen-laguntzak Informazio-masa handiak kudeatzeko sistemak Dokumentu bilatzaileak (~Google) Datu-bilatzaileak Laburpen automatikoak Question-Answering Hizketaren tratamendua Hizketa testua bihurtzen duten sistemak Testuak irakurtzen dutenak Bigarren hizkuntza ikasteko sistemak ...
31
Laburpen automatikoa Microsoft word
32
Motivación Aplicaciones en uso
Ayuda a la edición y comprensión de textos Traducción automática Tratamiento de grandes masas de texto Buscadores de documentos (~Google) Buscadores de datos en documentos Resumenes automáticos Question-Answering Tratamiento de voz Enseñanza de segundas lenguas ...
33
How far is Bilbao from London?
Question-Answering Galderei erantzutea (geografia, zientzia,kultura, historia…) How far is Bilbao from London?
34
How far is Bilbao from London?
Question-Answering How far is Bilbao from London? 602 Miles, 971 km
35
Interactive online CL Demos
Question-Answering Beste 7 sistema Interactive online CL Demos
36
Motibazioa Aplikazio erabilgarriak
Testu-ediziorako laguntzak Itzulpen-laguntzak Informazio-masa handiak kudeatzeko sistemak (dokumentu bilatzaileak, datu-bilatzaileak...) Hizketaren tratamendua Testuak irakurtzen duten sistemak Hizketa testua bihurtzen duten sistemak Bigarren hizkuntza ikasteko sistemak ...
37
Aholab (Bilboko Ingeniaritza)
TTS(Text to Speech) Testuak irakurtzen Aholab (Bilboko Ingeniaritza)
38
Motibazioa Aplikazio erabilgarriak
Testu-ediziorako laguntzak Itzulpen-laguntzak Informazio-masa handiak kudeatzeko sistemak (dokumentu bilatzaileak, datu-bilatzaileak...) Hizketaren tratamendua Testuak irakurtzen duten sistemak Hizketa testua bihurtzen duten sistemak Bigarren hizkuntza ikasteko sistemak ...
39
hizketaren tratamendua
Hainbat aplikazio hizketaren tratamendua Scansoft
40
Ikus http://www.lt-world.org
Informazio orokorra
41
Produktuen katalogo orokorra
registry.dfki.de
42
Motibazioa Baina horrelako sistema gehienak ingeleserako balio dute, ez beste hizkuntzetarako Beste hizkuntzek ahalegin handia egin behar dute atzean ez gelditzeko Are gehiago hizkuntza txikiek
43
Motibazioa NLSR:Hizkuntza tratatzeko programen katalogoa
75% 30% 31%
44
Hizkuntzaren Industria antolatzeko urratsak
Euskararen egoera orain Helburuak Estrategia Eragileak eta bezero posibleak Ondorioak
45
Euskararen softwarearen katalogoa www.ueu.org/softkat
(19) BULEGO APLIKAZIOAK Testu prozesatzaileak, kontabilitatea... (24) AISIALDIA Musika,Jokuak... (36) HIZKUNTZA Itzultzaileak, zuzentzaileak, hiztegiak... (20) INTERNETEN ARITZEKO Nabigatzaileak, posta elektronikoko programak... (17) TRESNA OROKORRAK Sistema eragileak, Interneteko datu-baseak eta bilatzaileak... (60) IRAKASKUNTZA ETA JOKU PEDAGOGIKOAK Matematika, zientziak...
46
Euskararako hizkuntza-aplikazioak
Ediziorako laguntzak: Xuxen: zuzentzaile ortografikoa Elhuyar hiztegia. Officeko plug-ina. Hizketaren tratamendua BIZKAIFON (Bizkaieraren Fonoteka ) AhoTTS Testu-Ahots Bihurgailua Euskara ikasteko metodoak: Bai & Bye / BOGA / HEZINET Lematizatzailea, informazioa bilatzeko tresna Euslem Datu-base dokumentala Kapsula Corpus XX. mendeko euskararen corpus estatistikoa Baliabide lexikalak: hiztegiak, esamoldeak, ... 16 produktu
47
Zer egin daiteke atzean ez geratzeko? Nola ekin erronka horri?
Proposamena: Aurkezten dugu estrategia bat, urrats-kate bat hizkuntzaren teknologiari metodo batekin ekiteko. IXA taldearen 17 urteko ibilbidean oinarritua Nazioarteko foroetan aurkeztua eta kontrastatua Ideia nagusia: Hasieran sortu oinarrizko baliabideak eta tresnak Geroago sortu merkatu-aplikazioak Alderantziz ez !
48
Hizkuntzaren Industria antolatzeko urratsak
Euskararen egoera orain Helburuak Estrategia Eragileak eta bezero posibleak Ondorioak
49
Helburuak (epe erdian)
Euskararako baliabide linguistikoak sortzea Corpus (100 Megahitz) Lexikalak: Hiztegiak eta hitzen sailkapena adieraren arabera. Aplikazioak: Informazio-bilatzaileak (eguraldi-parteak, burtsa, kirolak, berriak, bideo-eskaerak, irudi–eskaerak, ...) Domotika Itzulpen-automatikoa Irakaskuntza-sistemak (e-learning) Elbarrientzako laguntzak Telebista digitala Elkarrizketa-sistemak Multimedia-sistemak
50
Helburuak (2) Ingeleserako produktuen merkatua oso handia da. Baina produktu horiek ez dira zabaldu modu egokian beste hizkuntzetarako. Guk euskaldunok, europarrok ohituta gaude eleaniztasunean bizi izaten. Gaitasun handiagoa dugu eleaniztasuna lantzeko. Euskara oso ezaugarri desberdinak ditu. Probaleku ezinhobea da produktuen moldagarritasuna frobatzeko. Teknologia esportagarria eta nazioartekora ateratzeko modukoa
51
Helburuak (3) Ingeniaritza linguistikoan ikerketan eta Garapenean arituko den komunitatea sortu Personal 2003: : Empresas/Agentes 2002: : 50 Konpartitzen dituena : Algoritmo eta programak Metodologiak Teknologia
52
Hizkuntzaren Industria antolatzeko urratsak
Euskararen egoera orain Helburuak Estrategia Eragileak eta bezero posibleak Ondorioak
53
Lehentasunak (I) Konpartitu eta berrerabili:
Teoriak, formalismoak, eta metodologiak Teknikak eta eskarmentua Teknologia Geure hizkuntzarako baliabide linguistikoak sortu Eta orduan: Tresna orokor eta espezifikoak Aplikazioak
54
Lehentasunak(II) Adibidea:
OCR zenbait programatan euskarazko testuak tratatzeko balio dutela esaten da Baina batek ere ez dauka informazio linguistikorik (hiztegirik, bigrama edo trigramen frekuentziak,…) Baten batean ŕ letra (r azentuduna) onatrzen dutelako esaten dute hori
55
Estrategia: Hasieran baliabideak eta tresnak Geroago merkatu-aplikazioak
Ikerketa + Garapena Aplikazioak Tresna linguistikoak Oinarrizko ikerketa Oinarri linguistikoak Baliabide linguistikoak
56
Oinarri eta baliabide linguistikoak Tresnak eta aplikazioak
Produktu posibleen artean bereizten ditugu Aplikazioak: Azken erabiltzaile arruntentzako produktuak Tresna linguistikoak: Adituentzat eta programa-garatzaileentzat Oinarri eta baliabide linguistikoak Hizkuntzaren tratamendu automatikorako ezinbestekoa den azpiegitura
57
I fasea: Oinarri linguistikoak sortu
APLIKAZIOAK TRESNAK. Morfologiaren deskribapen osoa OINARRIAK BALIABIDEAK MRDak Hasierako datu-base lexikala Corpus (hizketa eta testu bildumak) Fonetika Lexikoa Morfologia Sintaxia Semantika
58
II fasea : Lehenengo tresnak eta aplikazioak
Zuzentzaile ortografikoa APLIKAZIOAK TRESNAK. Lematizatzailea/Etiketatzailea Analizatzaile morfologikoa Corpusak lantzeko tresna estatistikoak Morfologiaren deskribapen osoa MRDak OINARRIAK BALIABIDEAK Corpus morfologikoki markatua BD lexikal aberastua Fonetika Lexikoa Morfologia Sintaxia Semantika
59
EDBL (Euskararen Datu-Base Lexikala)
Euskararen tratamendu automatikorako oinarri lexikala sarrera hiru ataletan: hiztegi sarrera arruntak aditz-formak morfema ez independenteak Atsegina, eguneratua eta kontsistentea ORACLE V7 eta UNIXen pean
60
Morfologiaren deskribapen osoa
TWO LEVEL formalismoan Morfema bakoitzaren atzetik zein etor daitekeen Aldaketa morfofonologikoak Ad.: txakur + a txakurra
61
Analizatzaile morfologikoa
Hitz bakoitzaren analisi posible guztiak Batezbeste 2.6 interpretazio (batzutan >5) Hitz osoaren informazio morfosintaktikoa etxekoek elipsia, ergatibo, plural, mugatua Zenbait errore tipiko eta aldaera dialektal Ad.: *eritzi -> iritzi) Batzutan analisi bitxiak: Amona amon +a ama + on +a !?
62
Lematizatzailea. EUSLEM Adibidea
batzu - okerra- batzuk(batzu)\DET_DZG irteten irten \ADI_SIN , , \KOMA beste beste DET_DZG batzu - okerra- batzuk(batzu)\DET_DZG sartzen sar \ADI_SIN zerbaiten zerbait\ IOR_IZG zain zain \ADB_ADO zirudienez irudi \ADT \PUNTU
63
Gramatikak (sintaxia)
2 formalismotan: Baterakuntza Gramatikak (PATR-II) Murriztapen Gramatika aplikazioak: Informazio-bilaketa gramatika-zuzentzailea sintaxirako sistema tutorea
64
PATR-II gramatika Adibidea: “Zure aita sofa berdean dago .” Perpausa
aditz-mota nor kategoria aditz trinkoa (aditz laguntzailea) aita kasua absolutiboa pertsona 3 numero singular determinazioa mugatua sofa kasua inesiboa
65
EULIA (Hizkuntz Aplikazioetarako Ingurunea)
XML markatze-lengoaian oinarrituta Tresnen erabilgarritasun modularra ziurtatzeko diseinua Tresna multzo integratua EDBL: Datu-Base Lexikala MORFEUS: Analizatzaile morfologikoa EUSLEM: lematizatzaile etiketatzailea XUXEN: zuzentzaile/egiaztatzaile ortografikoa ...
66
Zuzentzaile ortografikoa XUXEN
Zuzentzaile/egiaztatzaile ortografikoa UNIX Macintosh PC Erabiltzailearen hiztegia Erabiltzailearen hiztegiko hitzen forma flexionatuak ere onartzen ditu inplementatu inplementatuko, inplementatua, inplementatuarekin
67
III fasea : Tresna eta aplikazio aurreratuagoak
Hizkuntz irakaskuntza Hiztegi elektronikoak Gramatika zuzentzailea Web crawler APLIKAZIOAK TRESNAK. Tresnen integraziorako ingurunea zuzentzaile ortografikoa Lematizatzailea Azaleko sintaxia Analizatzaile morfologikoa WSD Corpusak lantzeko tresna estatistikoak MRDak Morfologiaren deskribapena Gramatika konp. BALIABIDEAK OINARRIAK EB lexiko-semantikoa Corpus morfologikoki sintaktikoki markatua DB lexikala Fonetika Lexikoa Morfologia Sintaxia Semantika
68
IV fasea : Eleaniztasuna eta aplikazio orokorrak
Itzulpen-laguntzak, elkarrizketa-sist., … Informazioaren bilaketa eta erauzketa, Q&A Hizkuntz irakaskuntza aurreratua APLIKAZIOAK TRESNAK. Hiztegi elektronikoak Gramatika zuzentzailea Web crawler Tresnen integraziorako ingurunea Zuzentzaile ortografikoa Lematizatzailea Analizatzaile sintaktikoa Analizatzaile morfologikoa WSD Herramientas estadísticas para tratar corpus EB lexiko-semantikoa eleanitza Gramatika konp. MRDak Morfologiaren deskribapena BALIABIDEAK OINARRIAK DB lexikala Corpus morfologikoki sintaktikoki eta semantikoki markatua Fonetika Lexikoa Morfologia Sintaxia Semantika
69
V. fasea: Industria-esplotazioa
Merkatuko produktuak Tresnak Oinarriak eta baliabideak
70
Berrerabiltzea beharrezkoa da: Adibidea (II)
Itzulpenerako laguntzak Analizatzaile morfologikoa Hiztegi elektroniko egituratuak Analizatzaile sintaktikoa Esanahien desambiguazioa Datu-Base Lexikala Corpus
71
Zer ez egin? Produktu bat lortzekotan, ez ezkutatu zeuretzat.
Ikertzaile asko dago ingeleserako ikerketan. Baina gutxi hizkuntza txikientzat. Talde desberdinetan lan bera errepikatzea dirua eta lana xahutzea da. Ezinbestekoa lanen koordinazioa, Dauden produktuen katalogo integratua behar da. Geure hizkuntzarentzat eta antzeko hizkuntzentzat. Emaitzak publikoak izan beharko lirateke eta beste ikertzaileek erabiltzeko moduan utzi beharko lirateke.
72
Hizkuntzaren Industria antolatzeko urratsak
Euskararen egoera orain Helburuak Estrategia Eragileak eta bezero posibleak Ondorioak
73
Eragileak Ingeniaritza Linguistikoa ekinbiderako txostena (Eusko Jaurlaritza, 2000)
ASP, Ametzagaiña AIE, Aurten Bai Fundazioa, BAI & BY, ELHUYAR, EHUko Ahots Taldea, EHUko Ixa Taldea, EHUko Zientzien Fakultatea, Euskaltzaindia, Eusko Ikaskuntza, Eusko Jaurlaritzako Kultura Sailaren Hizkuntza Politikarako Sailordetza, Eusko Jaurlaritzako Hezkuntza, Unibertsitate eta Ikerketa Saila, Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila, GEINSA, HABE, Ihardun Multimedia, Interlinea 2000, KAIXO, LKS S. Coop., Telefonica, UZEI eta Zabaltzen. + Enpresa berriak: VICOMTech, Diana, CodeSyntax, Eleka
74
Eragileak Aholab: EHUko Bilboko Ingeniaritza. Hizketaren ezagutza eta sorkuntza IXA: EHUko informatika Fakultatea. Testuidatzien tratamendua (morfologia, sintaxia, semantika, corpus, itzulpen automatikoa, IE-IR, ...) Vicomtech: Ikerketa aplikatuen zentrua (EiTB + Franhaufer) Ordenadore-irudi interaktiboak eta multimedia digital Elhuyar Fundazioa:Bitarteko ikerketa-zentrua. Lexikografia, terminologia, hiztegiak, hizkuntz planak, zientzia eta teknologiaren zabalkuntza, multimedia-produktu eta zerbitzuak. Robotiker: Zentru teknologikoa. Informazioaren telekomunikazioaren teknologiak
75
Eragileak HIZKING21. Helburuak
ETORTEK EJ-ko ikerketa lerro estrategikoen deialdiko proiektua I+G+b (I+D+i) Hizkuntza-baliabideen sorkuntza Garapen-tresnak Teknikak: teknologia eguneroko bizimoduan txertatu ahal izateko Formazioa Nazioarteko lankidetza Zabalkundea Behatoki teknologikoa
76
Erabiltzaileak: Argitaletxeak
Editorial Desclee de Brouwer S.A., Grupo Delta, Zabaltzen banatzailea, Auñamendi argitaldaria, Editorial Donostiarra, Sendoa, Ostoa S.A., Erein S.A., Lur argitaletxea, Editorial Planeta S.A., Euskal Kulturgintza S.A., Sendoki S.A., Ediciones Saldaña S.A., Aralar liburuak S.A., Alberdania S.L., Donostiako Komunikabideak E.M., Ediciones Txingudi S.L., Euskalgaiak Abarka S.L., Basandere argitaletxea S.L., Udako Euskal Unibertsitatea U.E.U., Miatzen S.A. R.L., Elhuyar Kultur Elkartea, Harlouxet, Susa, Ttarttalo, Elkarlan .
77
Erabiltzaileak: Erakundeak
EIZIE, HAEE/IVAP, Aldundiak, Eusko Jaurlaritza, Udalak, Euskara taldeak: Ikastolen Elkartea, Goiena, Oarso Komunikabideak Fundazioa, Ttipi Ttapa, Topagunea,, Bertsozaleen Elkartea., ...
78
Erabiltzaileak: Komunikabideak
Egunkaria S.A., Grupo Correo, Gara, Deia, Diario El País, El Mundo, Diario As, Diario Marca, herri-aldizkariak Telebistak: EiTB, TVE, A3,T5, Canal+, ... Irratiak ... ...
79
Erabiltzaileak: Bankuak eta aurrezki-kutxak
Kutxa, BBK, Vital Kutxa, Euskadiko Kutxa, Caixa, ... BBVA, Banco Guipuzcoano, ...
80
Hizkuntzaren Industria antolatzeko urratsak
Euskararen egoera orain Helburuak Estrategia Eragileak eta bezero posibleak Ondorioak
81
Ondorioak Badira hainbat produktu euskara eta sotwarea uztartzen dituztenak (105 Software-aren Katalogoan) Horietarik 33 lotuta daude Hizkuntzaren Industriarekin Hori ez da zeroren hurrengoa baina bai oso gutxi ahalegin handia egin behar dugu atzean ez gelditzeko
82
Ondorioak (2) Aurkeztu dugu epe erdirako estrategia Ingeniaritza linguistikoan ikerketan eta garapenean lan egiteko IXA taldearen 15 urteko eskarmentuan oinarritua Oinarri linguistiko bakoitza, tresna eta aplikazio bakoitza ondo diseinatu behar da ondorengo produktuetan erabilgarria izan dadin. Nazioartekoan puntako mailan mugituko den industria sendoa sortu dezakegu Ikerketa-taldeek, industriak eta erakunde ofizialek koordinatu egin behar dira helburu hori lortzeko
Similar presentations
© 2024 SlidePlayer.com Inc.
All rights reserved.