Presentation is loading. Please wait.

Presentation is loading. Please wait.

Eesti murrete korpusest Liina Lindström. Eesti murrete korpus TÜ ja EKI koostöö Eesmärk: teha murdematerjalid uurijale elektrooniliselt kättesaadavaks.

Similar presentations


Presentation on theme: "Eesti murrete korpusest Liina Lindström. Eesti murrete korpus TÜ ja EKI koostöö Eesmärk: teha murdematerjalid uurijale elektrooniliselt kättesaadavaks."— Presentation transcript:

1 Eesti murrete korpusest Liina Lindström

2 Eesti murrete korpus TÜ ja EKI koostöö Eesmärk: teha murdematerjalid uurijale elektrooniliselt kättesaadavaks Samadel alustel korjatud tekstid kõigist murretest Autentne ja usaldusväärne materjal I kiht: võimalikult vanapärane murdekeel

3 Eesti murrete korpus koosneb: murdelindistustest; foneetilises transkriptsioonis murdetekstidest; lihtsustatud transkriptsioonis murdetekstidest; morfoloogiliselt märgendatud tekstidest, mis on loetud MySQL-andmebaasi; Accessi andmebaasist, mis sisaldab andmeid keelejuhtide ning lindistuse kohta.

4 1. Helilindistused Lindistuste tegemise aegLindistuste arv 19385 1955-195925 1960-1969117 1970-197980 1980-19891414 1990-19932 teadmata1 kokku244

5 2. Foneetilises transkriptsioonis tekstid SU foneetiline transkriptsioon Kasutatav ainult programmiga MS Word; fondid loonud Esko Oja transkribeeritud ka küsitleja tekst litereeritud ka partiklid, parandused, valestardid jm suulise kõne nähtused üle 933 000 litereeritud tekstisõna

6

7 Eri murrete tekstisõnade hulk korpuses

8 Eri murderühmade tekstisõnade osakaal korpuses

9 3. Lihtsustatud transkriptsioonis tekstid Automaatselt asendatud foneetilisest transkriptsioonist Märgendatud minimaalselt: keelejuhi tekst küsitleja AU tekst kommentaarid Võimaldab teksti edasi töödelda või sellest otsida nt Unixi töövahenditega

10 Näide: lihtsustatud transkriptsioonis tekst Võru murre, Hargla, Saru küla. Minna Hanimägi (86 a). Lindistanud 01.06.1970. a Pärja Keldrimägi. Litereerinud Pire Teras juulis 2000. Üle kuulanud Liina Lindström 21.02.2001. KJ - Minna Hanimägi, PK - Pärja Keldrimägi, JO1 - esimene juuresolija, JO2 - teine juuresolija, JO3 - kolmas juuresolija `van'n'i (...) nohh `puhtan Mynistõ keelen (...) nohh=jahh (.) `häste (.) `prostoi `muudu (.) `lat's'i mant olõt `oppinu (...) `hapnõma=ja siss (.) `las't'i üü+päiv happada (...) siss happass ärä=ja kastõtti ärä=ja (...) `pantti kuu `naksi tõsõma (.) vai nõss- nõsõma nohh sõõ (.) nõsõma (.) ja siss (...) `pantti ahu palama=ja=ss `pantti pät's'i `ahju (...) miss=suur miis viil tulõ säält (...) kommenteerib kui keegi veel tuleb kass=õ (...) sõkkutti (.) sõkkutti kaa `leibä=või (...)

11 Näide: Võru sõnede sagedussõnastik 1636 ja 979 ol'l' 975 siss 758 jahh 580 et 567 tuu 402 nii 362 ma 349 nohh 287 no 285 ku 268 ess 254 yks 244 vai 235 õ 235 syss 233 olõ 223 sääl 223 omm 220 ka 206 ei 203 a 190 jaq 179 e 174 ol'l'i

12 4. Andmebaas keelejuhtide ja lindistuste kohta lindi (digisalvestuse) number korpuses, murre, murrak, küla; keelejuhi nimi, vanus, sünniaeg ja muud isikuandmed, mis on kättesaadavad (haridus, päritolu, vanemad jne); lindistusaeg, lindistajate nimed ja lindi päritolu (lindi number EKI või TÜ fonoteegis); litereeringu number EKIs või TÜs, litereerija, litereeringu kontrollija ja teksti sisestaja; korpusesse võetud tekstiosa maht sõnades, märgendatud sõnade hulk.

13 5. Morfoloogiline märgendus abiprogramm Mark andmebaasi laetud hetkel ca 394000 sõna morfoloogiliselt märgendatud materjali hulgas on ka vadja tekste (23416 sõna) MySQL andmebaas, veebipõhine otsing: http://www.murre.ut.ee/otsing.html http://www.murre.ut.ee/otsing.html Näide: 1)imperfekti otsimine 2)prepositsioonid 3)märgendatud sõnade hulk murrakuti

14

15 Korpuse probleemid Vaja oleks uuemaid ja paremaid tehnilisi lahendusi: otsisüsteemide täiustamiseks; märgendusvigade süstemaatiliseks otsimiseks ja parandamiseks.

16 Mida korpusega teha saab? Kasutada: –morfoloogiliselt analüüsitud korpus; –foneetilises transkriptsioonis tekstid; –lihtsustatud transkriptsioonis tekstid; –lindistused.

17 Sobib Uurida saab: –sagedasi nähtusi; –eri murdeid võrdlevalt; –nii mikro- kui makroanalüüs; –tekst kasutuskontekstis. Arvestada: –suuline tekst; –institutsionaalne vestlus selgete rollidega. Morfosüntaks, foneetika, fonoloogia

18 Korpuse põhjal tehtud uurimusi Keele muutumine ja varieerumine, murrete nivelleerumine (Mets 2005, Kalvik 2004) ajaväljendite leksikaliseerumine (Velsker 2006) Kirde- ja rannikumurde demonstratiiv- ja 3. isiku pronoomenite kasutus (Tirkkonen 2006, 2007) pronoomeni väljajätt Muhu murrakus (Kalmus 2007) sõna pool grammatiseerumisest eesti murretes (Läänemets 2007) Häälikute sagedus (Lindström, Pajusalu 2003) Sage sõnavara eri murretes (Lindström jt 2001)

19 Lõpetuseks Murre on keel~keelevariant, milles leiduvaid nähtusi motiveerivad samasugused inimmõtlemisele ja –tunnetusele omased protsessid kui muudes keeltes.  murrete uurimine ei peaks piirduma vaid deskriptiivsete kirjeldustega.  murdekorpus võiks huvi pakkuda mitte ainult kitsalt murretega tegelevatele inimestele, vaid kõigile keeleuurijatele.  murrete uurimine ei peaks olema eesmärk omaette, vaid murded võiksid olla mitmekesiseks ja rikkalikuks materjaliks kõikvõimalikele keeleteaduslikele töödele. Näiteks: Murdekorpus võimaldab teha uurimusi, mis näitavad, kuidas erinevates keelevariantides on lahendatud mingi teatud nähtusega/muutusega kaasnev segadus.


Download ppt "Eesti murrete korpusest Liina Lindström. Eesti murrete korpus TÜ ja EKI koostöö Eesmärk: teha murdematerjalid uurijale elektrooniliselt kättesaadavaks."

Similar presentations


Ads by Google