Presentation is loading. Please wait.

Presentation is loading. Please wait.

Õppijakeele korpused ja keeleõpe

Similar presentations


Presentation on theme: "Õppijakeele korpused ja keeleõpe"— Presentation transcript:

1 Õppijakeele korpused ja keeleõpe
Pille Eslon Tallinna ülikool

2 Mis on õppijakeel? Õppijakeel (learner language) – P.S.Corder
Seoses teise keele / võõrkeele omandamisega (second / foreign language aquisition) Kesksel kohal keelevea mõiste (error) Tugineb veaanalüüsile (error analysis) Vahekeel (interlanguage) – L.Selinker Biheivioristlik keelekäsitlus ja interferentsiteooria Kesksel kohal lähtekeele negatiivne / positiivne ülekanne (transfer) Tugineb lähte- ja sihtkeele kontrastiivanalüüsile (contrastive analysis) Keelevariant, mida õppijad sihtkeeles loovad

3 Mis on õppijakeelekorpus?
Õppijakeelekorpus (learner corpus, learner corpora) – vahekeele korpus (interlanguage corpora) – teie keele korpus (L2 corpora) elektrooniline keeleressurss teise keele / võõrkeeleõppija loodud autentsete kirjalike tekstide või suulise kõnekeele näidete elektrooniline kogu, milles keelevead on klassifitseeritud ja märgendatud korpuse töötlemisel saab kasutada standardtarkvara, kombineerida ja täiendada olemasolevaid keeletehnoloogilisi rakendusi

4 Õppijakeelekorpusi maailmas: inglise sihtkeelega ÕK (English LC)
1980ndad - European Science Foundation Second Language Data Bank Cambridge Learner Corpus Longman Learners’ Corpus Interntional Corpus of Learners’ English (ICLE) - Antwerp Corpus of Institutional Discourse Corpus of English by Japanese Learners’ jt

5 MITTE-INGLISE SIHTKEELEGA ÕK (non-English LC)
Skandinaavias: 1970ndad Rootsi sihtkeelega SSM korpus (Svenska som Målspråk) ASU (Andraspråkets StrukturUtveckling korpus) SVANTE korpus CrossCheck (Svensk grammatikkontroll för andraspråksskribenter) ASK (Language learner corpus of Norwegian as a second language) Prantsuse keel: FRIDA ja FreeText jt

6 Õppijakeelekorpuste kasutamisest
Uurimistöö eesmärgil, et viia vastavusse õppija vajadused ja keeleõpe nt Louvaini Ülikooli ICLE Uppsala Ülikooli USE Kommertseesmärgid Cambridge Learner Corpus Longman Learners´ Corpus Uurimistöö + kommerts FRIDA ja FreeText – arvutipõhine keeleõpe: õppijakorpus (computer assisted language learning)

7 Eesti võimalusetest Tallinna Ülikooli Eesti vahekeele korpus
Loodud uurimistöö ja eesti keele kui teise keele / võõrkeele õppe eesmärkidel; perspektiivis rakendada õppijakorpusena On vene emakeelega õppijate eesti sihtkeele kirjalike tekstide kogu, mida kavas täiendada suulise kõne näidetega (ideaal 50% : 50% pole reaalne, nt British National Corpus 10% suulise keelekasutuse materjale ja 90% kirjalikke tekste, kuna neid raske ühtse standardi alla viia ja oamvahel siduda – S.Granger) Sisaldab metainfot õppija- ja tekstide kohta

8 Info teksti koostaja kohta (sugu, vanus, emakeel, kodune keel, päritolupiirkond Eestis või mjal maailmas, sotsiaalne taust, keeletase); koostaja isikuandmeid pole võimalik tuvastada; olemas koostaja nõusolek teksti kasutamiseks korpuses Andmed teksti kohta (maht sõnades ja lausetes, teksti liik, teksti koostamise laad) Info teksti sisestaja ja märgendajate kohta: avalikustatud sisestaja nimi, märgendajate nimed avalikkuse eest varjul

9 Tekstide maht: 50 – 1000 sõnet Kontrollkorpus, millel katsetatkse erinevaid programme – sõnet Vene lähtekeelega õpilaste eesti sihtkeele näidete hulk – 1, 5 miljonit sõnet + allkorpused soome, rootsi, inglise ja saksa lähtekeelega õppijatekstidest; eesmärk – eesti õppijakeele lingvistiliste universaalide väljatoomine

10 Kasutajaliides teeb korpuse Internetis vabalt kättesaadavaks, teavet ei tohi kasutada kommertseesmärkidel Töötab konkordantsileidja, sõna- ja vormisageduse statistika, märgendatud vigu saab näha vealiigiti ning kitsamas kontekstis, vajadusel – terviktekstis Dokumentide ja andmete esitamiseks on kasutatud XML-formaadi XHTML-versiooni, märgendite hierarhias on tarvitusel XPATH-keel Korpuses loodud võimalus individuaalseks uurimistööks

11 Veamärgendus Alus: mitmemõõteline lingvistiline veataksonoomia (Eslon 2006b: 14–17; Eslon & Metslang 2007: 106–112) Eristatakse veaklasse (1 – 18), vealiike (leksikaalsed, leksikaagrammatilised, morfonoloogilised, morfoloogilised, morfosüntaktilised, süntaktilised, kommunikatiivsed, sõnatuletuslikud + Proovi kätt!), alamliike, nende alamliike jne

12 Veaklassid Semantika Grammatika Pragmaatika tekst 1 2 3 lause 4 5 6
sõnaüh sõna morfeem grafeem

13 Veaklasside näited 1 – grafeem + semantika (need inimesed on *laiad / laisad, grafeem s eristab sõnu) 2 – grafeem + grammatika (maja tagasi on *õue / õu, grafeem e eristab käändevorme) 3 – grafeem + pragmaatika (*K-Järvelt / Kohtla-Järvelt, väljendustava vastu eksimine) 4 – morfeem + semantika (*nad andsid mulle tarku selles õppeaines / tarkust selles õppeaines, morfeemi ärajätt on sõnu eristav tunnus) 5 – morfeem + grammatika (Sa *oskasid palju huvitavaid faktid ajaloost / sa tead palju huvitavaid fakte ajaloost, mineviku ajavormi kasutamine ei sobi kokku edastatava informatsiooni sisuga) jne

14 Vealiikide, alamliikide ja nende jaotumise näide
Morfonoloogilised Astmevaheldus seoses sõnatuletusega seoses vormimoodustusega tüvevaheldus ja supletiivsed tüved deminutiivsete liidete kasutamine

15 Märgendatud teksti näide
Minu unistuste auto (1) >>.<< Minu unistuste auto peab olema (2) >>moodsus<<, (3) >>kiirus<< , ilus… Sellepärast mulle ei meeldi (4) >>vanad autod ja liiga (5) >>väiked<<<< . Tahan, et minu auto oleks (6) >>mugavus<< ja (7) >>pehmed istmed<< . (8) >>Auto peab olema taskukohane<< , et ma saaksin (9) >>osta<< . Ei taha, et oleks raske (10) >>juhimine<< (11) >>,<< suur kütusekulu.

16 Märgendatud vigade alamliigid
Tekstis märgendatud vealiigid: (1) Interpunktuatsioonivead (2) Vale sõnaliigi kasutamine (3) Vale sõnaliigi kasutamine (4) Sõnajärg ja lause teatestruktuur (5) Omadussõna käändevormide moodustamine ja kasutamine (6) Vale sõnaliigi kasutamine (7) Verbirektsioon (8) Semantiline seos sõnade vahel (9) Tegevuse transitiivsus / intransitiivsus (10) Vale sõnaliigi kasutamine (11) Sidendite kasutamine olenevalt seose semantikast

17 Metainfo Informant Tekst Sugu: naine Tüüp: vastkys
Vanus: kuni 40a Sõnu: 47 Elukoht: Ida-Virumaa Lauseid: 5 Sots.: teenistuja Vigu kokku: 11 Emakeel: vene Erinevaid: 8 Kodus: vene Haridus: kesk Tase: A Abivahendid: ei

18 Sõna- ja vormisagedus Sagedus Eesti õppijakeel Eesti kirjakeel Sagedus
Ja Ja On On 5553 Et Ei 5091 Ei Et 5087 Ma Ta 4073 Oli Oli 8861 3882 Eesti Kui 8599 3835 See Ka 6191 3556 Kui See 6114 2991 Ka Oma 5329 2478 Oma Aga 5274 2340 Aga Ma 4454 2337 Ta Ning 4409 2230 Väga Mis jne

19 Sõnavormide tähestikuline järjekord: sõna aasta vormid ja tuletised
aasta 269, aastaaeg 4, aastaajast 1, aastaarv 1, aastaarve 3, *aastaas 1, aastad 28, *aastade 1, aastaga 8, aastaid 15, aastail 5, *aastak 1, aastaks 19, *aastakssee 1, aastakäikude 1, aastakümned 1, aastakümneid 5, aastakümnetel 3, aastal 486, aastale 3, aastalt 25, aastana 1, aastane 56, aastani 19, aastapäeva 1, aastapäeval 1, aastapäevale 4, aastas 44, aastasadade 1, aastasajaks 2, aastased 2, aastaseks 2, aastaselt 1, aastasena 3, aastast 51, aastastele 4, aastat 327, aastate 36, aastatega 2, aastatel 71, aastateni 2, aastatesse 2, aastatest 1, *aastatkõrgkoolide 1, *aastattel 1, *aastatuh 3, aastatuhande 6, aastatuhandeid 3, aastatuhandel 3, aastatuhandete 2, aastatuhat 3, aastavahetus 2, aastavahetuseks 1, aastavahetusel 1, aastavahetuseprogrammid 1, *aasttuh 3, *aastunud 1, *aatat 1

20 Vigase vormi aastade kasutamisest
Eesti vahekeele korpuses: 1 kord TÜKK: 90ndate ajakirjanduskeel - puudub EKI: puudub GOOGLE: 208 dokumendist 58 esindatud: Tudengijazz 2007 Eelnevate aastade festivalidel on olnud esinejaid ... Soomest, Rootsist, Norrast, Saksamaalt, Prantsusmaalt, USA’st, Lätist, Leedust, Venemaalt, k - Puhverdatud - Sarnased lehed Software Engineering Center :: Hädaolukorra tekkimisel, mis võib esineda kord paljude aastade jooksul, võivad taolised abivahendid olla kas kadunud või kaotanud oma töövõime k - Puhverdatud - Sarnased lehed

21 Korpuste kasutamisest keeleõppes
Autentse keeleainese allikast automatiseeritud interaktiivse õpikeskkonnani Õppijakeelekorpused Keeleõppe tekstide korpused Õppijakorpused Kirjakeelekorpused Paralleel- ja tõlkekorpused Veebikeskkond

22 Kirjakeelekorpused Keelekasutuse korpuspõhine lingvistiline analüüs – oluline teave sõnastike ja õppematerjalide koostamiseks, ainekava korrigeerimiseks ja sisuliseks täiendamiseks autentse materjaliga (nt Kasik 2004, Kerge 2003, Kilgi2006, Metslang 2005) Korpuspõhine keeleõpe: ühe- ja mitmekeelsed sõnastikud, sagedussõnastikud, kollokatsioonide nimistud, tasemeõppe modelleerimine jne

23 Paralleel- ja tõlkekorpused
Materjali kontrastiiv- ja tõlkeanalüüs Eesmärk: leida tõlkimise ja õppijakeele universaale, tüüpilisi leksikaalseid ja süntaktilisi vastavusi / mittevastavusi (nt A.Mauranen “Käännösuomi ja kääntämisen uiversaalit. Tutkimus korpusainestolla”) välja töötada optimaalne tõlkijakoolituse ja keeleõppe mudel, veenduda sõnastike ja õppematerjalide sobivuses tõlkija ja keeleõppija vajadustega (nt Jyväskylä paralleelkorpus, mida tehti koostöös Oslo inglise-norra korpusega – K.Sajavaara ja S.Johansson) uurida strateegiaid, mida inimene tekstiloomes ja tõlkimisel kasutab

24 Väljund Korpuslingvistiline tõlkeuurimus annab meetodi, mille abil pääseda tõlke olemuseni Süstemaatilise tõlkeanalüüsi rakendamine annab keelte kõrvutamiseks sobiva meetodi, mis aitab viia kontrastiivse keeleuurimise kvalitatiivselt uuele tasandile (Jantunen & Eskola 2002: 202; Eslon 2006a: 17, 19-20) Saab jälgida kirjakeele arengusuundi Eelduseks normatiivsuse küsimuse lahendamine Väljundiks keele- ja kultuuriinterferentsi, valede ja ebatäpsete tõlkevastete, kalkeerimise jms vähendamine; tõlkestrateegia valiku suunamine (Михайлов 2003: 31; McEnery & Wilson 2001: 72)

25 Veebikeele uurimine Berghi näide: sõnaotsing Taliban
Coubildi 56 miljoni sõne seast leidis ta 40 konteksti, BNC 100 miljonist – mitte ühtegi ja Google´is – näidet (Bergh 2005: 26–27) Veebikeele uurimise eelis: representatiivsema tulemuse saamine - selguvad antud hetkel keelele omased, tüüpilised, kesksed nähtused ja protsessid. Sellest ei saa oma töös mööda minna ka keelekorraldajad Veebikeele uuringute läbiviimise probleem seisneb aga piisavalt kasutajasõbraliku vabavara olemasolus

26 Korpuste töötlemisest
Standardiseeritud programmide ja statistiliste meetodite kasutamine korpuspõhises uurimistöös Oxford Concordance Program, Word Cruncher, WordSmith Tools, MonoConc, Text Encoding Initiative jt Eesmärk: leida keeles olevaid loomulikke liigitusi, mis kajastuvad lingvistiliste andmete arvutipõhises ja statistilises analüüsis; mitte tegeleda grammatiliste abstraktsioonidega (Abney 1995) Õpikute sisu ja keele analüüs võrdluses kirjakeele korpuse andmetega (Asser et al 2004); väjund – eesti kirjakeele sagedussõnastik (Kaalep & Muischnek 2002)

27 Keeletehnoloogiline arendustöö
Riiklik programm “Eesti keele keeletehnoloogiline tugi (2006 – 2010)” Üks kavandatavatest rakendustest – süntaksianalüüsil põhineva tarkvara, sh automaatse grammatikakorrektori väljatöötamine Keeleressursside mahu suurendamine ja uute loomine (mitmekeelne paralleelkorpus, “vigade korpus”) Olemas sõnest koosnev “vigade korpus” – suurendada ni – teha Internetis kättesaadavaks Grammatikakorrektor, mis suudab leida rektsiooni ja ühildumisvigu Eesmärk: analüüsida ebastandardseid tekste

28 Interaktiivsed õppematerjalid ja õppekeskkonnad
Virtual Language Centre või Eesti e-ülikoolid ja e-kutsekoolid e-õppe keskkonnad (nt WebCT, Moodle, IVA) ja programmid e-kursuste loomiseks (nt Hot Potatoes, Flickr jt) Näide: K.Uibu e-kursus “Akadeemilise teksti loomine” (pälvis konkursil “Aasta e-kursus 2006” eripreemia kodutööde mitmekesisuse ja disaini eest)

29 Järg Efant ja Kaunis külaline Eesti keel ja meel (Pangloss 2007)
Laserplaadit “25 X EESTI” CD-ROM “Talk Now!”, tehtud Antwerpeni ülikooli mitmekeelse SMALLINC-projekti raames (Rammo & Tael 2004: 156). Eesti keele algõpet saab teostada ka arvutiprogrammiga Oneness on-line language training courses

30 Viidatud kirjandus Abney, Steven Statistical Methods and Linguistics. – The Balancing Act: combining symbolic and statistical approaches to language / Ed. by Judith L. Klavans & Philip Resnik. Cambridge: MIT Press, Asser, Hiie & Kaalep, Heiki-Jaan & Linnas, Siret & Mikk, Jaan & Muischnek, Kadri & Songe, Merje & Uibo, Heli Õpikute keerukuse analüüs arvutitel. – Toimiv keel II. Töid rakenduslingvistika alalt / Toim. M.-M.Sepper, J.Lepasaar. TPÜ eesti filoloogia osakonna toimetised 3. Tallinn: TPÜ Kirjastus, 72 – 84. Bergh, Gunnar Min(d)ing English language data on the Web: What can Google tell us? – ICAME Journal. Computers in English Linguistics 29, 25 – 46, Eslon, Pille & Metslang, Helena Õppijakeel ja eesti vahekeele korpus. – Eesti Rakenduslingvistika Ühingu Aastaraamat (III), 99 – 116. Eslon, Pille 2006a. Analoogiast keelte kõrvutamisel. – Keel ja Kirjandus 1, 15 – 24. Eslon, Pille 2006b. Eesti vahekeele korpusest korrelatsioonigrammatikani. – Eesti Rakenduslingvistika Ühingu aastaraamat 2 / Toim. H.Metslang, M.Langemets. Tallinn: EKS. Lk. 11 – 24.

31 Granger, Sylviane The computer learner corpus: A versatile new source of data for SLA research. – Learner English on computer / Ed. by S.Granger. London: Longman, 3 – 18. Granger, Sylviane Error-tagged learner corpora and CALL: a promising synergy. – CALICO Journal 20(3), 465 – 480, Granger, Sylviane Computer Learner Corpus Research: Current Status and Future Prospects. – Applied Corpus Linguistics. A Multidimensional Perspective / Ed. by U.Connor & T.A.Upton. Amsterdam / New York: Rodopi, 123 – 145. Jantunen, Jarmo Harri & Eskola, Sari Käänössuomi kielivarianttina: syntaktisia ja leksikaalisia erityispiirteitä. – Virittäjä 2, 184 – 207. Kaalep, Heiki-Jaan & Muischnek, Kadri Eesti kirjakeele sagedussõnastik. Tartu: TÜ Kirjastus. Mauranen, Anna & Kujamäki, Pekka (Eds) Translation Universals: Do They Exist? Amsterdam: Benjamins.

32 Jätk McEnery, Tony & Wilson, Andrew Corpus linguistics / 2nd Ed. Edinburgh: Edinburgh University Press. Михайлов, Михаил Параллельные корпуса художественных текстов: пинципы составления и возможности применения в лингвистических переводческих исслкдованиях (на примере русско-финского параллельного корпуса художественных текстов). – Acta Universitatis Tamperensis 956. Tamepere University Press, Pravec, Norma A Survey of learner Corpora. – ICAME Journal № 26, pp. 81 – 114, Rammo, Sirje & Tael, Maarika Eesti keele õppematerjalid CD-ROMil. – Emakeel ja teised keeled IV. (Tartu ülikooli eesti keele (võõrkeelena) õppetooli toimetised 3. Tartu: TÜ Kirjastus, 156 – 163.


Download ppt "Õppijakeele korpused ja keeleõpe"

Similar presentations


Ads by Google