Presentation is loading. Please wait.

Presentation is loading. Please wait.

Izrada korpusa u kontekstu „frameworka“

Similar presentations


Presentation on theme: "Izrada korpusa u kontekstu „frameworka“"— Presentation transcript:

1 Izrada korpusa u kontekstu „frameworka“
Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen Institut für Slawistik, Universität Graz April 2007 Izrada korpusa u kontekstu „frameworka“ na osnovu modela AM Institut für Informationsverarbeitung in den Geisteswissenschaften Hubert Stigler

2 Gralis Text-Korpus: "je.*"

3 Agenda Workflow za izradu Gralis Text-Korpusa
Korpusni tekst iz perspektive obrađivača Validiranje korpusnih tekstova na osnovu XML Asset Management sistemi (AMS) Primjer upotrebe iz književnosti Model sadržaja korpus-asset-a AMS scenariji primjene u izradi korpusa

4 Workflow za generiranje Gralis Text-Korpusa
Anotacija korpusa u običnom Office Pretvaranje dokumenta na osnovu Makro-a u TEI Validiranje tročlanog teksta na osnovu XML Generiranje vertikaliziranih, aliniranih fajlova iz korpusa za BKS

5 Korpusni tekst iz perspektive obrađivača
Crveni markeri odlomaka obilježavaju granice segmenata, koji se na početku ubacuju pomoću Makro-a i primjenom regularnih izraza. Ako je potrebno, granice segmenata se tokom obrade mogu interaktivno – premještanjem ili brisanjem – korigirati.

6 Validiranje korpusnih tekstova na osnovu XML
Korpusni tekstovi koji se nalaze u direktoriju validiraju se u Bulk-Modus-u, kao i vertikalizirani fajlovi koji su potrebni za daljnju obradu pomoću IMS Corpus Workbench-a1. Gralis buildCorpus 1.1 © Hubert Stigler Searching for file triples in directory: /data/xo/gralis/data/ -- file triple: Albanija_dospjela_na_listu ok -- file triple: Albanski_politicari -- file triple: Albert_Einstein couldn't found hr -- file triple: Americka_vlada_izjavila couldn't validate bs -- file triple: Americki_predsjednik segment error hr: 6; sr: 6; bs: 5 -- file triple: Anatole_France ... 124 file triples were processed 121 file triples were written to the corpus files 3 non valid triples were found Execution terminated normally 1 Developed by Institute for Natural Language Processing, University of Stuttgart

7 Asset Management sistemi
Služe kao osnova za upravljanje meta-podacima digitalnih resursa. Nude mogućnost da se preko persistentne citiranosti Asset-i jednostavno integriraju u web-kontekste (forumi za učenje, “Frameworks” itd.) Daju na raspolaganje (inteligentne) strategije pretrage. Omogućavaju suradnju u obradi i upravljanju Asset-a. Omogućuju izrazu zbirki za različite svrhe. Nude mogućnosti za uređenje šifri.

8 Primjer: zbirka članaka Ulricha Schulza-Buschhausa

9 Model sadržaja Korpus-asset-a
Asset služi kao kontejner u kome se čuvaju metapodaci i tokovi podataka bilo kojeg tipa: tekstovi, audio-/video-fajlovi itd. AMS nudi dodatnu mogućnost u tzv. Modelu sadržaja definiranja metode objekata (npr. XSLT-transformacije i sl.), koji operiraju podacima u Asset-u. Metapodaci Dublin Core REL-EXT: opisuje relacije s drugim Asset-ima Tokovi podataka Thumbnail: predstavlja Asset u kontejnerima i kolekcijama TEI-izvor: primarni tekst Asset-a u formatu TEI DOC: primarni tekst Asset-a u formatu MS WORD Razni XSLT-style-sheetovi za formatiranje sadržaja u Asset-u Metode za upotrebu: bdef:html/get, bdef:PDF/get, bdef:Verticalized/get, bdef:LaTeX/get

10 AMS scenariji primjene u izradi korpusa
U Asset-korpusu, osim Office-dokumenata, upravljat će se i XML-reprezentantima na sve tri jezične varijante korpusnih tekstova. U vremenu kada HTML- und PDF-Getter-metode korpusnog teksta preko Web-a slobodno stoje na raspolaganju, Office- i TEI-tok podataci, kao i LaTeX-Getter-metode dostupni su samo za autorizirane korisnike. Preko HTML- i PDF-Getter-metoda svih korpusnih tekstova generira se Web-prezentacija korpusa. Svi korpusni tekstovi bit će prilikom obrade poslani jednom kontejneru, koji kao metoda objekta u svom modelu sadržaja omogućava generiranje vertikaliziranih korpusnih podataka za IMS Corpus Workbench itd... Danke für Ihre Aufmerksamkeit! Hvala na pažnji! Хвала на пажњи!


Download ppt "Izrada korpusa u kontekstu „frameworka“"

Similar presentations


Ads by Google