Presentation is loading. Please wait.

Presentation is loading. Please wait.

Morphological Analysis of Hungarian in NooJ

Similar presentations


Presentation on theme: "Morphological Analysis of Hungarian in NooJ"— Presentation transcript:

1 Morphological Analysis of Hungarian in NooJ
Peter Vajda Hungarian Academy of Sciences Research Institute for Linguistics

2 Summary Hungarian morphology Linguistic resources
Some experiments with INTEX/NooJ The solution Examples Derivation Je vais vous parler un peu de la la langue hongrois (par rapport des questions qui posent des problemes pour l'analyse morphologique) Apres je vais parler d ’un base de données existant du morphologie hongrois, qui etait la source de notre travail (et qui est approfondi et assez exhaustif, mais pas tellement convenable pour utiliser dans un systeme qui doit fonctionner rapidement et solidement) Puis quelques mots sur notre premiere experiments: nous avons appliqué une méthode “brute force”, en effet il y en avait deux, une qui ne marchait pas, et une qui marche mais ne sont pas tres/assez vite Une solution qui (se conforme aux) reflete les regles grammaticaux, mais nous donnes des graphes assez compliqué Puis je vais présenter certains de ces complications, des exemples des grammaires nominal et verbal qui posaient des poblemes pendant le travail Et si on a encore de temps, je vais dire quelques mots sur le dictionnaire, comment on l’a transformer a la forme de NooJ (on n' a pas encore s'occuper des mots composés, et on a déja une méthode pour traiter/manipuler les suffixes derivationnels, mais c'est pas encore développer)

3 Hungarian morphology Agglutinative (and sometimes inflectional)
The suffixes Can have many forms (vowel harmony) Can change the form of the stem (there are groups of variants) bokor (sg.)  bokr – ok (pl.); alma (sg.)  almá – k (pl.) Sometimes begin with a linking vowel plural: -k / -ak / -ek / -ok / -ök A noun (adj., num.) can have ~ forms A verb can have ~ 80 forms Orthography: there are difficulties, when digraphs are doubled cs  cscs  ccs, gy  gygy  ggy

4 Nominal inflections 18 cases (nominative, accusative, dative + grammatical relations which are expressed by prepositions in French/English) Expression of the possessives by suffixes Which mark the number, the person, the number of the possessed ház-a-m, ház-a-d, ház-a (my/your/his house) ház-a-i-m, ház-a-i-d, ház-a-i (my/your/his houses) Anaphorical possessive A ház Péteré  The house is Péter’s; A házak Péteréi  The houses are Péter’s The maximal number of inflections can be five barát-ai-tok-é-i-t (I can see) those (things) of your friends’

5 Verbal inflections Two tenses: present, past
three modes: indicative, conditional, imperative definite and indefinite conjugations Néz-ek egy asztalt  Néz-em az asztalt I watch a table  I watch the table one special form where the subject is in 1st person and the object is in the 2nd: néz-lek (I watch you) infinitive and „conjugated infinitive” (sometimes subjunctive in French) Verbes Il existe deux temps: present et passe, il y a trois modes l'indicative, le conditionel et l'imperatif Il y a deux types de Conjugaison: defini et indefini l'emploi de l'une ou de l'autre dépend de l'existence et de la nature du complément d'objet. (C'est a dire) Lorsque le verbe possede un complément d'objet défini de troisieme personne, on utilise la conjugaison dite objective (ou définie), sinon on utilise la conjugaison subjective (ou indéfinie). comme vous voyez dans les exemples, Je regarde une table  Je regarde la table; ces formes varbals ont un suffixe different. Il y a encore une forme speciale, où le sujet est à la 1ère personne et l'objet à la 2ème, je te/vous c'est un morpheme dans le hongrois Et puis il y a l'infinitif, et il y a un forme qui s'appele infinitif conjugé, qui se traduit frequemment au subjonctif en francais

6 The resources Dictionary of Hungarian inflections (Elekfi,’92)
A traditional description, profound and exhaustive Two dimensional classification: Vowel harmony (3 classes) and complex features of the stems (stem-types, linking vowel, etc., 55 classes) Altogether: 1700 different sub-classes (paradigms) systematic differences and similarities are hidden not convenient to use in finite-state transducers We have converted it into a database, where we can retrieve all the forms from Voyons maintennant la source linguistique qu'on a utiliser pour arriver a une grammaire dans le systeme NooJ. Notre travail se base sur Le Dictionnaire flexionnel du hongrois qui est une description traditionelle, approfondie et assez exhaustive en ce qui concerne la nombre des mots. Ce systeme classifie les mots en classes (qu'on appelle aussi des paradigmes), et ce classification est a deux dimensions. La premier dimension est l'harmonie vocalique qui donne 3 classes: les voyelles d'arriere, les voyelles d'anterieur, et la classe anterieur est subdivisée en deux sous-classes selon que la voyelle est arrondie ou non-arrondie . La deuxieme dimension oppose environ 10 classes par parties des discours, entierement 55 cinquant-cinque classes selon les types de racines, selon le présence ou l'absence des voyelles thematiques, etc, (dans les cas ou on ne le peut pas deviner de la forme du mot.) En total il y a 1700 mille sept-cent sous-classes différents. En realité il n'y a pas 1700 classes differentes dans le hongrois. mais si on a un mot, dont une seule forme (par exemple la forme de pluriel) est différent que celle d'un autre mot, mais tous ses 900 autres formes sont la meme, le systeme doit ajouter une nouvelle classe. et souvent il y a seulement un mot dans une classe. Alors dans ce systeme les différences et similarités systématiques sont cachées. On peut voir que cette methode n'est pas convenable pour un systeme aux etats finis, pour un systeme qui doit fonctionner rapidement et solidement Ce dictionnaire était transformé par mon collegue en une base de données des racines et des variantes des racines, d'ou on peut recuperer toutes les formes. ********** Classes de „continuation” ca veut dire que dans une paradigme il y a seulement une morpheme. Les suivantes (s'il y en a, eg.: ) sont attaché par une regle: pour tous les classes et tous les morphemes la regle desigen une autre classe d'ou les suffixes suivants s'attachent (au mot déja suffixé, comme s'il était une base).

7 The experiments with INTEX/NooJ
‘Brute-force’ method We created one graph per sub-class for testing INTEX 1700 sub-graphs 45000 paths in the graphs… Using only dictionaries (.nod) Dictionary of stems (70000 words) ház,ház,N+C2A+stem=1+NW Dictionary of suffixes (one million entries) (*)ak,<$1=N+C2A+stem=1>{$0,$1L,N$1S+ana=PL} (*)am,<$1=N+C2A+stem=1>{$0,$1L,N$1S+ana=PSe1} (*)at,<$1=N+C2A+stem=1>{$0,$1L,N$1S+ana=ACC} (*)at,<$1=N+C2A1+stem=1>{$0,$1L,N$1S+ana=ACC} (*)amat,<$1=N+C2A+stem=1>{$0,$1L,N$1S+ana=PSe1+ACC} dictionary of lexical forms (which have a zero morpheme as suffix) ház,ház,N+ana=NOM Notre premier experiment encore avec INTEX était une methode "brute force". On esseyait de coder chaque classes dans un graphe, mais si on a mille-sept-cent classes vous pouvez imaginer que c'était trop grand avec environ quarante-cinque-mille chemins dans les graphes. Une solution presque (quasi) pareil était de lister tout les sequence de suffix dans une graphe (il y en a a-peu-pres 6000 six-mille, mais dans ce cas la, on doit aussi marquer beaucoup de contraintes lexicales pour eviter les fausses analyse des homonymes. Je peut vous donner des exemples a la fin si vous souhaiter… il y a un fait qui est a mon avis assez interessant, et c'est qu'un tiers des formes hongroise sont des homonymes) VÉGÉN: Par exemple le suffixe qui designe le possessif 3eme personne, singulier, plussieurs possédés (qui est une terminaison tres frequent) *** a la meme forme que le suffix derivationell le plus frequent*** La troisieme est aussi un experiment "brute force", mais un qui marche: on a utiliser seulement/trois des dictionnaires de NOOJ: 1. On a un dictionnaire des racines (avec quatre-vingt mille mots), ou leur classe (et leurs partie des discours) est marqué 2. On a un dico des suffixes (avec , un million entrées, mais il y en a des pareils, qui different dans leurs paradigmes/classes) ou on a l'allomorphe, le partie de discours, le nombre de a classe/paradigme, e l'analyse du mot dont l'allomorphe attache. 3. Et puis une troisieme dictionnaire sert a l'analyse des formes lexicals (qui ont comme suffix une morpheme zéro) pour les noms c'est singuliers, nominatifs, non-possessifs, ( pour les verbes: present, indicatif, 3eme personne, singulier) Alors c'est une solution qui marche, mais qui est moins rapide que... alors on a besoin des contraintes lexicales qui permet le suffix d'adherer a la base seulment si c'est vraiment possible ********* Notre premiere experiment était de créer des graphs de ces 1700 classes tout desquelles ont entre environ 100 (pour les verbes) et 700 (pour les noms) formes. Seulement pour tester le capacité d'INTEX et de NooJ.

8 The linguistic solution
transform the database into a grammar based on morpho-phonological features The grammatical features of stems and morphemes are in the dictionary The features of the stems and the suffixes can be unified Au lieu d'utiliser les classes nous avons decider de les transformer a une grammaire basée sur des traits morpho-phonologiques afin de pouvoir employer la technologie aux états finis de NooJ. Cette methode je pense que vous conaissez bien... Cequi est important est que en générale les traits/les caractéristiques des racines et des tous les allomorphes sont dans le dico, et on recoit un mot suffixé, si les traits de la racine et ceux du suffixe en question peuvent s'unifier. Mais dans notre cas, on a inclus seulement des bases dans le dico, les suffixes, les allomorphes sont dans les graphes, dans les grammaires. ÁBRA: C'est une petit graphe qui pourrait faire partie du graphe nominal Si on a un mot, comme HÁZAKAT dans une texte (ca veut dire les maisons en accusatif), et le systeme trouve une chemin dans le graphe avec le séquence-des-lettres A,K,A,T et on a le préfix du mot avant akat (HÁZ, qui est un nom) dans le dico, le systeme verifie, si les traits se corresponde, et il nous donne l'analyse du mot. Comment? Puisque un forme nominal peut etre construit par la base et plussieurs suffixes, les informations morphologiques sont distribué dans beaucoup de noeuds, dans les sous-graphes différents dans le graphe. Pour avoir l'analyse morphologique approprié on doit rassembler des infos. C'est pour ca que des analyses sont indiqué par le mot INFO entre {}, et le programme les rassemble a une seule analyse. (par exemple on peut avoir +i , +ps_sg, +ps_1, +NOM dans des noeuds différents) On devait faire deux choses pour developper la grammaire 1. determiner l'ordre des morphemes et en produire la graphe 2. introduire des traits pour pouvoir choisir parmi les allomorphes d'une morpheme. Les traits inclus sont par exemple: antérieure, arriere, arrondie, consonne, voyelle HÁZ-A HÁZ-AT HAJÓ-JA HAJÓ-T Grammar We have to describe the order of the morphemes Introduce features which select from the allomorphs

9 The order of morphemes for nominals
ABRA: Ici on voit les sequence possibles des suffixes nominals. Apres la racine on peut avoir un possessif, apres on peut mettre le nom au pluriel, puis le nom a le nombre et la personne du possesif, puis on peut avoir un suffixe possessif anaphorique, et finalement on peut avoir un des dixhuit cas. Voila l'exemple q'on a deja vu., bon. Si on marque tous les sequence ici, on aura presque 700 sept-cent formes d'un nom. C'est ce qu'on devrait encoder dans une graph, avec des allomorphe qui se comportent aux regle morphophonologique

10 The order of morphemes for nominals
barát-a-i-tok-é-i-t barát,N PS +PL +ps_2 +ps_pl ANAP+i +ACC

11

12 Morpho-phonological features
To introduce features we examine the allomorphs HÁZ HAJÓ HÁZ - A HAJÓ-JA ház,,N+nonj hajó,,N+j HÁZ - AT HAJÓ - T ház,,N+nonj+acclink hajó,,N+j+accnolink

13 The dictionary

14

15 The plural and the accusative kalap - ot (hat, SG+ACC) kalap - ok - at (hats, PL+ACC)

16 Derivation Can change or leave the category (POS)
Introduce new features kosár kosar - ak (pl.) basket kosar-as kosar - as - ok (pl.) basketball player Simple cases are handled by graphs Others are listed as lemmas in the dictionary

17 Assimilation and digraphs
some suffixes (eg. val/vel) enforce total assimilation: LÉC + VEL  LÉCCEL PÉCS + VEL  PÉCCSEL PLÉD + VEL  PLÉDDEL

18 Conclusion Objectives Find a simpler method for derivation
We have adapted the traditional description We have described the inflectional morphology of Hungarian in NooJ grammars/dictionaries Handled some of the derivational morphology Objectives Find a simpler method for derivation Disambiguation Automatic methods to expand the dictionary Automatic delegation of features

19 Thank you


Download ppt "Morphological Analysis of Hungarian in NooJ"

Similar presentations


Ads by Google