Семантическая и дискурсивная разметка АвтОбрЕЯ, Е.Ю. Калинина, 2007-2008.

2 Таксономическая разметка НКРЯ Аргентина идет русским путем... Игорь Трунов тут же пояснил, что речь идет об одном миллионе долларов.... Неужели Соколов не понимает, что речь идет о чем-то неизмеримо большем, чем о … Кредитование реального сектораидет ни шатко ни валко.... Как подтвердил "Известиям" Эдуард Кузьмин, все идет по плану... Россия -- страна, которая идет к открытому обществу и не боится … …что, во-первых, о моей режиссуре и речи не идет, и, во- вторых, как актер я … Судьба ведет человека, но человек идет потому, что хочет, и он волен не хотеть… И вот уже ребенок идет от лужи, идет с чужим дядей,...... звенело в ушах и все казалось, эшелон идет, идет..... … он, убитый, все жал на акселератор, и танк идет....... Впрочем, речь идет не обо мне...

3 Таксономическая разметка НКРЯ Ничего{ничто=М-С,ср,ед=рд} общего{общий=П=ср,ед,рд, Class="соц_отн-я" | Class="охват" ]} с{с=ПРЕД} европейскими{европейский=П=мн,тв} акварелями{акварель=С,жр,но=мн,тв Class="в-во" | Class="изображение"]} Наматжиры{Наматжира*=С,фам,мр,од= ед,рд} и{и=СОЮЗ} его{его=М-П} последователей{последователь=С,мр,о д=мн,вн Class="человек"]}. (Даниил Гранин. Месяц вверх ногами)

4 Таксономическая разметка НКРЯ кузов класс = емкость мереологический класс = часть мереологический коррелят = транспортное средство семантическая одушевленность = неодушевленное интриганка класс = лицо пол = женский оценка = отрицательная семантическая одушевленность = одушевленное деривационный класс = nomina feminina

5 Таксономическая разметка, GNOME This table’s

6 Таксономическая разметка, GNOME (allow) scholars (to link) it

7 Семантическая разметка: онтологии And 00000000 the00000000 soldiers23241000platted21072000 a00000000crown21110400 of00000000thorns13010000 and00000000put21072000 it00000000on00000000 his00000000head21030000 and00000000they00000000 put21072000on00000000 him00000000a00000000 purple31241100robe21110321

8 Семантическая разметка: онтологии 00000000Low content word (and, the, a, of, on, his, they etc) 13010000Plant life in general 21030000Body and body parts 21072000Object-oriented physical activity (e.g. put) 21110321Men's clothing: outer clothing 21110400Headgear 23231000War and conflict: general 31241100Colour

9 Семантическая разметка Penn Tree Bank Vandenberg and Rayburn were wise enough *TRACE* to leave specific operations to presidents. base=leave2; tense=infinitival; arg2=presidents; arg1=specific operations; arg0=*TRACE* -> Vandenberg and Rayburn;

10 Семантическая разметка Penn Tree Bank HIT (sense: strike) Arg0: hitter Arg1: thing hit Arg2: instrument, hit with HAIL (sense: pellets of ice from the sky) Labels allow to capture transitivity alternations: John (Arg0) broke the window (Arg1) and The window (Arg1) broke.

11 Семантическая разметка Penn Tree Bank EDGE (sense: move slightly) Arg0: causer of motion3 Arg1: thing in motion Arg2: distance moved Arg3: start point Arg4: end point Arg5: direction The publishing unit reported revenue edged up 2.6% to $263.2 million from $256.6 million.

12 Семантическая разметка Penn Tree Bank BUY Arg0: buyer Arg1: thing bought Arg2: seller, bought-from Arg3: price paid Arg4: benefactive, bought-for

13 Семантическая разметка Penn Tree Bank PURCHASE BUY SELL Arg0: buyer Arg0: buyer Arg0: seller Arg1: thing bought Arg1: thing bought Arg1: thing sold Arg2: seller Arg2: seller Arg2: buyer Arg3: price paidArg3: price paid Arg3: price paid Arg4: benefactive Arg4: benefactive Arg4: benefactive

14 Семантическая разметка Penn Tree Bank The company bought a wheel-loader from Dresser. Arg0: The company rel: bought Arg1: a wheel-loader Arg2-from: Dresser TV stations bought "Cosby" reruns for record prices. Arg0: TV stations rel: bought Arg1: "Cosby" reruns Arg3-for: record prices.

15 Семантическая разметка Penn Tree Bank LOC: location NEG: negation marker TMP: time MOD: modal verb MNR: mannerEXT: extent, numerical role DIR: direction PRP: purpose CAU: cause ADV: general- purpose modifier

16 Семантическая разметка Penn Tree Bank Mary called John an idiot. (LABEL) Mary called John a cab.(SUMMON) Arg0: Mary Arg0:Mary Rel: called Arg1: John (labeled) Arg2: John (benefactive) Arg3-PRD: an idiot (attr) Arg1: a cab (thing summoned)

17 Дискурсивная разметка: RST Bank RST Discourse Treebank Corpus: 385 текстов из Wall Street Journal ( Root (span 1 156) ( Nucleus (span 1 129) (rel2par Topic-Drift) ( Nucleus (span 1 40) (rel2par Problem-Solution) ( Nucleus (span 1 21) (rel2par span) ( Nucleus (leaf 1) (rel2par span) (text _!Kidder, Peabody & Co. is trying to struggle back. _!) ) ( Satellite (span 2 21) (rel2par circumstance) ( Nucleus (span 2 5) (rel2par Contrast) ( Nucleus (span 2 4) (rel2par span)

18 Penn Discourse Treebank: discourse connectives (1) all subordinating conjunctions (2) all coordinating conjunctions (3) certain adverbials (4) implicit connectives between adjacent sentences.

19 Penn Discourse Treebank: discourse connectives Subordinating conjunctions temporal (e.g., ‘when’, ‘as soon as’) causal e.g., ‘because’) concessive (e.g., ‘although’, ‘even though’) purpose (e.g., ‘so that’, ‘in order that’) conditional (e.g., ‘if’, ‘unless’).

20 Penn Discourse Treebank: discourse connectives Coordinating conjunctions: ‘and’, ‘but’, ‘or’.

21 Penn Discourse Treebank: discourse connectives (adverbials) (4) [In the past, the socialist policies of the government strictly limited the size of new steel mills, petrochemical plants, car factories and other industrial concerns to conserve resources and restrict the profits businessmen could make]. As a result, (+)industry operated out of small, expensive, highly inefficient industrial units. (5) Strangely, (-) conventional wisdom inside the Beltway regards these transfer payments as “uncontrollable” or “nondiscretionary.”

22 Разметка анафорических отношений EXP ID="54"> William and Margie Hammack Mrs. Hammack The Hammacks &apos7; /EXP> own home

