שיעור 10 – דקדוק חסר הקשר לאנגלית יעל נצר מדעי המחשב.

Slides:



Advertisements
Similar presentations
מבוא למדעי המחשב לתעשייה וניהול
Advertisements

Mrach 1, 2009Dr. Muhammed Al-Mulhem1 ICS482 Formal Grammars Chapter 12 Muhammed Al-Mulhem March 1, 2009.
Present Progressive הווה עכשווי/ממושך.
Present Progressive Present Progressive הווה עכשווי / ממושך.
 Christel Kemke 2007/08 COMP 4060 Natural Language Processing Word Classes and English Grammar.
דקדוקים חסרי הקשר Word categories (part of speech): NNountable, dogs, justice, oil VVerbrun, climb, love, ignore ADJAdjective green, fast, angry ADVAdverbsquickly,
עיבוד שפות טבעיות natural language processing יעל נצר בינה מלאכותית מכללת אשקלון.
Artificial Intelligence 2005/06 From Syntax to Semantics.
אוטומט מחסנית הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 11.
חורף - תשס " ג DBMS, צורות נורמליות 1 צורה נורמלית שלישית - 3NF הגדרה : תהי R סכמה רלציונית ותהי F קבוצת תלויות פונקציונליות מעל R. R היא ב -3NF.
Syllabus Text Books Classes Reading Material Assignments Grades Links Forum Text Books עיבוד שפות טבעיות - שיעור אחד עשר Unification (cont.) Semantics.
שיעור 15 – סמנטיקה יעל נצר מדעי המחשב.
Syllabus Text Books Classes Reading Material Assignments Grades Links Forum Text Books עיבוד שפות טבעיות - שיעור שמונה Context Free Grammars and.
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
עיבוד שפות טבעיות - שיעור ראשון
Formal Specifications for Complex Systems (236368) Tutorial #6 appendix Statecharts vs. Raphsody 7 (theory vs. practice)
תורת הקבוצות חלק ב'. קבוצה בת מניה הגדרה: קבוצה אינסופית X היא ניתנת למניה אם יש התאמה חד-חד ערכית בין X לבין .
צורות נורמליות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 10.
NLP and Speech 2004 English Grammar
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
Fall 2005 Lecture Notes #3 EECS 595 / LING 541 / SI 661 Natural Language Processing.
עיבוד שפות טבעיות - שיעור רביעי Part of Speech Tagging עידו דגן המחלקה למדעי המחשב אוניברסיטת בר אילן.
Syntax and Context-Free Grammars CMSC 723: Computational Linguistics I ― Session #6 Jimmy Lin The iSchool University of Maryland Wednesday, October 7,
הפקולטה למדעי המחשב אוטומטים ושפות פורמליות (236353)
 Christel Kemke 2007/08 COMP 4060 Natural Language Processing Grammar Sentence Constructs.
1 CONTEXT-FREE GRAMMARS. NLE 2 Syntactic analysis (Parsing) S NPVP ATNNSVBD NP AT NNthechildrenate thecake.
מערכים עד היום כדי לייצג 20 סטודנטים נאלצנו להגדיר עד היום כדי לייצג 20 סטודנטים נאלצנו להגדיר int grade1, grade2, …, grade20; int grade1, grade2, …, grade20;
עקרון ההכלה וההדחה.
יחס סדר חלקי.
שיעור 16 –ניתוח סמנטי יעל נצר מדעי המחשב.
1 CSC 594 Topics in AI – Applied Natural Language Processing Fall 2009/ Outline of English Syntax.
Last time on Clang משתנה: "פתק" המשמש את המחשב לשמירת מידע. לכל משתנה יש שם וטיפוס כללים לשמות משתנים –חייבים להכיל רק אותיות, מספרים ו '_' –חייבים להתחיל.
תחשיב היחסים (הפרדיקטים)
עיבוד שפות טבעיות – שיעור שישי Part of Speech taggers מדעי המחשב יעל נצר אוניברסיטת בן גוריון.
1 מבוא למדעי המחשב סיבוכיות. 2 סיבוכיות - מוטיבציה סידרת פיבונאצ'י: long fibonacci (int n) { if (n == 1 || n == 2) return 1; else return (fibonacci(n-1)
Syntax Construction of phrases and sentences from morphemes and words. Usually the word syntax refers to the way words are arranged together. Syntactic.
Adjectives שם תואר. How to Use Adjectives כיצד להשתמש בשם תואר An adjective describes how something 'is'. For this reason, we usually use the verb 'to.
Chapter 9. Context-Free Grammars for English
11 CS 388: Natural Language Processing: Syntactic Parsing Raymond J. Mooney University of Texas at Austin.
Context Free Grammars Reading: Chap 12-13, Jurafsky & Martin This slide set was adapted from J. Martin, U. Colorado Instructor: Paul Tarau, based on Rada.
School of something FACULTY OF OTHER School of Computing FACULTY OF ENGINEERING COMP3310 Natural Language Processing Eric Atwell, Language Research Group.
Context-Free Grammars for English 1 인공지능 연구실 허 희 근.
Speech and Language Processing Lecture 12—02/24/2015 Susan W. Brown.
TEORIE E TECNICHE DEL RICONOSCIMENTO Linguistica computazionale in Python: -Analisi sintattica (parsing)
A Description of a person
פיתוח מערכות מידע Class diagrams Aggregation, Composition and Generalization.
Context Free Grammars Reading: Chap 9, Jurafsky & Martin This slide set was adapted from J. Martin, U. Colorado Instructor: Rada Mihalcea.
1 LIN6932 Spring 2007 LIN6932 Topics in Computational Linguistics Lecture 6: Grammar and Parsing (I) February 15, 2007 Hana Filip.
Chapter 12: Context-Free Grammars Heshaam Faili University of Tehran.
MJH_teacher Adjectives noun. MJH_teacher Nouns – שמות עצם Part 1- What are nouns? What are adjectives? How do we use the adjectives?
Artificial Intelligence 2004
The Past Progressive (Past Continuous)
Natural Language Processing Lecture 14—10/13/2015 Jim Martin.
Parts of Speech חלקי הדיבור
Syllabus Text Books Classes Reading Material Assignments Grades Links Forum Text Books עיבוד שפות טבעיות - שיעור שמונה Context Free Parsing אורן.
Syllabus Text Books Classes Reading Material Assignments Grades Links Forum Text Books עיבוד שפות טבעיות - שיעור 11 Semantics אורן גליקמן המחלקה.
Explanation of pages in STAR Steps to Academic Reading English Level 3 Identifying Subjects, Verbs, and Complements.
קשר לוגי : סיבה ותוצאה. במשפט – דוגמות קלות בגלל הגשם החלטנו לא לנסוע לטיול לחיפה. הרצון שלי להצליח הניע אותי להשקיע בלימודים. ציפורים נודדות בין יבשות.
פס על כל העיר נורית זרחי.
Natural Language Processing Vasile Rus
LANGUAGE How can any language be divided? What are language parts?
Present simple הווה פשוט
Search and Decoding in Speech Recognition
SQL בסיסי – הגדרה אינדוקטיבית
פרוקטוז, C6H12O6 , חד-סוכר מיוחד
ממשקים - interfaces איך לאפשר "הורשה מרובה".
Search and Decoding in Speech Recognition
Present Simple הווה פשוט
Search and Decoding in Speech Recognition
Presentation transcript:

שיעור 10 – דקדוק חסר הקשר לאנגלית יעל נצר מדעי המחשב

נושא חדש : דקדוק חסר הקשר לאנגלית Constituency – צירוף מלים לרכיבים בעלי תפקיד אחיד. צירוף יכול להיות מילה יחידה me, Michael או the house. דקדוק חסר הקשר הוא כלי המאפשר ייצוג צירופים. Grammatical relations – מתייחס לתפקידים תחביריים כגון נושא או מושא. Subcategorization – ויחסי תלות מתייחס לקשר בין מילים ובין צירופים. למשל : אחרי פועל want יכול לבוא infinitive כלומר : I want to fly to Detroit.

Constituency צירופים שמניים : Three parties from Brooklyn A high class spot such as Mindy ’ s The Broadway coppers They Harry the horse. The reason he comes into the Hot Box.

איך יודעים שקבוצת מילים היא צירוף ? יכולים להופיע בתפקידים תחביריים דומים : למשל – כנושא של משפט subject Three parties from Brooklyn arrive.. A high class spot such as Mindy ’ s attracts.. The Broadway coppers love.. They sit בעוד צירופים אחרים הם בלתי אפשריים : *from arrive.. *the is …

חוקים חסרי הקשר ועצים דקדוק חסר הקשר – שקול ל -Backus Naur Form BNF דקדוק מורכב מקבוצת חוקים, לצירוף ביטויים בשפה לקסיקון למילים / סמלים לדוגמא – צירוף שמניים noun phrases NP -> Det Nominal NP -> ProperNoun Nominal -> Noun | Noun Nominal Det -> a | the Noun -> flight סמלים לא טרמינליים סמלים טרמינליים

דקדוק חסר הקשר משמש כמייצר generator – פירוש החץ -> הוא ‘ rewrite the symbol on the left with the string on the right ’ כך שהחל בסמל NP ממשיכים בחוק Det Nominal ומשם ל -DetNoun ומשם ל -a flight. כלומר : a flight נגזר מהסמל הלא טרמינלי NP. שימוש ב -S של sentence כסמל התחלתי. ניתן לייצג גזירה בעזרת עץ.

עץ גזירה ל - a flight NP DetNom Noun flight a

דקדוק לדוגמא – L 0 S -> NP VP I prefer a morning flight NP -> Pronoun I NP -> ProperNoun L os Angeles NP -> Det Nominal a + flight Nominal -> Noun Nominal morning flight VP -> Verb NP prefer a morning flight VP -> Verb NP PP leave Boston in the morning VP -> Verb PP leaving on Thursday VP -> Verb do PP -> Preposition NP from Los Angeles

לקסיקון לדקדוק L 0 Noun -> flights | breeze | trip | morning … Verb -> is | prefer| like | need | want | fly Adjective -> cheapest | non-stop | first | latest | other | direct … Pronoun -> me | I | you | it| … ProperNoun -> Alaska | NY | Chicago Det -> the | a | an | this | these | that | … Preposition -> from | to | on | near |.. Conjunction -> and | or | but | …

[ S [ NP [ pro I]][ VP [ V prefer][ NP [ Det a] [ Nom [ N morning] [ N flight]]]]]] Noun Nom NounDet VerbPronoun Ipreferamorning flight NP S VP

דקדוקים פורמליים ושפות טבעיות דקדוקים פורמליים מגדירים שפה. משפט הוא " דקדוקי " אם הוא נגזר מחוקי השפה הפורמלית, או " לא דקדוקי " אחרת. בשפה טבעי – קצת יותר מורכב – מהו משפט דקדוקי ? נקבע הרבה פעמים על פי הקשר. שימוש בשפה פורמלית לייצוג שפה טבעית נקרא “ generative grammar ”, מכיוון שהשפה מוגדרת על פי אוסף המשפטים שיכולים להיווצר מהדקדוק. הגדרה כללית : L g =W|w is in  * and S  *w

מבנה המשפט באנגלית 4 סוגי משפטים עיקריים : Declerative חיווי – נושא (NP) ואחרי צירוף פעלי The return flight should leave at around 11 am Imperative ציווי, מתחיל בד " כ בצירוף פעלי, ללא נושא Show the lowest fare. S -> VP Yes-no questions – בד " כ לשאלות, מתחיל ב - auxiliary, אחריו הנושא, אחריו הפועל Can you give me the same information for United? S -> Aux NP VP

המשך – סוגי משפטים Wh-questions – מכילים מילות wh (what which why). שני סוגים : wh-subject-question Which flights serve breakfast? S -> Wh-NP VP wh-non-subject-question What flights do you have from Burbank toTacoma? S -> Wh-NP Aux NP VP סוגים נוספים – כגון fronting On Tuesday, I ’ d like to fly from Detroit to NY

הצירוף השמני Noun Phrase הצירוף השמני עיקרו הוא הגרעין head, שבאנגלית מלווה ב - pre ו -post-nominal modifiers. לפני הגרעין : המיידעים determiners; לעיתים הם אופציונליים ( במקרה של ריבוי (flights), שם עצם לא ספיר (snow), שמות עצם אבסטרקטיים (music) למשל ). a stop; the flights; those flights; some flights; flights Predeterminers – מילים המופיעות לפני המיידעים all flights; all the flights; Cardinals, ordinals and quantifiers – מופיעים גם אחרי המיידעים – The first day; any other day; many fares חלק מופיעים רק עם שם עצם בריבוי many, וחלק רק עם שמות עצם ספירים much.

המשך – pre-nominal modifiers שמות תואר adjectives או צירופי תואר AP יכולים להופיע בין הכמתים ולפני הגרעין השמני. צירוף תארי יכול להיות מורכב מ -adverbs כלוואי התואר The least expensive fare כל אלה יוצרים את החוק : NP -> (Det) (Card) (Ord) (Quant) (AP) Nominal השימוש בסגריים מעיד על רכיב אופציונלי זוהי הפשטה של מבנה הצירוף השמני.

Post-nominal modifiers שלושה סוגי postmodifiers: צירופי יחס all flights from Cleveland Nominal -> Nominal PP (PP)* Non-finite clauses – Gerundive (-ing)- יוצר צירוף פעלי ( שיכולים להיות לו משלימים מסוגים שונים ). any flights arriving after 11 a.m. Nominal -> Nominal GerundVP GerundVP -> GerundV NP GerundV PP GerundV GerundV NP VP GerundV -> being | preferring | arriving …

Post-nominal modifiers - המשך משפטי זיקה relative clause הוא משפט שמתחיל עם מילת זיקה that, who, המשמשת כנושא של המשפט המקנן, כמו בדוגמא הבאה : – a flight that serves breakfast. Nominal -> Nominal RelClause RelClause -> (who | that) VP או בתפקיד ה -object במשפט המקונן the earliest American Airlines flight that I can get. ניתן כמובן לשלב בין ה -postmodifiers השונים : A flight from Phoenix to Detroit leaving Monday evening.

Coordination - איחוי צירופים יכולים להיות מאוחים אם מאחים כגון and, or, but. Please repeat [ NP [ NP the flights] and [ NP the costs]] NP -> NP and NP What flights do you have [ VP [ VP leaving Denver] and [ VP arriving in San Francisco]] VP -> VP and VP S -> S and S

התאם agreement מה שהתעלמנו ממנו עד עכשיו זה ההטייה שיש לגופים בפועל – What flights leave in the morning? What flight leaves from Pittsburgh? איך ניתן לשנות את הדקדוק כדי שיטפל במקרים כאלה ? אפשרות אחת היא להרחיב את הדקדוק באוסף כפול של חוקים – למשל S -> Aux NP VP נחליף ב - S -> 3sgAux 3sgNP VP S -> Non3sgAux Non3sgNP VP 3sgAux -> does | has | can.. Non3sgAux -> do | have | can..

המשך -- agreement באותו אופן – נזדקק לחוקים יעודיים לכל אחד מחוקי ה -NP, למשל בהגדרת כפל חוקים ליחיד ולרבים : 3sgNP -> (Det) (Card)(Ord) (Quant) (AP) SgNominal Non3sgNP -> (Det) (Card)(Ord) (Quant) (AP) PlNominal SgNominal -> SgNoun | SgNoun SgNoun PlNominal -> PlNoun | SgNoun PlNoun SgNoun -> flight | fare | dollar … PlNoun -> flights | fares | dollars … הבעייה היא, שזה לא עוצר כאן.. יש עוד תכונה לשמות עצם שנקראת case – יחסה – למשל – למילות גוף יש יחסת nominative/subjective שזה I, she, he,they ויחסת accusative/objective - me, him, her, them. צריך חוק חדש לכל אפשרות ! ו - gender... בהמשך נראה שימוש ב -feature structure ו - parameterizing של חוקים אלה כדי לאפשר הכללות.

Verb phrase – הצירוף הפעלי VP -> Verb NP prefer a morning flight VP -> Verb NP PP leave Boston in the morning VP -> Verb PP leaving on Thursday VP -> Verb do יש גם משלימים מסוג אחר – למשל – משלימים של משפט sentential complements VP -> Verb S You said there were two flights that were the cheapest. VPs can be followed by other VPs I want to fly from Milwaukee to Orlando כמו כן יש לפעלים מילים כמו ה -particles – take off. בדרך כלל נחשבים כחלק מן הפועל.

Subcategorization לא כל פועל יכול להופיע עם כל המבנים שראינו של צירופים פעליים. want [NP complement] – want a flight want [VP complement] – want to fly to NY find אין משלים כזה *I find to fly … באופן מסורתי, פעלים חולקו לפעלים טרנזיטיביים ( יוצאים ) שלהם משלים שמני, למשל (I found a flight), או פעלים לא טרנזיטיביים ( עומדים ) שלא יכולים לקבל משלים כלשהו (*I disappeared a flight). דיקדוקים חדשים משתמשים בצורות אחרות ל - subcategorization ויש כ צורות, למשל ב - Comlex.

Subcategorization cont. אומרים שהפועל find, למשל, subcategorizes for NP, בעוד הפועל want, subcategorizes for either an NP or a non-finite VP. רכיבים אלה נקראים ה ' משלימים ' complements של פועל – ל -want משלים VP. משלימים אפשריים אלה נקראים subcat(egorization) frame של פועל. ניתן לראות את הפועל כפרדיקט ואת המשלימים שלו כארגומנטים – find(I, a flight), want(I, to fly).

ייצוג עובדות אלה ב -CFG כיצד ניתן ליצג את היחס שבין הפועל לבין המשלימים שלו בדקדוק חסר הקשר ? ניתן לחלק תתי טיפוסים לכל אחד מהחוקים, למשל Verb-with-NP-Complement -> find | leave | repeat … Verb-with-S-Complement -> think | believe | say.. וכולי.. וכל חוק VP להתאים לקטגוריה הלקסיקלית : VP -> Verb-with-no-complement VP -> Verb-with-NP-complement NP Etc..

Auxiliaries ארבעה סוגים - כל אחד מהנ " ל מכניס אילוץ על צורת הפועל העוקב, ולכל אחד מהם מקום מסודר. modals - can, could, may, might, must, will, would, shall, should פעלים אלה subcategorize ל -VP שהוא bare stem, למשל : can go in the morning ץ perfect - have פועל זה subcategorize ל -VP שהפועל שלו הוא past participle – have booked 3 flights. progressive – be Subcategorizes ל -VP שהפועל שלו הוא gerundive participle -- I am going from Atlanta passive - be VP שהפועל שלו הוא ב -past participle – was delayed by the inclement weather.

Auxiliaries - המשך במשפט יכול להופיע יותר מ -auxiliary אחד, אך הסדר הוא קבוע : modal < perfect < progressive < passive modal perfect could have been a man perfect progressive have been feasting modal perfect passivemight have been prevented על פי התכונות הנ " ל ניתן להתייחס לפעלים אלה כמו לכל פועל אחר למשל, עבור הפועל can – קטגוריה של verb-with bare-stem-VP. אילוצי סדר – ניתן לפתור בדרכו של Halliday systemic grammar – המגדיר verb group שבו ה - auxiliaries הם רכיבים כמו הפועל הראשי.

תחביר השפה המדוברת בהתייחסות לשפה המדוברת, מדברים על מבע “ utterance ” ולא משפט “ sentence ”. [mm], i ’ d like to leave i guess between [um]. [smack]. Five o ’ clock no, five o ’ clock and [uh], seven o ’ clock. P M הפסיק מייצג הפסקה קצרה, הנקודה הפסקה ארוכה, וסוגריים מרובעות מציינים " אירוע לא מילולי " הבדלים בין שפה מדוברת לשפה כתובה : בשפה מדוברת יש שימוש רב יותר בכינויי גוף pronouns, יש אי רציפויות ( חזרות, תיקונים, היסוסים ), ולעיתים רק מחלקים של משפט ( כמו בשיחה – one way; around four p.m). בשיחה יש גם את האלמנטים של ה -prosody, הטון, עליות הקול. מהירות הדיבור.

תחביר שפה מדוברת – חוסר רציפות חוסר רציפות כולל את ההמהומים, חזרה על מילים, והתחלות שגויות (false start – reparandum). מילים כמו uh, mm במודלים של שפה – מתייחסים אליהם כאל כניסות לקסיקליות Does TWA offer any one-way flights uh one-way fares for 160$? Reparandum Interruption point Editing phase Repair

הבנה של דיבור להבנה של דיבור, כשהמטרה היא לבנות משמעות מתוך משפט הקלט, צריך או חשוב להיות מסוגלים לזהות false starts, למשל, ולנסות למצוא את הרצף ה ' נכון ' של המילים. Hindle 1983 הראה שלתיקונים בד " כ אותו מבנה תחבירי כשל ההתחלות השגויות : כך שאם ניתן לזהות התחלה שגויה, קל יותר למצוא את התיקון.

תחביר ואופן העיבוד האנושי בניסויים שנעשו Levelt, 1970 עם בני אדם, נמצא כי אנשים שהתבקשו לקבץ במשפט " מילים קשורות " עשו זאת באופן דומה לחלוקה לרכיבים התחביריים. אבל בדרך כלל יש קשר הדוק בין המבנה התחבירי ובין היחידות הסמנטיות : a single odd block הוא גם יחידה תחבירית NP וגם יחידה סמנטית. לכן – אפשרי שהזיהוי האנושי נעשה דווקא על פי הסמנטיקה. גישה נוספת לתיאור התחביר מבוססת על קשרים בין מילים – קשרים לקסיקוגרפים. לכן, הוכחה לעיבוד אנושי בעזרת חוקים חסרי הקשר צריכה לא להיות מבוססת על קשרים לקסיקליים.

שפה וסיבוכיות חשוב להבין מהי סיבוכיות של שפה כדי לדעת באיזה כלים חישוביים ניתן לתאר אותה. òåî ø ואתא מיה וכבה לנורה דשרף לחותרא דהכה לכלבא דנשך לשונרא דאכל לגדיא דזבין אבא בתרי זוזי חד גדיא !!!

ההיררכיה של חומסקי Generative power- לדקדוק כוח חישובי גדול יותר מדקדוק אחר אם הוא יכול להגדיר שפה שדקדוק אחר לא יכול להגדיר. אחת הדרכים לתאר היררכיה כזו בין שפות היא ההיררכיה של חומסקי סוגים : Type 0 languages Context Sensitive languages Context-free langs. Regular Langs.