Presentation is loading. Please wait.

Presentation is loading. Please wait.

עיבוד שפות טבעיות - שעור שני מורפולוגיה יעל נצר המחלקה למדעי המחשב אוניברסיטת בן גוריון.

Similar presentations


Presentation on theme: "עיבוד שפות טבעיות - שעור שני מורפולוגיה יעל נצר המחלקה למדעי המחשב אוניברסיטת בן גוריון."— Presentation transcript:

1 עיבוד שפות טבעיות - שעור שני מורפולוגיה יעל נצר המחלקה למדעי המחשב אוניברסיטת בן גוריון

2 מילים מהי מילה ? יחידת המידע העצמאית הקטנה ביותר בשפה למשל : ספר, שולחן אבל לא : ה ( ספר ), (walk)-ed מילה ? She'd בשפה כתובה, לא כל " מחרוזת " או " יחידה " המוקפת ברווחים היא מילה - למשל : ואכלתיהו - ואני אכלתי אותו

3 הברות מילים מורכבות מהברות - morphemes שהן " יחידות המידע הקטנות ביותר הנושאות משמעות " יש מילים שהן הברות : car, fish מילה יכולה להיות מורכבת מכמה מורפימות : סוסיהם - סוס + י ( ם ) + הם לכן שימוש מדויק יותר הוא במונח " לקסמה " lexeme שהיא המילה או הצורה הבסיסית ביותר בעלת משמעות מילונית.

4 מוספיות (affixes) : תחילית, תוכית, וסופית מילים מחולקות ל -stem ול -affixes תחיליות - prefixes - הן המוספות בתחילת המילה Un-believable, re-direction סופיות - suffixes - מוספות בסוף המילה למשל : ing : having, eating תוכיות infixes - - מורפמה המוכנסת לגזע או שורש - למשל אותיות הקובעות בניין בעברית - ת ה ת פעל - התרחץ, התלכלך

5 תהליכים מורפולוגיים נוספים צורות נוספות של שינוי מילים או ' תהליך מורפולוגי ' שעובר על מילים הן גזירה derivation הטייה inflection מורפולוגיה היא מסובכת בגלל שיש הרבה יוצאי דופן, למשל : שמות עצם : goose/geese, mouse/mice פעלים : go/went eat/ate ההתייחסות תהייה עם הביטוי : רגולריים regular ואי - רגולרי irregular

6 הטיה inflection שינוי בצורת המילה מתוך צרכים תחביריים - למשל כשמסמנים מספר ( יחיד / רבים ) - number נערה - נערות מין gender נער - נערה גוף person אני רצתי - אנחנו רצנו בעברית מערכת ההטיות מורכבת

7 הטיות באנגלית באנגלית מערכת ההטיות פשוטה יחסית. כולה מורפולוגיה משורשרת concatenative morphology. עבור שמות עצם : ריבוי ושייכות possessives. יש חוקי כתיב spelling rules למשל שמלים שמסתיימות ב -x סימון לרבים יהיה -es ולא - s. עבור פעלים : ההטיות מגוונות יותר

8 הטיית פעלים באנגלית שלושה סוגי פעלים : Main verbs: eat, sleep, run Modal verbs: can, will, should Primary verbs: be, have, do פעלים נקראים רגולריים regular אם כל הסיומות מסמנות אותה פונקציה עבור כולם. ארבע צורות עקריות :

9 Regulary Inflected verbs Morphologi cal Form Classes maptrymergewalkStem " שורש " mapstriesmergeswalks-s form mappingtryingmergingwalking-ing particle

10 גזירה derivation גזירה היא יצירת לקסמות ממבנים בסיסיים או לשינוי חלק הדיבר של המילה. בעברית : השורש ט. ב. ח וצורן הגזירה מ ִ __ ָ _ מטבח באנגלית : sweet - adjective sweetness - noun באנגלית מעט הטיות ומערכת גזירה ענפה.

11 מורפולוגיה, חיפושים באינטרנט וכולי למשל, חיפושים באיטנרנט אם מילת החיפוש היא fox האם אנחנו רוצים למצוא גם מסמכים בהם צורת הריבוי ? למשל foxes ומה במקרה של goose-geese?

12 ניתוח מורפולוגי של מילה Morphological parsing ניתוח : קבלת קלט כלשהו ויצירת מבנה ממנו. בתחום איחזור המידע IR נקרא : stemming stemming הוא התהליך ש " מפשיט " מילים מורכבות לצורתן הבסיסית : foxes -> fox ניתוח מורפולוגי יקבל כקלט מילה כ -going ויחזיר כפלט את הניתוח VERB-GO + GERUND-ing

13 למה צריך ניתוח מורפולוגי איחזור מידע תרגום אוטומטי תיקון שגיאות כתיב אוטומטי ומצד שני - חוקי הניתוח יכולים להיות ממומשים ליצירת מילים מוטות.

14 מורפולוגיה היא פרודוקטיבית לא יעיל לשים בלקסיקון את כל המילים על צורת ההטיה שלהן. הסיומת, ing, למשל היא פרודוקטיבית כי היא ניתנת לצירוף לכל פועל באנגלית. גם צורת הריבוי -s. יש גם יצירה של מילים חדשות (fax -> faxing) מצד שני, יש הרבה יוצאי דופן.

15 Finite-State morphological Parsing דוגמא פשוטה : ניתוח ריבוי פשוט של שמות עצם ו - verbal progressive (-ing). המטרה : קלט : cats פלט : cat + N + SG קלט : geese פלט : goose + N+ PL קלט : merging פלט : merge + V + PRES-PART קלט : caught פלט : (catch + V + PAST- PART) or (catch + V + PAST)

16 בניית מנתח מורפולוגי כדי לבנות מנתח מורפולוגי יש צורך ב : לקסיקון - רשימת שורשים stems ו -affixes, עם מידע כללי כגון האם ה -stem הוא שם עצם, פועל וכו '. Morphotactics - המודל לסידור המורפמות ( איזו מורפמה היא תחילית ואיזו סופית ) חוקים אורתוגרפיים orthographic rules חוקי הכתיב - שינויים החלים במילה למשל - y-> ie כמו במקרה של city + -s -> cities

17 ניתוח מורפולוגי בעזרת finite state transducers (FSTs) - Two level morphology (Koskenniemi 1983) הפרדת הרמה הלקסיקלית מהרמה שעל פני השטח נקודת המוצא היא FSA פשוט הוספת סרט tape לאוטומט הוספת סמלים למעברים באוטומט לדוגמא - אם על סרט אחד כתוב cats על הסרט השני יהיה בהתאם cat+N+PL

18 שימוש אופייני ב -FST קריאת הסמל השני שעל המעבר על פי הקלט בסרט התחתון ( ה -surface) כתיבה בסרט העליון על פי הסמל הראשון במעבר ( ה - lexical level). a:b פירושו b בסרט התחתון מועתק לסמל a בסרט העליון. a:  פירושו ש -a בסרט העליון מתייחס ל " שום דבר " בסרט התחתון. זוגות a:a הן זוגות ' ברירות מחדל ' ושקולים ל -a. FST להבדיל מ -FSA לא רק מגדיר שפה אלא מגדיר יחס בין מחרוזות.

19 נקודות מבט על FST מזהה - recognizer - מקבל זוג מחרוזות כקלט אותן ' מקבל ' אם זוג המחרוזות שייך לשפת ה ' זוגות ' מייצר - generator - מייצר זוגות מחרוזות השייכים לשפה, ו ' כן ' או ' לא ' FST - מכונה שמקבלת מחרוזת אחת ומחזירה פלט מחרוזת אחרת. FST כמכונה המחשבת יחס בין קבוצות. דומה ל -Mealy Machine

20 מנתח מורפולוגי - גרסא I - מורפוטקטיקה

21 הטמעת המילון באוטומט

22 מודל לחוקי גזירה

23 רב משמעות בניתוח מורפולוגי יש משמעות למעבר unionizeable: un-ion-ize-able union-ize-able שניהם מעברים תקפים באוטומט שתוצאתם ניתוח שונה.

24 רב משמעות בניתוח מורפולוגי - פתרונות אפשריים קבל את הניתוח הראשון המוצלח הרץ את המנתח עם כל המעברים האפשריים, כתיבת כל התוצאות בסרט הפלט.

25 הוספת חוקי איות ל -FST ישנם חוקי איות שהם תלויי הקשר למשל - cat + N + PL -> cats fox + N + PL -> foxes

26 Multi-level multi-tape machines ניתן לצרף מכונות FST אחת לשנייה, כך שהפלט של האחת היא הקלט של השנייה. טיפול בחוקי האיות מוסיף למעשה סרט נוסף ב -FST ויוצר שלוש שכבות : Lexical Intermediate Surface

27 Lexical to Intermediate Transducer

28 Intermediate to Surface Transducer צריך FST שבמעברים שלו יוסיפו e למילים המסתיימות ב -x, s, z לפני הוספת ה -s לריבוי.

29 Lexicon-Free FSTs: Porter Stemmer שיטה המשמשת בעיקר ב -IR, ללא שימוש בלקסיקון. בהנחה שסיומות כגון אלה המציינות מספר אינן נושאות משמעות ביחס לרלוונטיות של מסמכים. Stemmning algorithms - Porter 1980 לאלגוריתם חוקים בצורה : ATIONAL -> ATE למשל relational -> relate ING ->  if stem contains vowel

30 ביצועים של stemmers Krovetz מדגים סוגי טעויות Omission - Matrices - matrix Comission- Organization - organ כמו כן הוא הראה ש -stemming משפר במידה מסויימת ביצועים בעיקר עבור מסמכים קטנים


Download ppt "עיבוד שפות טבעיות - שעור שני מורפולוגיה יעל נצר המחלקה למדעי המחשב אוניברסיטת בן גוריון."

Similar presentations


Ads by Google