Stat-Xfer מציגים: יוגב וקנין ועומר טבח, 05/01/2012

Stat-Xfer מציגים: יוגב וקנין ועומר טבח, 05/01/2012
תרגום מכונה מבוסס העברה עם אלמנטים סטטיסטיים Stat-XFER: A General Search-based Syntax-driven Framework for Machine Translation Alon Lavie, CICLing 2008 אזרח!!!! לפתוח Notepad++ כללי העברה לפני! מציגים: יוגב וקנין ועומר טבח, 05/01/2012 מנחה: פרופסור עוזי אורנן סמינר בבלשנות חישובית, , הפקולטה למדעי המחשב, הטכניון.

תרגום מבוסס חוקים אל מול תרגום סטטיסטי
מכונות תרגום מסורתיות: מכילות פורמליזם עשיר שמעביר מבעים בין שתי השפות. בדרך כלל בנויות באופן ידני ע"י מומחים. אתגר מרכזי: להגיע ולתחזק כיסוי רחב. כיסוי של תחום ספציפי אינו מתמודד עם דו משמעותיות רבה. תרגום מכונה סטטיסטי למידה אוטומטית של מילים וביטויים תואמים מקורפוסים מקבילים נרחבים. פענוח מבוסס חיפוש במרחב התרגומים האפשריים. האתגר העיקרי: להגיע ולתחזק דיוק גבוה. למידה היא סטטיסטית . הכוונה באתגר של מכונות מסורתיות היא שניתן בנושאים צרים להגיע לתוצאות טובות (למשל כפי שלמדנו על מכונה המתרגמת בצורה טובה מאמרים הקשורים לכורים גרעינים).

מטרות המחקר בניית מערכת לפיתוח מכונות תרגום מבוססות העברה עם אלמנטים סטטיסטים. כפי שיוסבר בהמשך. בניית אפשרות אוטומטית ללמידת כללי העברה. מתן פתרון הן לשפות בעלות קורפוסים מקבילים נרחבים והן לשפות דלות קורפוסים. יכולת להתמודד עם שפות עשירות מורפולוגית (לדוגמה עברית). משנת 2000 מתבצע בקרנגי מלון מחקר שממוקד בפיתוח מערכת תרגום מכונה שבה לוקחים את הטוב משתי הגישות. המערכת בבסיסה היא כמו כל מערכת תרגום מבוסס העברה שראינו, כלומר שבהינתן לקסיקון דו לשוני וכללי העברה מתרגמת בין זוג שפות. כאשר החידוש של המערכת מובע הן בדרך ייצור כללי העברה והן בדרך שבה היא מעבירה בין שפות. הבחירה בכללים ליישום מבוססת סטטיסטיקה. והמערכת מאפשרת תרגום הן בין שפות שקיימים עבורם קורפוסים נרחבים והן עבור שפות דלות משאבים. יכולת להתמודד עם שפות עשירות מורפולוגית (לדוגמה עברית). זמן פיתוח המערכת הבסיסית ארך שלושה חודשים.

תוכן ההרצאה הצגת המערכת Stat XFer.
תוכן ההרצאה הצגת המערכת Stat XFer. חלקי המערכת. האתגרים בבניית מכונת תרגום לשפה העברית. הצגת אלגוריתם לייצור אוטומטי של כללי העברה. הצגת אלגוריתם ליישור אוטומטי של קורפוסים דו-לשוניים. דוגמת הרצה. מצב המערכת כיום.

מרכיבי המערכת קלט בעברית: עיבוד מקדים שמבצע העברה לצורה פונמית.
עבור כל מילה בונים שריג המכיל את המשמעויות האפשריות שלה. ניתוח מורפולוגי של כל אפשרות המוסיף תכונות דקדוקיות, למשל מספר. קלט בעברית, עבור כל מילה בונים סריג שמכיל את המשמעויות האפשריות שלה. פרה פרוססינג - להעביר לצורה הפונמית שלה. זה מה שרואים כאן- מורידים את הניקוד ומעבירים לצורה הפונמית. ניתוח מורפולוגי - חלוקה, מוסיף תכונות דיקדוקיות, למשל מספר. רואים בשקף הבא.

מרכיבי המערכת לדוגמה – השריג עבור "בשורה": בְּשׂוֹרָה
לכל מילה אפשרית כבר מוציאים נתונים כגון מספר,מין,גוף,זמן וכ' מתבצע זיהוי סיומות. מבדיקה של החוקרים על טקסט עיתונאי יוצא שלכל מילה מספר אפשרויות סביר. במחקר של עוזי ושל משה לוינגר נמצא שבממוצע יש קרוב ל-3 אפשרויות קריאה לכל מילה עברית. מלבד המשמעויות המופיעות במילון, ומלבד המשמעויות המושגות מניתוח אותיות המוספות לצורת הבסיס של המילה, מתייחסים לאפשרות שכל מילה היא שם פרטי. [כאשר בשם פרטי הכוונה היא לכל סוג של שם של משהו] הכנה למזגן לדרוג הסתברות למילים (את- כינוי הגוף מול את חפירה). אזכור של עבודה קודמת צריך להיכלל בביליוגרפיה שבסוף ההרצאה בְּשׂוֹרָה בְּשׁוּרָה (בלתי מיודע) בַּשׁוּרָה (מיודע) שׁוֹרהּ (שייכות)

מרכיבי המערכת- לקסיקון התרגום
כעת נציג את לקסיקון התרגום שבבסיסו מהווה מילון בין השפות.

מרכיבי המערכת – לקסיקון התרגום
דוגמא לכללים בלקסיקון. (פירוט בהמשך). PRO::PRO |: ["ANI"] -> ["I"] ( (X1::Y1) ((X0 per) = 1) ((X0 num) = s) ((X0 case) = nom) ) PRO::PRO |: ["ATH"] -> ["you"] ((X0 per) = 2) ((X0 gen) = m) N::N |: ["$WR"] -> [“bull"] ( (X1::Y1) ((X0 NUM) = s) ((Y0 NUM) = s) ((Y0 lex) = “BULL") ) N::N |: ["$WRH"] -> [“line"] ((Y0 NUM) = p) ((Y0 lex) = “LINE") כאן רואים דוגמא לכללים בלקסיקון תרגום. מיד נפרט לגביהם. לקסיקון התרגום- תרגום בין מילים בשתי השפות שכולל מידע נוסף.

לקסיקון התרגום- מרכיבי הכללים
מרכיב ראשון: תפקידה הדקדוקי של המילה המתורגמת בשתי השפות. PRO::PRO |: ["ANI"] -> ["I"] ( (X1::Y1) ((X0 per) = 1) ((X0 num) = s) ((X0 case) = nom) ) PRO::PRO |: ["ATH"] -> ["you"] ((X0 per) = 2) ((X0 gen) = m) הערה פרו= פרונאון = כינוי גוף 9

מרכיב שני: המילה המתורגמת עצמה בשתי השפות. PRO::PRO |: ["ANI"] -> ["I"] ( (X1::Y1) ((X0 per) = 1) ((X0 num) = s) ((X0 case) = nom) ) PRO::PRO |: ["ATH"] -> ["you"] ((X0 per) = 2) ((X0 gen) = m) 10

מרכיב שלישי: תכונות הנוספות לכלל. בדוגמא: per – גוף, ראשון. Num - מספר, יחיד. Gen – מין, זכר. Case – יחסה, יחסת נושא/נשוא (Nominative) PRO::PRO |: ["ANI"] -> ["I"] ( (X1::Y1) ((X0 per) = 1) ((X0 num) = s) ((X0 case) = nom) ) PRO::PRO |: ["ATH"] -> ["you"] ((X0 per) = 2) ((X0 gen) = m) יחסה: חתולה נשך כלבוּ. בפינית יש 15 יחסות, לדוגמא: הבית = talo ( יחסת נומינטיב, נושא) בתוך הבית = talossa ( יחסת אינֶסיב, מושא עקיף + מילת היחס "בתוך") על הבית = talolla ( יחסת אדֶסיב, מושא עקיף + מילת היחס "על") אל הבית = talolle (יחסת אלַאטיב, מושא עקיף + מילת היחס "אל") לתת ליוגב. 11

מרכיבי המערכת- חוקי העברה
כעת נציג את חוקי ההעברה, שמהווים התאמה בין כללי הגזירה של שתי השפות.

מרכיבי המערכת – כללי העברה
כללי ההעברה קובעים את הדרך שבה צריכים להיתּרגם קטעי משפטים. לדוגמא: (פירוט בהמשך) {NP1,2} ;;SL: $MLH ADWMH ;;TL: A RED DRESS NP1::NP1 [NP1 ADJ] -> [ADJ NP1] ( (X2::Y1) (X1::Y2) ((X1 def) = -) ((X1 status) =c absolute) ((X1 num) = (X2 num)) ((X1 gen) = (X2 gen)) (X0 = X1) ) כללי ההעברה- איך צריך להעביר קטעי משפטים, כלומר, יותר ממילים בודדות. (כלומר) כגון איך צריכים להשתנות סדר המופעים בקטע כתוצאה מהמעבר בין השפות. הוספה של ה' הידיעה או מילים אחרות, וכו'.

טיפוס הכלל: ראש כלל הגזירה. כלומר האם הכלל הזה מייצג משפט או צירוף פעלי או צירוף שמני וכו'. {NP1,1} ;;SL: $MLH ADWMH; ;TL: A RED DRESS; ;Score:2; NP1::NP1 [NP1 ADJ1] -> [ADJ1 NP1] ( (X2::Y1) (X1::Y2) ((X1 def) = (X2 def)) ((X1 num) = (X2 num)) ((X1 gen) = (X2 gen)) ((X1 status) =c absolute) ) דוגמאות לצירוף שמני, צירוף פעלי וצירוף יחס: אם נבדוק את המשפט "הילד היפה אכל תפוח מחיפה", אז צרוף שמני: הילד היפה צרוף פעלי: אכל תפוח. פיהק. צרוף יחס: מחיפה. בסופו של יום, העניין הוא שצירוף יחס זה חלק מהצירוף השמני או הפעלי. = האם צירוף יחס זה הוא חלק מהצירוף השמני או הפעלי?

דוגמה לתרגום בין השפות המיישם כלל זה: שמלה אדומה -> a red dress ההערות מוזנות ע"י מחבר הכלל.[צריך להביא אותן] {NP1,1} ;;SL: $MLH ADWMH; ;TL: A RED DRESS; ;Score:2; NP1::NP1 [NP1 ADJ1] -> [ADJ1 NP1] ( (X2::Y1) (X1::Y2) ((X1 def) = (X2 def)) ((X1 num) = (X2 num)) ((X1 gen) = (X2 gen)) ((X1 status) =c absolute) )

ציון לכלל, מרכיב אופציונלי הניתן ע"י מחבר הכלל. [ ??] {NP1,1} ;;SL: $MLH ADWMH; ;TL: A RED DRESS; ;Score:2; NP1::NP1 [NP1 ADJ1] -> [ADJ1 NP1] ( (X2::Y1) (X1::Y2) ((X1 def) = (X2 def)) ((X1 num) = (X2 num)) ((X1 gen) = (X2 gen)) ((X1 status) =c absolute) ) לא די להראות. הצופה במצגת צריך הסברים

מרכיבי הכלל: צד ימין ושמאל של כלל הגזירה, מה סוג חלק הדיבר של הביטוי המתורגם והנגזר בשפת המקור ובשפת היעד. בדוגמה, הן המקור והן היעד הם צרוף שמני. {NP1,1} ;;SL: $MLH ADWMH; ;TL: A RED DRESS; ;Score:2; NP1::NP1 [NP1 ADJ1] -> [ADJ1 NP1] ( (X2::Y1) (X1::Y2) ((X1 def) = (X2 def)) ((X1 num) = (X2 num)) ((X1 gen) = (X2 gen)) ((X1 status) =c absolute) ) NP = noun phrase

סימנים מפורשים יקבעו אילו מרכיבי כלל בשפת המקור מקבילים לאילו מרכיבי כלל בשפת היעד, ומה יהיה השינוי בסדר חלקי הדיבר. לדוגמה: [הסברים כאלה צריכים להיות גם קודם] [NP1 ADJ1] -> [ADJ1 NP1] קובע את סדר חלקי המשפט במקור וביעד. (X2::Y1) – מציין שהמילה השניה בצד המקור מתאימה למילה הראשונה ביעד {NP1,1} ;;SL: $MLH ADWMH; ;TL: A RED DRESS; ;Score:2; NP1::NP1 [NP1 ADJ1] -> [ADJ1 NP1] ( (X2::Y1) (X1::Y2) ((X1 def) = (X2 def)) ((X1 num) = (X2 num)) ((X1 gen) = (X2 gen)) ((X1 status) =c absolute) )

מגבלות צד שמאל ,X , מתייחס לשפת המקור SL. בדוגמא: Def: אם המילה הראשונה מיודעת הרי שגם על השנייה להיות מיודעת. Num: על המספר של שתי מילות המקור להיות זהה. Gen: המין של שתי המילים זהה. Status: נפרד (שאינו נסמך) אופרטור =c מוגדר כבר. {NP1,1} ;;SL: $MLH ADWMH; ;TL: A RED DRESS; ;Score:2; NP1::NP1 [NP1 ADJ1] -> [ADJ1 NP1] ( (X2::Y1) (X1::Y2) ((X1 def) = (X2 def)) ((X1 num) = (X2 num)) ((X1 gen) = (X2 gen)) ((X1 status) =c absolute) ) סטאטוס: נפרד (absolute state) – צורת המילה שאינה נסמך. המילה האחרונה בצירוף סמיכות ומילה שאינה חלק מצירוף סמיכות היא צורת נפרד. מילה שהיא חלק מצירוף סמיכות שאינה המילה האחרונה בו היא בצורת נסמך. ר' גם מוכרת [?? זה מונח נוסף לאותה משמעות ?]. נסמך (construct state) – המילה שאינה האחרונה בצירוף סמיכות. למשל, בצירוף הסמיכות "נשיא מדינת ישראל" המילים "נשיא" ו"מדינת" – נסמכים. גם הצורה הדקדוקית של המילה הזאת נקראת "צורת נסמך" והיא שונה מצורת נפרד; למשל בצירוף "עובדים של מפעל" המילה "עובדים" בצורת נפרד ובצירוף "עובדי מפעל" המילה "עובדי" בצורת נסמך. במילונים ובספרי דקדוק נהוג לסמן את צורת הנסמך בעזרתמקף, למשל: "בַּיִת, בֵּית־, בָּתִּים, בָּתֵּי־", אבל לפי כללי הפיסוק של האקדמיה ללשון אין בדרך כלל חובה לכתוב את המקף בצירופי סמיכות.

מגבלות צד ימין,Y , מתייחס לשפת היעד TL. בדוגמה ניתן לראות כי המגבלה היא שהמילה הראשונה בשפת היעד תהיה בזמן הווה. ;;SL: AWKL ;;TL: EATS ;;Score:34 VB::VB [V] -> [V] ( (X1::Y1) ((Y1 tense) = present) ((Y1 per) = (X1 per)) ((Y1 num) = (X1 num)) (X0 = X1) ((X0 tense) <= present) (Y0 = Y1) )

מגבלות צד XY, משותפות לשניהם. מגבלות המשותפות לשני הצדדים, כאן למשל נדרש שהמספר של המילה השלישית בשפת המקור יהיה זהה למספר של המילה הראשונה בשפת היעד. ;;{NP,4}; ;SL: H SPR H ZH; ;TL: this BOOK; ;Score:9 NP::NP [NP2 "H" PRO] -> [PRO NP2] ((X1::Y2) (X3::Y1) ((X1 def) =c true) ((Y1 num) = (X3 num)) (X0 = X1) (Y0 = Y2)) דוגמא נוספת: מגבלות XY למשל הודעתי ו-I announced , הזמן והגוף צריכים להיות זהים בשני הצדדים. הספרים האלה – these books – דוגמה למספר שונה

סיכום קצר על כללי תרגום ועל כללי לקסיקון
מדובר באוסף של מגבלות על כללי הגזירה. תכונות שנוספות לכללים הנגזרים- כפי שידוע מקורס קומפילציה. כללי X מתייחסים לשפת המקור. מהווים מגבלות על הדרכים בהן ניתן לגזור את הקלט. כללי Y מתייחסים לשפת היעד. מהווים מגבלות על המילים שניתן לגזור בפלט. כללי XY מתייחסים הן לשפת המקור והן לשפת היעד. מהווים מגבלות על כללי ההעברה שניתן להפעיל. כולל מידע נוסף: המידע הנוסף מגיע בצורה של כללי X, כללי Y וכללי XY.

מרכיבי המערכת בחלק הבא נציג את מנוע ההעברה שמסתמך על כללי העברה ולקסיקון התרגום ע"מ להעביר את התוכן משפת המקור לשפת היעד.

מרכיבי המערכת – מנוע ההעברה
במהלך ריצת מנוע ההעברה מתוחזק מבנה נתונים שמחזיק את התרגומים החלקיים. אתחול מנוע ההעברה: תרגום ישיר של כל מילה או צרוף משפת המקור לשפת היעד ושמירת התרגומים, כולל מצביעים למקור שלהם. לכל מילה מוחזקים כל התרגומים של כל המשמעויות שלה. בנוסף נשמר ציון לכל תרגום. משתמש בלקסיקון התרגום. ציון לתרגום מוסבר בהמשך.

ריצת מנוע ההעברה עד שהמקור מנותח במלואו: צמצום כמות התרגומים האפשריים:
עוברים על הקלט מצד המקור. בכל פעם שנתקלים בצירוף המתאים לכלל הגזירה בשפת המקור, מתרגמים אותו ע"פ כלל זה ושומרים את התוצאה. לכל תרגום ניתן ציון. צמצום כמות התרגומים האפשריים: בכל צעד מוחקים את התרגומים עם הציון הנמוך ממבנה הנתונים של התרגומים. במאמר התייחסו לצמצום בתור חיפוש אלומה.

פלט מנוע ההעברה בסיום ריצת מנוע ההעברה קיימות במבנה הנתונים מס' יחידות תרגום- כל אחת עם המידע לאיזה קטע מהמקור היא מתייחסת ומה סבירות ההתאמה שלה. בדוגמא, בכל יחידת תרגום: המס' הראשון מתייחס למילה הראשונה בקטע המקור המתאים ליחידה. המס' השני מתייחס למילה האחרונה בקטע המקור המתאים ליחידה. במרכאות מופיע התרגום עצמו. לאחר מכן מופיע חלק הדיבר של התרגום. בדוגמא LINE מתייחס ל'$WRH', והוא ש"ע. פלט מנוע ההעברה מופיע בצורה של יחידות תרגום המסודרות לפי אינדקס של ההתחלה והסיום שלהם. יש להסביר למעיין את הקשר אל השפה השנייה ואיפה הוא נשתמש בו בחלק הבא. 26

איך נותנים ציון ציון של פיסת תרגום נועד לשקף את הסתברות הדיוק של אותו תרגום. ציון של פיסת תרגום מתקבל ממספר גורמים: שימוש במודל השפה האנגלית: ההסתברות שתופיע מילה מסוימת בהינתן שקדמו לה מילים מסוימות אחרות. למשל ההסתברות לקבלת Milk בהינתן Drinks גבוהה מהסתברות Tallow בהינתן Drinks. התאמת אורך בין התרגומים. כלומר, סביר שמעט מילים יתּרגמו למעט מילים. הסתברות להופעה דו-לשונית. הסתברות להקבלה בין שפות של ביטויים או מילים. תלוי בהינתנו של מילון עם סבירויות, למשל, ניתוח, סביר שיתורגם ל- “Analysis” יותר מאשר “Operation”. אורך - כמה האורך של המשפטים בשתי השפות מתאים זה לזה הסתברות להופעה דו לשונית - ההסתברות של הופעת מילת יעד בהינתן מילת מקור, ולהיפך. הניתוח- מן הסתם, לא נכון לגבי קורפוסים רפואיים.

חלקי המערכת – מפענח שפת היעד
בחלק השלישי והאחרון מיוצר משפט הפלט: מיד נפרט!

חלקי המערכת – מפענח שפת היעד
בסיום ריצת מנוע ההעברה קיימות במבנה הנתונים מס' יחידות תרגום- כל אחת עם המידע לאיזה קטע מהמקור היא מתייחסת ומה סבירות ההתאמה שלה. מפענח שפת היעד מחפש רצף של תרגומים מתחילת הטקסט ועד סופו הנותן ציון מקסימאלי. התרגומים ברצף אינם חופפים. המפענח מחפש את הרצף בעל הציון הגבוה ביותר המתחיל בדיוק בתחילת היחידה ומסתיים בדיוק בסופהּ ולא מכיל חפיפות. ** נסביר איך נותנים ציון בשקף הבא. ** [לא רואים אותו. איפה ההסבר?] לעיתים יחידות התרגום חופפות, כלומר קיימת יחידה בשפת המקור שמתרגמת למספר אפשרויות בשפת היעד- ונראה דוגמא לכך בסוף. המפענח בוחר רצף של יחידות תרגום רציפות שמקבל ציון הכי גבוהה. לעיתים קרובות יחידות התרגום חופפות, כלומר קיימת יחידה בשפת המקור שמתרגמת למספר אפשרויות בשפת היעד. נראה דוגמא מוצלחת בסוף. 29

בעיות תרגום בשפה העברית
רב משמעותיות. ניקוד - חלק מהקורפוסים מנוקדים וחלקם לא. חוסר בקורפוסים. אי קיומו של מודל הסתברותי לשפה. מודל הסתברותי לשפה: הסתברות הופעת מילה מסויימת בהינתן המילים שקדמו לה.

התמודדות עם הבעיות רב משמעותיות ניקוד חוסר בקורפוסים
התייחסות לכל המשמעויות האפשריות במהלך הניתוח. ניקוד פיתוח סקריפט שמתרגם מילה מנוקדת למילה לא מנוקדת והעברה לכתב פונמי בא"ב לטיני. חוסר בקורפוסים הכנסה ידנית של כללי העברה. יצירת לקסיקון תרגום באמצעות מילון. אי קיומו של מודל הסתברותי לשפה מתן ציון שווה לכל המופעים של המילים. אם יש זמן אפשר לספר שבמאמר המקורי השתמשו במילון דהאן בגלל שהוא היה קיים בצורה דיגיטאלית וכן שהם הפכו את החלק האנגלי-עברי בו. [הערה כזאת אינה ראויה להגשה סופית ] ועדיין לא ברור איך נותנים ציון

אלגוריתם PFA: אלגוריתם אוטומטי ליצירת כללי העברה
Syntax-driven Learning of Sub- sentential Translation Equivalents and Translation Rules from Parsed Parallel Corpora Alon Lavie et al., 2008

הצורך באלגוריתם אוטומטי ליצירת כללי העברה
לעיתים קיים קורפוס דו לשוני רחב ומיושר מילים, ונרצה לקבל ממנו כללי העברה באופן אוטומטי. יישור מילים: קשר של התאמת מילים בשני טקסטים שורה מול שורה או מילה מול מילה. בהינתן זוג משפטים מיושרי מילה והעצים הסינטקטיים שלהם האלגוריתם ייצור כללי העברה.

דוגמא לטקסט מיושר מילים ועץ הגזירה שלו.
האיור מוצג להתרשמות בלבד על מנת להמחיש את מושג ה"יישור" Australia is one of the few countries that have diplomatic relations with North Korea.

המשפט היסודי כידוע – המשפט היסודי של האריתמטיקה – "לכל מספר, קיים פרוק יחיד למכפלה של ראשוניים עד כדי סדר". אנו נשתמש בעובדה זו.

הקצאת מספרים לצמתים לכל עלה בעץ ולעלה שמקושר אליו בעץ השני נקצה מספר ראשוני.לעלים שאינם מיושרים נקצה את המספר 1. בצבע אדום רואים את הצמתים שיש להם ישור ובצבע ירוק את אלו שלא וקיבלו את המספר אחד 36

הקצאת מספרים לצמתים נבצע מעבר על הגרף bottom-up, כל צומת אב יכיל את הערך המספרי שהוא מכפלה של בניו. בצבע אדום רואים את הצמתים שיש להם ישור ובצבע ירוק את אלו שלא וקיבלו את המספר אחד 37

מקרים מיוחדים יחס אחד-לרבים הוא מקרה מיוחד, אם מילה יחידה מיושרת למספר מילים מקצים לאותן מילים את אותו המספר הראשוני כמו המילה היחידה. האותיות כל כך קטנות אין סיכוי לראות אותן. איך ניווכח שמה שאמרתם נכון?

חילוץ חוקים על ידי שימוש בנתונים הדקדוקיים של הצמתים הפנימיים בתתי העצים המיושרים נוכל להסיק חוקים כללים יותר. בדוגמה שלנו ניתן למשל להסיק את הכלל בעל המבנה הבא: פה נסביר את הזיהוי של הצמתים כמתאימים ע"פ המספר בצומת ואת זה שהמספרים גם קובעים איזו מילה בשפת היעד מתאימה לאיזו מילה בשפת המקור ניתן לראות בכללים את המילים שאינם מיושרות למשל .with דוגמא למילה שאין לה ישור בתרגום : "*בת* שני מפגשים" -> of two meetings VBP- צורת פעלים מסויימת שמכילה בפרט את DO HAVE ו-BE (כן AUXILIARY VERBS ולא MODAL VERBS). פעלי עזר (AUX): פעלים שמצורפים לפועל ראשי כלשהו. מוסיפים מידע על הפועל שהם מצורפים אליו: Write לעומת Have Written- זמן שונה. פועלים מודאלים: סוג של פעלי עזר שמוסיפים מידע לגבי פעלים שמקבלים לפניהם יכול- או צריך או חייב-. תפקידם הוא סבירות, מחוייבות, רשות או יכולת. אלה שהם AUX ולא MODAL הם: 1. משנים את הזמן ל-PERFECT, PASSIVE או PROGRESSIVE; 2. עוזרים להדגיש; 3. משנים לשאלה. Do you eat? “Have diplomatic relations with North Korea” “北韓有邦交” 39

חילוץ ביטויים על מנת ליצור מילון ביטויים נצמיד זוגות של צמתים בעלי מספר זהה, חלק המשפט הנגזר מכל אחד מהצמתים מתאים לחלק המשפט השני הנגזר מאותם צמתים. בדוגמה: הביטויים שחולצו מהעץ שהראינו. מונים כל הופעה של תרגום ביטוי ע"מ לאמוד סטטיסטית את הסבירות שתרגום זה מתאים לביטוי. בנוסף לגזירת הכללים בהם נעשה שימוש ב-XFER מתבצע גם חילוץ ביטויים. זה לא נחוץ למכונה אבל זה עוזר: משתמשים בביטויים המחולצים כדי למלא את המילון. IP זה משפט כך שהפועל מופיע בו במצב סופי. מצב סופי הכוונה שלא בתור שם.[??] 40

סיכום אלגוריתם אוטומטי ליצירת כללי העברה
אלגוריתם מהיר ומדוייק ליצירת כללי העברה. מהווה שלב מקדים לתרגום מכונה שראינו בחלק הקודם.

אלגוריתם אוטומטי ליישור קורפוסים
Fast and Accurate Sentence Alignment of Bilingual Corpora Robert C. Moore, 2002

הצורך ביישור קורפוסים אוטומטי
קיים צורך ביישור קורפוסים אוטומטים ע"מ לתת קלט לאלגוריתמים דוגמת ה-PFA, שמטרתם להסיק כללי גזירה מתוך טקסטים מתורגמים מקבילים. אלגוריתמים מסוג זה תלויים בכך שהקורפוסים מיושרים. לא כל קורפוס מתורגם הוא מיושר באופן מיידי. המטרה היא ללמוד מקורפוסים שתורגמו באופן ידני. קודם ראינו יישור ברמת המילים, כרגע נראה יישור ברמת המשפטים.

דוגמת יישור של 1:1 “The quick brown fox jumps over the lazy dog.”
"השועל החום הזריז קופץ מעל הכלב העצל" פה אתם רואים דוגמת יישור של 1:1, משפט אחד בעברית התּרגם ישירות לאנגלית. היחסים במהלך היישור ראויים להבהרה ופירוט. (1:1 וכדומה) The Michigan School Moderator, 1885

דוגמאות יישור 1:2 “It happens a lot.
A figure once significant in our lives fades away gradually.” "זה קורה לא אחת: דמות שהייתה משמעותית בחיינו נעלמת מהם בהדרגה." לומר: זו דוגמא של 2:1: המתרגם, הפעם מעברית לאנגלית, בחר שהמשפט יתּרגם לשני משפטים. להזכיר שהאתגר הוא להשתמש בטקסט שתורגם ע"י מישהו אחר ולא בהכרח מתאים לתרגום מכונה. למעשה גם בעברית שני משפטים, אלא שהשני מסביר את הראשון . "זה" –מכוון לכל המשפט השני. גדעון לוי, 8 לדצמ' 2011.

דוגמאות יישור 0:1 ‘Free software is a matter of liberty, not price.
Free as in speech, not as in free beer.’ תוכנה חופשית זה עניין של חירות, לא של מחיר. לומר: תראו, זו דוגמא של 1:1 ו-0:1. פשוט כי free היתרגם ישירות ל-חופש, לא ל-חינם והמתרגם לא חש צורך לתרגם את המשפט השני. אפשר היה להוסיף, "חופש כמו דיבור חופשי ולא כמו בירה חופשית ." = בירה חינם העניין הוא שאנחנו לא מתרגמים פה אלא עובדים עם תרגום קיים. ~Richard Stallman

דוגמת יישור מסובכת The girl visited yesterday in Tel-Aviv. הילדה יפה.
The father of this beatiful girl, that works in the Technion, came also. הילדה יפה. היא ביקרה אתמול עם אביה בתל אביב. אביה עובד בטכניון. להגיד זה 2:3 כי אי אפשר לקחת שום צירוף אחר בלי להשמיט. אפשר גם: הילדה ביקרה אתמול בתל אביב. אביה של ילדה יפה זו, העובד בטכניון, בא גם הוא (לביקור). ואז האם זה 2:2 מיושר? -ישראל גוטר.

האתגר ביישור קורפוסים אוטומטי
לו כל המתרגמים דבקים היו בעקרון של 1:1, העבודה שלנו הייתה קלה יותר. רמת הטקסטים המתורגמים הייתה נמוכה יותר. במציאות תרגומים רבים מכילים יחסים שונים. 2:1, 1:0 ועוד ( (N)*:(M)* ).

האתגר ביישור קורפוסים אוטומטי
כן קיימים מקרים של הזזה, בהם למרות שהיחס הוא 1:1- סדר המשפטים שונה, או אפילו סדר הפסקאות שונות. חוקר בשם Chen מהרווארד דיווח על 90,000 משפטים שהיו חסרים בתרגום דיוני הפרלמנט הקנדי. צריך להתבצע בתנאים בהם לא תמיד יודעים הרבה על השפה. אלה כולן דוגמאות של תרגומים רשמיים לטקסטים. מאמר של חוקר בשם Chen מהרווארד דיבר על על מקרה בו נמחקו 90,000 משפטים בתרגום דיוני הפרלמנט הקנדי בין אנגלית לצרפתית. צא ולמד, "אם על כזה קורפוס אי אפשר לסמוך" אם אנו חותרים למצב בו נוכל ללמוד מדוגמאות מכל זוג שפות עבורן קיים קורפוס של מסמכים מקבילים- עלינו להיות מסוגלים לעשות זאת גם בלי לדעת כלום על השפות, והשלב הראשון לכך הוא להצליח ליישר משפטים ללא ידיעה דקדוקית של השפות.

מקורות קודמים לקורפוסים מיושרים
ניתן לבצע יישור ידני. איטי, יקר ומועד לטעויות. קיימים מנתחים אוטומטים ליישור קורפוסים וייצור עצי גזירה. איך בעבר ניתן היה להשיג קורפוסים מיושרים. אנחנו נציג אלגוריתם חדשני בתחום.

יישור קורפוסים מהיר ומדויק בקווים כלליים
מתבצע בשלושה שלבים. יישור גס אימון מודל 1 של IBM יישור עדין המסתמך על הקשרים שבין מילים. יישור קורפוסים בפני עצמו מהווה כר נרחב למחקר, מתקיימות בנושא סדנאות ואפילו תחרויות. נציג מחקר משנת 2002 שבוצע ע"י רוברט מור ממח' המחקר של מייקרוסופט. השיטה החדשה מורכבת משלושה שלבים. בעבודה במייקרוסופט הם שיפרו כל אחד מהשלבים. כעת נפרט על כל אחד מהשלבים.

שלב ראשון: ישור גס לפי אורכי משפטים
ההנחה שאם שני משפטים הם מאורך דומה- כך סביר שהם תואמים זה לזה. אלגוריתם תכנות דינאמי: נחשב אורך לכל משפט. הענקת ציון לסיכוי ששני משפטים תואמים. הנחה שאורכי המשפטים מתפלגים נורמאלית. בתור התחלה נגיע לישור גס ע"מ שנקבל נק' אחיזה ראשונית לגבי הקשר בין השפות. אלג' ישור לפי ארכי משפטים הוא מתחילת שנות ה-90'. האלגוריתם הראשון שדיווח על הצלחה ביישור טקסטים מקבילים בזמן קביל. **לצייר מטריצה גדולה, ריבועית על הלוח. עמודות- משפטי שפת-מקור, שורות- משפטי שפת-יעד.** קרוב מאוד לחיפוש ממצה במהלכו מעניקים ציון לכל התאמה לפי אורך המשפטים ואז מחפשים על המטריצה בחירה של זוגות כך שנוצר זיווג של 1:1, כך שההתאמה היא הטובה ביותר. בעיות: לא מתמודד עם בעיות כגון 1:2 וכו'. כן, כאשר מדובר בטקסטים גדולים דרישת הסיבוכיות הריבועית ב-N כבר לא פיזיבילית. במאמר המקורי הציע לקצץ את עץ החיפוש ע"י חלוקה ידנית של הטקסט, למשל לפי פסקאות. קיימות דוגמאות בהן פסקאות עלולות לשנות סדר, וכן אנו יודעים מהמאמר של IBM שלעיתים פסקאות שלמות מושמטות.

דוגמה בטבלה, העמודות מתייחסות למשפטים בשפת המקור והשורות למשפטים בשפת היעד. האלגוריתם יתן ציון לכל התאמה של זוג משפטים ויבחר את ההתאמה שנותנת ציון מקסימלי. 11 10 9 8 7 6 5 4 3 2 1 מקור\יעד 0.5 0.3 0.7 0.2 0.1 0.6 0.4 0.9 0.8 0.0 1.0 האלגוריתם יתן את הציון לפי אורך

שלב ראשון: ישור גס לפי אורכי משפטים
בעיות: לא מתמודד עם יחסים מסובכים יותר מ-1:1. כאשר מדובר בטקסטים גדולים סיבוכיות ריבועית הינה משמעותית. במאמר המקורי הציעו לצמצם את הקלט ע"י חלוקה מלאכותית של הטקסט, למשל לפי פסקאות. צורך לכייל קבועים במודל התפלגות נורמאלית. בעיות: לא מתמודד עם בעיות כגון 1:2 וכו'. כן, כאשר מדובר בטקסטים גדולים דרישת הסיבוכיות הריבועית ב-N כבר לא פיזיבילית.

ישור המתבסס על אורכי משפטים: שיפורים
שימוש באבחנה לפיה רוב הסיכויים שסדר המשפטים לא השתנה יותר מדי. שימוש באלגוריתם ויוריסטיקה לחיפוש באיזור מצומצם, והרחבתו באיטרציות עד לקבלת ציון מספק (פירוט בשקפים הבאים). הבחנה שהתפלגות פואסונית [הסבר?]מתאימה יותר מנורמאלית- ובכך מייתר את כיול הקבועים (תוחלת ושונות). כרגע מרחב החיפוש הצטמצם מ-N^2 לסדר גודל של N. ההנחה שאם ההתאמה הנכונה לא נופלת באלכסון הראשי- התוצאה הסבירה ביותר שהתקבלה דומה להילוך אקראי על המטריצה; זיהוי שגיאות לפי נפילת כניסות במטריצה סמוכות לשוליים ואז הרחבת השוליים והמשך החישוב. משפר את כל המקרים, שכן לא נעשה חישובים מיותרים- המקרה הכי גרוע של השיטה ההיוריסטית הוא המקרה של השיטה המקורית. לפי המאמר, כמו כל היוריסטיקה טובה- אין שום הוכחה לכך שזה עובד טוב מחד ולפי המאמר אין שום דוגמא למקרה שבו זה לא עבד טוב מאידך.

אופן פעולת האלגוריתם: בתחילה האלגוריתם מחפש התאמה באיזור צר מסביב לאלכסון הראשי של המטריצה. זאת בהתבסס על ההנחה שהמשפטים אינם רחוקים זה מזה בשני הטקסטים. 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 מקור\יעד 0.6 0.5 0.7 0.9 0.4 0.0 0.8 0.3 0.1 1.0 0.2

אופן פעולת האלגוריתם: באם אחת ההתאמות קרובה לשולי איזור החיפוש (האלכסון) נרחיב את איזור החיפוש ונחפש בשנית. 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 מקור\יעד 0.6 0.5 0.7 0.9 0.4 0.0 0.8 0.3 0.1 1.0 0.2

אופן פעולת האלגוריתם: נחפש מחדש באיזור המורחב.
באם אף אחת מההתאמות לא קרובה לשוליים נעצור. 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 מקור\יעד 0.6 0.3 0.5 0.4 0.9 0.0 0.7 0.1 1.0 0.8 0.2

מתבצע בשלושה שלבים. יישור גס אימון מודל 1 של IBM יישור עדין המסתמך על הקשרים שבין מילים.

שלב שני: אימון IBM Model 1
בשלב זה ניקח את המשפטים לגביהם אנו בטוחים בהסתברות גבוהה בהתאמה של 1:1. נשתמש במשפטים אלה ע"מ לאמן מודל 1 של IBM. מודל 1 של IBM פורסם כחלק מסדרה של 5 מודלים שנבנים זה על גבי זה. במקור מודל לתרגום מכונה. אצלנו משמש אך ורק כדי לתת מודל הסתברותי לקשר בין מילים בשפות המקור והיעד.

מודל 1 של IBM בקליפת אגוז קלט: אוסף של משפטים מתואמים.
פלט: אוסף של שלשות: מילת מקור, מילת יעד והסתברות שזו מתּרגמת לזו. אלגוריתם איטרטיבי, רץ עד להתכנסות. מודל 1 של IBM לא יודע כלום על השפות מלבד ההנחה קורפוס מתואם. אנחנו נסביר איך עובד האלגוריתם ע"י דוגמא:

דוגמת ריצה- IBM Model I נציג דוגמת ריצה של מודל 1 של IBM שתתבסס על שני משפטים תואמים: "בית כחול" (המתאים ל- “Blue House”) ו-"בית" (המתאים ל-“House”).

דוגמת ריצה- IBM Model I בית. House.
אתחול לפי משפטים: מוסיפים כל אפשרות להתאמה בין המילים בשני המשפטים. נותנים לכל אפשרות סיכוי 1. בית. 1 (House,בית) House. מאתחלים את אוסף הזוגות לפי המשפט הראשון.

דוגמת ריצה- IBM Model I בית כחול. Blue House.
אתחול לפי משפטים: מוסיפים כל אפשרות להתאמה בין המילים בשני המשפטים. נותנים לכל אפשרות סיכוי 1. בית כחול. 1 (House,בית) 1 (House,כחול) 1 (Blue,בית) 1 (Blue,כחול) Blue House. מאתחלים את אוסף הזוגות לפי המשפט השני.

צעד ראשון: סכימה לפי משפטים. בית כחול. בית-House כחול-Blue 1*1=1 1 (House,בית) 1 (House,כחול) 1 (Blue,בית) 1 (Blue,כחול) 1 1 Blue House. סוכמים לפי משפטים: משפט ראשון, אפשרות ראשונה.

צעד ראשון: סכימה לפי משפטים. בית כחול. בית-House כחול-Blue 1*1=1 1 (House,בית) 1 (House,כחול) 1 (Blue,בית) 1 (Blue,כחול) בית-Blue כחול-House 1 1*1=1 1 Blue House. סוכמים לפי משפטים: משפט ראשון, אפשרות שנייה.

צעד ראשון: סכימה לפי משפטים. בית כחול. בית-House כחול-Blue 1*1=1 + 1 (House,בית) 1 (House,כחול) 1 (Blue,בית) 1 (Blue,כחול) בית-Blue כחול-House 1*1=1 Blue House. 1+1=2 סוכמים

צעד ראשון: סכימה לפי משפטים ונרמול. בית כחול. בית-House כחול-Blue ½ = 0.5 1 (House,בית): ½ 1 (House,כחול): ½ 1 (Blue,בית): ½ 1 (Blue,כחול): ½ בית-Blue כחול-House ½ = 0.5 Blue House. מנרמלים

צעד ראשון: סכימה לפי משפטים ונרמול. בית. בית-House 1/1 = 1 1 (House,בית): ½+1 1 (House,כחול): ½ 1 (Blue,בית): ½ 1 (Blue,כחול): ½ House. משפט שני- אפשרות יחידה, סוכמים ומנרמלים באופן טריוויאלי.

דוגמת ריצה- IBM Model I צעד שני: סכימה לפי מילות יעד. House
1 + ½. 1 (House,בית): ½+1 1 (House,כחול): ½ 1 (Blue,בית): ½ 1 (Blue,כחול): ½ + כחול-House ½. 2 צעד שני: סוכמים לפי מילת היעד. קיבלנו House-בית קיבל חצי ממשפט ראשון ואחד ממשפט שני, אפשרות ראשונה ו-Houseכחול קיבל חצי ממשפםט ראשון, אפשרות שנייה.

דוגמת ריצה- IBM Model I צעד שני: סכימה לפי מילות יעד ונרמול House
1.5/2 = ¾ ¾ (House,בית): ¼ (House,כחול): 1 (Blue,בית): ½ 1 (Blue,כחול): ½ כחול-House ½/2 = ¼ ומנרמלים.

דוגמת ריצה- IBM Model I צעד שני: סכימה לפי מילות יעד ונרמול Blue
½/1 = ½ ¾ (House,בית): ¼ (House,כחול): ½ (Blue,בית): ½ (Blue,כחול): כחול-Blue ½/1 = ½ ½ + ½ =1 כל אפשרות קיבלה חצי מכל אפשרות למשפט ראשון. סוכמים ל-1 ומנרמלים.

וחזרה לצעד ראשון: סכימה לפי משפטים. בית כחול. בית-House כחול-Blue ½ * ¾ = 3/8 ¾ (House,בית): ¼ (House,כחול): ½ (Blue,בית): ½ (Blue,כחול): Blue House. חוזרים לצעד ראשון: שוב בודקים כל אשפרות.

וחזרה לצעד ראשון: סכימה לפי משפטים. בית כחול. בית-House כחול-Blue ½ * ¾ = 3/8 ¾ (House,בית): ¼ (House,כחול): ½ (Blue,בית): ½ (Blue,כחול): בית-Blue כחול-House ½* ¼ = 1/8 Blue House. חוזרים לצעד ראשון: שוב בודקים כל אפשרות.

וחזרה לצעד ראשון: סכימה לפי משפטים. בית כחול. בית-House כחול-Blue ½ * ¾ = 3/8 + ¾ (House,בית): ¼ (House,כחול): ½ (Blue,בית): ½ (Blue,כחול): בית-Blue כחול-House ½* ¼ = 1/8 Blue House. 3/8 + 1/8 = ½. סוכמים

וחזרה לצעד ראשון: סכימה לפי משפטים ונרמול. בית כחול. בית-House כחול-Blue 3/8 / ½ = ¾ ¾ (House,בית): ¾ ¼ (House,כחול): ¼ ½ (Blue,בית): ¼ ½ (Blue,כחול): ¾ בית-Blue כחול-House 1/8 / ½ = ¼ Blue House. 3/8 + 1/8 = ½.

צעד ראשון: סכימה לפי משפטים ונרמול. בית. בית-House ¾ / ¾ = 1 ¾ (House,בית):¾+1 ¼ (House,כחול): ¼ ½ (Blue,בית): ¼ ½ (Blue,כחול): ¾ House. משפט שני שוב באופן טריוויאלי.

דוגמת ריצה- IBM Model I בחזרה לצעד שני: סכימה לפי מילות יעד. House
¾+1. ¾ (House,בית):¾+1 ¼ (House,כחול): ¼ ½ (Blue,בית): ¼ ½ (Blue,כחול): ¾ + כחול-House ¼. 2 שוב סכימה לפי מילת יעד.

דוגמת ריצה- IBM Model I בחזרה לצעד שני: סכימה לפי מילות יעד ונרמול.
House בית-House 1.75/2 = 7/8 7/8 (House,בית): 1/8 (House,כחול): ½ (Blue,בית): ¼ ½ (Blue,כחול): ¾ כחול-House ¼ / 2 = 1/8 שוב נרמול.

דוגמת ריצה- IBM Model I בחזרה לצעד שני: סכימה לפי מילות יעד ונרמול.
Blue בית-Blue ¼/1 = ¼ 7/8 (House,בית): 1/8 (House,כחול): ¼ (Blue,בית): ¾ (Blue,כחול): כחול-Blue ¾/1 = ¾ ¼ + ¾ =1 שוב נרמול. סיימנו איטרציה שנייה. ניתן עכשיו איטרציה נוספת: אפשר לראות שהאפשרויות מתכנסות. במאמר מוכיחים שהאפשרויות מתכנסות. אפשר להגדיר חסמים על הסתבוריות סבירות כדי להחליט מתי לעצור.

וחזרה לצעד ראשון: סכימה לפי משפטים. בית כחול. בית-House כחול-Blue ¾ * 7/8 = 0.65 7/8 (House,בית): 1/8 (House,כחול): ¼ (Blue,בית): ¾ (Blue,כחול): 7/8 Blue House. חוזרים לצעד ראשון: שוב בודקים כל אשפרות.

וחזרה לצעד ראשון: סכימה לפי משפטים. בית כחול. בית-House כחול-Blue ¾ * 7/8 = 0.65 7/8 (House,בית): 1/8 (House,כחול): ¼ (Blue,בית): ¾ (Blue,כחול): בית-Blue כחול-House 1/8 ¼ * 1/8 = 0.03 Blue House. חוזרים לצעד ראשון: שוב בודקים כל אפשרות.

וחזרה לצעד ראשון: סכימה לפי משפטים. בית כחול. בית-House כחול-Blue ¾ * 7/8 = 0.65 + ¾ (House,בית): ¼ (House,כחול): ½ (Blue,בית): ½ (Blue,כחול): בית-Blue כחול-House ¼ * 1/8 = 0.03 Blue House. = 0.68 סוכמים

וחזרה לצעד ראשון: סכימה לפי משפטים ונרמול. בית כחול. בית-House כחול-Blue ¾ * 7/8 = 0.95 ¾ (House,בית): 0.95 ¼ (House,כחול): 0.04 ½ (Blue,בית): 0.04 ½ (Blue,כחול): 0.95 בית-Blue כחול-House 0.03/0.68=0.04 Blue House. = 0.68

צעד ראשון: סכימה לפי משפטים ונרמול. בית. בית-House ¾ / ¾ = 1 ¾ (House,בית):0.95+1 ¼ (House,כחול): 0.04 ½ (Blue,בית): 0.04 ½ (Blue,כחול): 0.95 House. משפט שני שוב באופן טריוויאלי.

דוגמת ריצה- IBM Model I בחזרה לצעד שני: סכימה לפי מילות יעד. House
0.95+1=1.95 ¾ (House,בית):0.95+1 ¼ (House,כחול): 0.04 ½ (Blue,בית): 0.04 ½ (Blue,כחול): 0.95 + כחול-House 0.04. ~2 שוב סכימה לפי מילת יעד.

דוגמת ריצה- IBM Model I צעד שני: סכימה לפי מילות יעד ונרמול House
1.95/2 = 0.97 0.97 (House,בית): 0.02 (House,כחול): ½ (Blue,בית): 0.04 ½ (Blue,כחול): 0.95 כחול-House 0.04/2= 0.02 ומנרמלים.

דוגמת ריצה- IBM Model I צעד שני: סכימה לפי מילות יעד ונרמול Blue
0.04/0.99=0.04 0.97 (House,בית): 0.02 (House,כחול): 0.04 (Blue,בית): 0.04 0.96 (Blue,כחול): 0.95 כחול-Blue 0.95/0.99=0.96 =0.99 כל אפשרות קיבלה חצי מכל אפשרות למשפט ראשון. סוכמים ל-1 ומנרמלים.

סיכום דוגמת ריצה 0.97 (House,בית)
0.04 (Blue,בית) 0.96 (Blue,כחול) אפשר לראות שבשלוש איטרציות התכנסנו לכדי סביר ולא סביר. במאמר הוכח שהשיטה מתכנסת.

שיפור שהוכנס במודל 1 להשליך זוגות מילת יעד-מילת מקור שסבירות התרגום שלהן נמוכה מהסתברות אחידה. ניתן להשליך מילים אלה שכן, ראשית, ההסתברות שהמידע מזוגות אלה רלוונטי אומנם נמוכה מאוד. בפרט, זוגות אלה אינם משמעותיים לעבודה שאנו עושים במודל לאחר מכן. דווח על צמצום של כ-90% בנפח המידע מבלי פגיעה משמעותיות בתוצאות. המרחב של ההסתברות האחידה הוא כל התרגומים האפשריים למילת המקור. (זה גם האתחול.) לגבי הנקודה הראשונה: בדוגמא שלנו ההסתברות של כחול-Building הפכה לסבירה פחות מהסתברות אחידה כבר אחרי האיטרציה הראשונה.

מתבצע בשלושה שלבים. יישור גס אימון מודל 1 של IBM יישור עדין המסתמך על הקשרים שבין מילים. סוג של להחזיר לקונטקסט שאנחנו עדיין במודל תלת שלבי ליישור טקסטים מקבילים ע"מ לייצר קורפוס מקביל מיושר שנוכל ללמוד ממנו. זה השקף שכבר היה ב 59 מיותר? לומר: בשלב הבא מתבצע יישור עדין המסתמך על הקשרים בין המילים. *להתקדם שקף*.

שלב 3: יישור המתבסס על קשרים בין המילים
אלגוריתם שהוצע בשנת 1993 ע"י Stanley F. Chen. אלגוריתם מדויק ויקר מבחינת זמן חישוב ומשאבים. מסתמך על אוסף של שלשות: מילת מקור, מילת יעד והסתברות שהאחרונה מהווה תרגום של הראשונה. מביע את ההסתברות שמשפט מקור כלשהו ממופה למשפט יעד בהסתמך על הקשר הסטטיסטי בין תרגומי המילים בכ"א מהמשפטים. מדובר באלגוריתם ותיק אף הוא. האלגוריתם מדוייק מאוד. האלגוריתם דורש ידע מוקדם על הקורפוס ומודל הסתברותי של התפלגות מילים מן השפה בטקסט. לא רוצה להלאות אתכם. בגדול, שוב נמלא טבלא שמצביעה על הסתברות המיפוי בין שני משפטים. הפעם הערכים בטבלא לא יתבססו רק על אורך המשפטים אלא ממש על בדיקה של כל זוג מילים- מילה במשפט היעד ומילה במשפט המקור- בחיפוש אחר התאמה טובה ביותר.

שלב 3: יישור המתבסס על קשרים בין המילים
אלגוריתם מדוייק: יודע להתמודד עם מצב של 1:2 או 0:1. מסתמך על הקשרים בין מילים ולא רק על אורכיהם. ויקר: דורש ידע מוקדם על השפה. זמן ריצה ארוך מאוד. יודע להתמודד עם 1:2 או 0:1 – שלא כמו האלגוריתם שרק מתבסס על אורך המשפטים. במאמר המקורי, חן עצמו הודה שזמן הריצה שלו איטי פי כמה עשרות מהאלגוריתם הגס ליישור טקסטים לפי האורך שלהם. הוא ניסה להציג זאת כסביר לפי הטענה שיישור טקסטים זו פעולה שאמורה להתרחש לעתים רחוקות.

שלב 3: יישור המתבסס על קשרים בין המילים- שיפורים
בעיות באלגוריתם המקורי דורש ידע מוקדם על השפה. זמן ריצה ארוך מאוד. שיפורים לאלגוריתם: ידע מוקדם מושג ממודל 1 של IBM. הגבלת מרחב החיפוש לפי המשפטים שנקבעו כסבירים בשלב הראשון. דווח על שיפור משמעותי בזמן הריצה. במאמר מ-2002 הגבילו את מרחב החיפוש של האלגוריתם הממצה הזה על סמך המידע שהושג ממודל 1 של IBM. דיווחו ששלב זה לקח משמעותית פחות זמן מהשלב הראשון לאחר ההגבלה.

סיכום יישור קורפוסים מהיר ומדוייק
המאמר הצליח להתבסס על שלושה מודלים קיימים, לשפר כל אחד מהם ולהגיע לתוצאות משמעותיות. נציין שמדובר בשלב מקדים לשלב המקדים של תרגום מכונה. קורפוסים מקבילים שתורגמו ידנית קורפוסים מקבילים מיושרים כללי העברה תרגום מכונה

Stat Xfer סיכום מערכת תרגום מכונה מבוססת העברה.
מסוגלת לפעול בתסריט של היצע קורפוסים מקבילים דל. באמצעות שימוש במומחים דו לשוניים שיכניסו כללי העברה. מסוגל לפעול בתסריט של היצע קורפוסים מקבילים רחב. באמצעות גזירת כללי העברה אוטומטיים. יודעת להתמודד עם אי בהירויות. משלבת תרגום בשיטת העברה עם מודל סטטיסטי של השפה באם קיים.

Stat Xfer: דוגמת תרגום מקור:
עכשיו נאלץ גם פואד סיניורה, ראש-הממשלה אשר מונה על-ידי האמריקאים, להכריז שלבנון תהיה המדינה הערבית האחרונה שתעשה שלום עם ישראל.

Stat Xfer: דוגמת תרגום פלט מנוע ההעברה:
(0 0 "now" "&K$IW" "(ADV,1 'now')") (0 0 "currently" "&K$IW" "(ADV,0 'currently')") (0 0 "nowadays" "&K$IW" "(ADV,3 'nowadays')") … (0 0 "nowadays" "&K$IW " "(ADVP,0 (ADV,3 'nowadays') ) ") (0 0 "presently" "&K$IW " "(ADVP,0 (ADV,4 'presently') ) ") (0 0 "now then" "&K$IW " "(ADVP,0 (ADV,2 'now then') ) ") (1 1 "forced" "NALC" "(V,0 'forced')") (28 30 "which" "$" "(SUBORD,1 'which')") (28 30 "whom" "$" "(SUBORD,3 'whom')") (28 32 "that industrialized health" "$ TI&$ $LWM " "(S,40 (SUBORD,0 'that') (28 32 "that industrialized peace" "$ TI&$ $LWM " "(S,40 (SUBORD,0 'that') ניתן לראות את כל התרגומים האפשרים למילים וחלקי משפטים ואת הציון שהמכונה נתנה להם

Stat Xfer: דוגמת תרגום תרגום סופי:
Now force also PWAD SINIWRH , leaders - the government that is on - hands OF Americans , said that Lebanon is the last Arab state that will make peace with Israel . Overall: , Prob: , Rules: -10, RuleSGT: 0, RuleTGS: 0, TransSGT: 0, TransTGS: 0, Frag: , Length: , Words: 33,33 SGT 0 TGS 0 ( 0 1 "now" "&K$IW" "(ADV,1 'now')") ( 1 2 "force" "AILC" "(V,2 'force')") ( 2 3 "also" "GM" "(CONJ,0 'also')") ( 3 4 "PWAD" "PWAD" "(UNK,0 'PWAD')") ... ( "-" "-" "(UNK,3 '-')") ( "hands OF Americans" "ID AMRIQNI " "(NNP,1 (NP0,0 (N,54 'hands') ) (LITERAL 'OF') (NP,0 (NP2,0 (NP1,0 (NP0,0 (N,69 'Americans') ) ) ) ) ) ") … ( "the last Arab state" "H MDINH H &RBI H AXRWN " “ רצוי היה להתייחס בהערות להבהרת הכתוב בשקף. או חלק ממנו. המספרים והפעולות שנעשו.

מצב המערכת המערכת הוצגה ב-2008.
במאמר הוצגה רק מכונת תרגום עברית-אנגלית. לאחר מכן פותחו עוד מס' מכונות על בסיס המערכת: Urdu-English Chinese-English French-English German-English Hindi-English ב-2010 המערכת שימשה את רשף שילון לבניית מ"ת עברית-ערבית. אורדו – השפה המדוברת בפקיסטאן, שילוב של פרסית עם הינדי

דוגמאת תרגום עברית-ערבית
מקור: מכוניתהּ של המנהלת גדולה. פלט המכונה: syArh Almdyrh kbyrh (מכונית המנהלת גדולה) פלט גוגל: ألف الرئيسي للسيارات Alf AlrAysy llsyArAt The cars thousand main והמסקנה? התוספת הקולית (?) משותקת

שאלות?

מקורות Stat-XFER: A General Search-based Syntax-driven Framework for MT CICLing 2008, Lavie, Alon et al. Syntax-driven Learning of Sub-sentential Translation Equivalents and Translation Rules from Parsed Parallel Corpora, in Proceedings of the 2nd ACL Workshop on Syntax and Structure in Statistical Translation, 2008, Lavie, Alon et al. Fast and Accurate Sentence Alignment of Bilingual Corpora, in Stephen D. Richardson (ed), MT: from Research to Real Users, 2002, Robert C. Moore Aligning Sentences in Bilingual Corpora Using Lexical Information, 1993, Stanley F. Chen Machine translation: Word-based models and the EM algorithm, 2007, Chris Callison-Burch The Mathematics of Statistical Machine Translation: Parameter Estimation, 1993, Peter F. Brown et al.

שלום וברכה.

Stat-Xfer מציגים: יוגב וקנין ועומר טבח, 05/01/2012

Similar presentations

Presentation on theme: "Stat-Xfer מציגים: יוגב וקנין ועומר טבח, 05/01/2012"— Presentation transcript:

Similar presentations

About project

Feedback

Log in

Auth with social network:

Stat-Xfer מציגים: יוגב וקנין ועומר טבח, 05/01/2012

Similar presentations

Presentation on theme: "Stat-Xfer מציגים: יוגב וקנין ועומר טבח, 05/01/2012"— Presentation transcript:

Similar presentations

About project

Feedback