Presentation is loading. Please wait.

Presentation is loading. Please wait.

Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant.

Similar presentations


Presentation on theme: "Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant."— Presentation transcript:

1 Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

2 הקדמה בעיית בניית העצים הפילוגנטיים היא בעיה ידועה בביולוגיה החישובית, אשר מטרתה לשחזר את היסטורית ההתפתחות של קבוצת זנים נתונה. חסרון משמעותי של השיטות לפיתרון הבעיה הוא שהן מנסות ליצור עץ בינארי שלם גם כאשר המידע שנתון הוא רנדומאלי לחלוטין. בעוד שלכאורה עץ בינארי שלם נראה יותר אינפורמטיבי, במציאות הרבה מהקשתות הפנימיות הן קשתות מלאכותיות אשר מקורן בשיטה עצמה ולא במידע שנתון לנו. מספר מחקרים אשר בחנו שיטות מבוססות מרחק הציעו עצי אבולוציה שבהם הקשתות הפנימיות מוגבלות תחת תנאים קומבינטוריים מסוימים. אחת השיטות הללו היא השיטה אשר אותה הציע בונמן (Buneman), ואותה נציג כעת.

3 עץ פילוגנטי חסר שורש עץ פילוגנטי חסר שורש = גרף קשיר ואציקלי ( חסר מעגלים ), אשר דרגות כל הצמתים הפנימיים שלו שוות לשלוש. לכל העלים מזהים שונים, שנקבעים מתוך קבוצת מזהים אשר נתונה לנו. דוגמא :

4 עץ פילוגנטי בעל שורש עץ פילוגנטי בעל שורש מוגדר באופן דומה לעץ חסר שורש, מלבד העובדה שישנו צומת פנימי שמוגדר כשורש ודרגתו היא שתיים ( בניגוד לשאר הצמתים הפנימיים שדרגתם היא שלוש ). דוגמא : ניתן להפוך עץ חסר שורש לעץ בעל שורש ע " י קביעת עלה, הפיכת הצומת הפנימי שצמוד לו לשורש וסילוקו של העלה הנ " ל.

5 Splits + Clusters Split של קבוצה סופית כלשהי הוא חלוקה של הקבוצה לשתי תת קבוצות זרות ומשלימות. Split המקושר לקשת e (split associated with e) הוא ה -Split הנוצר ע " י סילוק הקשת e מהגרף. Cluster הוא תת קבוצה של קבוצה סופית. Splits(T) הוא אוסף כל הٍ Split-- ים המקושרים לקשתות בעץ T. קבוצת Split- ים היא Compatible אם היא תת קבוצה של Splits(T). Split הוא חלוקה לשני Cluster- ים. אם נקבע עלה x אשר שייך לקבוצה B, אזי ה -Cluster המתייחס ל - Split A|B הוא הקבוצה A.

6 דוגמא ל-Split + Cluster עץ T: Split U|V המקושר לקשת e: Cluster V:

7 Splits + Clusters נאמר שה -Cluster A מכסה את ה -Cluster B, אם A הוא ה - Cluster הקטן ביותר שמכיל את B ושונה ממנו. סילוק קשת e מעץ בעל שורש יוצר חלוקה של העץ ל - 2 חלקים. אוסף העלים בחלק, אשר אינו כולל את השורש, נקרא ה -Cluster אשר מתייחס ל -v, כאשר v הוא קצה הקשת e המרוחק יותר מהשורש. בהינתן אוסף כלשהו של clusters: C של קבוצת זנים X, ותת קבוצה, נגדיר את הסגור של Y:

8 Quartets לכל קבוצה של 4 זנים, ישנן 3 אפשרויות לחלק אותן לזוגות. כל אפשרות כזאת נקרא Quartet. למשל עבור זנים a,b,c,d, האפשרויות הן : הסימון של ה -Quartet ( למשל ad|bc) מציין כיצד הצומת האמצעי מחלק אותו. עץ T מכלי את ה -quartet ab|cd אם המסלול מ -a ל -b לא נחתך עם המסלול מ -c ל -d.

9 Quartets (המשך) q(T) מוגדר להיות קבוצת כל ה -quartet- ים ב -T. קבוצת ה -Quartet- ים אשר מתייחסים ל -Split A|B מוגדרת כך : מכאן נובע :

10 Buneman Score מוגדר כך: כאשר xy זה המרחק מ-x ל-y לכל. Buneman Score ל- q=wx|yzכאשר Buneman Index ל-split U|V של X מוגדר כך: בונמן הראה כיהינו compatible. נגדיר עץ Buneman כעץ המכיל את הקשתות המוגדרות ע"י ה-Split-ים ב- B(d) עם המשקלים המוגדרים ע"י.

11 Bunemanדוגמא לעץ נשים לב שאלגוריתם Buneman לא סיווג את הזנים Dog, Rabbit, Rodent ו- Kanga לקבוצות שמכילות יותר מזן אחד. ניתן להבחין בחלוקות ל- Split-ים היוצרות קבוצות של זנים בעלי מכנה משותף. למשל: פרימטים: Human, Ape, monkey. מפרישי פרסה: Cow, Sheep, Pig, Horse.

12 עץ Buneman מעוגן הקלת התנאייכולה להתבצע ע"י בדיקת quartet-ים המכילים עלה מסוים. מסוים ולכל split U|V עםנגדיר: נגדיר קבוצת Split-ים: קבוצת ה-Split-יםהיא compatible. נגדיר עץ Buneman מעוגן כעץ המכיל את הקשתות המוגדרות ע"י ה-Split-ים ב- עם המשקלים המוגדרים ע"י. נבחר

13 עץ Buneman מעוגן (המשך) ברור כי לכל Split U|V מתקיים תזכורת:. מכאן נובע כי. כלומר: כך ניתן לבנות עץ Buneman ע"י Anchored Buneman tree (עץ אחד לכל ).

14 Buneman tree algorithm עפ " י הגדרתו של עץ בונמן, ניתן היה לשער שחישובו של העץ ייקח זמן, כיוון שיש לחשב את עבור כל Quartet אולם, ניתן לחשב את עץ בונמן בעזרת אלגוריתם, שנציג בעוד זמן קצר, אשר עובד בסיבוכיות בלבד. יעילות זו מושגת ע"י המרה של הבעיה, מבעיה שמערבת עצים חסרי שורש ומדד מרחק (dissimilarity measure), לבעיה שכוללת עצים בעלי שורש ומדד דמיון (similarity measure). מדד דמיון s על קבוצה סופית של זנים X, זוהי פונקציה סימטרית על X*X. פונקציה זו מקבלת שני זנים מתוך הקבוצה X, למשל ומחזירה את מידת הדמיון בין שניהם. ככל שהערך של s(a,b) גדול יותר, כך גדל הדמיון בין שני הזנים ← הזנים קרובים יותר זה לזה.

15 Strong isolation index & Strong Clusters Strong isolation index = עבור cluster, מוגדר באופן הבא: אשר שקול ל: Strong clusters מוגדרת כקבוצת כל ה-cluster-ים עבורם האינדקס שהגדרנו לעיל חיובי. כלומר: באופן אינטואיטיבי, הגדרת קבוצה זו, פירושה שכל הזנים שדומים מאוד זה לזה נמצאים יחד באותו ה-cluster.

16 Farris transform מטרתנו היא להפוך עץ חסר שורש לעץ בעל שורש, וכמו כן להפוך את פונקצית המרחקים (מדד מרחק) לפונקצית דמיון (מדד דמיון). לשם כך נשתמש ב-טרנספורמציית פאריס (Farris transform), אשר מוגדרת כך: כאשר x נקבע להיות שורש העץ. a,b הם עלים בעץ. הפונקציה d היא הפונקציה שנתונה לנו. ו- היא פונקצית הדמיון בה אנו מעוניינים, והיא מוגדרת על כל העלים מלבד x שבו בחרנו להיות השורש. הטרנספורמציה ההפוכה מוגדרת כך: טרנספורמציה זו הופכת פונקצית דמיון לפונקצית מרחקים. היא מוגדרת עבור כל העלים מלבד השורש x, ומתקיים: וגם

17 הקשר בין Strong clusters לעץ בונמן הקשר בין עץ בונמן לבין Strong clusters מובא בלמה הבאה: למה: אם d היא פונקצית מרחק על קבוצת הזנים X עם טרנספורמציית פאריס וגם U|V הוא split של X כאשר, אזי מתקיים: כאשר x הוא השורש שנוצר לאחר טרנספורמציית פאריס. מסקנה: Strong clustres מתייחסים ל-split-ים בעץ בונמן מעוגן. השאלה שנשאלת כעת היא באיזו סיבוכיות זמן ניתן למצוא את ה-Strong clusters.

18 Strong Clusters אלגוריתם למציאת המטרה שלנו היא להוריד את ה-cluster-ים עם isolation index שלילי או אפס. נגדיר את C להיות אוסף ה-cluster-ים המוחזרים ע"י האלגוריתם single linkage. לכל ולכל נגדיר: נשים לב כיהוא ה-cluster המקושר לאב הקדמון המשותף ל-x ו-x’ הקרוב ביותר ל-x (גם ל-x’). היות וכל זוג עלים x ו-x’ נותנים cluster אחד בדיוק, נוכל למצוא את ערכי m ו-M לכל העלים בזמן.

19 - טענהStrong clusters טענה אם A הוא cluster ב-C ו-B הוא strong cluster שמכסה את A, אז: הוכחה B הוא strong cluster, לכן יש לו isolation index חיובי, כלומר s(a,y)>s(a,x) וגם s(a,a’) - s(a,y) < s(a,a’) - s(a,x) לכל ולכל. לכן:

20 אלגוריתם Buneman Tree

21 אלגוריתם Strong Clusters

22 אלגוריתם Single Linkage

23 דוגמת הרצה עבור אלגוריתם Buneman נתון: פונקצית מרחקים עבור 5 זנים A,B,C,D,E: ABCDE A05476 B507109 C47076 D7 705 E69650 המטרה: לבנות עץ Buneman עבור פונקצית המרחקים הנ"ל.

24 תוצאת ריצת האלגוריתם


Download ppt "Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant."

Similar presentations


Ads by Google