Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant.

Slides:



Advertisements
Similar presentations
Completeness and Expressiveness. תזכורת למערכת ההוכחה של לוגיקה מסדר ראשון : אקסיומות 1. ) ) (( 2. )) ) (( )) ( ) ((( 3. ))) F( F( ( 4. ) v) ( ) v ((
Advertisements

1 Colorful XML: One Hierarchy Isn't Enough Authors : H. V. Jagadish, Laks V. S. Lakshmanan, Monica Scannapieco, Divesh Srivastava, Nuwee Wiwatwattana Presented.
1 Formal Specifications for Complex Systems (236368) Tutorial #4 Refinement in Z: data refinement; operations refinement; their combinations.
1 Trees CLRS: chapter A hierarchical combinatorial structure הגדרה רקורסיבית: 1. צומת בודד. זהו גם שורש העץ. 2. אם n הוא צומת ו T 1 ….T K הינם עצים,
Number Theory and Algebra Advisor …………… Dr. Shpilka Amir Presented by …… Cohen Gil..………
Presentation by Dudu Yanay and Elior Malul 1.  מה משותף לכל אלגוריתם המשתמש ב -Bucket Elimination: ◦ נתון מודל הסתברותי ורשת ביסיאנית מתאימה. ◦ נתונה.
Recitation #9. Q1 גרף מכוון מורכב מקבוצה של צמתים (nodes) ומקשתות מכוונות (arcs) המחברות ביניהם. כל קשת מכוונת יוצאת מצומת אחד ונכנסת לצומת אחר. ( בגרפים.
מתמטיקה בדידה תרגול 3.
רקורסיות נושאי השיעור פתרון משוואות רקורסיביות שיטת ההצבה
עצים ועצי חיפוש חומר קריאה לשיעור זה Chapter 5.5– Trees (91 – 97)
דקדוקים חסרי הקשר Word categories (part of speech): NNountable, dogs, justice, oil VVerbrun, climb, love, ignore ADJAdjective green, fast, angry ADVAdverbsquickly,
Inverse kinematics (Craig ch.4) ב"ה. Pieper’s solution נתבונן ברובוט עם 6 מפרקי סיבוב כאשר שלושת הצירים של המפרקים האחרונים נחתכים. נקודת החיתוך נתונה.
חורף - תשס " ג DBMS, Design1 שימור תלויות אינטואיציה : כל תלות פונקציונלית שהתקיימה בסכמה המקורית מתקיימת גם בסכמה המפורקת. מטרה : כאשר מעדכנים.
R. Bar-Yehuda © 1 קומבינטוריקה למדעי - המחשב – הרצאה #14 Graph theory – תורת הגרפים Chapter 1: PATHS IN GRAPHS – 1. מסלולים.
עבודה סמינריונית Prelude to Ukkonen algorithm ON-LINE CONSTRUCTION OF SUFFIX TREES מגישים : עיד מוחמד טיבי פיראס.
אוטומט מחסנית הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 11.
חורף - תשס " ג DBMS, צורות נורמליות 1 צורה נורמלית שלישית - 3NF הגדרה : תהי R סכמה רלציונית ותהי F קבוצת תלויות פונקציונליות מעל R. R היא ב -3NF.
היום נדבר אל נושא אחד בתורת הגרפים. ובהמשך נשתמש בכלים אלו לפתרון כמה בעיות גאומטריות ובפרט להוכחת Szemeredi Trotter theorem.
1 Trees CLRS: chapter A hierarchical combinatorial structure הגדרה רקורסיבית: 1. צומת בודד. זהו גם שורש העץ. 2. אם n הוא צומת ו T 1 ….T K הינם עצים,
2 Suffix Tree: Definition Suffix tree T על מחרוזת S שגודלה n, הוא עץ מכוון עם בדיוק n עלים ממוספרים מ -1 עד n. לכל צומת פנימית ( חוץ מהשורש ) יש לפחות.
משפט ההרכבה Composition Theorem תהי C מחלקה של פונקציות בוליניות תהי נגדיר סדרת פונקציות שניתנות לחישוב בזמן פולינומיאלי.
בהסתברות לפחות למצא בעיה במודל PAC עבור בהסתברות ε הפונקציה f טועה מודל ONLINE 1. אחרי כל טעות הפונקציה משתפרת 2. מספר הטעיות קטן.
מסדי נתונים תשס " ג 1 תכנון סכמות – אלגוריתם פירוק לתבניות בצורת BCNF מסדי נתונים.
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
צביעת גרפים: הגדרה: G=(V,E) גרף בלתי מכוון. צביעת G ב-K צבעים 1
תורת הקבוצות חלק ב'. קבוצה בת מניה הגדרה: קבוצה אינסופית X היא ניתנת למניה אם יש התאמה חד-חד ערכית בין X לבין .
תכנות תרגול 6 שבוע : תרגיל שורש של מספר מחושב לפי הסדרה הבאה : root 0 = 1 root n = root n-1 + a / root n-1 2 כאשר האיבר ה n של הסדרה הוא קירוב.
1 Formal Specifications for Complex Systems (236368) Tutorial #1 Course site : T.A. :Emilia Katz.
ערמות ; מבני נתונים 09 מבוסס על מצגות של ליאור שפירא, חיים קפלן, דני פלדמן וחברים.
תחשיב הפסוקים חלק ג'. צורות נורמליות א. DF – Disjunctive Form – סכום של מכפלות. דוגמא: (P  ~Q  R)  (R  P)  (R  ~Q  ~P) הגדרה: נוסחה השקולה לנוסחה.
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
תרגול 7 עצי B
2-3 trees עצי 3-2 ועצי דרגות Chapter 19: B trees (381 – 397) Chapter 15: Augmenting data structures (281 – 290) חומר קריאה לשיעור זה Lecture5 of Geiger.
שאלה 1 נתון כביש ישר עם תחנות דלק בנקודות , בנקודת המוצא נתונה מכונית עם תא דלק שמספיק ל-100 ק"מ. מחיר מילוי תא הדלק בתחנה.
הפקולטה למדעי המחשב אוטומטים ושפות פורמליות (236353)
The Cyclic Multi-peg Tower of Hanoi מעגלי חד-כווני סבוכיות הפתרון בגרסאות עם יותר מ-3 עמודים.
Ray 7 דוגמא אלגוריתם 1.קבל דוגמאות 2. פלט f a עבור הדוגמה a המינימלית החיובית ?
תזכורת : אלגברה ליניארית מסקנה קלט : וקטורים פלט : האם u תלוי ליניארית ב קלט : מערכת של n משואות לינאריות ב -m נעלמים. פלט : פתרון, או שאין כזה. אלגוריתם.
עצים מאוזנים הגדרה: משפחת עצים תקרא מאוזנת אם ,h(T) = O(log n) באשר T הוא עץ במשפחה, n הוא מספר הצמתים ב-T ו-h(T) הוא הגובה של T עצי (Adelson-Velsky,
מודל הלמידה מדוגמאות Learning from Examples קלט: אוסף של דוגמאות פלט: קונסיסטנטי עם פונקציה f ב- C ז"א קונסיסטנטי עם S ז"א מודל הלמידה מדוגמאות Learning.
עקרון ההכלה וההדחה.
יחס סדר חלקי.
תחשיב היחסים (הפרדיקטים)
Data Structures, CS, TAU, RB-Tree 1 עץ אדום-שחור - עץ חיפוש בינארי - בכל צומת ביט אינפורמציה נוסף - צבע « עץ “ כמעט מאוזן ” « (O(log n במקרה גרוע ביותר.
Markov Decision Processes (MDP) תומר באום Based on ch. 14 in “Probabilistic Robotics” By Thrun et al. ב"הב"ה.
מודל הלמידה מדוגמאות Learning from Examples קלט: אוסף של דוגמאות פלט: קונסיסטנטי עם פונקציה f ב- C ז"א קונסיסטנטי עם S ז"א.
עצים בינאריים - תזכורת דרגת צומת שורש עלה צומת פנימי מרחק בין 2 צמתים
מתמטיקה בדידה תרגול 2.
DTD Inference for Views of XML Data Yannis Papakonstantinou and Victor Vianu U.C. San Diego Given by Irit Gefner
1 מבוא למדעי המחשב סיבוכיות. 2 סיבוכיות - מוטיבציה סידרת פיבונאצ'י: long fibonacci (int n) { if (n == 1 || n == 2) return 1; else return (fibonacci(n-1)
מבנה מחשבים תרגול מספר 3. טענה על עצים משפט: בעץ שדרגת כל קודקודיו חסומה ב-3, מספר העלים ≤ מספר הקודקודים הפנימיים + 2. הוכחה: באינדוקציה על n, מספר הקודקודים.
Lecture 13 Maximal Accurate Forests From Distance Matrix.
1 מבוא למדעי המחשב backtracking. 2 מוטיבציה בעיית n המלכות: נתון: לוח שחמט בגודל. המטרה: לסדר על הלוח n מלכות כך שאף אחת לא תאיים על השנייה. דוגמא: עבור.
תרגול 4 21/3/2007 מבני נתונים 07b ליאור שפירא. תזכורת – B-trees  לכל צומת x יש השדות הבאים n[x] מס ' מפתחות ב -x המפתחות עצמם בסדר לא יורד כל צומת פנימי.
1 גילוי מידע וזיהוי תבניות תרגול מס. 3 התפלגות נורמלית רב - מימדית Kullback-Leibler Divergence - משפט קמירות - נגזרת שנייה משפט Log sum inequality משפט.
פיתוח מערכות מידע Class diagrams Aggregation, Composition and Generalization.
Data Structures Hanoch Levi and Uri Zwick March 2011 Lecture 3 Dynamic Sets / Dictionaries Binary Search Trees.
1 Formal Specifications for Complex Systems (236368) Tutorial #1 Course site:
Tirgul 12 Trees 1.
Formal Specifications for Complex Systems (236368) Tutorial #1
מבוא למדעי המחשב סיבוכיות.
אינדקסינג והשינג (indexing & hashing)
תירגול 14: מבני נתונים דינאמיים
הפקולטה למדעי המחשב אוטומטים ושפות פורמליות (236353)
הרצאה 07 עצים קרן כליף.
מבני נתונים עצים קרן כליף.
פרוקטוז, C6H12O6 , חד-סוכר מיוחד
Marina Kogan Sadetsky –
תרגול 11 NP complete.
Presentation transcript:

Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

הקדמה בעיית בניית העצים הפילוגנטיים היא בעיה ידועה בביולוגיה החישובית, אשר מטרתה לשחזר את היסטורית ההתפתחות של קבוצת זנים נתונה. חסרון משמעותי של השיטות לפיתרון הבעיה הוא שהן מנסות ליצור עץ בינארי שלם גם כאשר המידע שנתון הוא רנדומאלי לחלוטין. בעוד שלכאורה עץ בינארי שלם נראה יותר אינפורמטיבי, במציאות הרבה מהקשתות הפנימיות הן קשתות מלאכותיות אשר מקורן בשיטה עצמה ולא במידע שנתון לנו. מספר מחקרים אשר בחנו שיטות מבוססות מרחק הציעו עצי אבולוציה שבהם הקשתות הפנימיות מוגבלות תחת תנאים קומבינטוריים מסוימים. אחת השיטות הללו היא השיטה אשר אותה הציע בונמן (Buneman), ואותה נציג כעת.

עץ פילוגנטי חסר שורש עץ פילוגנטי חסר שורש = גרף קשיר ואציקלי ( חסר מעגלים ), אשר דרגות כל הצמתים הפנימיים שלו שוות לשלוש. לכל העלים מזהים שונים, שנקבעים מתוך קבוצת מזהים אשר נתונה לנו. דוגמא :

עץ פילוגנטי בעל שורש עץ פילוגנטי בעל שורש מוגדר באופן דומה לעץ חסר שורש, מלבד העובדה שישנו צומת פנימי שמוגדר כשורש ודרגתו היא שתיים ( בניגוד לשאר הצמתים הפנימיים שדרגתם היא שלוש ). דוגמא : ניתן להפוך עץ חסר שורש לעץ בעל שורש ע " י קביעת עלה, הפיכת הצומת הפנימי שצמוד לו לשורש וסילוקו של העלה הנ " ל.

Splits + Clusters Split של קבוצה סופית כלשהי הוא חלוקה של הקבוצה לשתי תת קבוצות זרות ומשלימות. Split המקושר לקשת e (split associated with e) הוא ה -Split הנוצר ע " י סילוק הקשת e מהגרף. Cluster הוא תת קבוצה של קבוצה סופית. Splits(T) הוא אוסף כל הٍ Split-- ים המקושרים לקשתות בעץ T. קבוצת Split- ים היא Compatible אם היא תת קבוצה של Splits(T). Split הוא חלוקה לשני Cluster- ים. אם נקבע עלה x אשר שייך לקבוצה B, אזי ה -Cluster המתייחס ל - Split A|B הוא הקבוצה A.

דוגמא ל-Split + Cluster עץ T: Split U|V המקושר לקשת e: Cluster V:

Splits + Clusters נאמר שה -Cluster A מכסה את ה -Cluster B, אם A הוא ה - Cluster הקטן ביותר שמכיל את B ושונה ממנו. סילוק קשת e מעץ בעל שורש יוצר חלוקה של העץ ל - 2 חלקים. אוסף העלים בחלק, אשר אינו כולל את השורש, נקרא ה -Cluster אשר מתייחס ל -v, כאשר v הוא קצה הקשת e המרוחק יותר מהשורש. בהינתן אוסף כלשהו של clusters: C של קבוצת זנים X, ותת קבוצה, נגדיר את הסגור של Y:

Quartets לכל קבוצה של 4 זנים, ישנן 3 אפשרויות לחלק אותן לזוגות. כל אפשרות כזאת נקרא Quartet. למשל עבור זנים a,b,c,d, האפשרויות הן : הסימון של ה -Quartet ( למשל ad|bc) מציין כיצד הצומת האמצעי מחלק אותו. עץ T מכלי את ה -quartet ab|cd אם המסלול מ -a ל -b לא נחתך עם המסלול מ -c ל -d.

Quartets (המשך) q(T) מוגדר להיות קבוצת כל ה -quartet- ים ב -T. קבוצת ה -Quartet- ים אשר מתייחסים ל -Split A|B מוגדרת כך : מכאן נובע :

Buneman Score מוגדר כך: כאשר xy זה המרחק מ-x ל-y לכל. Buneman Score ל- q=wx|yzכאשר Buneman Index ל-split U|V של X מוגדר כך: בונמן הראה כיהינו compatible. נגדיר עץ Buneman כעץ המכיל את הקשתות המוגדרות ע"י ה-Split-ים ב- B(d) עם המשקלים המוגדרים ע"י.

Bunemanדוגמא לעץ נשים לב שאלגוריתם Buneman לא סיווג את הזנים Dog, Rabbit, Rodent ו- Kanga לקבוצות שמכילות יותר מזן אחד. ניתן להבחין בחלוקות ל- Split-ים היוצרות קבוצות של זנים בעלי מכנה משותף. למשל: פרימטים: Human, Ape, monkey. מפרישי פרסה: Cow, Sheep, Pig, Horse.

עץ Buneman מעוגן הקלת התנאייכולה להתבצע ע"י בדיקת quartet-ים המכילים עלה מסוים. מסוים ולכל split U|V עםנגדיר: נגדיר קבוצת Split-ים: קבוצת ה-Split-יםהיא compatible. נגדיר עץ Buneman מעוגן כעץ המכיל את הקשתות המוגדרות ע"י ה-Split-ים ב- עם המשקלים המוגדרים ע"י. נבחר

עץ Buneman מעוגן (המשך) ברור כי לכל Split U|V מתקיים תזכורת:. מכאן נובע כי. כלומר: כך ניתן לבנות עץ Buneman ע"י Anchored Buneman tree (עץ אחד לכל ).

Buneman tree algorithm עפ " י הגדרתו של עץ בונמן, ניתן היה לשער שחישובו של העץ ייקח זמן, כיוון שיש לחשב את עבור כל Quartet אולם, ניתן לחשב את עץ בונמן בעזרת אלגוריתם, שנציג בעוד זמן קצר, אשר עובד בסיבוכיות בלבד. יעילות זו מושגת ע"י המרה של הבעיה, מבעיה שמערבת עצים חסרי שורש ומדד מרחק (dissimilarity measure), לבעיה שכוללת עצים בעלי שורש ומדד דמיון (similarity measure). מדד דמיון s על קבוצה סופית של זנים X, זוהי פונקציה סימטרית על X*X. פונקציה זו מקבלת שני זנים מתוך הקבוצה X, למשל ומחזירה את מידת הדמיון בין שניהם. ככל שהערך של s(a,b) גדול יותר, כך גדל הדמיון בין שני הזנים ← הזנים קרובים יותר זה לזה.

Strong isolation index & Strong Clusters Strong isolation index = עבור cluster, מוגדר באופן הבא: אשר שקול ל: Strong clusters מוגדרת כקבוצת כל ה-cluster-ים עבורם האינדקס שהגדרנו לעיל חיובי. כלומר: באופן אינטואיטיבי, הגדרת קבוצה זו, פירושה שכל הזנים שדומים מאוד זה לזה נמצאים יחד באותו ה-cluster.

Farris transform מטרתנו היא להפוך עץ חסר שורש לעץ בעל שורש, וכמו כן להפוך את פונקצית המרחקים (מדד מרחק) לפונקצית דמיון (מדד דמיון). לשם כך נשתמש ב-טרנספורמציית פאריס (Farris transform), אשר מוגדרת כך: כאשר x נקבע להיות שורש העץ. a,b הם עלים בעץ. הפונקציה d היא הפונקציה שנתונה לנו. ו- היא פונקצית הדמיון בה אנו מעוניינים, והיא מוגדרת על כל העלים מלבד x שבו בחרנו להיות השורש. הטרנספורמציה ההפוכה מוגדרת כך: טרנספורמציה זו הופכת פונקצית דמיון לפונקצית מרחקים. היא מוגדרת עבור כל העלים מלבד השורש x, ומתקיים: וגם

הקשר בין Strong clusters לעץ בונמן הקשר בין עץ בונמן לבין Strong clusters מובא בלמה הבאה: למה: אם d היא פונקצית מרחק על קבוצת הזנים X עם טרנספורמציית פאריס וגם U|V הוא split של X כאשר, אזי מתקיים: כאשר x הוא השורש שנוצר לאחר טרנספורמציית פאריס. מסקנה: Strong clustres מתייחסים ל-split-ים בעץ בונמן מעוגן. השאלה שנשאלת כעת היא באיזו סיבוכיות זמן ניתן למצוא את ה-Strong clusters.

Strong Clusters אלגוריתם למציאת המטרה שלנו היא להוריד את ה-cluster-ים עם isolation index שלילי או אפס. נגדיר את C להיות אוסף ה-cluster-ים המוחזרים ע"י האלגוריתם single linkage. לכל ולכל נגדיר: נשים לב כיהוא ה-cluster המקושר לאב הקדמון המשותף ל-x ו-x’ הקרוב ביותר ל-x (גם ל-x’). היות וכל זוג עלים x ו-x’ נותנים cluster אחד בדיוק, נוכל למצוא את ערכי m ו-M לכל העלים בזמן.

- טענהStrong clusters טענה אם A הוא cluster ב-C ו-B הוא strong cluster שמכסה את A, אז: הוכחה B הוא strong cluster, לכן יש לו isolation index חיובי, כלומר s(a,y)>s(a,x) וגם s(a,a’) - s(a,y) < s(a,a’) - s(a,x) לכל ולכל. לכן:

אלגוריתם Buneman Tree

אלגוריתם Strong Clusters

אלגוריתם Single Linkage

דוגמת הרצה עבור אלגוריתם Buneman נתון: פונקצית מרחקים עבור 5 זנים A,B,C,D,E: ABCDE A05476 B C47076 D7 705 E69650 המטרה: לבנות עץ Buneman עבור פונקצית המרחקים הנ"ל.

תוצאת ריצת האלגוריתם