Presentation is loading. Please wait.

Presentation is loading. Please wait.

כריית מידע -- Clustering ד " ר אבי רוזנפלד. הרעיון הכללי : דברים דומים הם דומים איך נאסוף דברים דומים – Regression, Classification (Supervised), k-nn.

Similar presentations


Presentation on theme: "כריית מידע -- Clustering ד " ר אבי רוזנפלד. הרעיון הכללי : דברים דומים הם דומים איך נאסוף דברים דומים – Regression, Classification (Supervised), k-nn."— Presentation transcript:

1 כריית מידע -- Clustering ד " ר אבי רוזנפלד

2 הרעיון הכללי : דברים דומים הם דומים איך נאסוף דברים דומים – Regression, Classification (Supervised), k-nn – Clustering (Unsupervised) k-meand – Partitioning Algorithms (k-mean), Hierarchical Algorithms שאלות פתוחות : איך להגדיר " קירבה " –מרחק Euclidean –מרחק Manhattan (Judea Pearl) –הרבה אופציות אחריות

3 איך לסווג את סימן השאלה ?

4 K-Nearest Neighbor בודקים את הסיווג בזמן אמת model free צריכים לקבוע את מספר השכנים בדרך כלל יש שקלול לפי המרחק מהנקודה גם CBR או Case Based Reasoning דומה בסיווג הולכים לפי הרוב ( או איזשהו משקל לפי הקרבה ) ברגרסיה הערך יהיה לפי הרוב ( או איזשהו משקל לפי הקרבה )

5 1-Nearest Neighbor

6 3-Nearest Neighbor

7 7 k NEAREST NEIGHBOR Choosing the value of k: – If k is too small, sensitive to noise points – If k is too large, neighborhood may include points from other classes – Choose an odd value for k, to eliminate ties k = 3: Belongs to triangle class k = 7: Belongs to square class ICDM: Top Ten Data Mining Algorithmsk nearest neighbor classificationDecember 2006 ? k = 1: Belongs to square class 8

8 Remarks +Highly effective inductive inference method for noisy training data and complex target functions +Target function for a whole space may be described as a combination of less complex local approximations +Learning is very simple - Classification is time consuming

9 האלגוריתם הבסיסי ל : Clustering K-MEAN 1. בחר ערך רצוי של אשכולות : K 2. מתוך אוכלוסיית המדגם שנבחרה ( להלן הנקודות ), בחר K נקודות אקראיות. נקודות אלו הם המרכזים ההתחלתיים של האשכולות (Seeds) 3. קבע את המרחק האוקלידי של כל הנקודות מהמרכזים שנבחרו 4. כל נקודה משויכת למרכז הקרוב אליה ביותר. בצורה זו קיבלנו K אשכולות זרים זה לזה. 5. בכל אשכול : קבע נקודות מרכז חדשה על ידי חישוב הממוצע של כל הנקודות באשכול 6. אם נקודת המרכז שווה לנקודה הקודמת התהליך הסתיים, אחרת חזור ל 3

10

11

12

13

14 דוגמא עם 6 נקודות InstanceXY

15 דוגמא עם 6 נקודות

16 איטרציה 1 באופן אקראי נבחרו הנקודות 1,3 להלן C1,C2 למרכז C1 נבחרות נקודות 1,2. למרכז C2 נבחרו הנקודות 3,4,5,6 נוסחת המרחק : ² ( Distance= √(x1-x2)² + ( y1-y2 המרחק מ C1המרחק מ C

17 בחירת מרכזים חדשים ל C1 – X=( )/2=1.0 – Y=( )/2=3.0 ל C2 – X=( )/4.0=3.0 – Y=( )/4.0=3.375

18 איטרציה 2 נקודות המרכז החדשות : C1(1.0, 3.0) C2(3.0, 3.375) ל C1 יצטרפו הנקודות : 1,2,3 ל C2 יצטרפו : 4,5,6 המרחק מ C1המרחק מ C

19 התוצאה הסופית

20 CS583, Bing Liu, UIC20 בעיות עם k-means על המשתמש להגדיר מראש K מניח שניתן לחשב את הממוצע מאוד רגיש ל outliers – Outliers הם נקודות הרחוקות מהאחרים –יכול להיות סתם טעות...

21 CS583, Bing Liu, UIC21 דוגמא של OUTLIER

22 22 מרחק Euclidean Euclidean distance: Properties of a metric d(i,j): – d(i,j)  0 – d(i,i) = 0 – d(i,j) = d(j,i) – d(i,j)  d(i,k) + d(k,j)

23 CS583, Bing Liu, UIC 23 Hierarchical Clustering Produce a nested sequence of clusters, a tree, also called Dendrogram.

24 CS583, Bing Liu, UIC24 Types of hierarchical clustering Agglomerative (bottom up) clustering: It builds the dendrogram (tree) from the bottom level, and – merges the most similar (or nearest) pair of clusters – stops when all the data points are merged into a single cluster (i.e., the root cluster). Divisive (top down) clustering: It starts with all data points in one cluster, the root. – Splits the root into a set of child clusters. Each child cluster is recursively divided further – stops when only singleton clusters of individual data points remain, i.e., each cluster with only a single point

25 CS583, Bing Liu, UIC25 Agglomerative clustering It is more popular then divisive methods. At the beginning, each data point forms a cluster (also called a node). Merge nodes/clusters that have the least distance. Go on merging Eventually all nodes belong to one cluster

26 CS583, Bing Liu, UIC26 Agglomerative clustering algorithm

27 CS583, Bing Liu, UIC27 An example: working of the algorithm

28 CS583, Bing Liu, UIC28 Measuring the distance of two clusters A few ways to measure distances of two clusters. Results in different variations of the algorithm. – Single link – Complete link – Average link – Centroids – …

29 CS583, Bing Liu, UIC 29 Single link method The distance between two clusters is the distance between two closest data points in the two clusters, one data point from each cluster. It can find arbitrarily shaped clusters, but – It may cause the undesirable “chain effect” by noisy points Two natural clusters are split into two

30 CS583, Bing Liu, UIC 30 Complete link method The distance between two clusters is the distance of two furthest data points in the two clusters. It is sensitive to outliers because they are far away

31 EM Algorithm Initialize K cluster centers Iterate between two steps – Expectation step: assign points to clusters – Maximation step: estimate model parameters


Download ppt "כריית מידע -- Clustering ד " ר אבי רוזנפלד. הרעיון הכללי : דברים דומים הם דומים איך נאסוף דברים דומים – Regression, Classification (Supervised), k-nn."

Similar presentations


Ads by Google