Presentation is loading. Please wait.

Presentation is loading. Please wait.

Basic Gene Expression Data Analysis--Clustering

Similar presentations


Presentation on theme: "Basic Gene Expression Data Analysis--Clustering"— Presentation transcript:

1 Basic Gene Expression Data Analysis--Clustering
Pairwise Measures Clustering Motif Searching/Network Construction Integrated Analysis (NMR/SNP/Clinic/….)

2 Microarray Experiment
RT and label with fluor dyes cDNA Control Treated mRNA Spot (DNA probe): known cDNA or Oligo Mix and hybridize target to microarray

3 Collections of Experiments
Time course after a treatment Different treatments Disease cell lines Data are represented in a matrix

4 Cluster Analysis Grouping of genes with “similar” expression profiles
Grouping of disease cell lines/toxicants with “similar” effects on gene expression Clustering algorithms Hierarchical clustering Self-organizing maps K-means clustering

5 Gene Expression Clustering
Normalized Expression Data Protein/protein complex Semantics of clusters: From co-expressed to co-regulated DNA regulatory elements

6 Key Terms in Cluster Analysis
Distance & Similarity measures Hierarchical & non-hierarchical Single/complete/average linkage Dendrograms & ordering

7 Measuring Similarity of Gene Expression
Euclidean (L2) distance Manhattan (L1) distance Lm: (|x1-x2|m+|y1-y2|m)1/m L∞: max(|x1-x2|,|y1-y2|) Inner product: x1x2+y1y2 Correlation coefficient Spearman rank correlation coefficient (x2,y2) (x1, y1)

8 Distance Measures: Minkowski Metric
ref

9 Commonly Used Minkowski Metrics

10 An Example x 3 y 4

11 Manhattan distance is called Hamming distance when all features are binary.
Gene Expression Levels Under 17 Conditions (1-High,0-Low)

12 From Clustering to Correlation
Expression Level Expression Level Gene A Gene B Gene B Gene A Time Time Expression Level Gene B Gene A Time

13 Similarity Measures: Correlation Coefficient

14 Hierarchical Clustering
Given a set of N items to be clustered, and an NxN distance (or similarity) matrix, the basic process hierarchical clustering is this: 1.Start by assigning each item to its own cluster, so that if you have N items, you now have N clusters, each containing just one item. Let the distances (similarities) between the clusters equal the distances (similarities) between the items they contain. 2.Find the closest (most similar) pair of clusters and merge them into a single cluster, so that now you have one less cluster. 3.Compute distances (similarities) between the new cluster and each of the old clusters. 4.Repeat steps 2 and 3 until all items are clustered into a single cluster of size N.

15 Hierarchical Clustering
Normalized Expression Data

16 Hierarchical Clustering
Euclidean distance. 3 clusters? 2 clusters?

17 N*N correlation matrix
Cluster Analysis Eisen et al. (1998) (PNAS, 95:14863) Correlation as measure of co-expression Experiment over time N genes control N*N correlation matrix Wie eine solche Clusteranalyse funktionieren kann, möchte ich hier etwas näher zeigen. Dazu verwende ich das Beispiel aus dem Paper von Eisen und Mitarbeitern aus dem Jahr 1998. Sie verwendeten die Korrelation als Ähnlichkeitsmass. Betrachtet man nun beispielsweise verschiedene Experimente über die Zeit, und verwendet man die Expressionslevels zum Zeitpunkt t0 als Referenz, so erhält man für t Zeitpunkte t Arrays und für jedes der N Gene auf einem Array, t Verhältniszahlen. Anhand der t Verhältniszahlen für jedes der N Gene lassen sich nun Korrelationen zwischen allen Gene berechnen. Diese können in einer Matrix dargestellt werden. Nun sind wir soweit, dass die für das Clustering nötigen Ähnlichkeitswerte berechnet sind. Mit dieser Korrelationsmatrix können wir nun das Clustering starten. time t0 t1 t2 ...

18 N*N correlation matrix
Cluster Analysis N*N correlation matrix Scan matrix for maximum Join genes to 1 node 1 Nun kommen wir zum eigentlichen Clustering. Als ersten Schritt suchen wir das Maximum in unserer Korrelationsmatrix. Die beiden Gene, zwischen welchen wir das Maximum gefunden haben, werden verknüpft. Die Beobachtungen der beiden verknüpften Gene werden zu einer Beobachtung gemittelt. Nun muss die Korrelationsmatrix up to date gebracht werden. Mit der neu erstellten Korrelationsmatrix wird nun wieder von vorne begonnen, mit der Suche des Maximums. Dieser Zyklus wird solange durchlaufen bis alle Gene zu einem Baum zusammengefügt sind. 2 3 Update matrix

19 Cluster Analysis Result: Dendogram assemling N genes
Points of discussion similarity based, useful for co-expression dependent on similarity measure? useful in preliminary scans biological relevance of clusters? Als Resultat erhalten wir einen Baum oder ein Dendogramm, welches alle N Gene miteinander verknüpft. Durch die Zusammenfassung einzelner Untergruppen können die Gene zu Klassen gruppiert werden. Als Kontrolle sollten schon bekannte Gene mit ähnlicher Funktion in die gleichen Klassen eingeteilt werden. Punkte, die man sich bei einer Clusteranalyse überlegen sollten, habe ich hier einfach einmal aufgelistet. Die ganze Analyse basiert auf Ähnlichkeiten und ist deshalb vor allem für das Finden von co-exprimierten Genen sinnvoll. Die Resultate sind vom verwendeten Ähnlickeitsmass abhängig. Darüber hinaus können auch in Datensätzen mit wenig Information Clusters erzeugt werden, welche dann aber eher auf dem Zufall beruhen. Als vorgängige oder erste Analyse und auch als Qualitätskontrolle ist Clusteranalyse sicher geeignet. Die biologische Relevanz von erzeugten Clusters ist nur schwer zu überprüfen.

20 Distance Between Two Clusters
single-link clustering (also called the connectedness or minimum method) : we consider the distance between one cluster and another cluster to be equal to the shortest distance from any member of one cluster to any member of the other cluster. If the data consist of similarities, we consider the similarity between one cluster and another cluster to be equal to the greatest similarity from any member of one cluster to any member of the other cluster. complete-link clustering (also called the diameter or maximum method): we consider the distance between one cluster and another cluster to be equal to the longest distance from any member of one cluster to any member of the other cluster. average-link clustering : we consider the distance between one cluster and another cluster to be equal to the average distance from any member of one cluster to any member of the other cluster. Min distance Average Max Single-Link Method / Nearest Neighbor Complete-Link / Furthest Neighbor Their Centroids. Average of all cross-cluster pairs.

21 Single-Link Method Euclidean Distance a a,b b a,b,c a,b,c,d c d c d d
(1) (2) (3) Distance Matrix

22 Complete-Link Method Euclidean Distance a a,b a,b b a,b,c,d c,d c d c
(1) (2) (3) Distance Matrix

23 Identifying disease genes
Non-tumor Liver Tumor Liver Liver-specific Ribosomal proteins Proliferation Endothelial cells 1 Here is the example. This is the expression pattern of 2000 genes in 156 liver tissues. Rows represent individual genes and columns represent individual tissue. Hierarchical clustering clustered the the tissues based on the expression data of these 2000 genes. As we can easily see, each tissue samples are well clustered together. The clustering results seem to be consistent with where the tissue came from. of the patterns of variation in expression of 2000 genes in 156 liver tissues. This is an expression matrix for 78 normal individuals and 80 pateients suffering from liver cencer. Which we will right after this slide. The color in each cell reflects the expression level of the corresponding gene in the corresponding tissue, relative to its mean expression level across the entire set of tissue samples. X. Chen & P.O. Brown et al Molecular Biology of the Cell Vol. 13, , June 2002

24 Human tumor patient and normal cells; various conditions
Cluster or Classify genes according to tumors Cluster tumors according to genes

25 K-Means Clustering Algorithm
1) Select an initial partition of k clusters 2) Assign each object to the cluster with the closest center: 3) Compute the new centers of the clusters: 4) Repeat step 2 and 3 until no object changes cluster

26 K-Means Clustering This method initially takes the number of components of the population equal to the final required number of clusters. In this step itself the final required number of clusters is chosen such that the points are mutually farthest apart. Next, it examines each component in the population and assigns it to one of the clusters depending on the minimum distance. The centroid's position is recalculated everytime a component is added to the cluster and this continues until all the components are grouped into the final required number of clusters. Basic Ideas : using cluster centre (means) to represent cluster Assigning data elements to the closet cluster (centre). Goal: Minimise square error (intra-class dissimilarity) : = Variations of K-Means Initialisation (select the number of clusters, initial partitions) Updating of center Hill-climbing (trying to move an object to another cluster).

27 The K-Means Clustering Method
Example

28 k-means Clustering : Procedure (1)
Initialization 1 Specify the number of cluster k : for example, k = 4 Expression matrix 2 5000 The # of clusters should be specified. Each point is called “gene”

29 k-means Clustering : Procedure (2)
Initialization 2 Genes are randomly assigned to one of k clusters

30 k-means Clustering : Procedure (2)
Calculate the mean of each cluster (6,7) (3,4) (3,2) (1,2) [(6,7) + (3,4) + …]

31 k-means Clustering : Procedure (4)
Each gene is reassigned to the nearest cluster Gene i to cluster c

32 k-means Clustering : Procedure (4)
Each gene is reassigned to the nearest cluster Gene i to cluster c

33 k-means Clustering : Procedure (5)
Iterate until the means are converged

34 k-means clustering : application
6220 yeast genes 15 time points during cell cycle M/G1 phase G1 phase M phase : Result : 13 clusters of 30 clusters had statistical significance for each biological function K-means clustering has been successfully applied to some applications to solve one of our s. They used a dataset probing expression of 6220 ORFs across 15 time points across two cell cycle. They did k-means clustering with 30 clusters and 13 of them had biological significance with p-value of 10^-3. S. Tavazoie & GM Church Nature Genetics Vol. 22, July 1999

35 Computation Time and Memory Requirement n genes and m experiments
Hierarchical clustering O( m n2 log(n) ) K-means clustering t: number of iterations O( k t m n ) Memory requirement: Hierarchical clustering O( mn + n2 ) K-means clustering t: number of iterations O( mn + kn )

36 Issues in Cluster Analysis
A lot of clustering algorithms A lot of distance/similarity metrics Which clustering algorithm runs faster and uses less memory? How many clusters after all? Are the clusters stable? Are the clusters meaningful?

37 K-Means vs Hierarchical Clustering

38 Pattern Recognition Clarification of decision making processes and automating them using computers supervised unsupervised unknown number of classes known number of classes Als dritte Methode werde ich hier etwas über Pattern recognition erzählen. Bei dieser Methode beschäftigt man sich mit Entscheidungsfindungsprozessen. Diese Prozesse will man zuerst verstehen um sie dann mithilfe von Computern zu automatisieren. Die Methode des Pattern recognitions lässt sich in die 2 Klassen supervised und unsupervised unterteilen. In der Kategorie der supervised pattern recognition geht man von einer bekannten Anzahl Klassen aus. Bei der unsupervised PR ist die Anzahl Klassen unbekannt. Supervised PR basiert auf einem sogenannten training set. Dies ist eine Reihe von Beobachtungen, bei denen man die Einteilung in die Klassen bereits kennt. Aufgrund dieser vorher bekannten Zuordnung werden die eigentlichen Beobachtungen mit unbekannter Klasseneinteilung den Klassen zugeordnet. In der Variante der unsupervised PR geht man von keinem a priori Wissen aus. Für die Klassierung von zukünftigen Beobachtungen in vorgegebene Klassen wird supervised PR verwendet. Die Clusteranalyse, wie sie gerade vorgestellt wurde, gilt als eine Form der unsupervised PR. Somit möchte ich nicht weiter auf unsupervised PR eingehen. Im folgenden soll die Form der supervised PR vorgestellt werden. based on a training set no prior knowledge used to classify future observations cluster analysis = one form


Download ppt "Basic Gene Expression Data Analysis--Clustering"

Similar presentations


Ads by Google