Presentation is loading. Please wait.

Presentation is loading. Please wait.

The Knowledge Flow Interface 김개원 데이터베이스 연구실. 1. Overview.

Similar presentations


Presentation on theme: "The Knowledge Flow Interface 김개원 데이터베이스 연구실. 1. Overview."— Presentation transcript:

1 The Knowledge Flow Interface 김개원 데이터베이스 연구실

2 1. Overview

3 Overview  Explorer  특정 data 에 대해 다양한 option 으로 실험을 해볼 수 있는 환경  KnowledgeFlow  기능적으로 Explorer 와 동일하지만 Drag & Drop 방식으로 실험해 볼 수 있음  Incremental Learning 이 가능함  Simple CLI  Command Line Interface 를 구동시키는 메뉴로 WEKA Java Class Module 을 바로 구동시켜 볼 수 는 환경  Experimenter  여러 Machine Running Algorithm 을 비교해 볼 수 있는 환경 3

4 2. Components

5 Data Sources & Data Sinks  Data Sources / Data Sinks  데이터가 입력 / 출력 되는 Source 를 설정하기 위해 사용  Possible Data Sources  ARFF file (Attribute-Relation File Format)  CSV file (Comma-Separated Values)  Spreadsheets 에서 데이터 형식이 변환된 파일  C4.5 file  C4.5 Decision Tree Algorithm 이 적용된 File  Serialized Instance  Java Object 의 Instance 로 저장된 데이터 파일  Database 5

6 Data Sources File Format 비교 ARFF File FormatCSV File Format 6

7 Visualization  Visualization  출력을 Text 나 Grapth 등으로 시각적으로 나타내기 위해 사용  Components  Data Visualizer  Scatter Plot Matrix  Attribute Summarizer  Model Performance Chart  Text Viewer  Graph Viewer  Strip Chart 7

8 Visualization 8 Data VisualizerScatter Plot Matrix Attribute SummarizerModel Performance Chart

9 Evaluation  Evaluation  입력과 출력 알고리즘을 구성하기 위해 사용  Components  Training Set Maker  Test Set Maker  Cross Validation Fold Maker  Train Test Split Maker  Class Assigner  Class Value Picker  Classifier Performance Evaluator  Incremental Classifier Evaluator  Cluster Performance Evaluator 9

10 Evaluation  Components  TrainingSetMaker / TestSetMaker  Training Set / Test Set 으로 Data Set 을 만든다.  CrossValidationFoldMaker  Data Set 으로부터 Cross-Validation Folds 를 구성한다.  Cross-Validation  모집단의 표본에 자주 이용되는 방법을 같은 모집단의 다른 표본에 적용시켜 정확성을 확인  K-Folds Cross-Validation  1 개 – Test Set, K-1 개 – Training Set 으로 구성  TrainTestSplitMaker  Data Set 에서 Training Set 을 ?% 사용할 것인지 설정  ClassAssigner  분석의 목적이 되는 속성 ( 종속 변수 ) 을 설정  ClassValuePicker  ClassifierPerformanceEvaluator / ClusterPerformanceEvaluator  알고리즘 평가 통계치를 수집  Visualization Components 에 연결  IncrementalClassifierEvaluator 10

11 3. Operations

12 Edit Operations & Action Operations  Edit Operation  The Edit operations delete components and open up their configuration panel  Actions Operation  The Actions operations are specific to that type of component 12

13  Connections Operation  The Connections operations are used to connect components  Two kinds of connection from data sources  Data Set  Batch operation  Test Set or Training Set 을 구성하여 일괄적으로 처리하는 Classifier Components 에 연결  Instance  Stream operation  Incremental Learning 이 가능한 Classifier Components 에 연결  Two types of connection from classifier  graph, text  batchClassifier, incrementalClassifier  Performance Evaluator, Incremental Classifier Evaluator 에 연결 13 Connections Operation

14 4. Incremental Learning

15  Several classifiers & Filters that can handle data incrementally  Classifiers  AODE, NaiveBayesUpdateable, Winnow, instance-based learners(IBl, IBk, KStar, LWL)  Filters  Add, AddExpression, Copy, FirstOrder, MakeIndicator, MergeTwoValues, NonSparseToSparse, NumericToBinary, NumericTransform, Obfuscate, Remove, RemoveType, RemoveWithValues, SparseToNonSparse, and SwapValues  Incremental Learning Algorithms can process data files that are too large to fit in memory  Many instance-based learners store the entire dataset internally 15 Incremental Learning

16 5. Example

17 Example (batch mode) 17

18 Example (batch mode) 18

19 Example (batch mode) 19

20 Example (incremental learning) 20

21  Strip chart plots both the accuracy and the root mean-squared probability error against time 21 Example (incremental learning)


Download ppt "The Knowledge Flow Interface 김개원 데이터베이스 연구실. 1. Overview."

Similar presentations


Ads by Google