Presentation is loading. Please wait.

Presentation is loading. Please wait.

Optical Character Recognition

Similar presentations


Presentation on theme: "Optical Character Recognition"— Presentation transcript:

1 Optical Character Recognition
By: mahdi sheida Guide: Dr. A. Osareh fall-2010

2 Objective of OCR Glossary of Image Processing Terms
identification of characters from a graphic file and converting them into a regular text file : APPENDIX A Glossary of Image Processing Terms

3 OCR Applications: Reading important handwritten & machine-printed characters: postal zip code passport number employee code Bank cheque Ancient texts

4 OCR System Text in graphic file pre-processing Feature extraction
classification

5 pre-processing Pre-processing aims to produce data that are easy for the OCR systems to operate accurately. The main objectives of pre-processing are : Binarization Noise Reduction Segmentation Normalization

6 Binarization Document image binarization (thresholding) refers to the conversion of a gray-scale image into a binary image.

7 Noise Reduction Noise reduction improves the quality of the document. Two main approaches: Filtering (masks) Morphological Operations (erosion, dilation, etc)

8 Segmentation Text Line Detection (histogram projections)
Word Extraction (vertical projections, connected component analysis) همان روش پیدا کردن isolated connected component ها برای سگمنت کردن کاراکترها هم قابل استفاده است. ولی این مشکل را دارد که کاراکتر هایی که overlap دارندرا به درستی سگمنت نمیکند. مثلا یک کاراکتر به دوتا تبدیل میشه m به n و r

9 Normalization Normalization provides a tremendous reduction in data size, thinning extracts the shape information of the characters Fix size for bounding box(template matching) مثلا برای حالت الفبای ماشین نویسی شده،می توانیم دیتاستی داشته باشیم با فونت های مختلف که ابعادشان فرق می کند به این ترتیب تکنیک thinig مناسب می تواند اسکلت کاراکتر را بیرون بکشد به طوریکه مشابهت یک کاراکتر در فونت های مختلف، بیشتر نمایان شود. نرمال کردن سایز، مناسب template matching مطمئن نیستم:( یعنی کاراکترها scale(size) invariant می شوند. به این ترتیب فیچرها نسبت به تغییرات روی سایز حساسیت نشان نمی دهند.

10 OCR System Text in graphic file pre-processing Feature extraction
classification

11 Feature Extraction goal of feature extraction: to extract a set of features, which maximizes the recognition rate with the least amount of elements. Statistical features: Representation of a character image by statistical distribution of points Zoning Projections profiles

12 Invariants In order to recognize many variations of the same character, features that are invariant to certain transformations on the character need to be used. برای آنکه کاراکتری با شکل های مختلف را بتوانیم به درستی شناسایی کنیم، فیچرها باید روی یک سری از تبدیلاتی که روی کاراکتر صورت میگیرد ثابت. حالت rotate invariant (مستقل از چرخش) حالت scaled invariant (مستقل از تغییر سایز) حالت skew invarient (مستقل از تغییر شیب واریب)مناسب کاراکترهای دست نویس و چند فونته(مثلا ترکیب italic و Arial) است. original rotated scaled skewed

13 Zoning The character image is divided into N×M zones. From each zone features are extracted to form the feature vector. The goal of zoning is to obtain the local characteristics instead of global characteristics مناسب تفکیک کاراکترهایی که در یک ناحیه توزیع بیشتری نسبت به سمت دیگر دارند. این فیچر حتما باید همراه با فیچرهای دیگر استفاده بشود تا نتیجه مناسب بدهد.

14 Zoning-Direction Based on the contour of the character image
For each zone the contour is followed and a directional histogram is obtained by analyzing the adjacent pixels in a 3x3 neighborhood

15 Projection Histograms
The basic idea behind using projections is that character images, which are 2-D signals, can be represented as 1-D signal. Scale-invariant Depend on Rotation and skew No information about character shape در این روش فیچرها نسبت به تغییر سایز مستقل می شوند.scale invariant اطلاعات مهم راجع به شکل کاراکتر

16 Profiles The profile counts the number of pixels (distance) between the bounding box of the character image and the edge of the character. describe well the external shapes of characters and allow to distinguish between a great number of letters, such as “p” and “q”. Dependent on rotation

17 OCR System Text in graphic file pre-processing Feature extraction
classification

18 Classification Template Matching Statistical approaches Neural Net
Hidden Markov Modeling KNN Support Vector Machines Neural Net Template matching نیازی به مرحله استخراج ویژگی ندارد و خود تصویر کاراکتر به عنوان بردار ویژگی فرض می شود. در مرحله تشخیص، یک similarity measure بین template و تصویر کاراکتر در نظر گرفته می شود، تصویر با تمپلیت های کلاس های مختلف مقایسه می شه و نتایج میزان مشابهت بدست آمده با تمام تمپلیت ها با یک حد آستانه مقایسه میشه، هر کدوم که از آستانه بیشتر بود، تصویر به همون کلاس اختصاص پیدا می کنه ایرادات: Scale , rotate invariant نیست نویز تاثیر زیادی روی خرابی نتایج دارد. راه حل: استفاده از چند template به ازای هر کلاس. مشکل: هزینه محاسباتی زیاد

19 1 Title: Feature Extraction and MLP Neural Network Classifier for Farsi Digit Recognition

20 Farsi Digit Recognition with MLP
Dataset: training :18000 normalized (40*40) binary images testing : 2000 normalized (40*40) binary images Classifier: MLP

21 Feature Extraction Method
A: Statistical Approach: compare number of black pixels on the upper and lower halves and also left and right halves of the digit image. این فیچر به درد ارقام تایپ شده می خورد اما در ارقامی که دستی نوشته شده اند بهتر است با فیچر های دیگر ترکیب شود چون در دستی ها مرکز رقم و تصویر بر هم منطبق نیستند.

22 Feature Extraction Method
B: The Number Of Intersections متد مناسبی برای تفکیک اعدادی مثل 2 و 3 است (Part1) (Part2)

23 Feature Extraction Method
C. Elastic Meshing Feature Extraction: decomposes the whole binary character image into four directional sub-images:

24 Classifier 2 layer MLP

25 Results approach Number of neurons in hidden layer
Recognition percentage of system for testing data Statistical Approach 3 90.13% Number Of Intersections 9 94.43% Elastic Meshing 5 93.68% Combination of 3 methods 16 97.62%

26 2 Title: Hand Written Character Recognition Using Twelve Directional Feature Input and Neural Network

27 Pre-processing & Dataset
Noise removing Skeletonization Normalization(32*32 pixel) Dataset: combination of Hindi – English and special characters Train: 500 handwritten Characters Test: 250 handwritten Character

28 Feature extraction A: Conventional Feature Extraction (0&1)
B: Gradient Feature Extraction (using sobel mask) (Horizontal component) (Vertical component)

29 Feature extraction C: Directional Features
نگاشت مقادیر گرادیان هر پیکسل روی یکی از دوازده جهت به وسیله این فرمول محاسبه می شود. که حالت گسسته ی آن را در اسلاید بعدی می بینید.

30 Feature extraction C: Directional Features

31 Classifier Back propagation neural Network Learning rate: 0.2
Input layer: 1024 1 hidden layer with 32 nerouns Output layer: 5 (3Hindi, 1English , 1 special)

32 Results Input To MLP Number Of Hidden neurons iteration Training time
Classification Performance On Testset Pixel input 12 50 970 946 75 Gradient 764 246 90 12 Directional 421 221 97 به این دلیل دقت تشخیص در مدل 12 جهته بالاتر رفته که در این تکنیک استخراج ویژگی، اطلاعات بیشتری مد نظر قرار گرفته است.

33 References: A. K. Jain, T. Taxt, “Feature extraction methods for character recognition--A Survey”, Elsevier Science Ltd, Vol. 29, No. 4, pp , 1996. H. Fujisawa, “Forty years of research in character and document recognition an industrial perspective”, Elsevier, Vol.41, pp , 2008 M. Moradi, M. Poornima, “Feature Extraction and MLP Neural Network Classifier for Farsi Handwritten Digit Recognition”,IEEE Computer Society, 2009 D. Singh, S. Kr. Singh, “Hand Written Character Recognition Using TwelveDirectional Feature Input and Neural Network “, Internatinal Jornal of Computer Applications , Vol.1,2010.

34 Thanks for attention


Download ppt "Optical Character Recognition"

Similar presentations


Ads by Google