Presentation is loading. Please wait.

Presentation is loading. Please wait.

[ إشراف الدكتور / عبدالملك السلمان ]

Similar presentations


Presentation on theme: "[ إشراف الدكتور / عبدالملك السلمان ]"— Presentation transcript:

1 [ إشراف الدكتور / عبدالملك السلمان ]
جامعة الملك سعود كلية علوم الحاسب والمعلومات قسم علوم الحاسب تعريب الحاسبات – 428 عال مشروع بحث: قارئ الأحرف المرئية ( ق.أ.م ) المطبوعة والمكتوبة بخط اليد – دراسة مبدئية [ إشراف الدكتور / عبدالملك السلمان ] تم إعداده من قبل أحمد سعيد آل خلبان ثامر مستور العنزي مسفر محمد القحطاني

2 مقدمــــة نظام قارئ الأحرف المرئية يعتبر ذو أهمية بالغة في الوقت الحالي لما يتميز بة من سهولة في الإستخدام والوقت الذي يوفرة في إدخال البيانات. ينقسم النظام الى قسمان وهما : (On-line)1- النظام المباشر )Off-line) النظام الغير مباشر النظام المباشر يقوم بالتعرف على الحروف التي تم كتابتها كأشكال رسومية يتم إدخالها بواسطة الألواح الرقمية . النظام الغير مباشر يقوم بالتعرف على الحروف عن طريق المسح الضوئي للنص المكتوب مسبقاً.

3 ظاهرة مهمة في الكتابة العربية (المقطع)
المقطع هو الجزء الرئيسي الذي تتكون منه الكلمة العربية، ويُستخدمه نظام التعرف الضوئي على الحروف كوسيلة للتعرف على النص العربي. المقطع ينقسم إلى أربعة أقسام رئيسية تبعاً لما يسبق ويلي المقطع في الكلمة العربية وهي على الشكل التالي : المقطع الذي تسبقه مسافة وتليه مسافة أيضا، مثال كلمة ( قلم ) تسبقه مسافة وتلي مسافة. المقطع الذي يسبقه فراغ ويليه فراغ أيضا، مثال كلمة ( رجال)، فالمقطع (جا) يسبقه فراغ ويليه فراغ. المقطع الذي يسبقه فراغ وتليه مسافة، مثال كلمة (الولد)، فالمقطع ( لد ) يسبقه فراغ وتليه مسافة. المقطع الذي تسبقه مسافة ويليه فراغ، مثال كلمة (مرجع)، فالمقطع (مر) يسبقة مسافة ويلية فراغ.

4 عينة اختبار ونتائجها من أجل أن نعطي فكرة منصفة عن المقاطع، ولقد أختيرت هذة النصوص عشوائياً فبعد أن تم تحليل هذا النموذج خرجنا بإحصائية عن هذه العينة، ربما تعطي فكرة عن تركيب الكلمات العربية وفق المقاطع والأشكال الأربعة للحروف، ويبين [ الجدول 2 ] تحليل هذه العينة.

5 [ الجدول 2 ]

6 نظام جديد للتعرف على الحروف العربية
يبين [ الشكل 1 ] رسم التوضيحي الخاص بهذا الإجراء و يوضح عملية التعرف على الحرف والخطوات التي يمر بها ابتداءًَ من النص والخطوات كالتالي: تقسيم النص إلى كلمات. تقسيم الكلمات إلى مقاطع. تحديد عدد الحروف في المقطع وبناءً علية يتم تحديد مساره بين ثلاثة مسارات: المقطع المحتوي على حرف واحد يتم التعرف عليه دون الحاجة إلى التقسيم. المقطع المحتوي على حرفين يتم التعرف عليه بعد تقسيم المقطع. المقطع المحتوى على أكثر من ثلاثة حروف يتم تقسيمه إلى عدة حروف.

7 [ الشكل 1 ]

8 الفصل الثالث مشاريع لقارئ الأحرف المرئية (ق.أ.م)
المشروع التمهيدي لـ ( ق.أ.م ) للنصوص المطبوعة. مشروع ( ق.أ.م ) مباشر . مشروع المطابقة التقريبية لسلسلة الأرقام الاتجاهية (كود السلسلة). مشروع التعرف باستخدام شبكة عصبية . مشروع أداة التعرف على الحرف العربي.

9 أولاً : المشروع التمهيدي لـ ( ق.أ.م ) للنصوص المطبوعة
في هذا المشروع تم تلخيص مشكلة التعرف على الحروف العربية، ولكن ما أعاب البحث كونة مقتصراً على الأحرف المطبوعة وليست المكتوبة . وهذا المشروع يمر بعدة مراحل :- مرحلة ما قبل المعالجة: التحويل إلى ثنائي الترفيع: مرحلة المعالجة التقسيم: إستخراج الصفات التصنيف والتعرف

10 1- مرحلة ما قبل المعالجة وتحتوي على العمليات التالية :
التحويل إلى ثنائي: سوف يرجع صورة ثنائية من صفر و واحد (أبيض، وأسود)، كبداية يمكن أن تستخدم بالاعتماد على لون النص والخلفية. الترفيع: هنا أستخدم خوارزمية روزنفيلد Rosenfeld’s algorithm.

11 2- مرحلة المعالجة وتمر هذة المرحلة بالعمليات التالية :
التقســــيم : يتم التقسيم من خلال أخذ المسقط الأفقي للكلمة أو للمقطع، إن تحديد نقطة التقسيم تتم من خلال مسح من اليمين إلى اليسار للمسقط الأفقي ومن ثم إيجاد تغير في القيمة من 1 إلى أي قيمة أعلى، بهذا نحدد نقطة التقسيم، نقطة التقسيم تحدد من خلال نقطة الاتصال في صورة المقطع مثلما يظهر في [ الشكل 2]، وهذه الطريقة الرياضية تفشل عند استخدام المسقط العمودي، بعد إكمال عملية التقسيم تمر الحروف المقسمة إلى مرحلة استخراج المميزات ومرحلة التعرف.

12 [ الشكل 2]

13 2. إستخراج الصفات : هناك مجموعة من الصفات التي يتم إستخراجها منها: عدد نقاط النهاية، عدد الحلقات، و كود السلسلة والتي تعتبر الصفة الأكثر أهمية ويمكن إستخراجها بسهولةكما يظهر في [ الشكل 3[

14 [[ الشكل 3

15 .3التصنيف والتعرف: تتم عملية التصنيف على الحروف بحيث تصنف في فئات، ولتصنيف حرف غير معروف يجب أن تحدد الفئة التي ينتمي لها هذا الحرف، يعتبر المصنف أن نقطة التقسيم الفاصلة للحرف غير صحيحة، لذلك يزيل تلك النقطة ويتبنى النقطعة التالية بإعتبارها نقطة التقسيم الفاصلة مثلما يظهر في [ الشكل 4 ]،يعني أن تقسيم المقطع إلى أجزاء صغيرة يمكن أن تكون أصغر من الحرف مثل خطوط نقاط التقاطع، نقاط التغير، الحلقات.

16 [ الشكل 4 ]

17 ثالثاً : مشروع التعرف باستخدام شبكة عصبية
يختلف عن المشروعات الأخرى التي استخدمت مناهج تقليدية، هذا المشروع استخدم مفاهيم الذكاء الاصطناعي باستخدام الشبكات العصبية. المدخلات في الشبكة العصبية هي السمات المتعرف عليها أو المستخرجة هذا يزيد من قوة الشبكة

18 قائمة بالسمات التي تستخدم كمدخلات في الشبكات العصبية:
مركز الثقل مسقط عمودي البعد تحت الخط القاعدي نسبة المظهر تقاطع للخط المركز الأفقي تقاطع للخط العمودي المركزي سمات النقاط سمة نقاط النهاية موضع نقاط النهاية

19 الحلـــقة الحلقة موجودة في بعض الحروف، وعملية اكتشاف الحلقة تتم بخطوتين : الخطوة الأولى: مسح الصورة الكلية من خلال خوارزمية معينة . الخطوة الثانية: بعد الانهاء من الخطوة الأولى والحصول على الصورة التي تم مسحها والحصول أيضاً على البكسلات ومحدداتها (شمال، جنوب، شرق، غرب) .

20 الحلقة المغلقة الحلقة المغلقة تعني الحلقة التي ليس بها مساحة بيضاء في وسطها. وربما يواجه ذلك من خلال العديد من الحروف.

21 تبسيط السمات تتم هذة العملية بجعل السمة تأخذ القيم (1- ، 1) يتم كما يلي : وعندما لا تكون السمة موجودة تكون القيمة -1 مستخدمة عندما تكون موجودة تكون القيمة المستخدمة 1. بقية السمات تأخذ القيم التالية كما يلي: القيمة المبسطة = القيمة الأصلية/ أكبر قيمة للسمة يمكن أن يكون لها عرض يفوق قيمة الطول المستخدمة دون القيمة المبسطة.

22 تصميم الشبكة العصبية إن الشبكة العصبية تتكون من 3 طبقات: طبقة الإدخال.
الطبقة المخفية. طبقة الإخراج.

23 مشروع اداة التعرف على الحرف العربي
يهدف هذا المشروع إلى تمثيل قدرات القراءة البشرية لكل من النص المطبوع بالآلة والمكتوبة بخط اليد . التعرف البصري على الحرف له تطبيقات عديدة منها المساعدة في القراءة لذوي الاحتياجات الخاصة . أنظمة التعرف على الحرف العربي تسير ببطء مقارنة بنظيراتها من اللغات الصينية واللاتينية .

24 البيانـات كتب نص عربي ليشمل كل الحروف العربية بأشكالها المختلفة في المواقع المختلفة من المقطع سواء كان شكل الحرف مستقل أو شكله في وضع الابتداء أو التوسط أو الانتهاء كما هو موضح في الشكل التالي .

25 عينة نصية مفترض كتابتها بواسطة 52 شخص

26 البيانـات النص السابق أعطي لـ 52 شخصا مختلفا لكتابته بخط اليد وبعد ذلك تم إدخاله بالماسح الضوئي واختير منها 48 شكلا لتكون الأشكال القياسية المستخدمة في المعالجة . تم نسخ الحروف المختلفة من الأشكال المختلفة إلى مجموعة من الملفات , كل ملف يحتوي على نفس الحرف بـ 48 شكل كما هو مبين في الشكل التالي .

27 جدول يحتوي على 48 عينة لحرف العين مكتوبة بخط اليد

28 البيانـات وقد تم تطوير مجموعة ملفات للأشكال المختلفة للحروف وهذه الأشكال تتكون من حروف منفردة بالنقاط وبدون النقاط , وهذه الحروف تكون واحدة من الأشكال الأربعة( الشكل المستقل – وضع الابتداء – وضع التوسط – وضع الانتهاء ) . كما أنه تم تصنيف النقاط فالنقاط العلوية المفردة والثنائية والثلاثية وأيضاً السفلية المفردة والثنائية قد جمعت في ملفات منفصلة سواء كانت نقطة بكتابة أشخاص مختلفين أو نقاط مختلفة بكتابة شخص واحد، أما الأرقام والرموز المختلفة فقد جمعت في ملفات منفصلة.

29 شـجرة المـجلـدات Project---data
|-----dots for single (هذا المجلد يحتوي على نقاط أخذت من شخص معين لعدة حروف) | | | | lower – onedot | | lower – twodot | | upper – onedot | | upper – twodot | | upper – threedot | |---- dots for multipersons ((الملف يحتوي على نقطة واحدة أخذت من عدة أشخاص | | | | lower – onedot | | lower – twodot | | upper – onedot | | upper – twodot | | upper – threedot

30 شـجرة المـجلـدات |-------letterscon (الحروف المتصلة) | | | |-----begin
| | | |-----begin | | |-----With_dots (تحتوي على نقاط) | | |-----No_dots (لا تحتوي على نقاط) | | | |-----midle | | |-----With_dots (تحتوي على نقاط) | | |-----No_dots (لا تحتوي على نقاط) | |-----last | |-----With_dots (تحتوي على نقاط) | |-----No_dots (لا تحتوي على نقاط) |

31 شـجرة المـجلـدات |-------lettersdiscrete الحروف الغير المتصلة ) )
| |----lettersdot حروف تحتوي على نقاط ) ) | |----letters ( حروف لا تحتوي على نقاط) | | Numbers | Two (حرفين في مقطع) | Three (ثلاثة حروف في مقطع) | Al-hamzeh | Signs

32 محتويات المجلدات كل مجلد يحتوي على الحروف سواء كانت متصلة أو مستقلة
موزعة إلى عدة مجلدات وفقا لموقعها في الكلمة . كل ملف يحتوي على 48 حرف من نفس الكلمة والموقع إما أن يكون في ( وضع الابتداء , وضع التوسط , وضع الانتهاء) من أشخاص مختلفين . تدل الارقام على التالي : 1- الحرف في بداية الكلمة 2- الحرف في وسط الكلمة 3- الحرف في نهاية الكلمة

33 محتويات المجلدات Data--------------lettercon |---last |--- middle
|--- begin | No_dots  نفس الملفات بدون نقاط على الحرف |--- With_dots |--ain عـ |--ain عـ |--B بـ |--b بـ |--dad ﺿ |--f فـ |--Gaf قـ |--H هـ

34 محتويات المجلدات |--Gin1 غـ |--Hh1 حـ |--Je جـ |--k1 كـ |--kh1 خـ
|--L لـ |--La لـ |--M مـ |--N نـ |--S سـ |--S سـ |--S سـ |--Sh شـ

35 محتويات المجلدات |--Ss1 صـ |--Ss12 صـ |--T1 تـ |--Tha12 ثـ |--thad1 ظ
|--Ya ي

36 محتويات المجلدات Data--------------lettercon |--- middle |--- begin
|--- last | No_dots |--- With_dots |--A3 ـا |--A32 ـا |--A33 ـا | --Ain3 ـع |--ain32 ـع

37 محتويات المجلدات |--B3 ـب |--D3 ـد |--D32 ـد |--D33 ـد |--dad3 ـض
|--f3 ـف |--Gaf3 ـق |--H3 ـه |--H32 ـه |--H33 ـه |--Gin3 ـغ |--Hh3 ـح |--Je3 ـج

38 محتويات المجلدات |--kh3 ـخ |--L3 ـل |--M3 ـم |--N3 ـن |--R3 ـر
|--S ـس |--Sh3 ـش |--Ss3 ـص |--T3 ـت |--Th ـذ |--Th ـذ |--Tha3 ـث |--Tt3 ط |--Wow ـو |--Z ـز |--Ya3 ـي

39 محتويات المجلدات Data--------------lettercon |--- last |---begin
|--- middle | No_dots |--- With_dots |--ain ـعـ |--B2 ـﺒـ |--dad2 ـﻀـ |--f2 ـﻔـ |--Gaf2 ـﻘـ |--Gin2 ـﻐـ |--H2 ـﻬـ |--Hh2 ـﺤـ

40 محتويات المجلدات |--Je2 ـﺠـ |--k2 ـﻜـ |--kh2 ـﺨـ |--L2 ـﻠـ |--M2 ـﻤـ
|--N2 ـﻨـ |--S2 ـﺴـ |--Sh2 ـﺸـ |--Ss2 ـﺼـ |--T ـﺘـ |--T22 ـﺘـ |--Tha2 ـﺜـ |--Thd2 ـﻈـ |--Tt2 ط |--Ya2 ـﻴـ

41 المطابقة التقريبية لسلسلة الأرقام الاتجاهية
ماهي الأرقام الاتجاهية؟ مقارنة حرفين، باستخدام صورتين لحرفين باستخدام سلسلة الأرقام الاتجاهية

42 مثال توضيحي لسلسلة الأرقام الاتجاهية
( أ ) (ب) (جـ)

43 تفاصيل الخوارزمية البعد di,j القيمة T(i,j) ، تمثل أقل قيمة بين
if | a1(i) – a2(j) | ≤ 4, di,j = | a1(i) – a2(j) | else di,j = 8 – | a1(i) – a2(j) | القيمة T(i,j) ، تمثل أقل قيمة بين T(i-1 , j-1)+di,j T(i-1, j)+c when ti is missing T(i, j-1)+c when lj is missing

44 كيفية حساب الجدول المطابقة بين الحرف الغير معروف وحرف الحاء

45 كيفية حساب T(i,j) T(i, j-1) T(i-1 , j-1) T( i , j ) T(i-1, j)

46 T(i-1 , j-1)+di,j || T(i-1, j)+c || T(i, j-1)+c
كيفية حساب الجدول المطابقة بين الحرف الغير معروف وحرف الحاء T(i-1 , j-1)+di,j || T(i-1, j)+c || T(i, j-1)+c

47 T(i-1 , j-1)+di,j || T(i-1, j)+c || T(i, j-1)+c
كيفية حساب الجدول المطابقة بين الحرف الغير معروف وحرف الحاء T(i-1 , j-1)+di,j || T(i-1, j)+c || T(i, j-1)+c

48 T(i-1 , j-1)+di,j || T(i-1, j)+c || T(i, j-1)+c
كيفية حساب الجدول المطابقة بين الحرف الغير معروف وحرف الحاء T(i-1 , j-1)+di,j || T(i-1, j)+c || T(i, j-1)+c

49 كيفية حساب الجدول T(i-1 , j-1)+di,j || T(i-1, j)+c || T(i, j-1)+c
المطابقة بين الحرف الغير معروف وحرف العين T(i-1 , j-1)+di,j || T(i-1, j)+c || T(i, j-1)+c

50 نـــــتـــــائـــــج
التعرف على الحروف بشكلها المستقل نسبة 80% لحروف، مثل ( ه ، ص ، ا ) نسبة منخفضة للحروف المتشابهة، مثل ( ب – ف ) أو ( ن – ق )

51 تابع – النـــــتـــــائـــــج
متوسط طول الكلمة = 4.3 أحرف متوسط طول الطلمة = 2.2 مقطع فيما يتعلق بمعالجة المقاطع، تم التفنيد إلى ثلاثة أقسام مقطع مكون من حرف واحد مقطع مكون من حرفين مقطع مكون من أكثر من حرفين

52 تقييم ( ق.أ.م ) العربي الخاص بشركة صخر

53 تابع – تقييم ( ق.أ.م ) العربي الخاص بشركة صخر

54 ق.أ.م Readiris المستخدم مع ماسحات HP
من أفضل برامج التعرف على الحروف عند عملية مسحها بالماسح الرقمي. يماثل برنامج ( ق.أ.م ) الخاص صخر إضافة إلى مزايا أكثر وسهولة في التعامل. يدعم جميع نظم التشغيل (ويندوز). اللغات التي يدعمها هذا البرنامج! تطرح إصدارات جديد من برنامج Readiris كمتابعة لسلسلة الإصدارات الناجحة. القدرة على تحويل ملفات الـ *.PDF إلى ملفات نص وورد. مشاكل وعيوب Readiris


Download ppt "[ إشراف الدكتور / عبدالملك السلمان ]"

Similar presentations


Ads by Google