Download presentation
Presentation is loading. Please wait.
Published byEdmund Floyd Modified over 8 years ago
1
Urdu Character Set and Collating Sequence Sarmad Hussain مرکزتحقیقاتِ اردو Center for Research in Urdu Language Processing FAST National University of Computer and Emerging Sciences
2
مرکزتحقیقات اردو 2 Purpose of Presentation ► Indicate the “state of affairs” Character set Collating sequence ► Show what has been done regarding the standardization ► Identify what needs to be done
3
مرکزتحقیقات اردو 3 Sources ► Data from four dictionaries of Urdu 1. فیروزاللغات جامع ، فیروز سنز ، لاہور (FLJ) 2.Standard Twentieth Century Dictionary: Urdu to English, Educational Publishing House, New Dehli, India (STCD) 3. فرہنگِِِِ تلفظ ، مقتدرہ قومی زبان ، اسلام آباد (FT) 4. جدید اردو لغت ، مقتدرہ قومی زبان ، اسلام آباد (JUL )
4
مرکزتحقیقات اردو 4 Character Set ► Alphabet ► Harakat (Aerab) ► Other Symbols
5
مرکزتحقیقات اردو 5 “Typical” Alphabet آ ا ب پ ت ٹ ث ج چ ح خ د ڈ ذ ر ڑ ز ژ س ش ص ض د ڈ ذ ر ڑ ز ژ س ش ص ض ط ظ ع غ ف ق ک گ ط ظ ع غ ف ق ک گ ل م ن و ہ ء ی ے ل م ن و ہ ء ی ے - اردو قاءدہ ، فیروز سنز ، لاہور
6
مرکزتحقیقات اردو 6 Do zabar دً Do zer دٍ Do pesh دُ Tashdeed دّ Noon ghunna ن “Familiar” Harakaat (Aerab) Jazm ْد Zabar دَ Zer ِد Pesh دُ Khari zabar د Khari zer د Ulta pesh د
7
مرکزتحقیقات اردو 7 “Common” Other Symbols Numbers 0 ۰ 1 ١ 2 ٢ 3 ٣ 4 5 ۵ 6 ٦ 7 8 ٨ 9 ٩ Punctuation ؟ ؛ ٬ -Honorifics Other Symbols ס
8
مرکزتحقیقات اردو 8 Urdu Alphabet: State of Affairs FT, JUL ا آ ب بھ پ پھ ت تھ ٹ ٹھ ث ج جھ چ چھ ح خ د دھ ڈ ڈھ ذ ر رھ ڑ ڑھ ز ژ س ش ص ض ط ظ ع غ ف ق ک کھ گ گھ ل لھ م مھ ں ںھ ن نھ و وھ ہ ء ی ے FLJ, STCD آ ا ب پ ت ٹ ث ج چ ح خ د ڈ ذ ر ڑ ز ژ س ش ص ض ط ظ ع غ ف ق ک گ ل م ں ن و ہ ھ ء ی ے
9
مرکزتحقیقات اردو 9 Current GoP Standard: UZT 1.01
10
مرکزتحقیقات اردو 10 Logical Sections of UZT 1.01 ► Alphabet (80 – 122) ► Aerab/diacritics/harakat (66 – 79, 123 – 126) ► Other characters Punctuation and arithmetic symbols (32 – 47, 58 – 65) Digits (48 – 57) Special symbols (160 – 176, 192 – 199) Miscellaneous ► Control characters (0 – 31, 127) ► Reserved control space (128 – 159, 255) ► Reserved expansion space (177 – 191, 200 – 207, 240 – 253) ► Vendor area (208 – 239) ► Toggle character (254)
11
مرکزتحقیقات اردو 11 Conclusions: Standard Urdu Character Set ► No general agreement on Urdu Character Set by dictionary publishers ► Standard Character Set defined by National Language Authority not well-publicized not widely adopted ► GoP Computing Standard for Computing, UZT 1.01 implements the NLA-defined character and symbol set ► Will soon be fully represented in Unicode/ISO 10646
12
مرکزتحقیقات اردو 12 Urdu Collating Sequence: State of Affairs FT, JUL ا آ ب بھ پ پھ ت تھ ٹ ٹھ ث ج جھ چ چھ ح خ د دھ ڈ ڈھ ذ ر رھ ڑ ڑھ ز ژ س ش ص ض ط ظ ع غ ف ق ک کھ گ گھ ل لھ م مھ ں ںھ ن نھ و وھ ہ ء ی ے ا آ ں ںھ ن نھ وھ ہ ی ے ا آ ں ںھ ن نھ وھ ہ ی ے FLJ آ ا ب پ ت ٹ ث ج چ ح خ د ڈ ذ ر ڑ ز ژ س ش ص ض ط ظ ع غ ف ق ک گ ل م ں ن و ہ ھ ء ی ے STCD آ ا ب پ ت ٹ ث ج چ ح خ د ڈ ذ ر ڑ ز ژ س ش ص ض ط ظ ع غ ف ق ک گ ل م ن ں و ھ ہ ء ی ے
13
مرکزتحقیقات اردو 13 ا آ Variation ► STCD and FLJ آب آپ اب ایوان ► FT and JUL اب ایوان آب آپ
14
مرکزتحقیقات اردو 14 ن ں Variation ► FLJ, FT & STCD ماں مان ► JUL مان ماں
15
مرکزتحقیقات اردو 15 ہ ھ Variation ► FLJ باپ بہن بہنگی بھابی بھنگی بیٹا ► STCD باپ بھابی بہن بھنگی بہنگی بیٹا ► FT & JUL باپ بہن بہنگی بیٹا بھابی بھنگی بانو بانھ بانی
16
مرکزتحقیقات اردو 16 ی ے Variation ► FJL, FT & JUL بی بی بی بے بیابان ► STCD بی بے بیابان بی بی ► Middle “yay” predicament: ے or ی بیکار = ب ے ک ا ر ٹیلیوژن = ٹ ی ل ی و ژ ن
17
مرکزتحقیقات اردو 17 Role of Aerab in Sorting ► Aerab ignored in the first (primary) pass of sorting an Urdu string بِہار (= بِ ہار ) بَہانہ بِہاءی (= بِ ہاءی ) ► However, aerab are relevant in second pass, when first pass gives an exact match بَن بِن بُُن سَن سِن سُُن
18
مرکزتحقیقات اردو 18 Vocalic Aerab - Zabar, Zer, Pesh ► FT, FLJ, JUL بَن بِن بُُن بَیر بِیر بیر ► STCD بَن بُُن بِن سَن سِن سُُن بِیر بیر
19
مرکزتحقیقات اردو 19 Vocalic Aerab – Khari Zabar ► No effect at primary level sorting اعلا مَوسی اعلان مُوسی اعلم اعلی ► No minimal pairs found so secondary level so involvement could not be determined
20
مرکزتحقیقات اردو 20 Consonantal Aerab - Hamza ► Ignored at primary level ► Minimal pairs not found to determine secondary level effect مرا مر ٲ ت مراتب مرام مرآت باوا باٶٹا باون
21
مرکزتحقیقات اردو 21 Consonantal Aerab - Tashdeed ► Ignored are primary level ► Effects secondary level sorting “heavier than null” ► Interacts with vocalic aerab بَرانا برّانا بَرایا بدی بدّی بدّیا بدو بدّ ُو بدّیا all examples from FT
22
مرکزتحقیقات اردو 22 Ligature-Break (Half Space) ► Ignored at primary level and secondary level ٹیلیوژن ، ٹیلی وژن ٹیلیفون ، ٹیلی فون بے کار ، بیکار ► But given each pair, which word first? Tertiary level decision
23
مرکزتحقیقات اردو 23 Word-Break (Normal Space) ► Ignored at primary level ? ► American Heritage Dictionary (2 nd Collegiate ed.) black art black bear blackberry black box blacken Black Death black gold ► Space ignored at primary level
24
مرکزتحقیقات اردو 24 Word-Break (Normal Space) - II ► FLJ 1. بانگ 2. بانگِ درا 3. بانگ دینا If sorting is done at word break then 1,3,2 So sorting ignores word break
25
مرکزتحقیقات اردو 25 Conclusions: Urdu Collating Sequence ► Multi-level Complex Problem ► Pre-processing Contractions ( ب ھ بھ ) ► Primary Level characters ► Secondary Level Vocalic aerab Consonantal aerab Interaction of Vocalic and Consonantal aerab Others (?) ► Tertiary Level Ligature Break Others (?)
26
مرکزتحقیقات اردو 26 What Needs to be Done: Urdu ► If required revisit and revise the Urdu character set ► Extensive work on sorting done at linguistic level by NLA and UDB. Need to Standardize it Publicize it ► Need to develop at computational level to build Collation Element Table to generate sort keys Standardize it Publicize it
27
مرکزتحقیقات اردو 27 What Needs to be Done: Other Languages of Pakistan ► Need to work towards standardization of Character set Collating Sequence ► Need to do gap analysis of character sets with Unicode/ISO 10646 for international standardization ► Need to develop Collation Element Tables for these Languages for sorting
28
مرکزتحقیقات اردو 28 Thank you Questions?
Similar presentations
© 2024 SlidePlayer.com Inc.
All rights reserved.