Presentation is loading. Please wait.

Presentation is loading. Please wait.

Urdu Character Set and Collating Sequence Sarmad Hussain مرکزتحقیقاتِ اردو Center for Research in Urdu Language Processing FAST National University of.

Similar presentations


Presentation on theme: "Urdu Character Set and Collating Sequence Sarmad Hussain مرکزتحقیقاتِ اردو Center for Research in Urdu Language Processing FAST National University of."— Presentation transcript:

1 Urdu Character Set and Collating Sequence Sarmad Hussain مرکزتحقیقاتِ اردو Center for Research in Urdu Language Processing FAST National University of Computer and Emerging Sciences

2 مرکزتحقیقات اردو 2 Purpose of Presentation ► Indicate the “state of affairs”  Character set  Collating sequence ► Show what has been done regarding the standardization ► Identify what needs to be done

3 مرکزتحقیقات اردو 3 Sources ► Data from four dictionaries of Urdu 1. فیروزاللغات جامع ، فیروز سنز ، لاہور (FLJ) 2.Standard Twentieth Century Dictionary: Urdu to English, Educational Publishing House, New Dehli, India (STCD) 3. فرہنگِِِِ تلفظ ، مقتدرہ قومی زبان ، اسلام آباد (FT) 4. جدید اردو لغت ، مقتدرہ قومی زبان ، اسلام آباد (JUL )

4 مرکزتحقیقات اردو 4 Character Set ► Alphabet ► Harakat (Aerab) ► Other Symbols

5 مرکزتحقیقات اردو 5 “Typical” Alphabet آ ا ب پ ت ٹ ث ج چ ح خ د ڈ ذ ر ڑ ز ژ س ش ص ض د ڈ ذ ر ڑ ز ژ س ش ص ض ط ظ ع غ ف ق ک گ ط ظ ع غ ف ق ک گ ل م ن و ہ ء ی ے ل م ن و ہ ء ی ے - اردو قاءدہ ، فیروز سنز ، لاہور

6 مرکزتحقیقات اردو 6 Do zabar دً Do zer دٍ Do pesh دُ Tashdeed دّ Noon ghunna ن “Familiar” Harakaat (Aerab) Jazm ْد Zabar دَ Zer ِد Pesh دُ Khari zabar د Khari zer د Ulta pesh د

7 مرکزتحقیقات اردو 7 “Common” Other Symbols Numbers 0 ۰ 1 ١ 2 ٢ 3 ٣ 4‌ 5 ۵ 6 ٦ 7 8 ٨ 9 ٩ Punctuation ؟ ؛ ٬ -Honorifics Other Symbols ס

8 مرکزتحقیقات اردو 8 Urdu Alphabet: State of Affairs  FT, JUL  ا آ ب بھ پ پھ ت تھ ٹ ٹھ ث ج جھ چ چھ ح خ د دھ ڈ ڈھ ذ ر رھ ڑ ڑھ ز ژ س ش ص ض ط ظ ع غ ف ق ک کھ گ گھ ل لھ م مھ ں ںھ ن نھ و وھ ہ ء ی ے  FLJ, STCD  آ ا ب پ ت ٹ ث ج چ ح خ د ڈ ذ ر ڑ ز ژ س ش ص ض ط ظ ع غ ف ق ک گ ل م ں ن و ہ ھ ء ی ے

9 مرکزتحقیقات اردو 9 Current GoP Standard: UZT 1.01

10 مرکزتحقیقات اردو 10 Logical Sections of UZT 1.01 ► Alphabet (80 – 122) ► Aerab/diacritics/harakat (66 – 79, 123 – 126) ► Other characters  Punctuation and arithmetic symbols (32 – 47, 58 – 65)  Digits (48 – 57)  Special symbols (160 – 176, 192 – 199)  Miscellaneous ► Control characters (0 – 31, 127) ► Reserved control space (128 – 159, 255) ► Reserved expansion space (177 – 191, 200 – 207, 240 – 253) ► Vendor area (208 – 239) ► Toggle character (254)

11 مرکزتحقیقات اردو 11 Conclusions: Standard Urdu Character Set ► No general agreement on Urdu Character Set by dictionary publishers ► Standard Character Set defined by National Language Authority  not well-publicized  not widely adopted ► GoP Computing Standard for Computing, UZT 1.01 implements the NLA-defined character and symbol set ► Will soon be fully represented in Unicode/ISO 10646

12 مرکزتحقیقات اردو 12 Urdu Collating Sequence: State of Affairs  FT, JUL  ا آ ب بھ پ پھ ت تھ ٹ ٹھ ث ج جھ چ چھ ح خ د دھ ڈ ڈھ ذ ر رھ ڑ ڑھ ز ژ س ش ص ض ط ظ ع غ ف ق ک کھ گ گھ ل لھ م مھ ں ںھ ن نھ و وھ ہ ء ی ے ا آ ں ںھ ن نھ وھ ہ ی ے ا آ ں ںھ ن نھ وھ ہ ی ے  FLJ  آ ا ب پ ت ٹ ث ج چ ح خ د ڈ ذ ر ڑ ز ژ س ش ص ض ط ظ ع غ ف ق ک گ ل م ں ن و ہ ھ ء ی ے  STCD  آ ا ب پ ت ٹ ث ج چ ح خ د ڈ ذ ر ڑ ز ژ س ش ص ض ط ظ ع غ ف ق ک گ ل م ن ں و ھ ہ ء ی ے

13 مرکزتحقیقات اردو 13 ا آ Variation ► STCD and FLJ  آب  آپ  اب  ایوان ► FT and JUL  اب  ایوان  آب  آپ

14 مرکزتحقیقات اردو 14 ن ں Variation ► FLJ, FT & STCD  ماں  مان ► JUL  مان  ماں

15 مرکزتحقیقات اردو 15 ہ ھ Variation ► FLJ  باپ  بہن  بہنگی  بھابی  بھنگی  بیٹا ► STCD  باپ  بھابی  بہن  بھنگی  بہنگی  بیٹا ► FT & JUL  باپ  بہن  بہنگی  بیٹا  بھابی  بھنگی  بانو  بانھ  بانی

16 مرکزتحقیقات اردو 16 ی ے Variation ► FJL, FT & JUL  بی  بی بی  بے  بیابان ► STCD  بی  بے  بیابان  بی بی ► Middle “yay” predicament: ے or ی  بیکار = ب ے ک ا ر  ٹیلیوژن = ٹ ی ل ی و ژ ن

17 مرکزتحقیقات اردو 17 Role of Aerab in Sorting ► Aerab ignored in the first (primary) pass of sorting an Urdu string  بِہار (= بِ ہار )  بَہانہ  بِہاءی (= بِ ہاءی ) ► However, aerab are relevant in second pass, when first pass gives an exact match  بَن بِن بُُن  سَن سِن سُُن

18 مرکزتحقیقات اردو 18 ‎Vocalic Aerab - Zabar, Zer, Pesh ► FT, FLJ, JUL  بَن  بِن  بُُن  بَیر  بِیر  بیر ► STCD  بَن  بُُن  بِن  سَن  سِن  سُُن   بِیر  بیر

19 مرکزتحقیقات اردو 19 Vocalic Aerab – Khari Zabar ► No effect at primary level sorting  اعلا مَوسی  اعلان مُوسی  اعلم  اعلی ► No minimal pairs found so secondary level so involvement could not be determined

20 مرکزتحقیقات اردو 20 Consonantal Aerab - Hamza ► Ignored at primary level ► Minimal pairs not found to determine secondary level effect  مرا  مر ٲ ت  مراتب  مرام  مرآت  باوا  باٶٹا  باون

21 مرکزتحقیقات اردو 21 Consonantal Aerab - Tashdeed ► Ignored are primary level ► Effects secondary level sorting  “heavier than null” ► Interacts with vocalic aerab  بَرانا  برّانا  بَرایا  بدی  بدّی  بدّیا  بدو  بدّ ُو  بدّیا all examples from FT

22 مرکزتحقیقات اردو 22 Ligature-Break (Half Space) ► Ignored at primary level and secondary level  ٹیلیوژن ، ٹیلی وژن  ٹیلیفون ، ٹیلی فون  بے کار ، بیکار ► But given each pair, which word first?  Tertiary level decision

23 مرکزتحقیقات اردو 23 Word-Break (Normal Space) ► Ignored at primary level ? ► American Heritage Dictionary (2 nd Collegiate ed.)  black art  black bear  blackberry  black box  blacken  Black Death  black gold ► Space ignored at primary level

24 مرکزتحقیقات اردو 24 Word-Break (Normal Space) - II ► FLJ 1. بانگ 2. بانگِ درا 3. بانگ دینا  If sorting is done at word break then 1,3,2  So sorting ignores word break

25 مرکزتحقیقات اردو 25 Conclusions: Urdu Collating Sequence ► Multi-level Complex Problem ► Pre-processing  Contractions ( ب ھ  بھ ) ► Primary Level  characters ► Secondary Level  Vocalic aerab  Consonantal aerab  Interaction of Vocalic and Consonantal aerab  Others (?) ► Tertiary Level  Ligature Break  Others (?)

26 مرکزتحقیقات اردو 26 What Needs to be Done: Urdu ► If required revisit and revise the Urdu character set ► Extensive work on sorting done at linguistic level by NLA and UDB. Need to  Standardize it  Publicize it ► Need to develop at computational level to build  Collation Element Table to generate sort keys  Standardize it  Publicize it

27 مرکزتحقیقات اردو 27 What Needs to be Done: Other Languages of Pakistan ► Need to work towards standardization of  Character set  Collating Sequence ► Need to do gap analysis of character sets with Unicode/ISO 10646 for international standardization ► Need to develop Collation Element Tables for these Languages for sorting

28 مرکزتحقیقات اردو 28 Thank you Questions?


Download ppt "Urdu Character Set and Collating Sequence Sarmad Hussain مرکزتحقیقاتِ اردو Center for Research in Urdu Language Processing FAST National University of."

Similar presentations


Ads by Google