Presentation is loading. Please wait.

Presentation is loading. Please wait.

ترجمه ماشینی مبتنی بر آنتولوژی

Similar presentations


Presentation on theme: "ترجمه ماشینی مبتنی بر آنتولوژی"— Presentation transcript:

1 ترجمه ماشینی مبتنی بر آنتولوژی
دانشکده مهندسی گروه کامپیوتر آزمایشگاه فناوری وب معنایی گزارش سمینار کارشناسی ارشد ترجمه ماشینی مبتنی بر آنتولوژی Ontology based translation machine سیبسیبسیبسیب

2 فهرست مطالب مقدمه آنتولوژی وب معنایی ترجمه ماشینی ترجمه معنایی
1 به نام خدا فهرست مطالب مقدمه آنتولوژی وب معنایی ترجمه ماشینی ترجمه معنایی نتیجه گیری مراجع سیبسیبسیبسیب

3 مقدمه- جایگاه و ضرورت ترجمه ماشینی نانو تکنولوژی بیوتکنولوژی
2 مقدمه- جایگاه و ضرورت ترجمه ماشینی نانو تکنولوژی بیوتکنولوژی تکنولوژی اطلاعات علوم شناختی روباتیک و هوش مصنوعی و... از میان علومی که به اعتقاد بسیاری از دانشمندان می توانند دنیا را متحول کنند ترجمه ماشینی در جایگاه اول این علوم قرار گرفته است بر اساس انجمن زبانشناسان ایالات متحده تنوع زبان های طبیعی در دنیا به اینصورت است که : حدود 3 درصد به زبان فرانسه حدود 5.8 درصد به زبان آلمانی حدود 5.9 درصد به زبان ژاپنی بیش از زبان متفاوت در دنیا وجود دارد 239 زبان از این تعداد فقط در قاره اروپا استفاده می شود. قاره آسیا زبان متفاوت را داراست. سیبسیبسیبسیب

4 3 آنتولوژی- تاریخچه ریشه آغازین این واژه از فلسفه یونان گرفته شده که البته پس از مدتها در قرن 19 فلاسفه آلمانی آن را در مورد هستان شناسی و مطالعه چیستی به کار برده اند . Human = Rational sensitive animate material Substance جوهر به ماده و غیر ماده تقسیم می شود ماده شامل پیکر است و پیکر ممکن است زنده باشد یا نباشد پیکر زنده ممکن است احساس داشته باشد یا نداشته باشد اگر احساس داشت ممکن است منطقی باشد یا نباشد اگر عاقل باشد می تواند ارسطو یا افلاطون یا سقراط و.. باشد سیبسیبسیبسیب

5 4 آنتولوژی - تعاریف رسمی Ontology is a term in philosophy and its meaning is ``theory of existence''. Ontology is an explicit specification of conceptualization. Ontology is a body of knowledge describing some domain, typically common sense knowledge domain. تعریف دوم را که آقای Thomas Gruber مطرح کرده است و به طور کلی مورد پذیرش دانشمندان هوش مصنوعی می باشد که در مورد آنتولوژی برای استفاده در فنون مهندسی کاربردی تر می باشد بنا به تعریف آزمایشگاه سیستم های دانش استانفورد، آنتولوژی را می توان آن یک لغت نامه ای تصور کرد که در آن لغت ها به سایر واژه ها در زمینه های خاص مرتبط شده اند. در واقع آنتولوژی موجب تبادل دانش در مورد یک زمینه خاص می شود و این بوسیله ارتباطاتی بدست می آید که درون این لغت نامه وجود دارد. سیبسیبسیبسیب

6 آنتولوژی Person A: "what is the last document you read ?"
5 آنتولوژی Person A: "what is the last document you read ?" Person B: "the article Gruber wrote on ontology in 1993." The syllogism "a article is a book" "a book is a document" so "a article is a document آنتولوژی در واقع پیشنهاد دهنده یک ساختار مفید برای بهره برداری غیر مبهم از داده ها ست. برای درک بهتر آنتولوژی پرسش و پاسخ روبرو با هم مرور می کنیم فقط دو تا انسان می توانند این پرسش و پاسخ را خلق کنند روال استنتاج آدمی تشخیص دادن تعمیم دادن روال بازیابی اطلاعات ، ارائه و به اشتراک گذاری دانش،کتابخانه دیجیتالی معانی ، مهندسی نرم افزار،فرآیند پردازش زبان طبیعی، استنتاج مبتنی بر آنتولوژی طراحی پایگاه داده سیبسیبسیبسیب

7 6 وب معنایی – اجزاء وب معنایی از ساختار چند لایه ای استفاده می کند که هر لایه از مزایای لایه پایین تر خود استفاده می کند Xml یک نحو ابتدایی و اصلی برای ساختار محتوای داخلی اسناد تعریف می کند شمای xml ساختار های مورد استفاده در xml را محدود می کند RDF شامل سه گانه ای است که به کمک آن دو مفهوم را به کمک یک مفهوم رابطه ای به هم وصل می کند شمای RDFS تعریف کننده کلاسهای مورد استفاده در RDF است در مراحل بعدی استخراج دانش از درون اطلاعات مراحل قبل صورت می گیرد و در بالاترین لاه میزان اعتماد به قوانین بدست آمده در قالب trust بررسی می شود. استخراج آنتولوژی روش اول: این است که تعدادی افراد متخصص در هر رشته، پس از صرف زحمات طاقت فرسا، آنتولوژی مربوط به دامنه در اختیار خود را استخراج نمایند. روش دوم: استفاده از الگوریتم‌های مناسب بر روی توده‌های عظیم متنی یا Corpus ها می باشد. به عنوان مثال می توان با استفاده از یادگیری ماشین و روشهای آماری و خلاصه هر روش دیگری این کار را به طور خودکار و ماشینی انجام داد. سیبسیبسیبسیب

8 7 وب معنایی وب معنایی در واقع فضایی از جنس محاسبات هوشمند است که در آن کتابخانه ها ،دانش نامه ها ، روزنامه ها و سایر منابع دانش ، می توانند از محتوای معنایی یکدیگر، باخبر شده و یکدیگر را درک نمایند. بر پایه آنتولوژی های موجود در حوزه های گوناگون اعم از کلی و خاص دامنه پروژه هایی برای معنایی کردن فضای وب تعریف شده که از مهمترین آنها پروژه داده های پیوندی است که بتوان ارتباط میان دانشنامه های مختلف را با هم بر قرار نمود. سیبسیبسیبسیب

9 ترجمه ماشینی– تاریخچه دوره آغازین
8 ترجمه ماشینی– تاریخچه دوره آغازین ایده اصلی ترجمه ماشین به قرن 17 بر می گردد و ابتدا با معرفی یک زبان ساختگی شروع شد. در سال 1629 توسط رنه دکارت(ریاضیدان و فیلسوف فرانسوی) دوره رخوت در دهه به این خاطر که طراحان و محققان این رشته ، متوجه رام نشدنی بودن این مسئله شدند، دچار رخوت و سستی گردید. دوره حیات مجدد در اوایل دهه 80 که سخت افزار سیستم ها با بهبود خوبی روبرو شدند و هزینه ها هم به نوعی، کاهش پیدا کرد، دوباره علاقه به پیگیری موضوع هم بوجود آمد. آغازین : ترجمه ماشینی که آن را به اختصار ام تی می نامند که از قدرت نرم افزار های رایانه ای برا ی ترجمه از یک زبان به زبان طبیعی دیگر بهره می گیرد . در سال 1950 آزمایش Georgetown، موفقیت ترجمه 60 عبارت روسی به انگلیسی را به نمایش گذاشت . این نخستین سیستم ترجمه کننده موفق بود. در اواخر دهه ، این مسئله - ترجمه ماشینی- برای داده های نظامی مطرح شد و سرمایه گذاری های زیادی بر روی آن انجام گرفت. دوره رخوت: تفکر غالب این دوران این بود که مساله ترجمه ماشینی به این سادگی ها قابل حل نیست. گزارش منتشر شده ای از سوی آکادمی بین المللی علوم آلپاک در سال 1966 نشان می دهدکه تحقیقات این گروه تا 10 سال به شکست خوردند و این موضوع سبب شد تا سرمایه گذاری ها کاهش پیدا کردند . در سال 1973 فقط سه پروژه ترجمه ماشینی، آن هم با سرمایه گذاری دولتی در آمریکا فعال بود که در سال 1975 این عدد به صفر هم رسید. دوره حیات مجدد: در این زمان یک دوره حیات مجدد در پروژه ترجمه های ماشینی با عنوانMAT بوجود آمد. ، این بود که تنها در سال 1984 نیم میلیون صفحه توسط ماشین ترجمه شدند.این موفقیت موجب گردید تا به تدریج، بار سرمایه گذاری این پروژه ها از روی دوش دولت برداشته شد و به سمت شرکتهای صنعتی انتقال پیدا کرد. سیبسیبسیبسیب

10 ترجمه ماشینی - دسته بندی
9 ترجمه ماشینی - دسته بندی MT MAT مستقیم - غیر مستقیم زبان میانی – واسط انتقال دهنده دامنه محلی - دامنه سراسری MT: این سیستم ها، به دنبال تحقق این ایده هستند که بدون دخالت انسان دست به انجام ترجمه بزنند. یعنی هیچ ایده خاصی برای مرحله پیش پردازش و ویرایش نتیجه ترجمه، توسط انسان وجود ندارد و همه چیز به طور خود کار به وسیله کامپیوتر انجام می شود. MAT HAMT: در این سیستم ها مسئولیت اصلی ترجمه با ماشین است و انسان به عنوان یک فرد خبره در کنار ماشین به سوالات آن پاسخ می دهد به عنوان مثال انتخاب یک معنی لغت میان چندین معنا، یا مشخص کردن جایی که یک عبارت باید اضافه بشود یا ... MAHT: بر خلاف سیستم یاد شده در این سیستم مسئولیت نهایی با انسان بوده و ماشین به عنوان یک دستیار کمک دهنده عمل می کند. مثل جستجو در یک لغتنامه، دسترسی راه دور به پایگاه داده اصطلاحات فنی، بازیابی نمونه هایی از کاربرد عبارت و جمله یا اجرای عملیات مختلف بر روی کلمات مانند قالب بندی و .. . عملیات پیش پردازش در این سیستم ها عموماً انجام نمی شود، چون قرار است این تسهیلات را سیستم برای انسان فراهم نماید. بر اساس تکنیک های زبان شناختی ترجمه مستقیم : این ویژگی به سیستمی مربوط می شود که از آغاز برای ترجمه از یک زبان به یک زبان خاص دیگر طراحی شده باشد . و محدود به رعایت حداقلهایی می شوند که در ترجمه تاثیر دارند. به عنوان مثال با توجه به زبان مقصد، مقداری ابهام زدایی انجام می دهد و از بسیاری از نیاز مندی های مربوط به ترجمه صرف نظر می کند . برای نمونه می توان از سیستم مترجم GAT نام برد. ترجمه غیر مستقیم : این ویژگی به سیستمی مربوط می شود که در آن تحلیل زبان مبدا و ترکیب زبان مقصد از پایه کاملاً فرآیندهای از هم مستقل هستند . به عنوان مثال بحث ابهام زدایی به مقدار ضرورت برای تعیین معنا ورودی زبان مبدا انجام می شود، صرف نظر از اینکه چه زبان مقصدی به عنوان ورودی به سیستم اعلام شده است که برای نمونه می توان از سیستم مترجم EUROTRA نام برد. رهیافت زبان میانی: . بنابراین بازنمایی یک واحد معنایی داده شده صرفنظر از این که از چه زبانی(با چه ساختار گرامری) است می تواند در قالب آن زبان بیان شود که به عنوان نمونه می توان از سیستم مترجم CETA نام برد. واسط انتقال دهنده: رهیافت واسط انتقال دهنده، از لحاظ استفاده از واسط شبیه رهیافت زبان میانی است با این تفاوت که بازنمایی معنا از یک واحد گرامری مثلاً یک جمله، وابسته به زبانی است که یا از زبان مبدا مشتق شده یا به زبانی مقصد وابسته است . این مساله بر وجود سطح سوم ترجمه دلالت می کند که معنای یک زبان خاص را به زبان دیگر می نگارد. به این سطح ، سطح انتقال می گویند به عنوان نمونه می توان از سیستم مترجم TAUM نام برد. دامنه محلی: شاید نتوان معیار های حوزه محلی در برابر حوزه عمومی را با اطمینان، به عنوان وجوه تمایز سیستم های ترجمه در طبقه بندی مطرح نمود . سیستم های با برد محلی، سیستم هایی هستند که در آن کلمه به عنوان یک جزء حیاتی و مهم، در مرحله تجزیه و تحلیل بشمار می رود. در چنین سیستمهایی یک ریختی (یعنی کلماتی که دارای ظاهر یکسان و اما معنای متفاوت هستند) یک مشکل اساسی است چرا که با این رویکرد فی نفسه ، انتظار تحلیل یکپارچه ای بر روی جملات وجود ندارد.به عنوان نمونه ای از این نوع سیستم می توان از مترجم SYSTRAN نام برد. دامنه سراسری: حوزه عمومی سیستمی را مشخص می کند که در آن معنای هر کلمه با توجه به مفهوم آن در یک تحلیل یکپارچه بر روی عبارت(و یا ترجیحاً پاراگراف) بدست می آیدبه عنوان نمونه می توان از سیستم METAL نام برد[Slo1985]. HAMT MAHT سیبسیبسیبسیب

11 ترجمه ماشینی - انواع ترجمه ماشینی
10 ترجمه ماشینی - انواع ترجمه ماشینی سیستم های ترجمه مبتنی بر قاعده Rule based سیستم های ترجمه مبتنی بر دانش Knowledge based سیستم های ترجمه مبتنی بر مجموعه نوشتجات Corpus based مبتنی بر نمونه(مثال) Example based مبتنی بر روشهای آماری Statistical سیستم های ترکیبی Hybrid MT سیستم های مبتنی بر قاعده : در این مدل از قواعد پیچیده زبانی در مرحله تحلیل متن مبدا و تولید ترجمه به زبان مقصد استفاده می شود سیستم های مبتنی بر دانش: وابسته به دامنه خاصی هستند و لذا از مدلهای ارایه شده مربوط به دانش حوزه خاص استفاده می کنند. سیستم های مبتنی برمجموعه نوشتجات: این روش ترجمه، از زنجیر کردن قطعه های کوچک ترجمه به صورت مرحله به مرحله بدست می آید. نتایج نسبتاً قابل قبولی نیز از این روشها حاصل گشته است [VER 2004] این نوع سیستم ها معمولاً شامل متدهای زیر می باشد: مبتنی بر نمونه(مثال) مبتنی بر روشهای آماری سیستم های ترکیبی: در این روش از توانایی های سیستم های مبتنی بر قاعده و سیستم های مبتنی بر روشهای آماری به طور توامان استفاده شده است . سیستم های هیبریدی که ابتدا با روش مبتنی بر قاعده ترجمه ماشینی انجام می شود و سپس با استفاده از روشهای آماری نتیجه بدست آمده اصلاح و تنظیم می گردد. سیستم هایی که روشهای مبتنی بر قاعده عملیات پیش پردازش و پس پردازش را انجام می دهند و کار اصلی ترجمه بر عهده موتور مبتنی بر روشهای آماری است . سیبسیبسیبسیب

12 ترجمه ماشینی - مبتنی بر روشهای آماری
11 ترجمه ماشینی - مبتنی بر روشهای آماری ترجمه های آماری سعی دارند که با استفاده از کاربرد متد های آماری، بر روی دانشنامه های دو زبانی ترجمه هایی را تولید نمایند . اولین نرم افزار ترجمه ماشینی به روش آماری CANDID از شرکت IBMبود . Google برای سالها از Systran استفاده می کرد. از اکتبر سال 2007 به روشهای آماری روی آورد. در واقع به مسئله ترجمه به صورت یک مسئله یادگیری ماشین برخورد می کند . شیوه کلی آنها در یک کلام بررسی دقیق ترجمه های انجام شده توسط انسان ، آموختن آن و سپس ارایه ترجمه بر اساس آموزش های مرحله قبل می باشد . مثلاً یکی از منابعی که در یکی از پروژه های از این نوع استفاده شد، لغتنامه دو زبانه Canadian Hansard مربوط به مستندات پارلمان کانادا و پارلمان اروپا بود که با این مجموعه و با استفاده از روشهای آماری نتایج خوبی تولید شد. در حالیکه داشتن چنین مجموعه هایی نادر و کمیاب می باشند. از قوانین بیز برای تخمین ترجمه صحیح تر استفاده می کند سیبسیبسیبسیب

13 ترجمه ماشینی - ترجمه مبتنی بر نوشتجات نمونه
12 ترجمه ماشینی - ترجمه مبتنی بر نوشتجات نمونه مبتنی بر استنتاج قیاسی است Case base reasoning شامل یک پیکره به حد کافی بزرگ دو زبانی است که از تعداد زیادی نمونه و ترجمه نظیر آن تشکیل شده است یک الگوریتم انطباق برای یافتن شبیه ترین عبارات به عبارت ورودی یک الگوریتم انتقال برای تولید ترجمه هر یک از عبارا ت مرحله قبل یک الگوریتم ترکیب مجدد برای اتصال عبارات ترجمه شده شده به یکدیگر به وسیله Makoto Nagao در سال ابداع گردید. سیبسیبسیبسیب

14 ترجمه ماشینی - ترجمه آنلاین
13 ترجمه ماشینی - ترجمه آنلاین آمار نشان می دهد که تا قبل از سال 98 حداقل 25 کشور با بیش از کاربر در اینترنت حاضر بوده اند که زبان اول و حتی دوم نیمی از آنها انگلیسی نبوده است . این آمار لزوم توجه به بحث ترجمه را از همان ابتدا مشخص تر می کند .در ترجمه آنلاین ویژگی هایی هست که در ترجمه سنتی وجود ندارد: نخست اینکه سرعت آن در ترجمه می بایست بالا باشد (حتی به قیمت پایین آمدن کیفیت خروجی تا حد قابل قبول). دوم : ترجمه دو به دو بین چندین زبان کاربر برای کار با آن نیازمند انجام تنظیمات خاص نباشد. [AppTek] در سال2009 به عنوان یک ماشین ترجمه مبتنی بر ترکیب روشها ی ترجمه ماشینی مطرح شد. [Google Translator] موتور ترجمه ماشینی گوگل نیز با بهره گیری از روش های آماری توانسته است در رقابت با مترجم BLEU-4 محصول IBM نمره را در برابر در مورد ترجمه دو طرفه عربی - انگلیسی و چینی - عربی بدست آورد. (در تابستان 2006 توسط موسسه بین المللی استاندارد و تکنولوژی). پس از مطرح شدن موضوعات امنیتی در کشورهای خاور میانه، پروژه های متعددی برای ترجمه زبانهای این منطقه نیز مورد توجه قرار گرفت. (زبانهایی مثل پشتو دری و عربی) . سیبسیبسیبسیب

15 ترجمه ماشینی - ارزیابی سیستم های ترجمه
14 ترجمه ماشینی - ارزیابی سیستم های ترجمه به عنوان قدیمی ترین روش می توان از قضاوت انسانی استفاده کرد . BLEU NIST F-Score METEOR به عنوان قدیمی ترین روش می توان از قضاوت انسانی استفاده کرد . با وجود این که این روش ممکن است بسیار وقت گیر و پرهزینه باشد در عین حال بهترین و قابل اعتماد ترین سیستم ارزش گذاری شناخته شده است .در کنار آن می توان از ابزار خودکاری همچون WER,PER,BLEU, NIST and METEOR نیز نام برد . سیبسیبسیبسیب

16 ترجمه ماشینی - ارزیابی به روش Bleu
15 ترجمه ماشینی - ارزیابی به روش Bleu در این معیار ارزیابی، میزان همبستگی بالا میان متن تولید شده توسط ماشین، و متن ترجمه شده توسط انسان به صورت کمی، مورد بررسی قرار گرفته است. m : در این فرمول تعداد کلماتی از عبارت کاندید است که در عبارت مرجع نیز وجود دارد . M : تعداد کل کلماتی است که در عبارت کاندید ظاهر شده است. - ارزیابی به روش NIST دارای الگوریتمی مشابه الگوریتم BLEU می باشد، با این تفاوت که در مدل BLEU برای هر کلمه مرکب n گرمی، وزن یکسانی فرض شده است در حالیکه در این روش کلمات مرکب چند گرمی بر اساس تعداد تکرارشان در متن وزن دهی می شوند. Blue: از جمله كمبودهاي روشهاي مبتني بر N-gram يكسان در نظر گرفتن اهميت كلمات و N-gram ها مي باشد. در برخي از اين روشها به N-gram ها وزن داده شده است ولي نحوه ي وزندهي تطابق كاملي با معيارهاي انسان ندارد. NIST روش ارزیابی NIST، که توسط اداره استاندارد آمریکا پیشنهاد شده است. دارای الگوریتمی مشابه الگوریتم BLEU می باشد، با این تفاوت که در مدل BLEU برای هر کلمه مرکب n گرمی، وزن یکسانی فرض شده است در حالیکه در اینجا کلمات مرکب چند گرمی بر اساس تعداد تکرارشان در متن وزن دهی می شوند. به عنوان مثال ترکیب "In the" که به طور متناوب در یک متن تکرار می شود دارای ارزش کمتر و ترکیب "Intresting calculation" که وقوع آن کمتر بوده از وزن برخوردار می شود. سیبسیبسیبسیب

17 ترجمه ماشینی - ارزیابی به روش F-Score
16 ترجمه ماشینی - ارزیابی به روش F-Score دو پارامتر p(precision) , r(recall) برای محاسبه دقت به صورت زیر محاسبه می شوند: p برابر است با تعداد نتایج صحیح، تقسیم بر تعداد کل نتایج برگشت داده شده. r برابر است با تعداد نتایج صحیح، تقسیم بر تعداد نتایجی که باید برگشت داده می شد. در حالت کلی به ازای عدد نامنفی بتا داریم: سیبسیبسیبسیب

18 17 ترجمه معنایی . این روش در واقع از مزایای پیوند دادن معنا به داده های موجود در لغتنامه بهره می گیرد تا بتواند واژه معادل و هم معنا را در زبان دوم پیدا نماید. یکی از ملزومات این روش این است که معنا را به شکلی خاص نه لزوماً زبان مبدا و نه در قالب زبان مقصد به گونه ای باز نمایی می کند. از امکانات موجود در آنتولوژی ها برای رفع ابهام در ترجمه های تولید شده بهره می گیرد. مثلا رابطه معادل بودن. بنابر این در ترجمه مبتنی بر دانش به کمک نگاشت معانی از یک زبان به زبان دیگر، به جای اینکه فقط نحو زبانها به عنوان ورودی سیستم در نظر گرفته شود، معانی موجود در زبان مبدا نیز برای نگاشته شدن در ورودی حاضر می شوند . معادل بودن کلاسی : person و Individual معادل بودن ویژگی ها : PersonGivenName و FirstName معادل بودن مصداق ها(نمونه ها): Dan Smith و Daniel Smith اگر چنین نگاشتی موجود نبود باید به دنبال درست کردن این ارتباطات گشت(انطباق آنتولوژی ها) سیبسیبسیبسیب

19 ترجمه معنایی سیستم Mikrokosmos
18 ترجمه معنایی سیستم Mikrokosmos در دانشگاه نیومکزیکو به اتفاق وزرات دفاع آمریکا مراحل ساخت آن را انجام دادند. بر خلاف پروژه های قبلی، قادر به ترجمه بسیاری از مقالات خبری اسپانیایی به انگلیسی می باشد. در ابتدا یک لغتنامه با 7000 کلمه اسپانیایی به وسیله یک آنتولوژی در حدود معنا آماده شد. وظیفه بخش تحلیل فرآیند ترجمه آن است که کلمات را از زبان مبدا به معانی، تحت کنترل اصلاحگرهایی انجام دهد تا محدودیت های انتخابی را، بوسیله ارتباطات مفهومی قید شده در آنتولوژی اعمال می نمایند . ضمن انجام جستجوی مشابهت میان مفاهیم به وسیله یافتن کوتاهترین مسیر در شبکه آنتولوژی، آزمونهای "قرابت معنایی" بسیار قوی تری را برای تفسیر استعارات و کنایه ها و ... فراهم می کند. سیبسیبسیبسیب

20 ترجمه معنایی سیستم Mikrokosmos
19 ترجمه معنایی سیستم Mikrokosmos معماری سیستم برای تحلیل متون ورودی خروجی مرحله تحلیل، یک بازنمایی معنایی، از متن نوشته شده به زبان مبدا است که بوسیله یک ساختار مستقل با نام TMR ارایه می گردد. خروجی مرحله تحلیل، یک بازنمایی معنایی، از متن نوشته شده به زبان مبدا است که بوسیله معماری شکل در قالب یک ساختار مستقل با نام TMR ارایه می گردد. یک TMR را می توان به عنوان یک نمونه سازی مصداقی، از زیرگرافی متعلق به آنتولوژی کلی، در نظر گرفت . البته این گراف معمولا کوچکتر از کل آنتولوژی می باشد.TMR ها در واقع زبان میانی معنا ، برای ارائه به فاز تولید زبان مقصد هستند . پس از وارد شدن متن ورودی، عمل برچسب گذاری نقش کلمات توسط یک پارسر نحوی ، انجام می شود و نتیجه به صورت یک درخت تولید می شود. در مرحله پیش پردازش نحوی- معنایی با استفاده از لغتنامه، کلمات مرتبط با هر کلمه به درخت اضافه می شوند. سپس در مرحله انتساب مقادیر، فریم و اسلات های مربوط به متغیرهای نحوی-معنایی که در مرحله قبل تعیین شده اند ، مقدار دهی می شوند. این کار به کمک آنتولوژی و لغتنامه انجام می شود. در مرحله انتخاب معنای قابل قبول، word sense بر اساس محدودیت های مسئله، معنای مناسب انتخاب شده و TMR تکمیل می شود که این کار می تواند به صورت تکراری، با مرحله بعد که ترکیب کردن TMR ها است بهینه شود . در مرحله آخر هم زمان و مفرد یا جمع بودن و .. الحاقات زبانی به آن اضافه می شود و TMR خروجی تولید می شود. سیبسیبسیبسیب

21 ترجمه معنایی سیستم Mikrokosmos
20 ترجمه معنایی سیستم Mikrokosmos سه سطح اول نمودار سلسله مراتبی آنتولوژی : Object ،Event ،Property سیبسیبسیبسیب

22 ترجمه معنایی – نقش آنتولوژی
21 ترجمه معنایی – نقش آنتولوژی El grupo Roche adquirio Docteur Andreu گروه روشه Docteur Andreu را ”تملک کردند“ یا ”آموختند“ . adquirio دارای دو معنای ACQUIRE و LEARN محدودیت های انتخابی، در آنتولوژی بر روی مفاهیم ACQUIRE و LEARN مشخص کننده این نکته هستند که اگر موضوع عبارت یک شی انتزاعی Abstract Object نیست معنی واژه adquirio عبارت ”تملک کردن“ است و نه“ آموختن“. بعد از اینکه نام Docteur Andreu به عنوان نام یک شرکت(یک شی ء اجتماعی) شناسایی شد . معلوم می گردد که یک Abstract Object نبوده و لذا معنی تملک کردند انتخاب می گردد. سیبسیبسیبسیب

23 ترجمه معنایی سیستم Mikrokosmos
22 ترجمه معنایی سیستم Mikrokosmos نمایش فریم مفهوم ACQUIRE به همراه نمایش بخشی از رکورد فعل اسپانیایی ‘adquirir’ در لغتنامه با نگاشت معنایی با ACUIRE , LERAN سیبسیبسیبسیب

24 ترجمه معنایی-ویژگیهای سیستم Micrososmos
23 ترجمه معنایی-ویژگیهای سیستم Micrososmos بازنمای معنایی به صورت سمبولیک و مستقل از زبان مبدا می باشد سمبولها را در یک ساختار سلسله مراتبی پیچیده سازماندهی می کند. یک لغتنامه مشترک برای زبانهای مختلف جهت به اشتراک گذاری دانش، فراهم نماید. امکان به اشتراک گذاری دانش برای تحلیلگر زبان مبدا و تولید کننده زبان مقصد را فراهم آورد. محدودیت های انتخابی را ذخیره نماید. ابهامات معنایی را از بین ببرد و بوسیله استنتاج هایی که از روی توپولوژی انجام می دهد میزان شباهت معنایی را تفسیر نماید . سیبسیبسیبسیب

25 ترجمه معنایی- ترجمه معنایی مبتنی بر نوشتجات نمونه
24 ترجمه معنایی- ترجمه معنایی مبتنی بر نوشتجات نمونه ایده اصلی: اضافه کردن اطلاعات RDF به نمونه های موجود در روش EBMT مزایا : یافتن عبارات همتراز میان متن و ترجمه افزودن معنا به نمونه ها ی ترجمه رفع ابهام مثال : دو جمله زیر در پایگاه نمونه ها موجود است  Große Besonderheiten ↔ important peculiarities Große Städte ↔ big cities سوال : ترجمه عبارت زیر چیست: große Schlößer در دانشگاه هامبورگ و برای ترجمه از آلمانی به انگلیسی به طور موفقیت آمیزی اجرا شد. یافتن عبارات همتراز میان متن و ترجمه برای بسیاری از زبانهای کوچک، این مشکل وجود دارد که تعداد نمونه های ترجمه شده برای آنها محدود بوده و در عین حال ترجمه های در دسترس به صورت صفحه ای موجود می باشند. به کمک RDF می توان مشخص کرد که کدام ترجمه، مربوط به کدام عبارت متن اولیه است. درمورد ترجمه هایی که حساسیت معنایی در آنها بالا می باشد، می توان از RDF ها برای غنی سازی معنایی استفاده کرد تا از معنای موجود به شکل قوی تری محافظت شود. افزودن معنا به نمونه ها ی ترجمه شده یکی از کاربردهای مشهور ترجمه مبتنی بر نوشتجات نمونه، سیستم های ترجمه آنلاین می باشد. در این سیستم ها توجه به معنا بسیار مهم تر از جنبه های دیگر یک کار ترجمه است . به کمک مجموعه های RDF می توان نمونه های موجود را از لحاظ معنایی غنی ساخت و به این روش دقت ترجمه را بالا برد. رفع ابهام در سیستم ترجمه مبتنی بر نوشتجات نمونه، تنها از نشانه گذاری نحوی، استفاده می شود که این کافی به نظر نمی رسدهمانطور که دیده می شود در اینجا ابهام وجود دارد که ناچاراً باید به معنای عبارت توجه شود. البته ابهام زدایی آماری هم، ممکن است به کار بیاید، اما روشهای معنایی از بهینگی و دقت بیشتری در ترجمه، برخوردار هستند . سیبسیبسیبسیب

26 ترجمه معنایی- ترجمه معنایی مبتنی بر نوشتجات نمونه
25 ترجمه معنایی- ترجمه معنایی مبتنی بر نوشتجات نمونه große Schlößer برای حل کردن این مساله شکل 17، مدلی را پیشنهاد می نماید . در این طرح دو نمونه RDF وجود دارد . نشان گذاری معنایی و نشان گذاری نحوی . لذا مفاهیم در دو آنتولوژی متناظر به هم برای نشان گذاری سازماندهی می شوند . در معماری شکل 17 فرض شده است که A رشته ورودی در زبان L1 باشد . با یک فرایند جستجو، قطعات متن A در داخل پایگاه نمونه پیدا می شود و یک یا چند ترجمه، در قالب B1,..,Bn بدست می آید. در مرحله بعد RDF ورودی با نامزد های ترجمه مقایسه می شود که این کار با عمل انطباق نحوی و معنایی بر اساس دو آنتولوژی مذکور انجام می شود و آن ترجمه ای که بیشترین شباهت را داشته باشد، انتخاب شده و به خروجی تحویل داده می شود. طبق آنچه در این مقاله آمده است دانشگاه هامبورگ، این روش را برای ترجمه آلمانی به انگلیسی پیاده سازی کرده است. Important peculiarities Big castle Big cities سیبسیبسیبسیب

27 ترجمه معنایی- چالشهای سیستم های ترجمه معنایی
26 ترجمه معنایی- چالشهای سیستم های ترجمه معنایی بالا بودن هزینه و زمان اجرای پروژه های ترجمه به طور کلی حجم بالای اندازه پایگاه دانش زبان های طبیعی ابهام در انتخاب یک قطعه به حد کافی مناسب از دانش عدم وجود آنتولوژی مناسب برای بسیاری از زبانهای دنیا چالشهای مربوط به مسئله انطباق آنتولوژی ها ... سیبسیبسیبسیب

28 27 نتیجه گیری فرآیند ترجمه، یکی از پیچیده ترین موضوعاتی است که در پنجاه سال اخیراست. سیستم های ترجمه کننده مطلوب سیستمی است که از یک سو به خصوصیات ساختاری زبان های طبیعی و ازطرف دیگر به مسئله درک معانی، توجه داشته باشد. سیستم های مترجم فعلی عموما مبتنی بر قواعد زبانی ، مبتنی بر نوشتجات نمونه و ترجمه ماشینی مبتنی بر روشهای آماری، می باشند. هر کدام از این روشها دارای نقاط قوت و ضعف اساسی می باشند: در روشهایی مبتنی بر قواعد پیچیدگی نسبتاً زیادی موجود است قدرت روشهای مبتنی بر نوشتجات نمونه به اندازه زیادی وابسته به حجم پایگاه نوشتجات نمونه ای است که عمل استنتاج با توجه به آنها صورت می گیرد. در حال حاضر، بهترین عملکرد مربوط به سیستم های مبتنی بر روشهای آماری می شود که در سالهای اخیر هم مورد استفاده ماشینهای ترجمه آنلاین از قبیل google قرار گرفته است. سیبسیبسیبسیب

29 28 نتیجه گیری با این وجود، یکی از چالشهایی که همچنان شالوده این معماری و همه روشهای مرسوم، با آن دست به گریبانند، موضوع عدم توجه به معنا و مفاهیم درون متن می باشد. مهمترین و شاخص ترین دست آورد مربوط به کاربرد آنتولوژی ها، موضوع استنتاج هایی آنتولوژیکی است که می تواند موجب از میان رفتن ابهام در تشخیص معنا گردد. اهمیت این موضوع آنجا روشنتر می گردد که دیگر روشهای آماری و گرامری نتوانند ابهام هایی را رفع کنند که تنها راه تشخیص آن توجه به مفاهیم و معانی باشد. سیبسیبسیبسیب

30 29 مراجع [RYC 2007] Rychtyckyj, N, “Machine Translation for Manufacturing”: AI Magazine Vol 28 No 3, 2007. [Slo1985] Sloculn, J, “Survey of Machine Translation, Its History, Current Status and Future Prospects”: Computational Linguistics, Volume 11, No 1, 1985 [BAR 2007] Bar, K, Chueka, Y, Dershowitz, N, “An Arabic to English Example-based Translation System”: ICTIS, 2007 [LOP 2008] Lopez, A, “Statistical Machine Translation”: ACM Computing Surveys, Vol. 40, No. 3, 2008. [HUT 2007] Hutchins, J, “Machine Translation: aconcise history”: InComputer Aided Translation: Theory and Practice, C. S. Wai, Ed. Chinese University of Hong Kong, 2007 [MAH 1996] Mahesh, K, “Ontology Development for Machine Translation: Ideology and Methodology”: Technical report, Computer Research Laboratory, New Mexico State University, 1996. [HAH 2005] Hahn, W, “Knowledge Representation in Machine Translation”: Technical report, Computer Science Department, University of Hamburg, 2005 سیبسیبسیبسیب

31 30 مراجع [VER 2004] Vertan, C, “Language Resources for the Semantic Web – perspectives for Machine Translation”: Proceedings of the Second International Workshop on Language Resources for Translation Work, Research and Training, Coling. Geneva.37:42, 2004 [GAN 2002] Gandon, F, “Ontology Engineering: A survey and a return on experience”, ACACIA Team, Rapport de Recherche 2002 [ABT 2007] Rasoolian, A, ”Antology Matching”, BC Degree Thesis in Computer Faculty of Sharif University, 2007 [OBT 2007] Obitko, M., “Translations between Ontologies in Multi-Agent Systems”, Ph.D. dissertation, Faculty of Electrical Engineering, Czech Technical University in Prague, 2007. [BER 2001] Berners-Lee, T, Hendler, J, Lassila, O, "The Semantic Web: Scientific American," Scientific American, pp , 2001. [AND 2004] Anderson, S, “How many languages are there in the world?” Linguistic Society of America th St, NW, Suite 211 Washington, D.C. 2004 [CAR 2003] A-Way, and Carl, M. “Introduction to Example-based machine Translation”, Kluwer Academic Press, 2003 سیبسیبسیبسیب

32 31 مراجع [PAP 2002] Papineni, K, Roukos, S, Ward, T and Zhu, W. J. "BLEU: a method for automatic evaluation of machine translation" in ACL-2002: 40th Annual meeting of the Association for Computational Linguistics pp. 311–318 [HUT 1992] Hutchins, W. John; and Harold L. Somers (1992). An Introduction to Machine Translation. London: Academic Press. P 107 سیبسیبسیبسیب

33 32 با سپاس از شما سیبسیبسیبسیب


Download ppt "ترجمه ماشینی مبتنی بر آنتولوژی"

Similar presentations


Ads by Google