ترجمه ماشینی مبتنی بر آنتولوژی

Slides:



Advertisements
Similar presentations
The Semantic Web: What, Why, and How? Ann Wrightson Principal Consultant, alphaXML Ltd
Advertisements

Metadata vocabularies and ontologies Dr. Manjula Patel Technical Research and Development
Mitsunori Ogihara Center for Computational Science
The Application of Machine Translation in CADAL Huang Chen, Chen Haiying Zhejiang University Libraries, Hangzhou, China
Artificial Intelligence
Introduction to Computational Linguistics
Semantic Web Thanks to folks at LAIT lab Sources include :
27 January Semantically Coordinated E-Market Semantic Web Term Project Prepared by Melike Şah 27 January 2005.
CS570 Artificial Intelligence Semantic Web & Ontology 2
Ontology From Wikipedia, the free encyclopedia In philosophy, ontology (from the Greek oν, genitive oντος: of being (part. of εiναι: to be) and –λογία:
BLEU, Its Variants & Its Critics Arthur Chan Prepared for Advanced MT Seminar.
Why I Find The Semantic Web Interesting Hugh Glaser DSSE Seminar 1/11/2.
The Semantic Web Week 1 Module Content + Assessment Lee McCluskey, room 2/07 Department of Computing And Mathematical Sciences Module.
Semantic Web Mobile Internet Technical Architecture Omair Javed Institute of Software Systems Tampere University of Technology.
Intelligent Systems Semantic Web. Aims of the session To introduce the basic concepts of semantic web ontologies.
Symmetric Probabilistic Alignment Jae Dong Kim Committee: Jaime G. Carbonell Ralf D. Brown Peter J. Jansen.
Department of Computer Science, University of Maryland, College Park 1 Sharath Srinivas - CMSC 818Z, Spring 2007 Semantic Web and Knowledge Representation.
Semantic Web Technologies Lecture # 2 Faculty of Computer Science, IBA.
Machine Translation Dr. Radhika Mamidi. What is Machine Translation? A sub-field of computational linguistics It investigates the use of computer software.
Semantic Web Technologies ufiekg-20-2 | data, schemas & applications | lecture 21 original presentation by: Dr Rob Stephens
English-Persian SMT Reza Saeedi 1 WTLAB Wednesday, May 25, 2011.
Indexing Knowledge Daniel Vasicek 2014 March 27 Introduction Basic topic is : All Human Knowledge Who Cares? Simple Examples.
Citation Recommendation 1 Web Technology Laboratory Ferdowsi University of Mashhad.
Evaluation of the Statistical Machine Translation Service for Croatian-English Marija Brkić Department of Informatics, University of Rijeka
OWL Capturing Semantic Information using a Standard Web Ontology Language Aditya Kalyanpur Jennifer Jay Banerjee James Hendler Presented By Rami Al-Ghanmi.
Knowledge Fusion Research WorkshopNovember 29 - December 1, Knowledge Fusion Education Richard Scherl Computer Science Department Monmouth University.
Recording application executions enriched with domain semantics of computations and data Master of Science Thesis Michał Pelczar Krakow,
School of Computing FACULTY OF ENGINEERING Developing a methodology for building small scale domain ontologies: HISO case study Ilaria Corda PhD student.
UCREL: from LOB to REVERE Paul Rayson. November 1999CSEG awayday Paul Rayson2 A brief history of UCREL In ten minutes, I will present a brief history.
updated CmpE 583 Fall 2006RDF Schema- 1 CmpE 583- Web Semantics: Theory and Practice INTRODUCTION TO RDF SCHEMA Atilla ELÇİ Computer Engineering.
A daptable A utomatic E valuation M etrics for M achine T ranslation L ucian V lad L ita joint work with A lon L avie and M onica R ogati.
updated CmpE 583 Fall 2008 Ontology Integration- 1 CmpE 583- Web Semantics: Theory and Practice ONTOLOGY INTEGRATION Atilla ELÇİ Computer.
NUDT Machine Translation System for IWSLT2007 Presenter: Boxing Chen Authors: Wen-Han Chao & Zhou-Jun Li National University of Defense Technology, China.
Translation Patterns to Specify Processes in the PSL Ontology Dr. A. Sánchez-Ruíz University of North Florida CIS Department Associate Professor and Coordinator.
Ontology-Based Computing Kenneth Baclawski Northeastern University and Jarg.
Ontology Mapping in Pervasive Computing Environment C.Y. Kong, C.L. Wang, F.C.M. Lau The University of Hong Kong.
Artificial Intelligence 2004 Ontology
The Knowledge Grid Methodology  Concepts, Principles and Practice Hai Zhuge China Knowledge Grid Research Group Chinese Academy of Sciences.
Trustworthy Semantic Webs Dr. Bhavani Thuraisingham The University of Texas at Dallas Lecture #4 Vision for Semantic Web.
Iana Atanassova Research: – Information retrieval in scientific publications exploiting semantic annotations and linguistic knowledge bases – Ranking algorithms.
Presented by: Yuhana 12/17/2007 Context Aware Group - Intelligent Agent Laboratory Computer Science and Information Engineering National Taiwan University.
Selected Semantic Web UMBC CoBrA – Context Broker Architecture  Using OWL to define ontologies for context modeling and reasoning  Taking.
A Simple English-to-Punjabi Translation System By : Shailendra Singh.
Review: Review: Translating without in-domain corpus: Machine translation post-editing with online learning techniques Antonio L. Lagarda, Daniel Ortiz-Martínez,
1 Artificial Intelligence & Prolog Programming CSL 302.
1 Intelligent Information System Lab., Department of Computer and Information Science, Korea University Semantic Social Network Analysis Kyunglag Kwon.
Intellectual Property Teaching in the Czech Republic Ladislav Jakl Professor, Metropolitan University Prague IP Teaching Roundtable, Bucharest November.
DARPA TIDES MT Group Meeting Marina del Rey Jan 25, 2002 Alon Lavie, Stephan Vogel, Alex Waibel (CMU) Ulrich Germann, Kevin Knight, Daniel Marcu (ISI)
Oksana Hoard LIS Overview MatML stands for Materials Markup Language It is a freely-available XML schema designed to describe materials (metals,
Introduction to Machine Translation
Centre for Translation Studies FACULTY OF ARTS
RECENT TRENDS IN SMT By M.Balamurugan, Phd Research Scholar,
Data-Driven Educational Data Mining ---- the Progress of Project
Introduction to Machine Translation
Knowledge Representation Part II Description Logic & Introduction to Protégé Jan Pettersen Nytun.
ece 627 intelligent web: ontology and beyond
OPM/S: Semantic Engineering of Web Services
Ontology From Wikipedia, the free encyclopedia
Semantic Web - Ontologies
RDF For Semantic Web Dhaval Patel 2nd Year Student School of IT
يك مدل اعتماد توزيع‍شده براي محيطهاي محاسبات فراگير
Kpk310ont IV/2005 Lauri Carlson
Ontology.
Semantic Web: Commercial Opportunities and Prospects
Piotr Kaminski University of Victoria September 24th, 2002
Introduction to Machine Translation
Ontology.
Statistical vs. Neural Machine Translation: a Comparison of MTH and DeepL at Swiss Post’s Language service Lise Volkart – Pierrette Bouillon – Sabrina.
Semantic Web Towards a Web of Knowledge - Outline
Semantic Web The Web with Semantics.
Presentation transcript:

ترجمه ماشینی مبتنی بر آنتولوژی دانشکده مهندسی گروه کامپیوتر آزمایشگاه فناوری وب معنایی گزارش سمینار کارشناسی ارشد ترجمه ماشینی مبتنی بر آنتولوژی Ontology based translation machine سیبسیبسیبسیب

فهرست مطالب مقدمه آنتولوژی وب معنایی ترجمه ماشینی ترجمه معنایی 1 به نام خدا فهرست مطالب مقدمه آنتولوژی وب معنایی ترجمه ماشینی ترجمه معنایی نتیجه گیری مراجع سیبسیبسیبسیب

مقدمه- جایگاه و ضرورت ترجمه ماشینی نانو تکنولوژی بیوتکنولوژی 2 مقدمه- جایگاه و ضرورت ترجمه ماشینی نانو تکنولوژی بیوتکنولوژی تکنولوژی اطلاعات علوم شناختی روباتیک و هوش مصنوعی و... از میان علومی که به اعتقاد بسیاری از دانشمندان می توانند دنیا را متحول کنند ترجمه ماشینی در جایگاه اول این علوم قرار گرفته است بر اساس انجمن زبانشناسان ایالات متحده تنوع زبان های طبیعی در دنیا به اینصورت است که : حدود 3 درصد به زبان فرانسه حدود 5.8 درصد به زبان آلمانی حدود 5.9 درصد به زبان ژاپنی بیش از 6809 زبان متفاوت در دنیا وجود دارد 239 زبان از این تعداد فقط در قاره اروپا استفاده می شود. قاره آسیا 2196 زبان متفاوت را داراست. سیبسیبسیبسیب

3 آنتولوژی- تاریخچه ریشه آغازین این واژه از فلسفه یونان گرفته شده که البته پس از مدتها در قرن 19 فلاسفه آلمانی آن را در مورد هستان شناسی و مطالعه چیستی به کار برده اند . Human = Rational sensitive animate material Substance جوهر به ماده و غیر ماده تقسیم می شود ماده شامل پیکر است و پیکر ممکن است زنده باشد یا نباشد پیکر زنده ممکن است احساس داشته باشد یا نداشته باشد اگر احساس داشت ممکن است منطقی باشد یا نباشد اگر عاقل باشد می تواند ارسطو یا افلاطون یا سقراط و.. باشد سیبسیبسیبسیب

4 آنتولوژی - تعاریف رسمی Ontology is a term in philosophy and its meaning is ``theory of existence''. Ontology is an explicit specification of conceptualization. Ontology is a body of knowledge describing some domain, typically common sense knowledge domain. تعریف دوم را که آقای Thomas Gruber مطرح کرده است و به طور کلی مورد پذیرش دانشمندان هوش مصنوعی می باشد که در مورد آنتولوژی برای استفاده در فنون مهندسی کاربردی تر می باشد بنا به تعریف آزمایشگاه سیستم های دانش استانفورد، آنتولوژی را می توان آن یک لغت نامه ای تصور کرد که در آن لغت ها به سایر واژه ها در زمینه های خاص مرتبط شده اند. در واقع آنتولوژی موجب تبادل دانش در مورد یک زمینه خاص می شود و این بوسیله ارتباطاتی بدست می آید که درون این لغت نامه وجود دارد. سیبسیبسیبسیب

آنتولوژی Person A: "what is the last document you read ?" 5 آنتولوژی Person A: "what is the last document you read ?" Person B: "the article Gruber wrote on ontology in 1993." The syllogism "a article is a book" "a book is a document" so "a article is a document آنتولوژی در واقع پیشنهاد دهنده یک ساختار مفید برای بهره برداری غیر مبهم از داده ها ست. برای درک بهتر آنتولوژی پرسش و پاسخ روبرو با هم مرور می کنیم فقط دو تا انسان می توانند این پرسش و پاسخ را خلق کنند روال استنتاج آدمی تشخیص دادن تعمیم دادن روال بازیابی اطلاعات ، ارائه و به اشتراک گذاری دانش،کتابخانه دیجیتالی معانی ، مهندسی نرم افزار،فرآیند پردازش زبان طبیعی، استنتاج مبتنی بر آنتولوژی طراحی پایگاه داده سیبسیبسیبسیب

6 وب معنایی – اجزاء وب معنایی از ساختار چند لایه ای استفاده می کند که هر لایه از مزایای لایه پایین تر خود استفاده می کند Xml یک نحو ابتدایی و اصلی برای ساختار محتوای داخلی اسناد تعریف می کند شمای xml ساختار های مورد استفاده در xml را محدود می کند RDF شامل سه گانه ای است که به کمک آن دو مفهوم را به کمک یک مفهوم رابطه ای به هم وصل می کند شمای RDFS تعریف کننده کلاسهای مورد استفاده در RDF است در مراحل بعدی استخراج دانش از درون اطلاعات مراحل قبل صورت می گیرد و در بالاترین لاه میزان اعتماد به قوانین بدست آمده در قالب trust بررسی می شود. استخراج آنتولوژی روش اول: این است که تعدادی افراد متخصص در هر رشته، پس از صرف زحمات طاقت فرسا، آنتولوژی مربوط به دامنه در اختیار خود را استخراج نمایند. روش دوم: استفاده از الگوریتم‌های مناسب بر روی توده‌های عظیم متنی یا Corpus ها می باشد. به عنوان مثال می توان با استفاده از یادگیری ماشین و روشهای آماری و خلاصه هر روش دیگری این کار را به طور خودکار و ماشینی انجام داد. سیبسیبسیبسیب

7 وب معنایی وب معنایی در واقع فضایی از جنس محاسبات هوشمند است که در آن کتابخانه ها ،دانش نامه ها ، روزنامه ها و سایر منابع دانش ، می توانند از محتوای معنایی یکدیگر، باخبر شده و یکدیگر را درک نمایند. بر پایه آنتولوژی های موجود در حوزه های گوناگون اعم از کلی و خاص دامنه پروژه هایی برای معنایی کردن فضای وب تعریف شده که از مهمترین آنها پروژه داده های پیوندی است که بتوان ارتباط میان دانشنامه های مختلف را با هم بر قرار نمود. سیبسیبسیبسیب

ترجمه ماشینی– تاریخچه دوره آغازین 8 ترجمه ماشینی– تاریخچه دوره آغازین ایده اصلی ترجمه ماشین به قرن 17 بر می گردد و ابتدا با معرفی یک زبان ساختگی شروع شد. در سال 1629 توسط رنه دکارت(ریاضیدان و فیلسوف فرانسوی) دوره رخوت در دهه 1960-1970 به این خاطر که طراحان و محققان این رشته ، متوجه رام نشدنی بودن این مسئله شدند، دچار رخوت و سستی گردید. دوره حیات مجدد در اوایل دهه 80 که سخت افزار سیستم ها با بهبود خوبی روبرو شدند و هزینه ها هم به نوعی، کاهش پیدا کرد، دوباره علاقه به پیگیری موضوع هم بوجود آمد. آغازین : ترجمه ماشینی که آن را به اختصار ام تی می نامند که از قدرت نرم افزار های رایانه ای برا ی ترجمه از یک زبان به زبان طبیعی دیگر بهره می گیرد . در سال 1950 آزمایش Georgetown، موفقیت ترجمه 60 عبارت روسی به انگلیسی را به نمایش گذاشت . این نخستین سیستم ترجمه کننده موفق بود. در اواخر دهه 1950-1960، این مسئله - ترجمه ماشینی- برای داده های نظامی مطرح شد و سرمایه گذاری های زیادی بر روی آن انجام گرفت. دوره رخوت: تفکر غالب این دوران این بود که مساله ترجمه ماشینی به این سادگی ها قابل حل نیست. گزارش منتشر شده ای از سوی آکادمی بین المللی علوم آلپاک در سال 1966 نشان می دهدکه تحقیقات این گروه تا 10 سال به شکست خوردند و این موضوع سبب شد تا سرمایه گذاری ها کاهش پیدا کردند . در سال 1973 فقط سه پروژه ترجمه ماشینی، آن هم با سرمایه گذاری دولتی در آمریکا فعال بود که در سال 1975 این عدد به صفر هم رسید. دوره حیات مجدد: در این زمان یک دوره حیات مجدد در پروژه ترجمه های ماشینی با عنوانMAT بوجود آمد. ، این بود که تنها در سال 1984 نیم میلیون صفحه توسط ماشین ترجمه شدند.این موفقیت موجب گردید تا به تدریج، بار سرمایه گذاری این پروژه ها از روی دوش دولت برداشته شد و به سمت شرکتهای صنعتی انتقال پیدا کرد. سیبسیبسیبسیب

ترجمه ماشینی - دسته بندی 9 ترجمه ماشینی - دسته بندی MT MAT مستقیم - غیر مستقیم زبان میانی – واسط انتقال دهنده دامنه محلی - دامنه سراسری MT: این سیستم ها، به دنبال تحقق این ایده هستند که بدون دخالت انسان دست به انجام ترجمه بزنند. یعنی هیچ ایده خاصی برای مرحله پیش پردازش و ویرایش نتیجه ترجمه، توسط انسان وجود ندارد و همه چیز به طور خود کار به وسیله کامپیوتر انجام می شود. MAT HAMT: در این سیستم ها مسئولیت اصلی ترجمه با ماشین است و انسان به عنوان یک فرد خبره در کنار ماشین به سوالات آن پاسخ می دهد به عنوان مثال انتخاب یک معنی لغت میان چندین معنا، یا مشخص کردن جایی که یک عبارت باید اضافه بشود یا ... MAHT: بر خلاف سیستم یاد شده در این سیستم مسئولیت نهایی با انسان بوده و ماشین به عنوان یک دستیار کمک دهنده عمل می کند. مثل جستجو در یک لغتنامه، دسترسی راه دور به پایگاه داده اصطلاحات فنی، بازیابی نمونه هایی از کاربرد عبارت و جمله یا اجرای عملیات مختلف بر روی کلمات مانند قالب بندی و .. . عملیات پیش پردازش در این سیستم ها عموماً انجام نمی شود، چون قرار است این تسهیلات را سیستم برای انسان فراهم نماید. بر اساس تکنیک های زبان شناختی ترجمه مستقیم : این ویژگی به سیستمی مربوط می شود که از آغاز برای ترجمه از یک زبان به یک زبان خاص دیگر طراحی شده باشد . و محدود به رعایت حداقلهایی می شوند که در ترجمه تاثیر دارند. به عنوان مثال با توجه به زبان مقصد، مقداری ابهام زدایی انجام می دهد و از بسیاری از نیاز مندی های مربوط به ترجمه صرف نظر می کند . برای نمونه می توان از سیستم مترجم GAT نام برد. ترجمه غیر مستقیم : این ویژگی به سیستمی مربوط می شود که در آن تحلیل زبان مبدا و ترکیب زبان مقصد از پایه کاملاً فرآیندهای از هم مستقل هستند . به عنوان مثال بحث ابهام زدایی به مقدار ضرورت برای تعیین معنا ورودی زبان مبدا انجام می شود، صرف نظر از اینکه چه زبان مقصدی به عنوان ورودی به سیستم اعلام شده است که برای نمونه می توان از سیستم مترجم EUROTRA نام برد. رهیافت زبان میانی: . بنابراین بازنمایی یک واحد معنایی داده شده صرفنظر از این که از چه زبانی(با چه ساختار گرامری) است می تواند در قالب آن زبان بیان شود که به عنوان نمونه می توان از سیستم مترجم CETA نام برد. واسط انتقال دهنده: رهیافت واسط انتقال دهنده، از لحاظ استفاده از واسط شبیه رهیافت زبان میانی است با این تفاوت که بازنمایی معنا از یک واحد گرامری مثلاً یک جمله، وابسته به زبانی است که یا از زبان مبدا مشتق شده یا به زبانی مقصد وابسته است . این مساله بر وجود سطح سوم ترجمه دلالت می کند که معنای یک زبان خاص را به زبان دیگر می نگارد. به این سطح ، سطح انتقال می گویند به عنوان نمونه می توان از سیستم مترجم TAUM نام برد. دامنه محلی: شاید نتوان معیار های حوزه محلی در برابر حوزه عمومی را با اطمینان، به عنوان وجوه تمایز سیستم های ترجمه در طبقه بندی مطرح نمود . سیستم های با برد محلی، سیستم هایی هستند که در آن کلمه به عنوان یک جزء حیاتی و مهم، در مرحله تجزیه و تحلیل بشمار می رود. در چنین سیستمهایی یک ریختی (یعنی کلماتی که دارای ظاهر یکسان و اما معنای متفاوت هستند) یک مشکل اساسی است چرا که با این رویکرد فی نفسه ، انتظار تحلیل یکپارچه ای بر روی جملات وجود ندارد.به عنوان نمونه ای از این نوع سیستم می توان از مترجم SYSTRAN نام برد. دامنه سراسری: حوزه عمومی سیستمی را مشخص می کند که در آن معنای هر کلمه با توجه به مفهوم آن در یک تحلیل یکپارچه بر روی عبارت(و یا ترجیحاً پاراگراف) بدست می آیدبه عنوان نمونه می توان از سیستم METAL نام برد[Slo1985]. HAMT MAHT سیبسیبسیبسیب

ترجمه ماشینی - انواع ترجمه ماشینی 10 ترجمه ماشینی - انواع ترجمه ماشینی سیستم های ترجمه مبتنی بر قاعده Rule based سیستم های ترجمه مبتنی بر دانش Knowledge based سیستم های ترجمه مبتنی بر مجموعه نوشتجات Corpus based مبتنی بر نمونه(مثال) Example based مبتنی بر روشهای آماری Statistical سیستم های ترکیبی Hybrid MT سیستم های مبتنی بر قاعده : در این مدل از قواعد پیچیده زبانی در مرحله تحلیل متن مبدا و تولید ترجمه به زبان مقصد استفاده می شود سیستم های مبتنی بر دانش: وابسته به دامنه خاصی هستند و لذا از مدلهای ارایه شده مربوط به دانش حوزه خاص استفاده می کنند. سیستم های مبتنی برمجموعه نوشتجات: این روش ترجمه، از زنجیر کردن قطعه های کوچک ترجمه به صورت مرحله به مرحله بدست می آید. نتایج نسبتاً قابل قبولی نیز از این روشها حاصل گشته است [VER 2004] این نوع سیستم ها معمولاً شامل متدهای زیر می باشد: مبتنی بر نمونه(مثال) مبتنی بر روشهای آماری سیستم های ترکیبی: در این روش از توانایی های سیستم های مبتنی بر قاعده و سیستم های مبتنی بر روشهای آماری به طور توامان استفاده شده است . سیستم های هیبریدی که ابتدا با روش مبتنی بر قاعده ترجمه ماشینی انجام می شود و سپس با استفاده از روشهای آماری نتیجه بدست آمده اصلاح و تنظیم می گردد. سیستم هایی که روشهای مبتنی بر قاعده عملیات پیش پردازش و پس پردازش را انجام می دهند و کار اصلی ترجمه بر عهده موتور مبتنی بر روشهای آماری است . سیبسیبسیبسیب

ترجمه ماشینی - مبتنی بر روشهای آماری 11 ترجمه ماشینی - مبتنی بر روشهای آماری ترجمه های آماری سعی دارند که با استفاده از کاربرد متد های آماری، بر روی دانشنامه های دو زبانی ترجمه هایی را تولید نمایند . اولین نرم افزار ترجمه ماشینی به روش آماری CANDID از شرکت IBMبود . Google برای سالها از Systran استفاده می کرد. از اکتبر سال 2007 به روشهای آماری روی آورد. در واقع به مسئله ترجمه به صورت یک مسئله یادگیری ماشین برخورد می کند . شیوه کلی آنها در یک کلام بررسی دقیق ترجمه های انجام شده توسط انسان ، آموختن آن و سپس ارایه ترجمه بر اساس آموزش های مرحله قبل می باشد . مثلاً یکی از منابعی که در یکی از پروژه های از این نوع استفاده شد، لغتنامه دو زبانه Canadian Hansard مربوط به مستندات پارلمان کانادا و پارلمان اروپا بود که با این مجموعه و با استفاده از روشهای آماری نتایج خوبی تولید شد. در حالیکه داشتن چنین مجموعه هایی نادر و کمیاب می باشند. از قوانین بیز برای تخمین ترجمه صحیح تر استفاده می کند سیبسیبسیبسیب

ترجمه ماشینی - ترجمه مبتنی بر نوشتجات نمونه 12 ترجمه ماشینی - ترجمه مبتنی بر نوشتجات نمونه مبتنی بر استنتاج قیاسی است Case base reasoning شامل یک پیکره به حد کافی بزرگ دو زبانی است که از تعداد زیادی نمونه و ترجمه نظیر آن تشکیل شده است یک الگوریتم انطباق برای یافتن شبیه ترین عبارات به عبارت ورودی یک الگوریتم انتقال برای تولید ترجمه هر یک از عبارا ت مرحله قبل یک الگوریتم ترکیب مجدد برای اتصال عبارات ترجمه شده شده به یکدیگر به وسیله Makoto Nagao در سال 1984 ابداع گردید. سیبسیبسیبسیب

ترجمه ماشینی - ترجمه آنلاین 13 ترجمه ماشینی - ترجمه آنلاین آمار نشان می دهد که تا قبل از سال 98 حداقل 25 کشور با بیش از 50000 کاربر در اینترنت حاضر بوده اند که زبان اول و حتی دوم نیمی از آنها انگلیسی نبوده است . این آمار لزوم توجه به بحث ترجمه را از همان ابتدا مشخص تر می کند .در ترجمه آنلاین ویژگی هایی هست که در ترجمه سنتی وجود ندارد: نخست اینکه سرعت آن در ترجمه می بایست بالا باشد (حتی به قیمت پایین آمدن کیفیت خروجی تا حد قابل قبول). دوم : ترجمه دو به دو بین چندین زبان کاربر برای کار با آن نیازمند انجام تنظیمات خاص نباشد. [AppTek] در سال2009 به عنوان یک ماشین ترجمه مبتنی بر ترکیب روشها ی ترجمه ماشینی مطرح شد. [Google Translator] موتور ترجمه ماشینی گوگل نیز با بهره گیری از روش های آماری توانسته است در رقابت با مترجم BLEU-4 محصول IBM نمره 0.4281 را در برابر 0.3954 در مورد ترجمه دو طرفه عربی - انگلیسی و چینی - عربی بدست آورد. (در تابستان 2006 توسط موسسه بین المللی استاندارد و تکنولوژی). پس از مطرح شدن موضوعات امنیتی در کشورهای خاور میانه، پروژه های متعددی برای ترجمه زبانهای این منطقه نیز مورد توجه قرار گرفت. (زبانهایی مثل پشتو دری و عربی) . سیبسیبسیبسیب

ترجمه ماشینی - ارزیابی سیستم های ترجمه 14 ترجمه ماشینی - ارزیابی سیستم های ترجمه به عنوان قدیمی ترین روش می توان از قضاوت انسانی استفاده کرد . BLEU NIST F-Score METEOR به عنوان قدیمی ترین روش می توان از قضاوت انسانی استفاده کرد . با وجود این که این روش ممکن است بسیار وقت گیر و پرهزینه باشد در عین حال بهترین و قابل اعتماد ترین سیستم ارزش گذاری شناخته شده است .در کنار آن می توان از ابزار خودکاری همچون WER,PER,BLEU, NIST and METEOR نیز نام برد . سیبسیبسیبسیب

ترجمه ماشینی - ارزیابی به روش Bleu 15 ترجمه ماشینی - ارزیابی به روش Bleu در این معیار ارزیابی، میزان همبستگی بالا میان متن تولید شده توسط ماشین، و متن ترجمه شده توسط انسان به صورت کمی، مورد بررسی قرار گرفته است. m : در این فرمول تعداد کلماتی از عبارت کاندید است که در عبارت مرجع نیز وجود دارد . M : تعداد کل کلماتی است که در عبارت کاندید ظاهر شده است. - ارزیابی به روش NIST دارای الگوریتمی مشابه الگوریتم BLEU می باشد، با این تفاوت که در مدل BLEU برای هر کلمه مرکب n گرمی، وزن یکسانی فرض شده است در حالیکه در این روش کلمات مرکب چند گرمی بر اساس تعداد تکرارشان در متن وزن دهی می شوند. Blue: از جمله كمبودهاي روشهاي مبتني بر N-gram يكسان در نظر گرفتن اهميت كلمات و N-gram ها مي باشد. در برخي از اين روشها به N-gram ها وزن داده شده است ولي نحوه ي وزندهي تطابق كاملي با معيارهاي انسان ندارد. NIST روش ارزیابی NIST، که توسط اداره استاندارد آمریکا پیشنهاد شده است. دارای الگوریتمی مشابه الگوریتم BLEU می باشد، با این تفاوت که در مدل BLEU برای هر کلمه مرکب n گرمی، وزن یکسانی فرض شده است در حالیکه در اینجا کلمات مرکب چند گرمی بر اساس تعداد تکرارشان در متن وزن دهی می شوند. به عنوان مثال ترکیب "In the" که به طور متناوب در یک متن تکرار می شود دارای ارزش کمتر و ترکیب "Intresting calculation" که وقوع آن کمتر بوده از وزن برخوردار می شود. سیبسیبسیبسیب

ترجمه ماشینی - ارزیابی به روش F-Score 16 ترجمه ماشینی - ارزیابی به روش F-Score دو پارامتر p(precision) , r(recall) برای محاسبه دقت به صورت زیر محاسبه می شوند: p برابر است با تعداد نتایج صحیح، تقسیم بر تعداد کل نتایج برگشت داده شده. r برابر است با تعداد نتایج صحیح، تقسیم بر تعداد نتایجی که باید برگشت داده می شد. در حالت کلی به ازای عدد نامنفی بتا داریم: سیبسیبسیبسیب

17 ترجمه معنایی . این روش در واقع از مزایای پیوند دادن معنا به داده های موجود در لغتنامه بهره می گیرد تا بتواند واژه معادل و هم معنا را در زبان دوم پیدا نماید. یکی از ملزومات این روش این است که معنا را به شکلی خاص نه لزوماً زبان مبدا و نه در قالب زبان مقصد به گونه ای باز نمایی می کند. از امکانات موجود در آنتولوژی ها برای رفع ابهام در ترجمه های تولید شده بهره می گیرد. مثلا رابطه معادل بودن. بنابر این در ترجمه مبتنی بر دانش به کمک نگاشت معانی از یک زبان به زبان دیگر، به جای اینکه فقط نحو زبانها به عنوان ورودی سیستم در نظر گرفته شود، معانی موجود در زبان مبدا نیز برای نگاشته شدن در ورودی حاضر می شوند . معادل بودن کلاسی : person و Individual معادل بودن ویژگی ها : PersonGivenName و FirstName معادل بودن مصداق ها(نمونه ها): Dan Smith و Daniel Smith اگر چنین نگاشتی موجود نبود باید به دنبال درست کردن این ارتباطات گشت(انطباق آنتولوژی ها) سیبسیبسیبسیب

ترجمه معنایی سیستم Mikrokosmos 18 ترجمه معنایی سیستم Mikrokosmos در دانشگاه نیومکزیکو به اتفاق وزرات دفاع آمریکا مراحل ساخت آن را انجام دادند. بر خلاف پروژه های قبلی، قادر به ترجمه بسیاری از مقالات خبری اسپانیایی به انگلیسی می باشد. در ابتدا یک لغتنامه با 7000 کلمه اسپانیایی به وسیله یک آنتولوژی در حدود 4500 معنا آماده شد. وظیفه بخش تحلیل فرآیند ترجمه آن است که کلمات را از زبان مبدا به معانی، تحت کنترل اصلاحگرهایی انجام دهد تا محدودیت های انتخابی را، بوسیله ارتباطات مفهومی قید شده در آنتولوژی اعمال می نمایند . ضمن انجام جستجوی مشابهت میان مفاهیم به وسیله یافتن کوتاهترین مسیر در شبکه آنتولوژی، آزمونهای "قرابت معنایی" بسیار قوی تری را برای تفسیر استعارات و کنایه ها و ... فراهم می کند. سیبسیبسیبسیب

ترجمه معنایی سیستم Mikrokosmos 19 ترجمه معنایی سیستم Mikrokosmos معماری سیستم برای تحلیل متون ورودی خروجی مرحله تحلیل، یک بازنمایی معنایی، از متن نوشته شده به زبان مبدا است که بوسیله یک ساختار مستقل با نام TMR ارایه می گردد. خروجی مرحله تحلیل، یک بازنمایی معنایی، از متن نوشته شده به زبان مبدا است که بوسیله معماری شکل در قالب یک ساختار مستقل با نام TMR ارایه می گردد. یک TMR را می توان به عنوان یک نمونه سازی مصداقی، از زیرگرافی متعلق به آنتولوژی کلی، در نظر گرفت . البته این گراف معمولا کوچکتر از کل آنتولوژی می باشد.TMR ها در واقع زبان میانی معنا ، برای ارائه به فاز تولید زبان مقصد هستند . پس از وارد شدن متن ورودی، عمل برچسب گذاری نقش کلمات توسط یک پارسر نحوی ، انجام می شود و نتیجه به صورت یک درخت تولید می شود. در مرحله پیش پردازش نحوی- معنایی با استفاده از لغتنامه، کلمات مرتبط با هر کلمه به درخت اضافه می شوند. سپس در مرحله انتساب مقادیر، فریم و اسلات های مربوط به متغیرهای نحوی-معنایی که در مرحله قبل تعیین شده اند ، مقدار دهی می شوند. این کار به کمک آنتولوژی و لغتنامه انجام می شود. در مرحله انتخاب معنای قابل قبول، word sense بر اساس محدودیت های مسئله، معنای مناسب انتخاب شده و TMR تکمیل می شود که این کار می تواند به صورت تکراری، با مرحله بعد که ترکیب کردن TMR ها است بهینه شود . در مرحله آخر هم زمان و مفرد یا جمع بودن و .. الحاقات زبانی به آن اضافه می شود و TMR خروجی تولید می شود. سیبسیبسیبسیب

ترجمه معنایی سیستم Mikrokosmos 20 ترجمه معنایی سیستم Mikrokosmos سه سطح اول نمودار سلسله مراتبی آنتولوژی : Object ،Event ،Property سیبسیبسیبسیب

ترجمه معنایی – نقش آنتولوژی 21 ترجمه معنایی – نقش آنتولوژی El grupo Roche adquirio Docteur Andreu گروه روشه Docteur Andreu را ”تملک کردند“ یا ”آموختند“ . adquirio دارای دو معنای ACQUIRE و LEARN محدودیت های انتخابی، در آنتولوژی بر روی مفاهیم ACQUIRE و LEARN مشخص کننده این نکته هستند که اگر موضوع عبارت یک شی انتزاعی Abstract Object نیست معنی واژه adquirio عبارت ”تملک کردن“ است و نه“ آموختن“. بعد از اینکه نام Docteur Andreu به عنوان نام یک شرکت(یک شی ء اجتماعی) شناسایی شد . معلوم می گردد که یک Abstract Object نبوده و لذا معنی تملک کردند انتخاب می گردد. سیبسیبسیبسیب

ترجمه معنایی سیستم Mikrokosmos 22 ترجمه معنایی سیستم Mikrokosmos نمایش فریم مفهوم ACQUIRE به همراه نمایش بخشی از رکورد فعل اسپانیایی ‘adquirir’ در لغتنامه با نگاشت معنایی با ACUIRE , LERAN سیبسیبسیبسیب

ترجمه معنایی-ویژگیهای سیستم Micrososmos 23 ترجمه معنایی-ویژگیهای سیستم Micrososmos بازنمای معنایی به صورت سمبولیک و مستقل از زبان مبدا می باشد سمبولها را در یک ساختار سلسله مراتبی پیچیده سازماندهی می کند. یک لغتنامه مشترک برای زبانهای مختلف جهت به اشتراک گذاری دانش، فراهم نماید. امکان به اشتراک گذاری دانش برای تحلیلگر زبان مبدا و تولید کننده زبان مقصد را فراهم آورد. محدودیت های انتخابی را ذخیره نماید. ابهامات معنایی را از بین ببرد و بوسیله استنتاج هایی که از روی توپولوژی انجام می دهد میزان شباهت معنایی را تفسیر نماید . سیبسیبسیبسیب

ترجمه معنایی- ترجمه معنایی مبتنی بر نوشتجات نمونه 24 ترجمه معنایی- ترجمه معنایی مبتنی بر نوشتجات نمونه ایده اصلی: اضافه کردن اطلاعات RDF به نمونه های موجود در روش EBMT مزایا : یافتن عبارات همتراز میان متن و ترجمه افزودن معنا به نمونه ها ی ترجمه رفع ابهام مثال : دو جمله زیر در پایگاه نمونه ها موجود است  Große Besonderheiten ↔ important peculiarities Große Städte ↔ big cities سوال : ترجمه عبارت زیر چیست: große Schlößer در دانشگاه هامبورگ و برای ترجمه از آلمانی به انگلیسی به طور موفقیت آمیزی اجرا شد. یافتن عبارات همتراز میان متن و ترجمه برای بسیاری از زبانهای کوچک، این مشکل وجود دارد که تعداد نمونه های ترجمه شده برای آنها محدود بوده و در عین حال ترجمه های در دسترس به صورت صفحه ای موجود می باشند. به کمک RDF می توان مشخص کرد که کدام ترجمه، مربوط به کدام عبارت متن اولیه است. درمورد ترجمه هایی که حساسیت معنایی در آنها بالا می باشد، می توان از RDF ها برای غنی سازی معنایی استفاده کرد تا از معنای موجود به شکل قوی تری محافظت شود. افزودن معنا به نمونه ها ی ترجمه شده یکی از کاربردهای مشهور ترجمه مبتنی بر نوشتجات نمونه، سیستم های ترجمه آنلاین می باشد. در این سیستم ها توجه به معنا بسیار مهم تر از جنبه های دیگر یک کار ترجمه است . به کمک مجموعه های RDF می توان نمونه های موجود را از لحاظ معنایی غنی ساخت و به این روش دقت ترجمه را بالا برد. رفع ابهام در سیستم ترجمه مبتنی بر نوشتجات نمونه، تنها از نشانه گذاری نحوی، استفاده می شود که این کافی به نظر نمی رسدهمانطور که دیده می شود در اینجا ابهام وجود دارد که ناچاراً باید به معنای عبارت توجه شود. البته ابهام زدایی آماری هم، ممکن است به کار بیاید، اما روشهای معنایی از بهینگی و دقت بیشتری در ترجمه، برخوردار هستند . سیبسیبسیبسیب

ترجمه معنایی- ترجمه معنایی مبتنی بر نوشتجات نمونه 25 ترجمه معنایی- ترجمه معنایی مبتنی بر نوشتجات نمونه große Schlößer برای حل کردن این مساله شکل 17، مدلی را پیشنهاد می نماید . در این طرح دو نمونه RDF وجود دارد . نشان گذاری معنایی و نشان گذاری نحوی . لذا مفاهیم در دو آنتولوژی متناظر به هم برای نشان گذاری سازماندهی می شوند . در معماری شکل 17 فرض شده است که A رشته ورودی در زبان L1 باشد . با یک فرایند جستجو، قطعات متن A در داخل پایگاه نمونه پیدا می شود و یک یا چند ترجمه، در قالب B1,..,Bn بدست می آید. در مرحله بعد RDF ورودی با نامزد های ترجمه مقایسه می شود که این کار با عمل انطباق نحوی و معنایی بر اساس دو آنتولوژی مذکور انجام می شود و آن ترجمه ای که بیشترین شباهت را داشته باشد، انتخاب شده و به خروجی تحویل داده می شود. طبق آنچه در این مقاله آمده است دانشگاه هامبورگ، این روش را برای ترجمه آلمانی به انگلیسی پیاده سازی کرده است. Important peculiarities Big castle Big cities سیبسیبسیبسیب

ترجمه معنایی- چالشهای سیستم های ترجمه معنایی 26 ترجمه معنایی- چالشهای سیستم های ترجمه معنایی بالا بودن هزینه و زمان اجرای پروژه های ترجمه به طور کلی حجم بالای اندازه پایگاه دانش زبان های طبیعی ابهام در انتخاب یک قطعه به حد کافی مناسب از دانش عدم وجود آنتولوژی مناسب برای بسیاری از زبانهای دنیا چالشهای مربوط به مسئله انطباق آنتولوژی ها ... سیبسیبسیبسیب

27 نتیجه گیری فرآیند ترجمه، یکی از پیچیده ترین موضوعاتی است که در پنجاه سال اخیراست. سیستم های ترجمه کننده مطلوب سیستمی است که از یک سو به خصوصیات ساختاری زبان های طبیعی و ازطرف دیگر به مسئله درک معانی، توجه داشته باشد. سیستم های مترجم فعلی عموما مبتنی بر قواعد زبانی ، مبتنی بر نوشتجات نمونه و ترجمه ماشینی مبتنی بر روشهای آماری، می باشند. هر کدام از این روشها دارای نقاط قوت و ضعف اساسی می باشند: در روشهایی مبتنی بر قواعد پیچیدگی نسبتاً زیادی موجود است قدرت روشهای مبتنی بر نوشتجات نمونه به اندازه زیادی وابسته به حجم پایگاه نوشتجات نمونه ای است که عمل استنتاج با توجه به آنها صورت می گیرد. در حال حاضر، بهترین عملکرد مربوط به سیستم های مبتنی بر روشهای آماری می شود که در سالهای اخیر هم مورد استفاده ماشینهای ترجمه آنلاین از قبیل google قرار گرفته است. سیبسیبسیبسیب

28 نتیجه گیری با این وجود، یکی از چالشهایی که همچنان شالوده این معماری و همه روشهای مرسوم، با آن دست به گریبانند، موضوع عدم توجه به معنا و مفاهیم درون متن می باشد. مهمترین و شاخص ترین دست آورد مربوط به کاربرد آنتولوژی ها، موضوع استنتاج هایی آنتولوژیکی است که می تواند موجب از میان رفتن ابهام در تشخیص معنا گردد. اهمیت این موضوع آنجا روشنتر می گردد که دیگر روشهای آماری و گرامری نتوانند ابهام هایی را رفع کنند که تنها راه تشخیص آن توجه به مفاهیم و معانی باشد. سیبسیبسیبسیب

29 مراجع [RYC 2007] Rychtyckyj, N, “Machine Translation for Manufacturing”: AI Magazine Vol 28 No 3, 2007. [Slo1985] Sloculn, J, “Survey of Machine Translation, Its History, Current Status and Future Prospects”: Computational Linguistics, Volume 11, No 1, 1985 [BAR 2007] Bar, K, Chueka, Y, Dershowitz, N, “An Arabic to English Example-based Translation System”: ICTIS, 2007 [LOP 2008] Lopez, A, “Statistical Machine Translation”: ACM Computing Surveys, Vol. 40, No. 3, 2008. [HUT 2007] Hutchins, J, “Machine Translation: aconcise history”: InComputer Aided Translation: Theory and Practice, C. S. Wai, Ed. Chinese University of Hong Kong, 2007 [MAH 1996] Mahesh, K, “Ontology Development for Machine Translation: Ideology and Methodology”: Technical report, Computer Research Laboratory, New Mexico State University, 1996. [HAH 2005] Hahn, W, “Knowledge Representation in Machine Translation”: Technical report, Computer Science Department, University of Hamburg, 2005 سیبسیبسیبسیب

30 مراجع [VER 2004] Vertan, C, “Language Resources for the Semantic Web – perspectives for Machine Translation”: Proceedings of the Second International Workshop on Language Resources for Translation Work, Research and Training, Coling. Geneva.37:42, 2004 [GAN 2002] Gandon, F, “Ontology Engineering: A survey and a return on experience”, ACACIA Team, Rapport de Recherche 2002 [ABT 2007] Rasoolian, A, ”Antology Matching”, BC Degree Thesis in Computer Faculty of Sharif University, 2007 [OBT 2007] Obitko, M., “Translations between Ontologies in Multi-Agent Systems”, Ph.D. dissertation, Faculty of Electrical Engineering, Czech Technical University in Prague, 2007. [BER 2001] Berners-Lee, T, Hendler, J, Lassila, O, "The Semantic Web: Scientific American," Scientific American, pp. 34-43, 2001. [AND 2004] Anderson, S, “How many languages are there in the world?” Linguistic Society of America. 1325 18th St, NW, Suite 211 Washington, D.C. 2004 [CAR 2003] A-Way, and Carl, M. “Introduction to Example-based machine Translation”, Kluwer Academic Press, 2003 سیبسیبسیبسیب

31 مراجع [PAP 2002] Papineni, K, Roukos, S, Ward, T and Zhu, W. J. "BLEU: a method for automatic evaluation of machine translation" in ACL-2002: 40th Annual meeting of the Association for Computational Linguistics pp. 311–318 [HUT 1992] Hutchins, W. John; and Harold L. Somers (1992). An Introduction to Machine Translation. London: Academic Press. P 107 سیبسیبسیبسیب

32 با سپاس از شما سیبسیبسیبسیب