Iterative Bilingual Lexicon Extraction from Comparable Corpora with Topical and Contextual Knowledge Chenhui Chu, Toshiaki Nakazawa, Sadao Kurohashi Graduate.

Slides:



Advertisements
Similar presentations
Iterative Bilingual Lexicon Extraction from Comparable Corpora Using Topic Model and Context Based Methods Chenhui Chu, Toshiaki Nakazawa, Sadao Kurohashi.
Advertisements

Improving Statistical Machine Translation Accuracy Using Bilingual Lexicon Extraction with Paraphrases Chenhui Chu, Toshiaki Nakazawa, Sadao Kurohashi.
Learning focus Concept of the market structure; Perfect and imperfect competition; Identify monopoly, oligopoly and monopolistic competition with examples.
Market Demand 市场需求.  Think of an economy containing n consumers, denoted by i = 1, …,n.  Consumer i’s ordinary demand function for commodity j is.
第四章 犯罪概念与犯罪构成. 第一节 犯罪概念 一、犯罪概念的类型  (一)犯罪的形式概念  (二)犯罪的实质概念  (三)犯罪的混合概念.
Globalization and the Gains from Variety Christian Broda David E.Weinstein.
1 、下雨露天菜场蔬菜降价,苹果遭雹灾减少,价 格高于往年。 2 、冬季皮衣卖出好价钱,夏季打折出售;同一种 西瓜刚上市每斤卖到几元,大量上市后只卖几角。 3 、羽绒服在东北卖出高价,在海南降价也少有人 买;沿海地区海鲜价格便宜,内陆省份得付出高价。 4 、石油输出国组织宣布减产原油,世界油价上涨;
石化的 IT 大挑战 洛阳石化工程公司. 石化公司简介 中国石化集团洛阳石油化工工程公司,是国内能源化 工领域集技术专利商与工程承包商于一体的高科技企 业。拥有中国综合设计甲级资质,为国家首批业务涵 盖 21 个行业的工程咨询企业之一,拥有工程总承包、 工程设计、工程监理、工程咨询和环境影响评价等甲.
第二章 组织行为学的理论基础. 1. 西方人性假设 1.1 原因分析 组织行为学之所以重视人性研究, 主要原因可以从以下两个方面考察: 从组织行为学的产生看,重视人性研 究是当时历史条件下管理实践的需要。 从组织行为学的研究对象看,重视人 性研究是组织行为学对象研究的需要。
第一节 过渡时期与党在过 渡时期的总路线 一、过渡时期的社会性质与 主要任务 进 入 进 入 二、党在过渡时期的总路线 进 入 进 入.
国际经济法学 5. § 5 国际经济法的主体 主体 主体与客体( subject and object ) 是用以说明人的实践活动和认识 活动的一对哲学范畴。主体是实 践活动和认识活动的承担者;客 体是主体实践活动和认识活动指 向的对象。
Virtual & Physical Libraries in the 21 st Century21 世纪的虚拟和实体 图书馆 What did I learn? Tony Ferguson Before NOW!!!
選舉制度、政府結構與政 黨體系 Cox (1997) Electoral institutions, cleavage strucuters, and the number of parties.
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第三十八讲 ) 离散数学. 第八章 格与布尔代数 §8.1 引 言 在第一章中我们介绍了关于集 合的理论。如果将 ρ ( S )看做 是集合 S 的所有子集组成的集合, 于是, ρ ( S )中两个集合的并 集 A ∪ B ,两个集合的交集.
第三部分 行政行为 第一节 行政行为的概述 一、行政行为的概念、特征和内容 (一)行政行为的概念(比较)(比较) (二)行政行为的特征行政行为的特征 (三)行政行为的内容行政行为的内容 二、行政行为的效力行政行为的效力 三、行政行为的分类.行政行为的分类. 四、行政行为成立与合法要件 (一). 行政行为成立要件.
第二章 汇率决定理论及其新发展. 第一节 购买力平价理论( PPP ) 理论概述 20 世纪初由瑞典经济学家卡塞尔在《 1914 年以后的货币与外汇》 一书 中提出. 一价定律 假设条件:完全信息 没有贸易壁垒 同种商品是同质的 投资者是理性的,追求利润最大化 运输成本、交易成本、税收等市场不完全因素的存在,
第二部分 行政法律关系主体 第一节 行政主体 一、行政主体 (一)行政主体的概念 cc (二)行政主体资格含义及构成要件 CASE1CASE1\CASE2CASE2 (三)行政主体的职权和职责 1 、行政职权的概念及内容 2 、行政职权的特点 3 、行政职责.
刑法总论 第一章 刑法概述. 第一节 刑法的概念和性质  一、刑法的概念  刑法是规定犯罪、刑事责任和刑罚的法律。  具体地说,刑法就是掌握政权的阶级即统 治阶级,为了本阶级政治上的统治和经济 上的利益,根据自己的意志,规定哪些行 为是犯罪和应负刑事责任,并对犯罪人处 以何种刑罚处罚的法律。
China Tightens Liquidity to Tackle Inflation Presenters: 高绍秀 林丽美.
第十章 企业价值评估 第一节 企业价值评估及其特点 企业价值评估及其特点 第二节 企业价值评估的范围界定 第三节 转型经济与企业价值评估 第四节 收益法在企业价值评估中的应用 第五节 市场法和成本法在企业价值评估中的应用.
第二节 人民民主专政的 内容及其实质 一、人民民主专政的国体与政体 进 入 进 入 二、人民民主专政的职能及其相互 关系 进 入 进 入 三、人民民主专政的实质 进 入 进 入 四、人民民主专政的主要特征 进 入 进 入.
聚合物在生物高分子分离中的应用 王延梅 中国科学技术大学高分子科学与工程系 Tel
地理空间信息科学含义 2010 级 GIS 任晓磊. 简介 地球空间信息科学是一门获取、存储、处理和显示地理空 间数据的一门学科,属于地球科学的一个分支。地球空间 信息科学相对应的英文名称为 Geomatics ,法文为 Géomatique 。这一术语最早由法国学者伯纳德 · 杜比森创 造,是由大地测量学(法语:
深圳市国泰安信息技术有限公司 GTA Information Technology Co.,Ltd. 证券公司 仿真模拟交易平台.
第九章 植物保护技术推广 第一节 植物保护技术的推广形式 第二节 植物保护技术推广体系 第三节 植物保护器材的管理与销售.
第四章 行业分析 合肥工业大学人文经济学院. 主要内容 行业划分的方法 行业的一般特征分析 行业投资的选择.
Chrysler’s Fall May Help Administration Reshape G.M.   Published:
周期信号的傅里叶变换. 典型非周期信号 ( 如指数信号, 矩形信号等 ) 都是满足绝对可 积(或绝对可和)条件的能量信号,其傅里叶变换都存在, 但绝对可积(或绝对可和)条件仅是充分条件, 而不是必 要条件。引入了广义函数的概念,在允许傅里叶变换采用 冲激函数的前提下, 使许多并不满足绝对可积条件的功率.
Department of Mathematics 第二章 解析函数 第一节 解析函数的概念 与 C-R 条件 第二节 初等解析函数 第三节 初等多值函数.
经济法律关系 经济关系 经济法法律关系 主体 决策主体、 经济管理主体、 生产经营主体、 消费主体、监督主体 国家机关、法人、 自然人、非法人机构、 农村承包户、个体经 营户、合伙组织 以及法人的分支机构 客体 经济行为、物、 货币、有价证券、 科学技术成果 内容 经济权利、经济义务.
高等教育出版社 第 9 章 其他税类 一、资源税 二、城镇土地使用税 第一节 资源税类. 高等教育出版社 第一节 资源税类 一、资源税 ( 一 ) 资源税的概念和特点 1. 资源税的概念 目前我国开征的资源税是以部分自然资源为课税对象,对在我国境内开采应税 矿产品及生产盐的单位和个人,就其应税产品销售数量或自用数量为计税依据而征.
Language Knowledge Engineering Lab. Kyoto University NTCIR-10 PatentMT, Japan, Jun , 2013 Description of KYOTO EBMT System in PatentMT at NTCIR-10.
光合作用的发现. ? 你知道吗 …… 光合作用是怎样发现的? 光合作用的发现及研究 1 、 1771 年,英国科学家普里斯特利的实验 1 、 1771 年,英国科学家普里斯特利的实验 指 出:植物可以更新空气。 如果是你今天做的实验,你得出什么结论? 绿色植物在光照下吸收了二氧化碳,产生了氧气。
市场营销学原理 主讲 晁钢令 市场营销学原理 主讲 晁钢令 Principles of Marketing.
适用场景 应用背景 1 、企业使用电商平台作为前 台销售门户, NC 作为后台管 理软件; 2 、后台从商城平台自动定时 下载,快速导入到 NC 形成销 售订单,并按 ERP 业务规则 进行校验及触发后续流程; 3 、提高订单传递的及时性、 准确性、规范性,减少工作量, 降低出错率;
Accurate Parallel Fragment Extraction from Quasi-Comparable Corpora using Alignment Model and Translation Lexicon Chenhui Chu, Toshiaki Nakazawa, Sadao.
Contents – What is a market? – Key components of a financial market – Market participants and their goals – Market instruments.
Chapter 7: The Marketing Mix & Product Promotion.
Unit 8 marketing & Text & Exercises Unit 8 marketing & Text & Exercises.
Cache-based Document-level Statistical Machine Translation Prepared for I 2 R Reading Group Gongzhengxian 10 OCT 2011.
Unit 5 Basic Chemicals. Aims and Requirements 1. Mastering terminology of basic chemical induestry; 2.Understanding the feature of basic chemical induestry;
7 生产费用在完工产品与在产 品之间分配的核算. 2 第七章 生产费用在完工产品与在产品之 间的分配  知识点 :  理解在产品的概念  掌握生产费用在完工产品与在产品之间的分 配.
外研版 高一 第二册 Module 1 Cultural Corner I. Read about the health care system in three different countries and answer the question.
WELCOME TO SHANGHAI FUDAN-VANKE EXPERIMENTAL PRIVATE SCHOOL C Program (SVKS) 欢迎家长来校参观.
Programme 6 Electronic Commerce. Teaching objectives ● Get to know what is electronic commerce; ● Know how to do business on the internet; ● Practice.
THE ROLE OF THE GOVERNMENT IN ECONOMY Government interfere the economic activities in the following aspects: 1.Public Goods ( 公共产品 )Public Goods ( 公共产品.
《水污染防治行动计划》实施情况与需求 Progresses of Action Plan for Prevention and Control of Water Pollution And Perspective 环境保护部污染防治司 2015 年 11 月 Dept.of Pollution Prevention.
个体 精子 卵细胞 父亲 受精卵 母亲 人类生活史 问题:人类产生配子(精、卵 细胞)是不是有丝分裂?
Multi-level Bootstrapping for Extracting Parallel Sentence from a Quasi-Comparable Corpus Pascale Fung and Percy Cheung Human Language Technology Center,
算得清写的准 —— 物业费公示报告的编写 讲师:朱芸 物业费的 构成? 哪些是管 理人员工 资呢? 哪些算工程费 用? 怎样才能核 算的清楚呢?
中国知网数字图书馆 增值服务介绍 同方知网 张丽华. 全部文献报表 全部文献报表 中国工程院院士(本所专家) 中国工程院院士(本所专家) 本所专利及相关水产标准专利成果 本所专利及相关水产标准专利成果 海洋可捕资源与生态系统 海洋可捕资源与生态系统 海水养殖生态与容纳量 海水养殖生态与容纳量 海水养殖生物疾病控制与分子病理.
画杨桃 河南省南阳市油田第五小学 张俊生. 叮嘱 审视 严肃 半晌 熟悉 相似 教诲 和颜悦色 叮嘱 1 .嘱咐,嘱托。 2 .托,托付。 父亲对我要求很严,经常叮 嘱我: “ 你看见一件东西,是什么 样的,就画成什么样,不要想当 然,画走了样。 ”
Advertisement Project 广 告 设 计广 告 设 计 第一章 广告概述 广 告 设 计广 告 设 计 本节内容提要: 一、广告的定义 二、广告的种类(重点) 三、广告设计与广告设计工作者 四、广告的功能与任务.
International Trade Practices A
曹辉 2013 年 9 月 北京市商业学校 数字化资源中心介绍. 一、信息化发展史 通信领域信息化发展史.
八. 真核生物的转录 ㈠ 特点 ① 转录单元为单顺反子( single cistron ),每 个蛋白质基因都有自身的启动子,从而造成在功能 上相关而又独立的基因之间具有更复杂的调控系统。 ② RNA 聚合酶的高度分工,由 3 种不同的酶催化转 录不同的 RNA 。 ③ 需要基本转录因子与转录调控因子的参与,这.
图例 标题 添加文本 标题. 图例 标题 添加文本 标题.
1 Part Six : Placing Strategy Part Six : Placing Strategy ( Chapter13-Chapter14)
Section A Period 2 (3a- 3c). panda It’s big and fat. It’s quiet and gentle. It’s black and white. What is it?
Section C Writing Messages. 一般由三部分组成 : 邮件头( header ), 正文( message content ), 签名( signature ) From: 寄件人邮件地址 To: 收件人邮件地址 Cc:
第二节 财政的基本特征 第二节 财政的基本特征 一、财政分配以政府为主体 二、财政分配一般具有强制性 三、财政分配一般具有无偿性 第一章 财政概论 四、财政分配一般具有非营利性.
Two Big Economic Questions Two big questions summarize the scope of economics: How do choices end determining what, how, and for whom goods and services.
广告注意的基本理论 壹 叁 广告注意策略的误区 贰 内容与形式:影响注意的广告要素 1 肆 广告注意的创意原则 Contents 广告注意的原理与策略.
§7.2 估计量的评价标准 上一节我们看到,对于总体 X 的同一个 未知参数,由于采用的估计方法不同,可 能会产生多个不同的估计量.这就提出一 个问题,当总体的一个参数存在不同的估 计量时,究竟采用哪一个好呢?或者说怎 样评价一个估计量的统计性能呢?下面给 出几个常用的评价准则. 一.无偏性.
LOGO 《 A guide to teaching and learning vocabulary 》 上海市建筑工程学校 李伟波 读书报告.
Review Class Six. Chapter 14  Here we have discussed the two-good model, and we have learned how to use this model to solve the optimal problem facing.
Chinese Real Estate Surplus Won’t Affect Major Cities Presented by Group 1: 陈瑶 贺怡阳 李玉琴 殷诗雯
新旧 “ 四大件 ” 分别指什么?为什么会有如此 大的变化? 一、衣食住行的变迁 改革开放以来,人们的衣、食、住、 行等方面发生了前所未有的变化。
Subject Description An introduction to the dynamic industry of retailing with insight into the strategies that innovative retailers use to build a competitive.
UNIT 15 INTERNATIONAL MARKETING
Presentation transcript:

Iterative Bilingual Lexicon Extraction from Comparable Corpora with Topical and Contextual Knowledge Chenhui Chu, Toshiaki Nakazawa, Sadao Kurohashi Graduate School of Informatics, Kyoto University 1 CICLing2014 (2014/04/08)

Background Bilingual lexicons are important for many bilingual NLP tasks, such as SMT and CLIR Manual construction is expensive and time- consuming Automatic construction from parallel corpora is a possible way, however parallel corpora remain a scarce resource 2 Automatic construction from comparable corpora

Bilingual Lexicons in Comparable Corpora Zh:En: ... 市场经济,又称自由市场经济, 是一种经济体系,在这种体系下 产品和服务的生产及销售完全由 自由市场的自由价格机制所引导, 而不是像计划经济一般由国家所 引导。市场经济也被用作资本主 义的同义词,但是绝大多数的社 会主义国家也实行了市场经济。 ... A market economy is an economy in which decisions regarding investment, production and distribution are based on supply and demand, and prices of goods and services are determined in a free price system. The major defining characteristic of a market economy is that decisions on ... ※ Example of comparable texts describing “market economy” from Wikipedia (Bilingual lexicons are linked with bleu lines). 3

Related Work Topic Model Based Method [Vulic+ 2011] – Bilingual lexicons often present in the same cross- lingual topics (document-level context) – Does not require any prior knowledge Context Based Method [Rapp+ 1999] – Bilingual lexicons appear in similar contexts across languages (usually window-based context) – Require a seed dictionary 4

System Overview 5 Comparable corpora Topic model based method Context based method Combinatio n Contextual bilingual lexicons Topical bilingual lexicons ・・・ 市场 (market) company market consumer ・・・ 市场 (market) consumer market company ・・・ Combined bilingual lexicons ・・・ 市场 (market) market company consumer ・・・ Unsupervised Seed Dictionary Iteration Seed Dictionary

Topic Model Based Method 市场 : consumer: market: company: Sim= Sim= Sim= D α θ φ K wz MSMS β wz MTMT ψ Topic distribution Word–topic distributions

Similarity Measure 7 TI: Cue: TI+Cue:

Context Based Method 市场 : (projection via a seed dictionary) consumer: market: company: Sim= Sim= Sim=

Context Modeling and Similarity Window-based context (±2) – e.g. Cosine similarity 9 mainstream drink factory market law system sellers exchange goods services information

Combination Combined similarity score ×+ 0.2 ×= Topical bilingual lexicons ・・・ 市场 (market) company market consumer ・・・ Combined bilingual lexicons ・・・ 市场 (market) market company consumer ・・・ Contextual bilingual lexicons ・・・ 市场 (market) consumer market company ・・・

Dataset Wikipedia: 10k Chinese-English and Japanese- English article pairs via the interlanguage links Kept only lemmatized noun forms – Zh-En: 112k Chinese and 179k English nouns – Ja-En: 48k Japanese and 188k English nouns 11

Experimental Settings BiLDA topic model training: PolyLDA++ [Richardson+ 2013] – α = 50/K, β = 0.01, Gibbs sampling with 1k iterations TI+Cue measure: BLETM [Vulic+ 2011] Proposed method – Linear interpolation parameter γ = 0.8, 20 iterations 12

Evaluation Criterion Manually created Zh-En and Ja-En test sets for the most 1k frequent source words Metrics – – Mean Reciprocal Rank (MRR) [Voorhees+, 1999] 13

Results (Chinese-English 14 Iteration

Results (Chinese-English MRR) 15 MRR Iteration

Results (Japanese-English 16 Iteration

Results (Japanese-English MRR) 17 Iteration MRR

Improved Examples (1/2) 18 ※ An improved example of word 研究 (research), where topical similarity scores are similar, while contextual similarity scores are distinguishable

Improved Examples (2/2) 19 ※ An improved example of word 施設 (facility), where both topical and contextual similarity scores are not distinguishable

Not Improved Example 20 ※ A not improved example of word 执行 (execution), where linear combination of the two scores is not discriminative enough

Conclusion Proposed a bilingual lexicon extraction system exploiting both topical and contextual knowledge in an iterative process Experiments on Wikipedia data verified the effectiveness of our system Software and dataset is freely available at: Future work – Extraction for polysemy, compound nouns and rare words 21