Presentation is loading. Please wait.

Presentation is loading. Please wait.

1 基于 LCA 分块算法的大学 科研人员信息抽取 报告人:易晨辉(武汉大学). 2 研究背景 信息网模型数据库( Information Networking Model DBMS ) “ 天罗地网 ” 科研机构与人员信息搜索引擎 学院网站等公开渠道获取科研人员信息 学院首页 -> 人员页面 人员列表页面及个.

Similar presentations


Presentation on theme: "1 基于 LCA 分块算法的大学 科研人员信息抽取 报告人:易晨辉(武汉大学). 2 研究背景 信息网模型数据库( Information Networking Model DBMS ) “ 天罗地网 ” 科研机构与人员信息搜索引擎 学院网站等公开渠道获取科研人员信息 学院首页 -> 人员页面 人员列表页面及个."— Presentation transcript:

1 1 基于 LCA 分块算法的大学 科研人员信息抽取 报告人:易晨辉(武汉大学)

2 2 研究背景 信息网模型数据库( Information Networking Model DBMS ) “ 天罗地网 ” 科研机构与人员信息搜索引擎 学院网站等公开渠道获取科研人员信息 学院首页 -> 人员页面 人员列表页面及个 人主页信息抽取 生成结构化数据放 入网站数据库 网页分块分块结果对齐

3 3 网页分块方法 基于 DOM 树结构的相似性 基于视觉特征 基于标签树路径 模仿人的视觉分析 难以设置统一规则 现有文献证明在 Deep Web 中测试结果较好 大学人员页面通常不是 Deep Web 经典的 Mining Data Records ( MDR )算法 前提是 Data Records 之间树结构相似 人员页面中修饰与冗余部分会极大影响相似性 基于上下文语义分析 针对无结构化数据,需要上下文语义 人员页面通常是离散型的半结构化页面

4 4 对 MDR 算法的改进动机 不论自顶向下与自底向上, MDR 的主要局限在于修饰与冗余的树节点 跳过无效的修饰与冗余节点 从有效的文本叶子节点向上搜索祖先节点 遇到无效节点继续向上搜索祖先节点 两个有效叶子节点向上搜索到公共祖先 并属于公共祖先的不同子树 这些子树即类似 MDR 算法中的 Data Records

5 5 LCA 概念与语义相关区域 Lowest Common Ancestor ( LCA ): 对于有根树 T 的两个结点 u 、 v ,最近公共祖先 LCA(T,u,v) 表 示一个结点 x ,满足 x 是 u 、 v 的祖先且 x 的深度尽可能大。 通过 LCA 划分页面的语义相关区域:

6 6 基于 LCA 的页面初步分割 基本语义块 ( Basic Semantic Blocks ) 有效语义块 ( Effective Semantic Blocks ) 单条文本信息所属的最小语义区域 以单个人员为核心找到包含其信息的 最大区域 类似 MDR 算法中的 Data Records 可以容忍嵌套包含其他人员信息的情 况 为适用于强异构性的大量页面,不采用 Data Region 包含 Data Records 的严格两层划分,而采用有效语义块这种较 灵活的方式

7 7 半结构化人员信息的基本格式 关系信息的逻辑结构 属性信息的逻辑结构 关系前导词后挂载其映 射的所有人员名字 关系前导词后挂载一个人员、一 块人员、多块人员或者嵌套出现 的人员块,在逻辑结构上都可认 为是 “rel : Name_Block” 形式。 一条人员记录包含了一个人 员的名字信息及其属性信息 属性信息可以是属性名、属 性值以及并不属于单文本叶 子节点的个人图片等

8 8 有效语义块的边界识别及对齐 关系信息对齐 属性信息对齐 人名块形式的对齐方式关系表形式的对齐方式 卡片形式的对齐方式属性表形式的对齐方式

9 9 实验结果及未来工作 大量真实人员页面中,仍有较高准确率与召回率 有效克服了页面中修饰与冗余部分的干扰 数据集: 8 所中国大学, 245 个学院, 1641 个人员列表页面 网站 demo : http://rose.whu.edu.cn/tldw 未来需要在现有的数据基础上进行语义分析及对象关系提取,进 而构造更加完善的学术关系网络

10 10 Q & A PPT 模板下载: www.1ppt.com/moban/ 行业 PPT 模板: www.1ppt.com/hangye/ 节日 PPT 模板: www.1ppt.com/jieri/ PPT 素材下载: www.1ppt.com/sucai/ PPT 背景图片: www.1ppt.com/beijing/ PPT 图表下载: www.1ppt.com/tubiao/ 优秀 PPT 下载: www.1ppt.com/xiazai/ PPT 教程: www.1ppt.com/powerpoint/ Word 教程: www.1ppt.com/word/ Excel 教程: www.1ppt.com/excel/ 资料下载: www.1ppt.com/ziliao/ PPT 课件下载: www.1ppt.com/kejian/ 范文下载: www.1ppt.com/fanwen/ 试卷下载: www.1ppt.com/shiti/ 教案下载: www.1ppt.com/jiaoan/

11 11 谢谢! PPT 模板下载: www.1ppt.com/moban/ 行业 PPT 模板: www.1ppt.com/hangye/ 节日 PPT 模板: www.1ppt.com/jieri/ PPT 素材下载: www.1ppt.com/sucai/ PPT 背景图片: www.1ppt.com/beijing/ PPT 图表下载: www.1ppt.com/tubiao/ 优秀 PPT 下载: www.1ppt.com/xiazai/ PPT 教程: www.1ppt.com/powerpoint/ Word 教程: www.1ppt.com/word/ Excel 教程: www.1ppt.com/excel/ 资料下载: www.1ppt.com/ziliao/ PPT 课件下载: www.1ppt.com/kejian/ 范文下载: www.1ppt.com/fanwen/ 试卷下载: www.1ppt.com/shiti/ 教案下载: www.1ppt.com/jiaoan/


Download ppt "1 基于 LCA 分块算法的大学 科研人员信息抽取 报告人:易晨辉(武汉大学). 2 研究背景 信息网模型数据库( Information Networking Model DBMS ) “ 天罗地网 ” 科研机构与人员信息搜索引擎 学院网站等公开渠道获取科研人员信息 学院首页 -> 人员页面 人员列表页面及个."

Similar presentations


Ads by Google