Introduction to Dating Competition COMP621U. 第一届全国大学生数据挖掘邀请赛 March 22, 2011 ~ April 27, 2011 赞助 – 上海花千树信息科技有限公司.

Slides:



Advertisements
Similar presentations
浙江省科技创新云服务平台 软件演示 主讲:杨朔 大家上午好,现在就由我来给各位介绍下我们的《浙江省科技创新云服务平台》系统。
Advertisements

ProQuest Digital Dissertations PQDD 学位论文全文库. 1 、数据库简介 PQDD 是世界著名的学位论文数据库,收 录有欧美 1 , 000 余所大学文、理、工、农、医 等领域的博士、硕士学位论文,是学术研究中 十分重要的信息资源。 本数据库为 PQDD 文摘 数据库中部分记录的全文。
一、统计范围 注册地在湖里区的具有房地产开发资质的 房地产开发企业 无论目前是否有开发项目 无论开发的项目是在湖里区还是在其他区 没有开发项目的企业需要报送年报和月报 中的资金表(空表)。 新成立的项目公司,要先入库,再报报表。
球面网格及其应用 李杰权 北京师范大学数学科学学院
第四章 犯罪概念与犯罪构成. 第一节 犯罪概念 一、犯罪概念的类型  (一)犯罪的形式概念  (二)犯罪的实质概念  (三)犯罪的混合概念.
PHPCMS 使用指南及二次开发向导 --- 系统设置篇 PHPCMS 网络培训课程 --- 系统设置篇 PHPCMS 项目部 王官庆制作 系统相关设置 1. 站点管理 2. 发布点管理 3. 系统其它设置 管理员设置 1. 角色定义 2. 管理员管理.
HistCite 结果分析示例 罗昭锋. By:SC 可能原因:文献年度过窄,少有相互引用.
高校信息门户建设 清华大学计算机与信息管理中心 2005 年 7 月 面向信息集成的 统一信息系统建设探索 清华大学计算机与信息管理中心 蒋东兴 2010 年 1 月 13 日.
科教合肥 · 共襄盛举 —— 全国第 19 届计算机技术与 应用学术会议( CACIS )总结.
OCLC 及 OCLC ECO 电子期刊. 创建于 1967 年 非盈利性的会员机构 总部设在美国俄亥俄州, 目前有来自 86 个国家和地区的 个成员馆, 为 83 个国家和地区 43,000 个图书馆 提供信息服务 世界上最大的联合图书馆 OCLC(Online Computer Library.
Alexa 排名与 分级信息检索方法 刘骥 刘骥 前言 前言 从促进文献信息的广泛交流, Alexa 网站 排名知识和信息检索,利用网络资源促进利 互联网进行科学研究和提高效率和效益出发。 就 Alexa 网站、 Alexa 排名和分级信息检索方 法进行了阐述。对信息资源的利用、开放获.
绪 论绪 论绪 论绪 论 南京信息工程大学物理实验教学中心 第一次布置的作业 P37/3, 6P37/3, 6 作业做在实验报告册上!!
地理信息系统概述. 数据和信息 (Data & Information) 数据 原始事实 如:员工姓名, 数据可以有数值、图形、声音、视觉数据等 信息 以一定规则组织在一起的事实的集合。
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第六十二讲 ) 离散数学. 最后,我们构造能识别 A 的 Kleene 闭包 A* 的自动机 M A* =(S A* , I , f A* , s A* , F A* ) , 令 S A* 包括所有的 S A 的状态以及一个 附加的状态 s.
中国科学院 计算机网络信息中心 Computer Network Information Center, Chinese Academy of Sciences 人事统计用户操作培训 (2011 年度 ) 2012 年 1 月.
Virtual & Physical Libraries in the 21 st Century21 世纪的虚拟和实体 图书馆 What did I learn? Tony Ferguson Before NOW!!!
《文献管理与信息分析》 罗昭锋 中国扩科学技术大学 HistCite 作业及课程报告要求.
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第四十八讲 ) 离散数学. 例 设 S 是一个非空集合, ρ ( s )是 S 的幂集合。 不难证明 :(ρ(S),∩, ∪,ˉ, ,S) 是一个布尔代数。 其中: A∩B 表示 A , B 的交集; A ∪ B 表示 A ,
91job 就业网络联盟管理说明. 网址: 就业网络联盟 /login.aspx 后台管理
协同工作环境研究中心 协同共享 助力科研. 主要内容  认识协同及协同软件  协同科研软件 duckling 介绍.
91job 就业网络联盟 《推荐表》制作说明 —— 学生操作部分. 学生操作部分 注册: 91job 就业网络联盟 91job 就业网络联盟 操作如下: 1 、登陆: 2 、选择 “ 学生注册推荐表 ”
聚合物在生物高分子分离中的应用 王延梅 中国科学技术大学高分子科学与工程系 Tel
国际五大意味着高审计质量吗? - 来自我国 A 股市场的被步证据 刘峰教授 周福源先生 中山大学管理学院 讨论者 林自强 Kevin C.K. Lam 香港中文大学.
外文文献检索示例. 实验目的: 掌握利用计算机网络检索外文文献的基本方法; 了解熟悉下列数据库的结构、内容并掌握其检索方 法 ; 掌握检索的主要途径:出版物( Publication )、关键 词( Keyword )、作者( Author )等。
信息利用与学术论文写作 Library of Jiangsu University, Zhenjiang Sha Zhenjiang
UML 对象设计与编程 主 讲 : 董兰芳 副教授 Dept. of Computer Science,USTC
1 学籍归档工作 年学籍归档工作安排 从 2008 年开始,改为按届移交档案 从 2008 年开始,改为按届移交档案 今年的归档工作范围: 今年的归档工作范围: 2014 年应届毕业班级 2014 年应届毕业班级 2014 年办理毕业证的往届生。 2014 年办理毕业证的往届生。 整理内容:根据.
湖南省赛宝软件服务有限公司 信息报送及申报系统演示 湖南省赛宝软件服务有限公司 李纠.
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第五十三讲 ) 离散数学. 定义 设 G= ( V , T , S , P ) 是一个语法结构,由 G 产生的语言 (或者说 G 的语言)是由初始状态 S 演绎出来的所有终止符的集合, 记为 L ( G ) ={w  T *
晒课系统功能介绍 抚顺市教师进修学院电教部. 一、系统整体功能介绍 二、教师如何晒课 三、教研员如何协助 四、管理员的权限 五、时间安排及注意问题.
学生成长成才导图填报指南 填报网址:
华南师范大学教育科学学院 第二步:明确小组成员分工 选举 “ 常任组长 ” 1 名。 所有组员以个人姓名笔画排序 1 、 2 、 3 、 4 、 5 号,轮流担任 “ 轮值组长 ” ,每一周进行轮换。 本次课的轮值组长为 1 号。
法律加油站 —— 养老金余额能否继承? 2015 年 02 月 13 日 合规宣 [2015]02 号.
1 、如果 x + 5 > 4 ,那么两边都 可得 x >- 1 2 、在- 3y >- 4 的两边都乘以 7 可得 3 、在不等式 — x≤5 的两边都乘以- 1 可得 4 、将- 7x — 6 < 8 移项可得 。 5 、将 5 + a >- 2 a 移项可得 。 6 、将- 8x < 0.
2012 首届 “ 网中网杯 ” 全国大学生财务决策网络大赛. 财务人生 百年树人 厦门网中网软件有限公司  成立于 2005 年,国内实力最强、最专业、 产品门类最齐全的财会教学软件提供商, 综合竞争力领先的高新技术企业.
草原承包经营管理系统 额尔德木图 服务网站: 服务 QQ 群: 电话: QQ : 单位:内蒙古师范大学 内蒙古自治区遥感与地理 信息系统重点实验室.
年 终总结 汇报PPT模板 汇报人:小黑板 PPT. 前言 选择图片填充可更改图片 基于演示设计的一站式在线演示、素材销售、 服务交易系统。诞生于2013年,由中国专业PPT 设计领跑者上海锐普广告有限公司整合锐普PPT 设计、锐普PPT论坛、锐普PPT商城、锐普PPT市 场等资源组建成立。所提供的服务包括:PPT模.
Java 水晶报表. 目录 水晶报表开发 (CrystalReports 2008) Java 水晶报表 (JBuilder 2005) 报表项目布署 (WebSphere v6.1)
EC 营客通产品操作(九) EC 营客通产品操作(九) 400 电话 400 电话. 400 电话有助于提升企业形象,无论企业地址变更、机构 变化、人员变动,联系方式永远不变。且在 EC 上申请的 400 电话可以在 EC 平台上进行统一的 400 电话接听及 400 电话客服的管理。
企业产品标准信息公共服务平台 操作介绍 目录 一 、系统架构介绍 二 、企业产品标准自我声明填报系统 三 、企业产品标准公示系统.
表单自定义 “ 表单自定义 ” 功能是用于制作表单的 工具,用数飞 OA 提供的表单自定义 功能能够快速制作出内容丰富、格 式规范、美观的表单。
力的合成 力的合成 一、力的合成 二、力的平行四边形 上一页下一页 目 录 退 出. 一、力的合成 O. O. 1. 合力与分力 我们常常用 一个力来代替几个力。如果这个 力单独作用在物体上的效果与原 来几个力共同作用在物体上的效 果完全一样,那么,这一个力就 叫做那几个力的合力,而那几个 力就是这个力的分力。
“ 图书馆资源与服务利用 ” 专题讲座 第 9 讲 JSTOR 数据库与 Kluwer Online 数据库的使用.
荆门市总工会会员信息采集系统 操作培训 融建信息技术有限公司 肖移海 QQ群号:
“ 百链 ” 云图书馆. 什么是百链云图书馆?1 百链云图书馆的实际效果?2 百链云图书馆的实现原理?3 百链云图书馆的价值?44 图书馆要做什么?55 提 纲.
把握学科发展方向 建设资源共享之窗 Beijing zhong ke I/E Company of China Science publishing Group 北 京 中 科 进 出 口 公 司 Beijing zhong ke I/E Company 北京中科进出口公司 ProQuest 博硕士论文.
海军工程大学信息安全系 汇报人:周学广 教授 基于主题情感混合模型 的无监督文本情感分析. 海军工程大学信息安全系 主要内容 一 LDA 模型 二 UTSU 模型 三 实验对比与分析.
《关于实施 “ 东莞制造 2025 ” 战略 的意见》说明 东莞市人民政府 2015 年 1 月.
一、城市化的含义 二、世界城市化的进程 三、发达国家与发展中国家城市化 1. 城市化 向城市地区集聚 地区转变为城市地区 人口 乡村 2. 城市化的主要标志 : 城市人口增加 城市人口在总人口中的比重上升 城市用地规模扩大 3. 城市化的其他表现 城市化的含义.
NSTL 资源与服务推介 韩 红 NSTL 成都镜像站. NSTL 概况 NSTL 资源概况 NSTL 服务功能 使用演示 NSTL 成都镜像站资源与服务推介 韩红 2.
曹辉 2013 年 9 月 北京市商业学校 数字化资源中心介绍. 一、信息化发展史 通信领域信息化发展史.
新奥能源综合运营调度模式 研究及信息化实现 2016年1月31日 2016年1月31日 2016年1月31日 李 伟李 伟.
森林保护学本科系列课程 教学改革与实践 西北农林科技大学 一、基本情况 二、主要成果 三、创新点 四、成果的应用 项目研究背景 项目的总体设计 成果简介 解决的主要教学问题 解决教学问题的方法 改革前后的对比.
ECO 网上签证培训 ECO 网上签证培训 中国国际贸易促进委员会北京市分会 中国国际贸易促进委员会北京市分会 尊网商通资讯科技有限公司 尊网商通资讯科技有限公司.
1. 利用图形化开发环境 LabVIEW 对 Xilinx Spartan3E 进行编程 汤敏 NI 高校市场部.
张勤 人大报刊复印资料 专题全文数据库 简 介简 介 《人大报刊资料全文数据库》是中国人民大 学书报资料中心与北京博利群电子信息有限 公司联合开发研制的大型数据库光盘。它涵 盖面广、信息量大、分类科学、筛选严谨、 结构合理,是国内最具权威的社会科学、人.
人 有 悲 欢 离 合, 月有阴晴圆缺。月有阴晴圆缺。 华师大版七年级数学第二册 海口市第十中学 数学组 吴锐.
迎接我们的未来 康 凯 教育部高等教育司. 以信息技术为代表的现代科技正在高 速实现着知识爆炸性的积累。 以信息技术为代表的现代科技正在高 速实现着知识爆炸性的积累。 知识总量的递增速度越来越快。 知识总量的递增速度越来越快。 知识创新周期越来越短。 知识创新周期越来越短。
进口食品标签中介服务平台介绍 上海顺益信息科技有限公司. 目录页 平台操作 平台定义 平台功能 进口食品标签中介服务平台介绍.
北大法意数据库应用. 讲座提要大纲 法律专业能力 法律实践 法律信息检索能力 互联网 法律信息检索能力是法律专业人士的核心能力之一 美国律师协会( ABA )把它明确规定在律师的工 作规范和职业道德中.
高校信息门户建设 清华大学计算机与信息管理中心 2005 年 7 月 高校信息门户及平台建设 清华大学计算机与信息管理中心 刘启新 2005 年 7 月.
Business report template Designed by journey. CONTENT Part One Use, by you or one client, in a single end product which end users are not charged for.
物流分拣技术与装备 核心要点: 自动分拣作业方式与流程 自动分拣装备 自动分拣系统 实例. 物流分拣技术与装备 学习目标 通过本章的学习,应该掌握自动分拣的作业 流程,重点掌握摘取式和播种式拣选的特点, 了解常见的自动分拣装备,掌握自动分拣系 统的一般特点及其构成。通过实例,对目前 流行的分拣系统有初步了解。
韩文数据库使用说明 鲁锦松. 主要内容 一、为什么要用数据库 二、怎样利用中文数据库 三、怎样利用韩文数据库.
SCI 数据库检索练习参考 本练习完全依照 SCI 数据库实际检索过程而 实现。 本练习完全依照 SCI 数据库实际检索过程而 实现。 练习中,选择了可以举一反三的题目,读 者可以根据题目进行另外的检索练习,如: 可将 “ 与 ” 运算检索改为 “ 或 ” 、 “ 非 ” 运算检索 等等。 练习中,选择了可以举一反三的题目,读.
OkayE du Essay Writing Service London(UK) 聯繫我們 商務地址 : 探望我們 :
OkayEdu Essay Writing Service okayedu.com (UK). 关于我们 OkayEDU 英国论文代写, 高质量论文定制平台 为海外留学生提供一站式论文代写定制服务 – OkayEDU (UK) 对于海外留学生而言, 迈入海外学府只是第一步, 如何顺利毕业才是最重 要的.
3D 老虎机 最好是在线老虎机游戏是一个赚钱而获 得乐趣的明确方式。 而他们愿意毫不犹豫地花钱。 在线老虎机游戏会给你一个很公平的优 势,因为它依赖运气和时间。
Business report template
2015 PowerPoint Template powerpoint template designed by GuanHai
Presentation transcript:

Introduction to Dating Competition COMP621U

第一届全国大学生数据挖掘邀请赛 March 22, 2011 ~ April 27, 2011 赞助 – 上海花千树信息科技有限公司 – 世纪佳缘 联合举办 – 中国科学技术大学管理学院 – 中国人民大学统计学院 – 统计之都( COS )网站 目标 – 是为某个以婚恋为目的的大型交友网站提供会员推荐的智能算法,改善会员推荐 的精度,增加网站黏度 答辩时需提交 : 论文、源代码

Workflow User: A User: B Step 2: user A “click” the photo of user B (or ignore) Step 3: user A “msg” (send a message to) user B (or ignore) Relevance score 2: “msg” 1: “click” 0: “rec” Impact: make a difference on ones’ whole lives Step 1: the system “rec” user B to user A

train.txt 8,599,012 lines 15,000 unique USER_ID_A 55,871 unique USER_ID_B 59,921 unique users (10,950 overlapped) test.txt 3,311,076 lines 10,433 unique USER_ID_A 54,409 unique USER_ID_B 57,352 unique users (7,490 overlapped) “rec”: 8,366,058 (97.29%) “click”: 184,291 ( 2.14%) “msg”: 48,663 ( 0.57%) How to make use of “ROUND”? -> sequential information/constraint (?) -> only take the highest relevance (?) How to make use of “REC_TIMES” (in the last three months)?

TRAIN-A TEST-A ALL USER-B (57,133) 7,546 Comm.: 53,147 15,000 1,2622,724 2,887 (1)Pure CF can help those 7,546 TEST-A (2)User profiles (?)

profile_m.txt, profile_f.txt User Profile Reduce to the problem of “learning to rank” (1)Extract feature vector from (user A, user B) pair (2)Extract the relevance score from the action (“msg”, “click”, “rec”) ALL: Male: 344,552 Female: 203,843 We can learn more about the data distribution All users have profile information Male # vs. Female # is quite balanced

Evaluation and Submit What to submit? –Each line (USER-A): an list of orders of the corresponding USER-Bs Performance evaluation: Average of 10,433 TEST User-A If is comparable, is also considered The committee will also consider other issues for real deployment if the NDCG performance is very similar Gain Position discount Cumulating

Discussion Learning to rank, CF (+content), association rule mining (since lots of features are categorical) Transductive (semi-supervised learning) More studies of the data distribution of training and test set is needed (whether there is significant mismatch) Temporal information/constraints One very important information is missing: USER-B’s photo –Latent factorization approach may help alleviate this a bit Is there some information we can crawl from ? Shall we incorporate some prior knowledge as constraints (i.e. “ 门当户对 ”) ?

User Product e.g. KDDCUP2011, Netflix. e.g. Dating competition. (1) Recommend people to people (much higher social impact) (2) The “like-minded” assumption in CF may not hold (4) The content information (e.g. user profile) is definitely very important (3) Proximity: asymmetric vs. symmetric (new recommendation model needed) vs.

Others Q :港澳台学生可以参加吗 ? A :可以,欢迎。 Q :如何获取建模数据集?我可以把数据集传给别人么? A :本数据集仅能用于本次竞赛的分析、建模用途,且限于在线注册用户使用。不得用于任何其他 商业用途。用于学术研究和论文发表目的的,请与上海花千树信息科技有限公司联系并获取授权。 竞赛委员会不具有授权权力。