当前位置:首页 > 科技数码

数据挖掘算法 腾讯孙国政:大数据挖掘和推荐算法最新进展

本站讯 9月8日消息,由CSDN主办的2012中国软件开发者大会今天在北京国家会议中心举行,本站作为合作门户在现场直播报道。

腾讯首席科学家孙国政做了主题为“超大规模用户数据挖掘和推荐算法最新进展”的主题演讲。

主持人:刚才蒋总PPT里有很多图,有一个共同特点都是指数系,这意味着速度越来越快,数据的增长不仅是多而且是越来越多,怎么样才能应对这样的问题?我们下面有请腾讯首席科学家孙国政给我们介绍超大规模用户数据挖掘和推荐算法最新进展。

孙国政:大家好,我来自腾讯公司,我今天演讲的题目是超大规模用户数据挖掘和推荐算法最新进展,并且从KDD—CUP2012谈起。

刚才讲到国际会议好多高手都参加,现在这个世界是一个互联网时代,也可以说是一个大数据时代。比如说我们现在每天能出现2.5quintilion的数据,这就给大家一个挑战,这些数据怎么办?如果现在开始每年能够在将来10年中有50倍数据增长量,在第三年,现在世界五百强每个公司都有一个新的计划就是怎么来收集大数据,可见大数据现在很重要。究竟大数据问题是个烦恼还是商机,这是给所有公司和开发者的一个重要问题。我们现在所看到的好多公司一些管理层把大数据都当成烦恼,怎么来处理?其实它孕育了很多商机,比如现在根据美国健康总署,他们估计如果把现在数据都用好了,他们相当于每年收入300万美元,这相当于大数据处理好了有很大商机。

现在我们面临的挑战一个方面是大数据能够看的着能够存储能够处理,更重要的是大数据怎么为我们造福,现在就有一个怎么发展数据为用户、为广大网民服务的问题。在这样的情况下,就出现了KDD—CUP的比赛,今年KDD—CUP选的题目有两个,一个是根据腾讯微博数据,你推荐一个名人收不收听,收听了说明你感兴趣,我们就给你所有数据让你算一下用户收听这个人的机率。第二个是搜搜商业搜索的数据,每个搜索引擎都有些广告推荐,有些广告对大家很有用,就会点击。所以我们就是计算一下给个广告给用户被点击机率有多大,我们今年都有很大的增加。比如说Track1,它出现了一个收听一个人,有电极就是感兴趣,我们给的数据是分两个,一个是微博用户,另外一个是名人。用户有很多数据,包括年龄、性别等等词语来描述,还有用户在上面的动作,比如回复评论等等,还有一个是他们之间什么关系,谁收听谁这个数据。还有一个是每个人根据他过去的博文抽出一些关健词,也给用户提供。还有一个是每个推荐人属于哪个方面的,我们把这个人推荐给一个用户,算算被点击的的机率有多大。我们的数据是有50天的记录,包括用户的描述等等。数不是怎么分布的呢?横轴是假如推荐的话有多少人多大机率收听。被收听多的人基本比较少,推荐人是蓝色的、绿色是用户,被收听超过50%的基本没有,大部分是收听率很少。假如说我和被收听人有关系的话,有多少路径能通过中间人达到。比如说我的偶像是他,偶像的偶像是他,诸如此类,中间通过的路径越多被收听机率越大。

我们最终怎么衡量比赛结果?我们有一个MAP,公式我就不再详述了。

另外有Track2,我们每个Session是用户、广告、ads都给了,还有姓名、年龄、广告等等都给了,因为参加人大部分都不懂中文,所以我们把中文部分用个数码来表示,另外为了保护用户隐私性,也用数码来表示,究竟什么意思不知道,所以在这里懂中文的没啥好处。点击用户记录数据很大,纵轴是数目,横轴是展现的次数,如果展现越多的话大约点击越少。它的衡量标准我们用AUC,我们基本采用标准方式来衡量。

KDD—CUP基本有三个特点,第一数据比往年量大,直接来自真实产品运营日志,没有经过任何改变。第二参加人数与往年比也是最多的,traca1三千多人,traca2五千多人。第三数据集非常复杂,参赛者需要自己进行处理,形成缄默所需的特征变量,且变量的最终数目还取决于参赛者处理方法,是没有标准答案的。

KDD—CUP大赛结束之后评了三个得奖团队,通过分析他们的结果,有些东西值得跟大家分享。首先介绍一下比赛数据特点,数据稀疏性是现在所有大用户数据的一个问题,矩阵好多点都是空的,只有几个点才有数据,虽然很多但是在矩阵上是很稀疏。另外有很多数据需要自己清理,你自己决定要不要这些数据,数据很复杂。另外也有严重的冷启动问题,我们大家知道通常根据以往大家行为看你的兴趣来推断你下面对什么感兴趣,但是有可能我们在这里所看的用户,有77%的用户做训练的数据里没看到,他是新用户,他们没有行为历史,这对冷启动是一个大的挑战。另外数据也不平衡,大部分没有收听,90%以上的都是没收听。后来我们把数据公布之后,每天可以上传东西,大家来排宝,我们还提供了一个简单的算法放在那儿,一开始没人超过,但是过了几天好的结果都排在前面了。在数据处理上是一个很大的特点,凡是能够得到优胜的大部分对数据的理解是很到位的,比如说有些数据推荐其实就是没收听的并不等于用户不喜欢它,因为你的前后时间太短了,他们分析了这些就去除了很多不需要的数据,另外把数据分类、噪音去除,这样一处理数据精简了很多。

这是一个数据处理图,这个是很不成比例的,他们用一对对来比较,如果对不成比例就不好做。另外一个成功特点,大家都用matrix foctorization modeling,这是近几年来做数据处理一个通用的办法,解决Sparsity问题的有效算法。这个矩阵很稀疏,他可以分成两个矩阵相乘,我在这里没有时间仔细结束了,大致体会是参数减少的工作,没有这个工作数据稀疏性无法解决。成功算法还有一个特点是很好地解决了冷启动的问题,比如说把用户ID的年龄、性别分类,中山大学这方面做的比较好,他们通过这个关系来通过词的关系挖掘用户兴趣,这种对数据的理解很好地解决了冷启动的问题。另外他们都成功解决了Time dependence的问题,今年我们比赛跟时间有关系,我们都有一个时间窗几月几日几点几分推荐的,下一个时段他会不会火,下一部分发生什么新闻事件,通常我们是没有把时间因素加引来,现在就需要把时间因素加进来。这个是一个德国人在Track1得了的一名,他在把时间分成不同的Solutions,具体来说两种方法,一种是Time oware modeling,你在推荐的时候除了其他算法,再加一个跟时间有关系的阈值,这种阈值参数是通过学习出来的,这就使得解决时间问题得到成功。再一个做法是用Seruential features,这跟时间有关,这个Solutions有多长,把跟时间有关系的词都放进去发现非常有用,我们最后衡量MAP增加5.1%,这是很大的增长。

还有一个成功的特点是用Diverse models,这一点是台大得了第一名,各种方式,千奇百怪的方法都试了,把推荐当成ranking、当成classification、regression等等方法,这样每种解决方法都有结果了,最后合并到一块儿叫Ensemble leaming,这也是许多参赛者在应用上的一个成功的特点。

Tarck1第二名和track2第三名,两个都得奖,但是他不懂中文,他说我不管什么问题我用统一办法处理,叫Prediction with factorization Machines,本来是非常稀疏的二维矩阵被分解了,他这个好在把整个过程是统一的,这里边对用户推荐的东西都是线性的,他引用了second order。不管是什么factorization 都用0和1表示出来,整个都变成二进制,这一点非常有意思。我们大家都是数据挖掘的高手,KDD—CUP的我们两个第一名都是中国的,一个台湾的一个中国大陆的。

现在数据用途从广告搜索、娱乐、内容等等都要服务用户,所以推荐技术应运而生,但是推荐系统有几个要关注的问题。第一个是Context aware的处理,Context包括时间、地点、涉及公司和用户的情绪、属性、社交网络等等属性,这个问题是我们要很好研究的课题,现在微博推荐也是这样,就是不同场景下收听率是不一样的。再一个就是Heteragenity,有不同形式不同渠道的,你怎么统一到一块儿。另外你推荐应该跟它的内容,比如你了解不了解这个人的背景等等。第三个你要做推荐必须以用户为中心,最重要的是用户接不接受,你别推荐了半天人家不接受,那也没用啊。在这里有很多算法来研究,我们怎么能让用户感到满意,这样界面交互很重要,你显示不好人家不接受,或者写的词跟内容不搭界人家也不接受。这每一篇都代表了一篇文章,基本想解决冷启动问题就是把用户相关其他信息引进来。现在推荐都跟社区相关,基于社交网络和用户可信度的跟随领导的模型聚类,这个也变成当今所研究的一个问题。再一个是Knowledge—based,你了解的东西你才推荐的清楚,你不了解的东西就推荐不好,所以推荐库里面有什么、喜欢什么、新颖的东西是什么等等,这个弄好了才能做好推荐。再一个是Evaluation,你推荐是全部该推荐的都推荐了吗?推荐的是不是有互相重复的?重复了第二次人家就不喜欢了,根据推荐的东西之间的关系有关,这方面Evaluation就变得更复杂一些,你推荐的东西必须有吸引性,人家才容易接收, 所以系统引进了多因素,有可能推荐不是一次,而是通过对话,这样推荐才更有目的性。如果不是表示的很清楚,推荐效率就不大。

总之在推荐方面有很多挑战,我总结了这几点,主动对健不光是推荐什么东西,怎么推荐也很重要,另外隐私保护性也很重要,每个人都有个人行为,你每次推荐都是个性化的,怎么个性化又怎么保护隐私这是一个对立的问题,在移动互联网下怎么推荐这对我们提出很多挑战。

最后我把这几个得奖的人的数据公布一下,也谢谢大家。

1.《数据挖掘算法 腾讯孙国政:大数据挖掘和推荐算法最新进展》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《数据挖掘算法 腾讯孙国政:大数据挖掘和推荐算法最新进展》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/476848.html

上一篇

dopool Dopool尹郑赫:月活跃用户可达800万

下一篇

石蛙价格 美法院批准三出版商和解电子书价格操控案

dopool Dopool尹郑赫:月活跃用户可达800万

dopool Dopool尹郑赫:月活跃用户可达800万

本站五道口沙龙第十八期“手机电视"主题五道口沙龙8日在北京举行,Dopool北京闪动科技运营总监尹郑赫在沙龙上介绍,目前Dopool手机电视软件设备的数字超过了5000万,每天还有12到15万左右的增长。已经签约50余家媒体。日活跃用户是70到120万,月活跃用户可达到800万。...

朋友的朋友 腾讯测试实名社交App“朋友”:让用户跟朋友的朋友交朋友

  • 朋友的朋友 腾讯测试实名社交App“朋友”:让用户跟朋友的朋友交朋友
  • 朋友的朋友 腾讯测试实名社交App“朋友”:让用户跟朋友的朋友交朋友
  • 朋友的朋友 腾讯测试实名社交App“朋友”:让用户跟朋友的朋友交朋友
3d微端网游 盛大游戏张向东:微端用户转化率比端游高很多

3d微端网游 盛大游戏张向东:微端用户转化率比端游高很多

本站讯 7月29日消息,2012ChinaJoy中国游戏商务大会之“网络游戏与产业链合作论坛”在上海浦东嘉里大酒店举行。盛大游戏首席运营官张向东在演讲中很看好页游的发展,他表示,页游作为新型的产品,能够迅速的在市场上引起用户的关注,收入规模也在快速上升,非常多的产品已经有广大的用户群体。在他看来页游有很大的特点,首先是研发中期比较短,再一个用户上...

中国航母 美卫星偷拍中国航母最高航速31节算出关键数据

中国航母 美卫星偷拍中国航母最高航速31节算出关键数据

自2019年11月17日服役以来,山东舰已从军一年,母港为三亚海军基地。然而这一年来,它大部分时间依然待在北方,甚至是造船厂里,甲板上也没有满载歼15。最近,山东舰终于又出海了,据媒体报道,它正在黄海海域展开服役后的国家试验和训练工作,而一些西方国家的卫星,和往常一样,又纷纷盯上了这一海域,比如在11月27日,美国行星实验室的卫星就拍到了山东舰在海上试航的清晰画面。不仅如此,据外媒报道,美国卫星还...

泰国免税店 泰国免税店购物攻略,都是有用的信息!

  • 泰国免税店 泰国免税店购物攻略,都是有用的信息!
  • 泰国免税店 泰国免税店购物攻略,都是有用的信息!
  • 泰国免税店 泰国免税店购物攻略,都是有用的信息!

新媒体的特点 传统媒体App五大特征:强调原创忽视用户体验等

  • 新媒体的特点 传统媒体App五大特征:强调原创忽视用户体验等
  • 新媒体的特点 传统媒体App五大特征:强调原创忽视用户体验等
  • 新媒体的特点 传统媒体App五大特征:强调原创忽视用户体验等
狼虫虎豹都是什么动物 狼虫虎豹

狼虫虎豹都是什么动物 狼虫虎豹

狼虫虎豹                【成语名字】狼虫虎豹【汉语拼音】 láng chóng hǔ bào【近义词】:虎豹狼虫、虎豹豺狼、鼠心狼肺【反义词】:菩萨心肠【成语出处】 明·贾仲名《对玉梳》第三折:“转过这山坡,一簇榆林,黑洞洞的,不知里面藏着什么狼虫虎豹。”【成语解释】 ①泛指凶猛的动物。②比喻恶人歹徒。【狼虫虎豹造句】村里有一位狼...

爱啪啪网 职业社交网站LinkedIn 650万用户密码遭泄露

  • 爱啪啪网 职业社交网站LinkedIn 650万用户密码遭泄露
  • 爱啪啪网 职业社交网站LinkedIn 650万用户密码遭泄露
  • 爱啪啪网 职业社交网站LinkedIn 650万用户密码遭泄露