---

2015/10/25

layout: post
title: "个性化推荐的十大挑战"
category:

tags: ["读文章"]

{% include JB/setup %}

挑战一: 数据稀疏性问题

两个用户之间选择的重叠非常少。数据非常稀疏,使得绝大部分基于关联分析的算法(譬如协同过滤)效果都不好。

为了解决这个问题,也有很多方法,譬如可以通过扩散的算法,从原来的一阶关联(两个用户有多少相似打分或者共同购买的商品)到二阶甚至更高阶的关联(假设关联性或者说相似性本身是可以传播的),也可以添加一些缺省的打分。

挑战二:冷启动问题

新用户因为罕有可以利用的行为信息,很难给出精确的推荐。反过来,新商品由于被选择次数很少,也难以找到合适的方法推荐给用户

一种方法是利用文本信息进行辅助推荐,或者通过注册以及询问得到一些用户的属性信息。

新用户更容易选择特别流行的商品,说明使用热销榜也能获得不错的结果。

冷启动问题还可以通过多维数据的交叉推荐部分解决,其精确度和多样性又远胜于热销榜。

挑战三:大数据处理与增量计算问题

设计增量算法,也就是当产生新用户,新商品以及新的连接关系时,算法的结果不需要在整个数据集上重新计算,而只需要考虑所增加节点和连接局部的信息,对原有的结果进行微扰,快速得到新结果。一般而言,这种算法随着加入的信息量的增多,其误差会积累变大,最终每过一段时间还是需要利用全局数据重新进行计算。

挑战四:多样性与精确性的两难困境

应用个性化推荐技术的商家,也希望推荐中有更多的品类出现,从而激发用户新的购物需求。但是推荐多样的商品和新颖的商品与推荐的精确性之间存在矛盾,因为前者风险很大--一个没什么人看过或者打分较低的东西推荐出手,很可能被用户憎恶,或者牺牲精确性来提高多样性。

挑战五:推荐系统的脆弱性问题

一些心怀不轨的用户通过提供一些恶意虚假的行为,故意增加或者压制某些商品被推荐的可能性。

挑战六:用户行为模式的挖掘和利用

例如:新用户和老用户具有很不一样的选择模式。

有些混合算法可以通过一个单参数调节推荐结果的多样性和热门程度,在这种情况下就可以考虑为给不同用户赋予不同参数,甚至允许用户自己移动一个滑钮调节这个参数--当用户想看热门的时候,算法提供热门推荐;当用户想找点很酷的产品时,算法也可以提供冷门推荐。

挑战七:推荐系统效果评估

常见的评估指标可以分成四大类:分别是准确度、多样性、新颖性和覆盖率

挑战八:用户界面与用户体验

即推荐结果的可解释性,对于用户体验有至关重要的影响--用户希望知道这个推荐是怎么来的。

协同过滤有明显的优势,譬如亚马逊基于商品的协同过滤在发送推荐的电子邮件时会告诉用户之所以向其推荐某书,是因为用户之前购买过某些书。

不同类别往往来自于不同的推荐方法,譬如看过还看过(浏览过本商品的客户还浏览过的商品)、买过还买过(购买过本商品的客户还购买过的商品)、看过最终购买(浏览过本商品的客户最终购买的商品)、个性化热销榜(个性化流行品推荐)、猜你喜欢(个性化冷门商品推荐)等等。

挑战九:多维数据的交叉利用

譬如你可能既有新浪微博的帐号,又是人人网的注册用户,还是用手机,那么你已经同时在三个巨大的社会网络中了。与此同时,你可能还经常在淘宝、京东、麦包包、1号店、库巴网……这些地方进行网购,那么你也是一张巨大的用户-商品二部分图中的一员。想象如果能够把这些网络数据整合起来,特别是知道每个节点身份的对应关系(不需要知道你真实身份,只需要知道不同网络中存在的一些节点是同一个人),其中有特别巨大的社会经济价值。

挑战十:社会推荐

用户更喜欢来自朋友的推荐而不是被系统“算出来的推荐”

Reference:

周涛,个性化推荐的十大挑战, http://blog.sciencenet.cn/home.php?mod=space&uid=3075&do=blog&id=554630, viewed on 03/05/2012