2012年11月17日星期六

广告投放与推荐系统-如何将两者有机的结合是个问题。


广告投放与推荐系统

好吧,我得承认,昨天下午百度商务搜索部来到公司访问交流正是处于风口浪尖之际,但我们今天不谈这个。

从一个做推荐的人来说,他们做的主题广告推广(类似于google adsense在广告联盟里投放广告)的事情,我倒有一些自己的想法。他们若是希望做一个针面向于终端用户的个性化广告投放,我们都觉得这不太现实,无论是从数据量的庞大程度,还是用户数据获取的难度(这两个因素又会带来数据的稀疏问题)来说,这都不乐观。相反,基于从寻找这个工作与豆瓣推荐系统的相似度来说,我觉得他们可以改变一下自己问题中“用户”这个对象的代表身份。简单来说,就是豆瓣推荐面对的用户是实实在在的人,因为我们拥有这些登录用户很完备的兴趣爱好的数据,所以能够得到比较令人满意的推荐;而百度主题推广的一个用户,应该定义为某一类型的页面(下面称为页类),这样的“用户”百度才有可能存储足够量且可靠的数据,进行个性化的推荐(这里的个性化推荐就演变为对页类进行有针对性的广告投放了)。至于怎么对海量的网页划分出不同的网页类型,这应该是他们的强项(为了使得结果更有分众的效果,这样的网页类型可以有很多,因为推荐系统中的用户数量也很庞大)。

这样进行类比,每一个页类就对应于推荐系统的一个user,每一个广告就对应于推荐系统的一个item,页类对广告的评分可以用在该页类中投放该广告时的点击情况来进行计算,这样就构成了通常推荐系统所必须的user-item-rating的矩阵,接下来就可以自由运用经典或改进的各种协同过滤算法来对页类进行广告推荐(投放),也即利用推荐系统的思想来解决这个广告投放的问题,而不是传统的基于上下文的方法。当然,实际应用中会有一些问题,其中一部分来自于推荐系统自身的弊病,另一部分来自于推荐系统应用于广告投放这个新领域会面对的新问题。前者如协同过滤面临的冷启动问题(新条目推荐需要额外考虑),后者如广告投放需要重视的广告库存率等等。另外,这种思想并没有完全放弃文本的因素,实际上在进行页类划分时(可以认为是个user identification过程),文本会是个主要的考虑因素,但在广告投放的决策过程里,文本相关可以被协同过滤方法所取代,文本由一个决定性因素转变为一个预处理模块的因素。

不管如何,如果真能把推荐系统、协同过滤中利用群体智能的思想引入到在线广告投放领域,肯定是一件激动人心的事情。

另外从对分网络的角度来看,豆瓣推荐系统网络中的两类结点是用户和条目,但对于其它系统则未必如此,应该根据实际的数据与需求情况合理地定义这两类相互发生关系的结点,使得网络中的稀疏性较小、结点间的关系比较可靠,才能从这个关系网络中挖掘中令人满意的结果。

可惜的是对方对自己的技术与算法提及得太少,其实基本是没有什么提及,所以也没法进行更为深入和有效的探讨。
关于作者
阿稳, 豆瓣, 算法工程师
推荐系统;数据挖掘;算法架构及实现的可扩展性;R环境编程
如果你的问题已经能从我的博客中得到解答,就最好不过了:

没有评论:

发表评论