2012年11月17日星期六

机器学习在互联网应用面临的 10 大挑战


1: “数据稀释性”:训练一个模型,需要大量(标注)数据,但是数据往往比较稀疏。比如,我们想训练一个模型表征某人 “购物兴趣”,但是这个人在网站上浏览行为很少,购物历史很少,很难训练出一个 “meaningful model” 来预测应该给这个人推荐什么商品等 …
2:“不平稳随机过程产生的数据”:机器学习模型往往假设数据的产生是 “平稳随机过程”。但是有些互联网数据(比如 spam 邮件,spam 网站等)的产生是动态的,不平稳随机过程 …
3~4:高数量和高质量 “标定数据” 是机器学习效果的保障,但是获取标定数据需要耗费大量人力和财力。而且,人会出错,人有主观性。如何获取高数量和高质量标定数据,或者用机器学习方法只标定 “关键” 数据 (active learning) 值得深入研究 …
5:”Scalability” 是互联网的核心问题之一。搜索引擎索引的重要网页超过 100 亿: 如果1台机器每秒处理1000 网页,需要至少100天。所以出现了 MapReduce, MPI, Spark, Pegasus, Pregel, Hama … 等分布式计算构架。选择什么样的计算平台,和算法设计紧密相关 …
6:“速度” 是互联网核心的用户体验。线下模型训练可以花费很长时间:比如,Google 某个模型更新一次需要几千台机器,大约训练半年时间。但是,线上使用模型的时候 要求一定要 “快,实时 (real-time)” …
7: 互联网 每时每刻 都在产生大量新数据,要求模型随之不停更新,所以 “online learning” 是机器学习的一个重要研究方向。人也是一样: Life is an online learning process … “online learning” 也是人最重要的能力之一
8:“Cold- Start” (冷启动) 是互联网应用的典型问题:一个好互联网产品,用的人多,得到的数据多;得到的数据越多,模型训练的越好,产品会变得更好用,用的人就会更多 … 进入 “良性循环”。对于一个新产品,在初期,要面临数据不足的 “冷启动” 问题 …
9: 机器学习之美在于对于不同的问题需要不同建模方法。我去给讲座的时候,经常听有人说:“SVM 做过,Naive Bayes 做过 … 但效果不好”;做过很简单,但能否 “做到极致”? 这个世界你能想到别人想不到的事情概率极低,只有一件你花十倍努力做到极致的事情!
10:“Human + Machine” 机器学习应用在一个特定领域,需要特定领域的专家知识:机器学习应用在 “医学”,需要一个经验丰富的医生;应用在 “股票”,需要一个有10年以上经验的操盘手;应用在 “互联网”,需要一个上网时间超过 1万小时的 PM …

没有评论:

发表评论