关注Linux 及系统架构: 机器学习在互联网应用面临的 10 大挑战

2012年11月17日星期六

机器学习在互联网应用面临的 10 大挑战

1： “数据稀释性”：训练一个模型，需要大量（标注）数据，但是数据往往比较稀疏。比如，我们想训练一个模型表征某人 “购物兴趣”，但是这个人在网站上浏览行为很少，购物历史很少，很难训练出一个 “meaningful model” 来预测应该给这个人推荐什么商品等 …

2：“不平稳随机过程产生的数据”：机器学习模型往往假设数据的产生是 “平稳随机过程”。但是有些互联网数据（比如 spam 邮件，spam 网站等）的产生是动态的，不平稳随机过程 …

3～4：高数量和高质量 “标定数据” 是机器学习效果的保障，但是获取标定数据需要耗费大量人力和财力。而且，人会出错，人有主观性。如何获取高数量和高质量标定数据，或者用机器学习方法只标定 “关键” 数据 (active learning) 值得深入研究 …

5：”Scalability” 是互联网的核心问题之一。搜索引擎索引的重要网页超过 100 亿: 如果1台机器每秒处理1000 网页，需要至少100天。所以出现了 MapReduce, MPI, Spark, Pegasus, Pregel, Hama … 等分布式计算构架。选择什么样的计算平台，和算法设计紧密相关 …

6：“速度” 是互联网核心的用户体验。线下模型训练可以花费很长时间：比如，Google 某个模型更新一次需要几千台机器，大约训练半年时间。但是，线上使用模型的时候要求一定要 “快，实时 (real-time)” …

7：互联网每时每刻都在产生大量新数据，要求模型随之不停更新，所以 “online learning” 是机器学习的一个重要研究方向。人也是一样: Life is an online learning process … “online learning” 也是人最重要的能力之一

8：“Cold- Start” (冷启动) 是互联网应用的典型问题：一个好互联网产品，用的人多，得到的数据多；得到的数据越多，模型训练的越好，产品会变得更好用，用的人就会更多 … 进入 “良性循环”。对于一个新产品，在初期，要面临数据不足的 “冷启动” 问题 …

9：机器学习之美在于对于不同的问题需要不同建模方法。我去给讲座的时候，经常听有人说：“SVM 做过，Naive Bayes 做过 … 但效果不好”；做过很简单，但能否 “做到极致”? 这个世界你能想到别人想不到的事情概率极低，只有一件你花十倍努力做到极致的事情！

10：“Human + Machine” 机器学习应用在一个特定领域，需要特定领域的专家知识：机器学习应用在 “医学”，需要一个经验丰富的医生；应用在 “股票”，需要一个有10年以上经验的操盘手；应用在 “互联网”，需要一个上网时间超过 1万小时的 PM …

关注Linux 及系统架构

页面

2012年11月17日星期六

机器学习在互联网应用面临的 10 大挑战

没有评论:

发表评论

网页浏览总次数