2013年12月1日星期日

大数据在京东的应用

过去几年,京东高速发展,用户数超过了1亿,日PV量达到两亿,SKU(保存库存控制的最小可用单位)接近千万,自建了遍布全国的物流体系,向用户提供了各种各样的特色配送服务。
在快速发展的过程中,大数据已经成为京东参与竞争的利器。
京东商城的大数据应用包括商业智能、京东为商家提供的数据产品、以及京东智能网站的有关产品等。
京东商城大数据研发副总裁李曦介绍说,大数据包含三个层面的内容。
首先,企业的数据量要达到足够大的规模。“大家普遍同意的定义是,用BI的方式处理不了的数据才叫大数据。”
大数据的另外一个重要组成部分是模型。“可能是预测模型,也可能是统计模型,或者是其他模型。”
大数据的落地,还需要能够被最终用户理解并使用的应用。“目前整个行业的大数据应用,大多都是在之前的成熟应用中加入了大数据的内容。”
在这三个层面之下是大数据的技术平台。
李曦认为,大数据的上述组成部分都有自己的发展路径,例如模型即服务,数据即服务等等,后者的直观体现是广泛应用于广告领域的数据交易系统——数据拥有者通过互联网和移动互联网将数据开放给商家或供应商。
三个特点:实时、融合、平台
与大多数企业一样,数据对于京东的首要意义在于为企业提供决策支持。
目前,京东有三万多名员工,分布在全国各地,每天都有海量的订单生成,也有海量的货物需要配送,客服也会接听海量的电话。京东的管理者们每天都会接收到各种各样的报表,这些报表都是数据平台产生的。
“传统的商业智能提供的就是此类服务。”李曦分析道,大数据与BI的区别在于,BI数据分析的结果是延时的,可能是第二天,也可能是几天、几个月之后生成报表,而京东作为电商企业,很多大数据分析必须是实时的,如流量数据、订单数据等等。
京东大数据应用的第二个特点是“结构化数据”和“非结构化数据”的融合。
李曦解释说,传统公司,如银行、保险机构、电信企业等,它们的数据大多都是结构化的;而互联网公司,像百度、腾讯等企业的数据,多来源于网络评论、用户日志等,这些数据是非结构化或半结构化的。
“电商企业的数据处于二者之间:从用户下单到仓储分拣,再到配送,整个交易链条上的数据是结构化的;而用户的网站浏览行为、购买评价等各种数据是非结构化的。”李曦坦言,京东需要做的是将结构化和非结构化的数据巧妙的融合起来,从而实现客户洞察、用户定位、风险评估等一系列与大数据有关的分析和决策行为。
例如,在商业流通领域,现货率是一个非常重要的概念。简而言之,就是指在一个周期内,如一天,某些商品在仓储中有货的比例。假如某个商品24小时内12小时有货,那么这个商品的现货率为50%。商品的现货率低,意味着用户总是购买不到该商品,采购就需要及时补货。
京东发现,现货率这个指标在电商应用时,并不一定能够真实反映商品的有、缺货情况。
用户的购买行为会随时间变化而波动,例如,在深夜的6-8小时内,订单的数量会锐减,那些在交易高峰时间段总是购买不到的货品,在这个时候往往有货,这些商品的现货率有可能并不低。
也就是说,某些商品,特别是那些销售流速快的商品,用户浏览它时总是缺货的,但是现货率是一个与时间挂钩的概念,与销售流量无关,这些商品的现货率有可能很高。
“用户没有来的时候有货,并不表明用户来的时候一定会有货。”李曦说。
为此,京东引进了一个新的指标,聚焦每个PV,每次商品浏览时,每个用户所阅读的商品是否有货,有货的比例是多少;某个商品多少用户看到的是有货;多少个商品用户看到的是缺货等。
这是非常复杂的用户分析,李曦阐释道,首先必须知道用户从哪里来。京东在全国建有仓储,一些大的区域有很多种仓库,大的仓库也会对货品进行调拨,用户下单时,仓储会知道用户的地点,知道相应的仓库某个商品有没有货,再与这个商品每天的访问量,整合到一起计算出新的指标,实时提供给采销部门。
这样就能够得出一个较为准确的现货率,真正指导采销备货,提升用户的体验。
京东大数据应用的另一个鲜明特点是平台化。
李曦表示,大数据时代企业都希望实现数据驱动,但提供数据服务的人是有限的,因此将平台的能力开放出去就显得至关重要——应当让全公司都可以看到数据,各个部门的分析人员都能够提取数据做自己的分析。
“从大数据平台的角度而言,关键是做好监控,包括数据的质量,数据的及时性、准确性、一致性要有保障,有监控。”他说。
京东商城的大数据应用包括商业智能、京东为商家提供的数据产品、以及京东智能网站的有关产品等等。
大数据应用已经成为了京东日常运营的常规性动作,京东商城大数据研发副总裁李曦介绍了一些京东大数据应用的典型场景。
精准营销
几乎所有的电商企业都会基于用户的购买行为做精准营销,主要方式是E-mail、短信等。网站推介系统也是一种较为隐蔽的营销方式。
在李曦看来,依靠大数据进行精准营销,最重要的是用户建模,即用户画像。
例如,建一个模型来分析用户的购买心理——在用户首次浏览的商品和最终购买的商品之间,用户浏览了多少同类型的商品,中间的时间段有多长。一看到商品就去购买属于冲动性消费;看某类商品的时间较长,又互相比较,最终选择了相对便宜的商品,这是目标明确的消费。根据这些特征,可以分析出用户笼统的购物心理,进而得出某个品类商品的购物心理。
一些品类,用户较少去做比较,另一些品类,用户则较为谨慎,促销的时候,可以根据这种心理,采用有针对性的营销方式。
在创新用户体验方面,大数据也能带来收益。例如,京东会测试不同UI、不同页面设计的商品转化率。采用转化率更高的装修方式将提升整个网站商品的转化率,给企业带来更多订单。
优化供应链
京东的商品量非常大,面对成千上万的商品,如何做到每个商品的及时补货?后台供应链完全依靠人工,挑战很大。据李曦介绍,京东的很多商品都是自动补货,系统会根据销售情况和市场预期,依靠预测模型,在库存量达到某一个阀值时自动生成订单发给供货商。一些复杂的因素会被去除掉,例如团购等,以保证预测模型的准确。
大数据也被应用在了物流配送领域。京东会分析物流人员、仓库以及用户之间的地理关系,为物流人员提供最优配送路径,提高配送速度,提升用户体验。
智能网站
所谓智能网站,即“千人千面”,让每个来购物的用户都能获得最合适的体验。基于大数据挖掘和分析,网站将变得越来越智慧。
一些商品具有重复购买的特点,例如牙膏,购买之后在可预期的一段时间内将会用完。京东会分析此类商品用户两次购买之间的平均时间,在这个时间到来之后,推介系统有可能会给用户推介相应的商品,提升用户的体验,提高商品的转化率。
推介引擎是网站的主动出击,相比而言,搜索引擎似乎是被动行为。
在搜索日志里,京东发现,用户常常搜索的不是商品,而会直接表达自己的意图,例如“送老爸”、“送老婆”等等。此类查询,结果应当是什么呢?李曦分析道,一般很少有商品会将这些词汇放入到自己的商品描述中,而用户的评论则会对此有所提及,例如“特别适合老爸,老爸很高兴”等等。基于对用户海量评论的分析和挖掘,京东尝试去理解用户的意图,经过对数据的挖掘、统计和分析,为商品打上标签,例如商品适合送给男性,或是女性,将这些结果提供给用户。
“这是非结构化数据的处理在电商的应用,关键是对文本的理解是不是正确。”李曦说。
同样的算法京东也会应用到商品描述之上,例如挖掘商品的评论,可以了解某些商家商品的优缺点,商家可以据此做出改进;而这些主观描述的优缺点特征,也可以成为搜索的筛选条件。
此外,在互联网金融的热热潮之中,京东也涉足了数据金融领域,首先尝试面向供应链提供金融服务,使得供应商能够提前拿到账款,提高资金周转速度。京东也与全国各类金融机构展开了多样化的合作。
李曦分析,互联网金融的崛起,并非无根之水,谁掌握了用户数据,谁就可以涉足金融。根据用户消费数据分析,企业可以在很短的时间内评估消费者的信用,提供信贷服务。