2013年9月1日星期日

标准哥刘靖康:从数据中挖掘出无限可能

2012年12月26日,为了验证学校邮箱存在漏洞,南京大学大三学生刘靖康入侵了老师的邮箱,并将过程发布到人人网上。日志发出后遭到疯转,让曾因破解并公开周鸿祎的电话号码而小火一把的他再次成为舆论议论的焦点……

  图文 / 周秀凤

  2012年12月26日,一篇名为《如何通过入侵老师邮箱拿到期末考卷和修改成绩》的日志被刘靖康发布到自己的人人网主页上。日志图文并茂地展示了破解邮箱漏洞的过程,并且贴出了邮箱内部截图,截图清晰地显示出“考试A卷”、“考试B卷”等文件主题名。日志甫一发出,便被疯狂转载。
  “闯祸”后  学校得知后第一时间找了刘靖康谈话,要求他删除日志。尽管刘靖康在发表道歉的同时删除了人人网上的日志,可在新浪微博上,至今依然能搜到网友转载分享的日志截图。
  这篇破解日志并不像很多人担心的那样,可以模仿复制或轻易便能学会如何攻击邮箱。熟识刘靖康的朋友姜非(化名)说,刘靖康把关键的代码和过程都省略了,一般人根本不懂如何跳到下一步。
  刘靖康一再强调漏洞的发现只是一个意外,“我真的没有恶意,只是测试一下漏洞。我是想看看能否给学校的网络维护系统提供一些帮助,我也真的没有打开过任何一封邮件或下载附件中的试卷。因此给学校带来的不好影响,我很抱歉。”  2012年12月28日,刘靖康在5分钟内发了两条几乎完全一样的微博——I failedNJU,对不起。
  微博的最后,是内容完全相同的两段视频:在一片黑暗中,有一个女生说“行,那你写就是了”,画面猛地抖动一下,依稀可以看到刘靖康走到自己用光感应原理设计的,可以用打火机、手电筒的光“画画”的墙前,写下了莹绿色的“Sorry,NJU”。
  视频虽然只有短短的十六秒,但其独有的“极客范”还是让围观的网友赞叹不已。不过,他们在表达对刘靖康的崇拜之余,更关心学校对黑邮箱事件的处理结果。此前,媒体上传播的说法是,辅导员找刘爸爸谈话,告知南京大学极可能开除刘靖康,但并没有校方对此事的正面解释。2013年1月16日,刘靖康告诉本刊记者,学校还没有做出对他的处理决定。
  其实黑进邮箱“闯祸”之前,刘靖康已经因为破解并公开周鸿祎的电话号码而小有名气。
  2012年8月30日,360与百度的搜索大战正如火如荼。当时,网络上流传着一段记者采访周鸿祎的视频,视频的第33秒到34秒是记者用固定电话拨打周鸿祎的手机号码。刘靖康就是利用这短短的两秒拨号音破解了周鸿祎的手机号码。电话号码破解出来后,刘靖康一度很纠结:“想验证下是否破解成功,但不知道要不要打,打通了说什么?对方会不会恼怒?”他先检测了号码归属地,初步验证后确定归属地是北京,中国移动GSM,然后又在手机上按了一遍“周鸿祎”的号码,录下来后用电脑软件识别并与视频中号码的频率对比,结果也完全相同。  于是,刘靖康决定试一试。按捺住狂跳的心,他拨通了电话:“喂,您好,请问是周先生吗?”电话里传来压低嗓门的男声:“我在开会,你有事吗?”刘靖康想也没想就莫名其妙地回答:“抱歉我打错了。”
  刘靖康懊恼不已,“我至少应该说,‘请问是360的周鸿祎吗?”为了“让大家欢乐一下”,他把这段“传奇”经历发布到人人网上。
  8月31日凌晨,周鸿祎转发了“如何从按键音中听出360总裁@周鸿祎的手机号码”的微博并评论道:“这位同学确实能干,各位不用验证了,也请大家别在晚上十一点后打电话,谁也不希望刚睡着就被铃声惊醒吧?今晚已经有几十个好奇的电话了。”
  至此,刘靖康成功破解周鸿祎的手机号码已被证实。这让还在读大三的刘靖康小火了一把。对外界的反应,他却十分淡定,他自言,那只是他无聊时搞的小实验,他就是对数据挖掘比较感兴趣而已。实际上,在破解电话号码、入侵邮箱之前,刘靖康已经做过几起非常成功的“挖掘”项目,只是没有被媒体挖掘出来。
  数据挖掘控  2012年8月,腾讯旗下的朋友网对120所高校、超过100万张真实头像进行信息采集和数据分析,最终依据五官等平均数值产生了120所学校的“平均相貌”,推出首款全国高校大众脸应用。
  网友可以上传自己的头像,测试和一所高校“大众脸”的相似程度,确定自己是否符合母校的“标准”。
  事实上,高校大众脸的前身就是刘靖康曾经玩过的“平均脸”。
  2012年7月,刘靖康试图通过展示自己的软件技术,提高知名度后筹款给老乡治病。为此,他把刚入学时通过学校网站漏洞下载的全校7000多名学生的照片,用软件提取轮廓,然后将之平衡、填充平均肤色,从而算出某个范围的“平均脸”。
  “平均脸”提取出来后,刘靖康将相片上传至人人网,短短两日,点击量就高达4万。他因此被网友戏称为“标准哥”。

  7月底至9月初,刘靖康受腾讯邀请,以外包员工的身份参与了两个项目。其中之一就是提供平均脸的算法和思路,用来开发大众脸。当然,大众脸开发的商业价值究竟在哪里,至今还没有人说得清楚。
  截至2013年1月,刘靖康独自开发了30多个项目,为了给项目更好的发展,他将一些没有硬件限制的项目(如摄像头识别脚步动作,实现在Google Streetview上步行等)放到微博上,免费让感兴趣的人领走。
  对刘靖康而言,最成功的并不是“平均脸”,而是一个基于课外锻炼打卡记录,挖掘出各种人际关系的研究。
  南大学生每个学期都要在体育馆门前打够60次卡。那么,是不是可以利用学生打卡的时间和次数等原始数据,挖掘整理出一张人际关系网呢?
  刘靖康的假设是,如果同一个学院的两位同学在同一时间点前后不到一分钟内打了卡,那么他们很可能是结伴打卡或代打卡。排除偶然因素后,可以初步判断这两位同学有较为亲密的关系。  为了验证假设,刘靖康收集了每个学号的打卡记录,根据信息整理了一个矩阵,并将矩阵转换成图:每一个学号为一个节点,节点之间的连线越粗,代表连线两人存在的关系越紧密。
  为了验证这个模型的准确性,他特意找到一个案例。此案例中,四个男生两两之间连线都很粗,他据此推断出,这四个人是同一个宿舍的,而且关系紧密。实际情况的确如此。刘靖康表示,通过这个人际关系模型,人们可以从另一个角度了解自己的社交圈子;搜索院系之间可能存在的人际关系,找出认识其他院的学生的途径;当需要向某一个群体传递一个信息时,可以找出人际关系图中的某个节点,由他负责信息的再传递。
  技术宅初创业  在大数据时代,数据挖掘不仅是技术,更具有极高的商业价值。2012年11月,美国《时代》杂志曾刊登分析文章,揭秘数据挖掘在奥巴马竞选中起到的重要作用。奥巴马竞选阵营的数据挖掘团队为竞选活动搜集、存储和分析了大量数据。竞选团队的高级助手凭此成功“策划”多场活动,为奥巴马竞选筹集到10亿美元资金。
  数据挖掘,是刘靖康的兴趣之一。但作为一名“程序猿”,他更愿意把大部分时间拿来发明设计新玩意。
  在南京大学软件学院,刘靖康的成绩绝对算不上好,大二下学期,他甚至有三门课交了白卷。
  当别的同学都忙着上课学习玩微博聊QQ时,他却鲜少在微博上与人互动,只把全副心思放在了xAd上,“我还是想花更多的时间专注在自己做的事情上。”
  xAd,是一种支持3D模型、图片或悬浮的3D文字等多种形式的广告植入技术。通过xAd,草根视频作者和已授权的视频网站自主选择需要插入广告的场景和位置。xAd分析处理后,为视频生成一个可重复利用的广告展示位置,从而实现在视频中插入广告。
  这种做法的好处是,即便在作品拍摄完成、正式发布后,仍能实现产品广告的植入,达到广告宣传的目的。
  xAd开发完成后,刘靖康以创业者的身份参加了2012年5月香港站的36氪开放日活动。他的期望是,能找到天使投资,雇用优秀的技术人员,共同完善xAd。  然而,他并没有如愿找到投资人,也就没有找到创业所需的团队和资金。最后,xAd成为了一家名为“泰一指尚”的智能数字广告营销公司的产品。
  对于这一次创业初体验,刘靖康的心情有些复杂,这个项目很有前景,目前已经开始和浙江卫视的“中国好声音”节目合作,“但我没有股份,每个月拿工资,并到杭州出差,帮忙处理一些开发上的事。换句话说,它不是我的儿子了。”
  对于交白卷,刘靖康很坦然:“开学了再补考吧。高中的时候会觉得不要因为兴趣耽误学习,要考个好大学,但到了大学以后就没关系了,只要能毕业就行。”
  网友们关心他是否会被开除时,他却一如既往地做着自己喜欢的事。
  目前,刘靖康正在开发一段代码——磁性网络(Magnetic Network)。磁性网络开发完成后,可以让移动设备(比如智能手机)感知到同一室内空间还有哪些其他移动设备。利用这个功能可以开发出很多应用,比如学生可以在图书馆用手机跟坐在对面的陌生女孩聊天;老师讲课时可以将文件和ppt传送给教室里的学生。

  数据挖掘的那些事
【蓝精灵体数据分析师版】  在山的那边海的那边,有一群数据分析师,他们苦逼又聪明,他们每天看数据,他们呕心沥血不分昼夜都在赶广告,他们年复一年盼着涨工资。噢苦命的数据分析师,噢苦命的数据分析师,他们齐心协力开动脑筋找出数据背后的规律,他们的分析结果还是不被重视。
【啤酒和尿布】  为了分析哪些商品最可能被顾客一起购买,WalMart(沃尔玛)公司利用自动数据挖掘工具,分析数据库中的大量数据,发现最常跟尿布一起购买的竟是啤酒。原来,在美国通常是妇女在家照顾孩子,所以经常会嘱咐丈夫下班时给孩子买尿布,丈夫在买尿布的同时又会顺手买自己爱喝的啤酒。这就是数据挖掘中的关联规则,“啤酒与尿布”的故事也成了数据挖掘的经典案例。
【“要命的”数据挖掘】  某夜,某女夜不能寐,遂于新浪微博上发言,当前男友战死沙场,不必再想。次日,分析挖掘此微博后,新浪君为其推荐可能感兴趣之地点——西宝兴路火葬场,数据又显示,此女的160个朋友已在该地点签到过……
【最屌丝的数据挖掘】  有一个小伙子特意应聘上海某高档小区的物业管理员,成功后自配扫描枪,每天闲着没事就盯着小区垃圾区,见着条形码就扫描。下班回家后再把数据整理出来,从而得出该小区吃什么油、喝什么水、买什么衣服等消费品类和品牌等信息,再根据信息生成报告,卖给大公司。据说,报告价值数十万。
(此文章版权为《赢未来》及其作者共同所有,不得用作其他商业用途。如有转载,请标明出处。)

没有评论:

发表评论