关注Linux 及系统架构: 04/09/13

2013年4月9日星期二

TextFlow：把握信息脉搏

导言：这是一个新的淘金时代，企业希望从海量数据的金矿中找出脉络，可是现有的数据挖掘技术难以完全满足它们的需求。破解这个难题需要新思路，而从微软亚洲研究院向CHIP展示的一项新技术中我们看到了曙光。

每条色带表示一个主题，色带的宽度代表主题的热度，如果从一个主题引申出了新主题，色带就会分裂成两条，如果两条或多条色带合流在一起，就可以认为是话题的合并。刘世霞说，这种呈现方式来源于自然界的河流，是一种容易让人理解的隐喻方式，一图胜千言。

有这样一道面试题：如果有一个几十万的新闻集合，那么怎么能够很快了解到到底发生了什么事件以及这些事件之间的关系？答案，就在本文中

我们都知道数据可以分为两大类，一类是数字和符号这样的结构化数据，另一类则是文本、图像和音频这样的非结构化数据。如今，IT领域谈到的“大数据”中，80%以上属于非结构化的数据，而文本又是非结构化数据中最重要的部分。尽管现有技术对数字信息进行分析有相对成熟的方案，但如何高效地分析海量文本信息一直是业界的一道难题。

微软亚洲研究院网络图形组主管研究员刘世霞博士告诉CHIP，之所以现有的文本挖掘技术不够用，首先是因为目前技术尚处于研究阶段，精准度不够；其次是因为技术的灵活性不足，很难满足不同人的需求。她和同组的副研究员崔为炜以及香港科技大学屈华民教授共同主导的TextFlow项目在破解这个难题方面提出了新的思路，他们将文本挖掘技术与可视化这种交互技术结合在一起，不仅突破了传统静态文本挖掘技术的限制，而且能让人利用直观的流式图形迅速把握海量信息的发展脉络。在国际最顶尖的信息可视化学术会议IEEE InfoVis 2011上， TextFlow论文的发布引发了业内人士的关注。有评委表示，“该论文的主要贡献是在海量文本分析中引入主题合并和分裂的理念，这是分析主题演化时面临的最大挑战之一，从文本挖掘和可视化两个角度来说都意义非凡。”

有趣的是，他们在论文中以自身最熟悉的领域——可视化研究作为其中一个案例，将2001年至2010年间发表在IEEE Vis和InfoVis两个学术会议上的933篇论文作为文本数据集合，通过TextFlow模型得出了与实际学术发展潮流相当吻合的图表，其结论令人信服。例如，整体上看，过去10年间Vis相关主题有日渐式微的趋势，2006年之后各个主题独立发展；InfoVis与之相反，整体的趋势是上升的，主题之间的合并和分割非常多，说明该领域的研究更活跃。

他们是如何做到的呢？崔为炜向我们解释了文本可视分析的步骤（如上图所示）。首先，主要由机器来完成海量文本的收集和预处理工作。然后，利用自然语言分析中的概率模型HDP（Hierarchical Dirichlet Process）计算出文本所属的主题（topic）。这里假设每个主题都是由一组关键词来描述的，关键词以不同的概率出现在不同的主题中，每篇文章自然也会以一定的概率属于不同的主题（注：传统聚类方法会认为每个文本只属于一个主题）。刘世霞强调，HDP模型的优势是可以自动确定文本中的主题数量，但是它只能计算出一组静态文本数据的主题，无法进一步找出主题之间的关系。2010年的时候，他们成功改进了HDP模型，将这个语言模型扩展到能处理动态的文本数据流。简单地说，就是跟踪比较T1和T2两个时刻文本内容的变化情况，由此来确定主题之间是否发生了合并或者分裂。文本分析的最后一步就是利用前面得出的主题演化结果，计算出其中的关键事件和关键词，从而更好地展示事件发展的来龙去脉。

在谈到TextFlow模型对于主题合并和分割判断的准确率时，刘世霞表示目前还没有一个固定的样本集可供测试，但把多个领域的分析结果拿给相关领域专家查看时，他们都认为结果比较准确，可以达到满足应用的水平。另外，我们还了解到TextFlow模型的主要算法本身与语言是无关的，中文与英文的区别主要在于海量文本预处理阶段的分词技术，这方面已经有成熟的技术可以完成。

William Ribarsky是北卡罗莱纳州大学Charlotte可视化研究中心创始董事，非常关注微软亚洲研究院在文本可视分析方面所做的工作，他在美国召开的一次学术会议的发言中提到刘世霞所做的交互式可视文本分析，并称“这项成果令人刮目相看”。在扑面而来的大数据时代，相信未来利用TextFlow模型可以做许多帮助企业提升生产效率的事情。崔为炜向我们演示的案例中既包括对历史新闻事件的回放，也包括跟踪社交媒体的数据预测即将发生的新闻事件。由此引申开来，所有之前难以度量的文本数据或许都能迎来一次重生的机会。在信息时代，谁能把握住信息的脉搏，谁就能更好地把握住时代的脉搏。

文章开头虚构的面试题，大家找到答案了吗？