使 HTML5 微数据发挥作用,第 2 部分: 利用微数据实现新一代聚合
利用微数据和 Drupal 创建分散管理的站点
大型组织往往会投资开发那些大型的、集中的、标准化的 IT 系统,例如整体 CMS,然后竭尽所能让所有人都能够使用这样的系统。遗憾的是,保证所有人按照正确的方式使用系统是一项艰巨的挑战。投资开发一刀切的方法很难交付承诺的生产力收益。标准化或者控制松散耦合的组织尤为艰难,因为这种组织中的团队很少交互,往往分别制定决策。松散耦合的组织示例包括:
- 大学中的各院系
- 开源社区中的企业和个人
- 业余体育联赛中的队伍
在本系列的 使 HTML5 微数据发挥作用,第 1 部分:在微数据之上使用 jQuery 中,我们学习了如何在微数据的基础之上使用通用脚本。我们编写了一个 HTML 片段,提供交互式事件地图,并使 Google、Bing 和 Yahoo 能够使用 Rich Snippet 在搜索结果中更好地显示您的页面。
在本文中,您将学习如何利用微数据,支持协作小组轻松将其站点挂接到一个集中的小组站点上,并共享内容。通过商定在 HTML 标记中设置的一组属性,松散耦合的组织便可维护其信息系统的独立性,同时仍然能够构建联合项目。
许多开放源码项目都难以为其软件维护健壮的、最新的文档。与此同时,项目的贡献者利用博客文章分享具体的技术说明,这些博客文章往往在 Planet 中聚合。Planet 就是一种博客聚合器,能够获取选定作者的博客文章(请参见 参考资料 部分)。
Planet 是参与社区最新活动和讨论的有效方法,但无法发挥作为协作技术的潜力。它难以筛选 Planet 文章的存档,因为其中包含大量原始结构化数据。即使聚合文章确实包含有用的结构化数据(如标签),来自不同站点的文章往往也不会共享相同的术语,它们或许会使用术语的不同拼写方法。因此,无法有效地对文章进行排序。
通过创建获取博客文章及有关文章的额外重要信息的聚合器,可以解决这样的问题。可以使用聚合器来浏览文章,并将其放置在项目主站点内的相关位置。
假想的系统将归档 Drupal。我们的博客文章中充分说明了某些广泛应用的子系统(在 Drupal 中称为模块),但 Drupal.org 手册中缺少良好的文档。我们的目标在于将 Planet 中的出色文档转入 Drupal.org 便捷的可搜索结构之中。
第一项任务是确定希望将博客文章中的哪些信息传递到中心归档系统。例如,您希望指明该文章讨论的是哪些模块。通常情况下,模块的各主要版本往往会采用不同的工作方式,因此最好指明教程是否与特定的模块版本相关。
Drupal 中有多种角色,从内容编辑到后台开发。指明哪些角色认为文章有帮助是非常有价值的。图 1 中的文档记录显示了标题、读者和相关模块。
图 1. 示例文档记录
该场景中的数据共享需求非常简单。您仅需将源博客文章中的以下信息传递到站点即可:
- 标题
- 摘要段落
- URL
- 目标读者
- 模块
标题、摘要和 URL 已经通过 RSS 实现了结构化的格式。您需要找到一种解决方案,获取有关目标读者和模块的结构化数据。为此,可以使用微数据。开始使用微数据之前,您需要设置测试使用的源和目标站点。
为了解析和处理传入的文章,您需要使用 Microdata Import 模块。该模块接收一个源 URL,因此源必须能够输出 RSS 或者 Atom。
可以使用 Drupal 这样的 CMS,其中包含的工具能够自动化放置微数据,您也可以选择使用另外一个博客系统(只要该系统不会删除微数据属性即可)。对于 Microdata Import 模块,所导入的每个项目都必须与一个源项相关联,保证每份教程都使用自己的页面。
该场景使用托管的博客平台 Blogger 和 Drupal Gardens。您可以设置自己的源,或者使用以下源:
所有必要的信息均直接处于 HTML 标记之中,因此您可以为源使用任何工具。HTML 中的微数据作为标准、只读的 API,与生成它的后台代码无关。
有了用于测试的源之后,即可开始设置聚合站点。首先是基本设置:
- 安装 Drupal 7 并下载以下模块:
- Microdata Import
- Feeds
- Ctools
- Job Scheduler
- Libraries
- HTTP Client
- 启用 Microdata Import 和 Feeds 管理 UI。您将看到提示,要求您启用另外四个依赖项。
- 将 MicrodataPHP 库下载为 sites/all/libraries/MicrodataPHP/MicrodataPhp.php。该库获取一个 HTML 页面,并提取微数据。
配置在获取源时需要使用的导入设置:
- 转到 Structure -> Content types,创建两种内容类型:一个用于管理源,另一个用于保存教程本身。您可以分别将它们称之为
Tutorial import
和Tutorial
。将所有设置保留默认值。 - 转到 Structure -> Feeds importers,添加一个导入器。
- 单击 Basic Settings 部分左栏中的 Settings。在 Attach to content type 下拉菜单中,选择您刚刚创建的内容类型,并保存它。图 2 中选择了 Tutorial import。
图 2. 配置源导入器的基本设置 - 单击解析器旁边的 Change。切换到 Microdata Import Parser(从 RSS/Atom),并单击 Save。屏幕顶端将显示一条确认信息 “Changed parser plugin”。
- 在 Processor 下方,单击 Settings。将 Update 设置更改为 Update existing nodes,如 图 3 所示,选择 Tutorial 更改内容类型。将文本格式更改为 Filtered HTML。由于您正从不一定信任的站点中导入内容,因此不应使用 Full HTML。否则将导致您的站点易受跨站点脚本攻击。
图 3. 配置处理一个节点内的源项的设置 - 在 Processor 下方,单击 Mapping。在这里可以定义要将源文章的哪些部分添加到目标节点,以及将其添加到的位置。由于您尚未添加有关可用微数据内容的信息,因此这里仅列出了 RSS/Atom 中公开的元素。
- 在 URL 之间建立映射,单击 Add。选中 Unique Target 复选框,单击 Save。这能确保在后续运行中您可以对项进行匹配,并将源中的任何更改复制到目标。
- 在标题之间建立映射,单击 Add。
- 将描述映射到正文,并单击 Add,如 图 4 所示。
图 4. 从源映射到目标
为了进行测试,您可以导入相关内容:
- 单击 Add content,添加一个新的 Tutorial import。
- 将其标题设置为
Source 1
。 - 在 Feed URL 字段中,添加源并单击 Save。
- 选择 Import 选项卡,单击 Import。此时应该看到一条表示已经创建了一个或者多个节点的消息,如 图 5 所示。
图 5. 从源中导入的节点
转到主页,查看已经导入的文章。由于已经导入了完整的文章,因此您可能无法清除地认识到下面要做些什么。但由于您并未保留原始文章结构,因此现在还无法根据目标读者或者模块筛选文章。此时就会用到微数据。
图 6. 已经导入的一个节点
既然已经能够正确获取源,下面就可以开始将微数据添加到标记中,并通过文章引入微数据。清单 1 展示了一篇博客文章的基本标记。
清单 1. 一篇文章的基本 HTML 标记
<h2>Building modules on top of SPARQL Views</h2> <div> <p>This video demonstrates how you can build a module that installs a View powered by a SPARQL query whenever it is enabled.</p> <b>Audience:</b> Developer <br /> <b>Modules:</b> <ul> <li>Views</li> <li>SPARQL Views</li> </ul> </div> |
您需要指明该内容属于文章。该场景使用 Schema.org 词汇表标记文章,因为 Schema.org 中包含需要注释的大多数内容所需的术语(请参见 参考资料 部分)。只有在所有协作作者都同意的情况下,才应使用其他词汇表。[在 “结合使用 Drupal、HTML5 和微数据”(请参见 参考资料 部分)中,我更加深入地探讨了如何放置微数据。本文中介绍了如何手动添加微数据,如何利用 Microdata 模块自动化此过程。]
您需要从 RSS 源中获取标题,因此不必为标题使用标记。但标记标题能使其他用户更轻松地重用数据。您可以使用
name
属性,如 清单 2 所示。由于标题位于文章的 div
以外,因此您必须在 div
中添加一个 meta
元素来提供标题。对摘要段落使用 description
属性,这将提供比 RSS 描述更加具体的访问。清单 2. 为文章添加基本的微数据
<h2>Building modules on top of SPARQL Views</h2> <div itemscope="" itemtype="http://schema.org/Article"> <meta itemprop="name" content="Building modules on top of SPARQL Views" /> <p itemprop="description">This video demonstrates how you can build a module that installs a View powered by a SPARQL query whenever it is enabled.</p> ... </div> |
上面,我们已经使用微数据进行了标记,下面即可仅获取文本中的描述。这将从描述中排除目标读者和相关模块,这种做法非常好,稍后即可将这些信息纳入其自己的字段。将映射更改为使用微数据描述,而非 RSS 描述。
- 转到 Structure -> Feeds importers,编辑您的导入器。
- 在 Parser 下方,单击 Settings。在字段中输入一个示例源页面,如 图 7 所示。示例页面将获得解析,您可以看到哪些属性可用,因此示例应该尽可能地保持完整。保存设置。
图 7. 使用示例页面提供属性路径 - 在 Processor 下方,单击 Mapping。在 Description 行中,选择 Remove,再单击 Save。这将删除 RSS 描述与正文字段之间的樱红色。
- 单击 Select a source 下拉菜单项。列表中现在包含了新的源元素,这些元素是通过示例源确定的。
- 选择新的描述元素(列表中的第二个描述元素),将其映射到正文,并单击 Add,如 图 8 所示。
图 8. 更新描述映射 - 找到您的 Source 1 Tutorial import,单击 Import 选项卡。单击 Import 按钮,节点将更新。Audience 和 Module 文本不再并入描述部分,如 图 9 所示。
图 9. 更新后的节点使用微数据描述而非 RSS 描述
更新不仅会删除描述中您不需要的内容。还会对全部导入信息执行完整更新。如果对源文章的措辞做出了修改,新的措辞也会显示在这里。将更新功能配置为 Cron 定期运行,因此无需手动触发即可获得定期更新。这里可以看到 Feeds 系统的强大力量。它能实现打造有效的协作站点网络所必不可少的轻松而自动化的同步。
至此,您已经标记了所有文章共有的一些信息片段:标题和描述。在这一节中,您将转到场景特有的信息。此时有必要与协作团队配合工作,了解他们如何看待他们所提供的内容。信息应该反映协作人员的心理模式(而非遵照外部的理想做法)。
Drupal 社区已经定义了一组成熟的角色,表示为会议中的分工轨迹。Drupal Skill Map 项目将这些角色定义为:
- 系统架构师
- 开发人员
- 主题设计人员
- 站点构建人员
- 内容编辑人员
- 设计/UX
- 项目经理
- Drupal 市场营销人员
您需要按照上述八个分组来表示文章的目标读者。遗憾的是,Schema.org 词汇表并没有目标读者的概念,因此您在处理
itemprop
时有两种选择:- 使用 Schema.org 归档的扩展机制对其进行扩展,即选择一种现有属性,并在末尾处添加
/audience
。例如,您可以将keywords
属性扩展为keywords/audience
,如下所示。Audience: <span itemprop="keywords/audience">Developer</span>
- 使用另一个词汇表中的术语,或者创建您自己的词汇表。例如,如果 Tutorial 词汇表中包含一个目标读者属性(如果您要使用字符串作为该属性的值),那么就可以使用这个替代属性。由于使用了 http://schema.org/Article
itemtype
,因此您必须引用 Tutorial 词汇表属性的完整 URL,不能使用短属性名称。完整 URL 应该类似于http://tutorial-vocabulary.org/audience
。词汇表文档中应该指定准确的 URL。URL 应放置在itemprop
属性中,如下所示。Audience: <span itemprop="http://tutorial-vocabulary.org/audience">Developer</span>
对于这个场景,我们将采用第一个选择,扩展 Schema.org。如果您正在手动放置微数据,请将 清单 3 复制粘贴到正文中。如果您正在使用 Drupal 自动在源站点中放置微数据,您可以在文章中创建一个
List (text)
字段,此时文章中将显示复选框,允许选择目标读者。通过在字段设置中添加 keywords/audience
属性,即可自动输出正确的微数据。
为将目标读者元素纳入使用站点的内容中,您需要为其创建一个内容类型字段,随后为该字段创建映射。
- 转到 Structure -> Content types,为 Tutorial 内容类型单击 Manage fields。
- 添加目标读者文本字段。
- 转到 Structure -> Feeds importers,编辑您的导入器。
- 在 Processor 下方,单击 Mapping。
- 将
keywords/audience
元素映射到新的 Audience 字段,单击 Add,如 图 10 所示。
图 10. 为映射添加keywords/audience
属性 - 再次找到您的 Source 1 Tutorial import,单击 Import 选项卡。转到更新后的教程页面,此时您应看到 Audience 字段已经填充,如 图 11 所示。
图 11. 包含目标读者的更新后节点(完整节点视图)
可以证明,使用字符串足以按照文章的目标读者对文章进行分类。目标读者角色数量有限,而且不会频繁发生变化。如果出现变化,比如添加新角色,要求人们更新期目标读者字段设置并不是很困难。
但按照相关模块分类则截然不同。Drupal 拥有 14,000 个模块,大多数都有多个版本。至少这意味着 14,000 个不同的标签。标签的格式也是丰富多变的。此外,数以千计的模块维护者可能会随时更改其模块的名称。
为了引用模块,必须使用比字符串更加稳定的一些信息。一种不会经常发生变化的标识符就是 Drupal.org 中的模块 URL(例如,Views 模块的 http://drupal.org/project/views)。可以使用它作为模块的一致标识符。
要添加模块的版本,您应添加模块项的一个属性。然而,对于这个场景,为各版本使用不同的 ID 更加容易。例如,要标识 Views 7.x-3.x,可以使用 URL
http://drupal.org/project/views/7/3
。尽管该 URL 目前并未显示页面,但是可想而知,该位置的页面将显示 Views 7.x-3.x 的所有教程,并提供该版本的下载。
要为该值使用字符串而非 ID,可以使用微数据的
itemid
属性。itemid
与 itemscope
和 itemtype
属性位于相同的标签中。对itemtype
使用特定于 Google 的 Schema.org 术语 http://schema.org/SoftwareApplication
。使用 about
属性表明该文章与该模块有关。
可见的内容将仍然是名称字符串。您不会用到它,但应该尽可能简化它,以便其他用户能够更容易地使用您的数据。将其公开为模块的
name
属性,如 清单 3 所示。清单 3. 为相关模块添加微数据
<p>Modules: <ul> <li itemprop="about" itemscope="" itemtype="http://schema.org/SoftwareApplication" itemid="http://drupal.org/project/views/7/3"> <span itemprop="name">Views</span> </li> <li itemprop="about" itemscope="" itemtype="http://schema.org/SoftwareApplication" itemid="http://drupal.org/project/sparql_views/7/2"> <span itemprop="name">SPARQL Views</span> </li> </ul> </p> |
手动添加所有这些数据并不容易。如果有可能,您需要使用能提供帮助的工具。如果对源使用 Drupal,则可以使用 Web Taxonomy 模块,帮助内容作者标记其文章。利用 Web Taxonomy,Web 上的某种分类法将提供自动完成结果。选择术语时,应该将其导入您的站点。这意味着您必须访问 Drupal 项目词汇表中数以万计的术语,而不要将其存储在您的数据库中。添加新标签、更改标记时,自动完成字段有权访问这些数据,您甚至不必去考虑它们。
您还可以使用 Web Taxonomy 来使用相关模块,因此需要在目标站点上进行相应的配置。
下载并启用 Web Taxonomy。要配置 Web Taxonomy,您还需要使用一个模块来定义要使用哪种外部分类法,以及如何访问它。Drupal Full 项目的模块可以在 http://drupal.org/sandbox/linclark/1363774 中获得。启用该模块时,一个新的 Drupal Full 项目词汇表将添加到您的站点中。
在目标和源站点中对 Web Taxonomy 进行相同的配置:
- 转到 Structure -> Content types,管理 Tutorial 内容类型的字段。
- 添加 Related Modules 字段,如 图 12 所示。选择 Taxonomy Term Reference 字段类型以及 Web Taxonomy autocomplete widget。
图 12. 添加 Web Taxonomy 字段 - 选择 Drupal Full Projects 词汇表,并 Save 字段设置。
- 将值的数量更改为 Unlimited,并 Save 设置。
现在,您可以编辑教程并键入模块名称,测试字段。自动完成字段会提供建议,如 图 13 所示。如果选择其中的一项建议并保存教程,那么在查看该教程时就可以看到该标签。如果单击浏览术语页面,您为 ID 使用的 URL 会显示在该术语中。
图 13. Drupal Full 项目的 Web Taxonomy 自动完成
如果您正在为源中的字段配置字段,请下载并启用提供的 Token 模块,更改指派给该术语的
itemid
。转到 Structure ->Taxonomy,编辑 Drupal Full 项目词汇表。该字段中提供了由 itemid
使用的标志,将其值更改为 [term:web_tid]
。此时将使用全局 Web 术语 ID,而非本地路径。
至此,您已经得到并测试了 Web Taxonomy 字段。下面可以开始向其导入内容。
- 转到 Structure -> Feeds importers,编辑您的导入器。
- 将
about:itemid
樱红色映射到相关模块 Web Term ID,然后单击 Add。 - 再次找到您的 Source 1 Tutorial import,单击 Import 选项卡。此时将看到相关模块已经添加,如 图 14 所示。
图 14. 使用相关模块更新节点
现在,您已经完整地配置了导入设置,接下来就可以创建多个 Tutorial Import 节点,从多个站点导入数据。(创建一个 Tutorial import 节点,并添加 Source 2 源。)所导入的全部数据现在都采用 Drupal 能够理解的一种结构化方式。您可以轻松设置用户界面,从而浏览整个教程集合的各个方面。
Microdata Import 有助于跨组织边界共享知识。然而,有时仅仅使用用 Microdata Import 还不够。Microdata Import 假设您正在导入的页面与您的站点中的页面之间存在一对一的关系。这适用于上述场景,因为您只需要使用教程页面本身提供的教程相关信息。
然而,在某些时候,您可能希望在不同的站点中发布内容的不同人员能够添加关于同一项目的一些信息。例如,如果一所大学内的某位教授兼任两个系中的职务,每个系都应能在其自己的站点中添加有关该教授的信息,而且无需与另外一个系协调。尽管您可以配置源代码和源导入器,通过 Microdata Import 来实现此操作,但还有更便捷的实现方法。
方法之一就是将微数据转为 RDF。HTML Data Task Force 目前正在最终敲定微数据映射到 RDF 的规范草案。这样的映射会使 MicrodataPHP 库等解析器能够以可靠的方式通过微数据标记的页面生成 RDF。Gregg Kellogg(负责领导制定映射规范的工作)开发的 RDF Distiller 工具已经实现了此映射。RDF distiller 是以 Ruby gem 的形式提供的。Kellogg 也在他的网站中发布了一个 API。
确定如何跨组织和技术边界启用协作式 Web 内容创作是 IT 面临的主要挑战之一。通过在 HTML 本身之中嵌入内容的结构,微数据可以帮助松散耦合的人员和组织就联合项目进行协调。最重要的是,协作者可以为通用产品做出贡献,而且不会失去选择自己的框架的自由度,即便该框架仅仅是手动编码的 HTML 也是如此。
学习
- 使 HTML5 微数据发挥作用,第 1 部分:在微数据之上使用 jQuery(Lin Clark,developerWorks,2011 年 11 月):阅读本系列的第一篇文章,学习编写代码片段,提供交互式事件地图,并使 Google、Bing 和 Yahoo 能够利用 Rich Snippet 在搜索结果中更好地显示您的页面。
- 结合使用 Drupal、HTML5 和微数据(Lin Clark,developerWorks,2011 年 11 月):阅读在 Drupal 中为页面添加微数据的更多内容。
- Schema.org:进一步了解这组架构,Web 管理员可以利用这些 HTML 标签,通过主流搜索提供商认可的方式标记其页面。
- schema.org 入门:在这些教程中,学习如何在 Schema.org 站点上放置 schema.org 术语。
- 语义 Web,Linked Data 和 Drupal,第 1 部分:使用 PDF 公开您的数据(Lin Clark,developerWorks,2011 年 4 月):使您的 Web 数据更具有互操作性,您的数据共享更具高效性。示例展示了如何使用 Drupal 7,通过使用 RDF 公开内容来发布 Linked Data。
- 语义 Web,Linked Data 和 Drupal,第 2 部分:组合链接的数据集与 Drupal 7 和 SPARQL Views(Stéphane Corlosquet 和 Lin Clark,developerWorks,2011 年 5 月):学习如何在数据 Web 上使用现有的 Linked Data,以及如何使用来自不同端点的数据丰富 Drupal 7 站点。
- Scientific American article on the Semantic Web:阅读这篇由 Tim Berners-Lee、James Hendler 和 Ora Lassila 所撰写的开创性文章。
- Linked Data:阅读 Tim Berners-Lee 参与的有关 Linked Data 的 ReadWriteWeb 访谈。
- Linked Data Design Issues:从 Tim Berners-Lee 那里了解有关链接的数据的更多信息。
- Rich snippets (microdata, microformats, and RDFa):进一步了解 Google 的 rich snippet 和结构化数据。
- Implement Semantic Web standards in your Web site(Rob Crowther,developerWorks,2008 年 5 月):使用 PHP 和 MySQL 创建一个简单的社交网站,实现 hCard 和 Friend of a Friend (FOAF) 等语义 Web 标准作为语义统一资源标识符 (URI) 模式中的一部分。
- FOAF Vocabulary Specification 0.98:探讨 FOAF 语言,定义为一个使用 W3C EDF 技术的已命名属性和类词汇表。
- Dublin Core Metadata Initiative (DCMI):了解该开放组织,该组织主要从事于支持广泛用途和业务模型的可互操作元数据标准的开发。
- SIOC (Semantically-Interlinked Online Communities) Core Ontology Specification:解描述语义 Web 上各在线社区(比如消息板、Wiki 或网络广播)信息所需的主要概念和属性。
- SPARQL Explorer for http://dbpedia.org/sparql:尝试该 Web 提供的一个演示查询接口。
- XML 新手? 获得学习 XML 所需的资源。
- developerWorks 中国网站 Web 开发专区:查找涵盖多种基于 Web 的解决方案的文章。
- developerWorks XML 专区:找到提升您的 XML 技能所需的资源,包括 DTD、架构和 XSLT。查阅 XML 技术库,获得广泛的技术文章和技巧、教程、标准和 IBM Redbook。
- IBM XML 认证:了解如何成为 IBM 认证的 XML 和相关技术开发人员。
- developerWorks 技术活动 和 网络广播:在这些活动中了解最新技术动向。
- developerWorks 演示中心:观看这些演示,内容的范围从面向新手的产品安装和设置一直到面向经验丰富的开发人员的高级功能。
- Twitter 中的 developerWorks:立即加入,关注 developerWorks 的微博。
- developerWorks podcast:收听面向软件开发人员的有趣访谈和讨论。
获得产品和技术
- RDF Distiller:测试微数据与 RDF 的映射。
- Google 的 Rich Snippets 测试工具:测试 Rich Snippet。
- Live Microdata 测试工具:获得 Opera 开发人员 Philip Jägenstedt 创建的另一个工具来测试微数据。
- IBM 产品评估试用版软件:下载或 IBM SOA 人员沙箱,开始使用来自 DB2®、Lotus®、Rational®、Tivoli® 和 WebSphere® 的应用程序开发工具和中间件产品。
讨论
- developerWorks 个人资料:立即创建您的个人资料,并 设置一个关注列表。
- XML 专区论坛:参与任何 XML 相关的讨论。
- 加入 developerWorks 中文社区,developerWorks 社区是一个面向全球 IT 专业人员,可以提供博客、书签、wiki、群组、联系、共享和协作等社区功能的专业社交网络社区。
没有评论:
发表评论