2009年互联网5大趋势之一：结构化的数据

ReadWriteWeb最近推出了系列文章：“2009年互联网5大趋势”，第一个主要的趋势是结构化的数据，这个概念在以往有关语义网（Semantic Web）的一些演讲中，曾被引用过，但显而易见，到现在为止，结构化的数据比语义网的发展趋势更加明显。本文会分析结构化的数据在今年的发展，并且有三个产品供参考：OpenCalais, Google, Wolfram Alpha。

原英文地址：http://www.readwriteweb.com/archives/top_5_web_trends_of_2009_structured_data.php

ReadWriteWeb最近推出了系列文章：“2009年互联网5大趋势”，我会将5篇文章逐篇翻译，并加入自己的理解，在尊重原作的基础上，改写成更通俗易懂的文章与各位分享。水平有限，如有谬误，还请指正，非常感谢。

为了便于理解，可以先看一下位于文尾的“译者注”一节。

1、结构化的数据 Structured Data

　　第一个主要的趋势是结构化的数据，这个概念在以往有关语义网（Semantic Web）的一些演讲中，曾被引用过，但显而易见，到现在为止，结构化的数据比语义网的发展趋势更加明显。本文会分析结构化的数据在今年的发展，并且有三个产品供参考：OpenCalais, Google, Wolfram Alpha。

不是文档集，而是数据网

　　Tim Berners-Lee（译者注：万维网(WWW)的发明者，为互联网的迅速、大规模发展奠定了非常非常重要的技术基础）在二月份曾说我们现在身处一个数据网，而不是一个文档集，Tim Berners-Lee领导的组织W3C，已经大力推动了两个关键行动来建立这个数据网：语义网（Semantic Web）和最近提到的数据链（Linked Data）。

　　在过去的几年里，我们已经看到了有很多其他方式来建立结构化的数据，目前最好的例子是Twitter，因为 Twitter 90%的访问，都是由第三方程序对其API的使用贡献的（译者注：我一开始很难理解Twitter为什么会是结构化的数据的最佳实例，因为Twitter里面传播的信息统统是非结构化的。但经过仔细思考，发现Twitter其实成功创造了一种使用短信息来更新状态的通讯方式，对于内容更新、状态更新类的数据来说，这的确是结构化的，更重要的是，使用范围之广，已形成事实的标准）。

　　数据网的基本概念仍然与由Alex Iskold在2007年3月提到的相同：“未结构化的信息将会让路于结构化的数据，为更智能的计算铺路”。

译者注：来自不同网站的非结构化信息，通过各个公司/组织提供的API，成为了结构化的数据

实例1：OpenCalais

第一个实例产品OpenCalais，很可能是目前最好的有关数据链的产品，这是汤姆森路透（Thomson Reuters）于2008年2月发布的一个API。简单地讲，OpenCalais可以将非结构的网页内容转化为具有语义标记的数据，它可以将数据按照人物、地点、公司等分组组织。通过这种方式，第三方的程序或网站可以利用这些数据生成许多有趣的新应用——这正是数据链的基本定义。

　　关于数据链的更完整定义，参见Alexander Korth在2009年4月从技术角度的介绍：数据网，创建可供机器阅读的信息（The Web of Data: Creating Machine-Accessible Information），本文作者同样在2009年5月撰文：“Linked Data is Blooming: Why You Should Care”，介绍了数据链的背景与好处。

译者注：非结构的文档（文本/HTML），经过OpenCalais的解析，成为了人物、公司、地点、事件等结构化的数据

实例2：Google Rich Snippets

今年5月，Google将结构化的数据添加到了它的核心搜索中，作为一个名为“Rich snippets”的特性出现。这个特性的本质是通过 microformats 或 RDFa 等开放的结构化数据标准，从网页中提取并展现有价值的信息（译者注：百度最近提的框计算概念，其实类似于数据链，即用户搜索到的不仅仅是网页，还有有价值的数据，比如搜索股票代码，出现的是该股票的实时行情，而不是包含该股票代码的网页链接）。在5月份发布这个特性的时候，Google邀请了内容发布者来标记他们的HTML，尽管要想这种标记广泛使用需要一定的时间，但事实上如果有Google这样的大公司的推动，正显示了结构化的数据于互联网越来越大的重要性。