Faviki:提供语义化标签的在线书签网站

语义万维网(Semantic Web)是当前全球范围内的一个非常活跃的研究和开发领域,其基本原则中的两条是:一切可以确定的内容(人,时间,事件,物体,事物,等)都包括在一个基于知识的网络中;每个实体(entity)都有一个统一资源标识(URL)。语义网可以让机器更好地理解网络信息,提供智能的搜索和服务。最近出现的Faviki在某种程度上为目前的研究提供了一个具体的方向:基于语义化标签的在线书签服务。

在介绍Faviki之前,我想先谈谈DBpedia,一个专门对维基百科上的信息进行结构化提炼的公开数据库,这也是Faviki的服务基础。我们知道,维基百科是目前世界上最大的在线知识库,它几乎涵盖了世界上所有的事物或概念,而且这些事物或概念都是以一种标准化的形式予以呈现的。但这里有一个问题,就是这些内容都是由人类而非机器创造的,要对维基上面大量的信息进行查找,只能通过全文搜索来实现,因此由于关键字所限,得到的结果往往不是很准确。DBpedia则以RDF数据模型(语义万维网中使用的一种模型)对维基知识库上的内容进行提炼和分类供外界使用。举个例子,对于“Semantic Webat”这个概念,维基百科给出的描述是这样的(这也是目前互联网上组织信息的形式),而DBpedia给出的描述却是这样的。从上述描述中可以看到,DBpedia中不但有事物各种各样的属性,而且还包含了与其他事物的联系,因此借助这个数据库,我们可以初步实现语义化搜索,比如我们使用Leipzig query builder来搜索“Tennis players from Moscow”,就可以得到这样一个结果。再试试“Soccer player with tricot number 11 from club with stadium with >40000 seats born in a country with more than 10M inhabitants”这样一个传统搜索引擎不可能驾驭的问题,得到的结果依然很精确。

这就意味着:我们可以用一种新的标签来代表一个事物或概念,并且通过标签我们可以很方便知道它所代表内容的属性以及与其他标签的联系。从具体上来说,就是用DBpedia中的数据实体来表示事物或概念,用标签来指向这个数据实体。举个例子,当我们查找DBpedia中有关Keith Richards的信息时,我们除了可以看到属性(生日、他所演奏的音乐风格)之外,还能看到与其他数据实体的联系(生于DartfordThe Rolling Stones的现成员)括号中的黑体字就是其他数据实体。同时,每一个标签都有一个唯一的名字。再举个例子,名为“Coca-Cola”的标签指向的URL是:http://dbpedia.org/data/Coca-Cola,因此,这就解决了一个事物有多个标签(cocacola, coca-cola, coca+cola, CocaCola)的问题。这样看来,这种新标签为语义化互联网的实现提供了一种非常好的方向。

Faviki提供的基本服务与Ma.gnolia、del.icio.us并无差异,但它最大的特点是:当用户输入标签描述网页内容时,Faviki给出的建议并非使用频率最高的词条,而是上面所描述的这种经过高度组织的语义化标签。严格上来说,这些标签都是维基词条,但这可看作是对现有标签的一种统一和规范。例如,用“Semantic Web”进行标签搜索,得到了如下结果:

可以看到,右边是“Semantic Web”的定义,主界面是属于这个分类的所有网页。不过,Faviki目前不支持书签导入功能,这可能是因为给导入的链接进行重标记会消耗大量的时间,而且由于目前对维基百科词条解释的客观性的争议,能否将维基作为这样一个基础的知识库还有待讨论。

在最近的Next Web conference  上,Twine的创始人Nova Spivack提出,未来的10-15年内,标签将逐渐取代关键词在组织互联网信息上的地位。不难想象,如果Faviki能将技术完善,那么这种从语义上为信息分类的标签技术将成为未来互联网的重要角色。

Tags: |

没有评论.

添加评论: