語意化網站出版技術 - OpenCalais 與 Drupal

Linked Data

語意化網站出版(semantic web publishing) ,意思是將網站內容透過語意化的標記進行出版。主要是透過後設資料的描述,以提供一個語意化的脈絡,電腦可以理解其在非結構化資料裡所隱含的結構化意義,讓資訊的搜尋與資料的整合更為有效。

有兩種不同的語意化網站出版技術,一種是採用語意化網頁語言,將資訊視為資料物件來發佈,例如使用 RDF (Resource Description Framework) 和OWL(Web Ontology Language)。OWL 通常是用在特定的知識領域裡,以明確表達該領域裡的資訊。另一種作法是在文件裡使用新的標記語言,鉗入格式化的後設資料,例如 RDFa 和 Microformats。

OpenCalais 是一套由路透社所支持的開放式應用程式介面,藉由路透社所研發的語意技術與自然語言處理器,提供語意化標籤能力,只要把內容提供給系統,系統會自動將內容裡有意義的人、 事、 時、 地、 物標註出來,產生有意義、可用性強的後設資料,讓網站內容出版者得以豐富其網站資訊。 除了自動產生語意化的後設資料,OpenCalais,還整合了外部出版商所提供的後設資料,並透過網際網路取得這些資訊,讓網站開發者可以輕鬆的從網際網路位址(URI)交換資料,達成資訊的互通與連結。透過 Calais 提供的應用程式介面,其他的系統開發者可以取得語意化的資料實體(entity,例如人名、地點、組織)、事實(某甲在A公司工作)與事件(在某日、某地點,發生了某件事),並以統一的格式(如RDF)儲存這些後設資料。

擁有了這些後設資料,網站內容將不只是一篇篇的文章,而是一個資訊的起點與出口,可以連結到相關的人物、 地點、 產品、 事件,用來強化網站導覽、內容連結、提供有脈絡的內容聯播、將網站內容進行分類標籤與組織等等。

想試試 OpenCalais 加上 Drupal 的厲害之處,可以到 OpenPublish 下載由 Phase2 Technology 所提供的 Drupal distribution。