人人爽夜夜爽一区二区_亚洲一级淫片免费在线观看_国产一区二区三区欧美亚洲_人妻丰满熟妇无码区免费看

首頁 > 科技 > 互聯(lián)網(wǎng) > 正文

雅虎開源web爬蟲工具Anthelion,能解析網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù)

文章來源:IT經(jīng)理網(wǎng)
字體:
發(fā)布時(shí)間:2016-07-29 14:51:46

yahoo-alibaba-group-china

雅虎近日宣布開源web爬蟲工具Anthelion,該工具可以解析HTML頁面中的結(jié)構(gòu)化數(shù)據(jù)。

Web爬蟲是雅虎的核心技術(shù),因此雅虎在這個(gè)領(lǐng)域發(fā)布開源工具顯得不同尋常。此前雅虎剛剛宣布將剝離一些核心業(yè)務(wù)(但不包括阿里巴巴的股份),此外雅虎首席執(zhí)行官Marissa Mayer剛剛生下雙胞胎。

去年在上海的一個(gè)信息知識(shí)管理會(huì)議上,雅虎曾在一篇論文中詳細(xì)介紹了Anthelion。該論文的作者指出:“雅虎的爬蟲技術(shù)開創(chuàng)了業(yè)界的先河,那就是專注于那些通過Microdata、Microformats或RDFa等markup語言嵌入HTML頁面的語義數(shù)據(jù)。

Microdata和RDFa是標(biāo)記不同結(jié)構(gòu)化數(shù)據(jù)的句法格式,他們都兼容Schema.org的結(jié)構(gòu)化數(shù)據(jù)詞匯庫,而Schema.org是谷歌、雅虎和Bing搜索引擎共同支持的項(xiàng)目。

雅虎研究人員還在論文中展示了Anthelion爬蟲技術(shù)的部署如何提高了搜索查詢的相關(guān)結(jié)果數(shù)量。

Anthelion的源代碼目前已經(jīng)托管到GitHub,作為Apache Nutch開源web爬蟲項(xiàng)目的一個(gè)組件。

雅虎研究人員在Tumblr發(fā)博文指出,Anthelion能定向檢索特定網(wǎng)頁,例如那些使用markup標(biāo)記電影名稱和演員等至少兩種屬性的網(wǎng)頁。

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表