摘要: 针对传统的基于关键词的搜索与数据检索存在的弊端,本文提出基于本体的Web信息抽取框架。该框架首先获取Web页面,将其转换为格式良好的HTML文档,然后利用HTML解析器将该文档转化为DOM树,再根据XPath表达式获取用户感兴趣的数据块,由此生成抽取规则,最后通过OntPMatch算法实现数据的抽取,并以RDF数据格式储存信息。本文以棉花信息为研究对象加以实证研究,实现Web生物信息数据抽取原型系统,为方便用户发现有价值的Web生物信息资源提供一个有效的工具。
中图分类号:
何源. 基于本体的Web生物信息抽取方法研究[J]. 计算机与现代化, 2013, 1(5): 172-175.
HE Yuan. Research on Web Biological Information Extraction Method Based on Ontology[J]. Computer and Modernization, 2013, 1(5): 172-175.