基于XML的Web信息数据库的建立

doi:10.3969/j.issn.1006-2475.2012.09.058

计算机与现代化 ›› 2012, Vol. 1 ›› Issue (9): 222-224.doi: 10.3969/j.issn.1006-2475.2012.09.058

基于XML的Web信息数据库的建立

黄昱阳1，李慧伦2

1.华南理工大学生物科学与工程学学院，广东广州510006； 2.山东理工大学生命科学院，山东淄博255012

收稿日期:2012-04-17 修回日期:1900-01-01 出版日期:2012-09-21 发布日期:2012-09-21

Construction of Web Database Based on XML

HUANG Yu-yang1， LI Hui-lun2

1. School of Bioscience and Bioengineering, South China University of Technology, Guangzhou 510006, China;2. School of Life Sciences, Shandong University of Technology, Zibo 255012, China

Received:2012-04-17 Revised:1900-01-01 Online:2012-09-21 Published:2012-09-21

摘要/Abstract

摘要： 为了有效地从Web页面上提取数据信息，本文建立一种基于XML的Web信息收集数据库。利用开源工具JTidy将Web页面加以整理,利用XML良好的结构特性，使用Dom4j工具包解析XML文件；按照XML中的标签层次特点作为对数据进行储存的依据；最后使用Hibernate将数据持久化地储存于数据库中，方便数据的储存与查询。


关键词: XML, Web, 信息挖掘, 数据库

Abstract: In order to extract information and data from Web pages effectively, this paper constructs a database used for collecting data based on XML. The HTML documents are transformed to XHTML and analyzed by the open-source tools JTidy and Dom4j. Data are extracted and saved based on the tag characteristics of XML documents. Finally the data are persisted in the database by the ORM tool-Hibernate.


Key words: XML, Web, data mining, database

黄昱阳李慧伦. 基于XML的Web信息数据库的建立[J]. 计算机与现代化, 2012, 1(9): 222-224.

HUANG Yu-yang;LI Hui-lun. Construction of Web Database Based on XML[J]. Computer and Modernization, 2012, 1(9): 222-224.

[1]	叶雪, 杨晟, 程凯, 朱峰. 基于ChatGLM2-6B的电力企业财务知识问答方法[J]. 计算机与现代化, 2024, 0(11): 54-63.
[2]	刘甫, 余劲松弟, 魏丹丹, . 基于北斗网格的影像数据REST Web服务系统[J]. 计算机与现代化, 2023, 0(11): 108-112.
[3]	杨柳青, 王冲. 基于极大熵的Web服务资源个性化推荐方法[J]. 计算机与现代化, 2023, 0(09): 32-37.
[4]	张黎, 骆春山, 谢委员, 李蓓蓓. 基于分支混淆算法的隐私数据库自适应加密方法[J]. 计算机与现代化, 2022, 0(03): 43-47.
[5]	王坭, 王淑营, 史海欧, 袁泉. 基于三角剖分算法的BIM模型高精度显示方法[J]. 计算机与现代化, 2021, 0(09): 57-62.
[6]	张艳, 杨芳, 杨蕾, 韩奎国, 李辉. 基于知识图谱的区块链技术及电力行业应用分析[J]. 计算机与现代化, 2020, 0(12): 55-60.
[7]	雷鸣, 赵玉娟, 姜罕盛, 武国良, 梁健. 基于分布式技术的气象系统数据服务平台构建[J]. 计算机与现代化, 2020, 0(11): 56-59.
[8]	李希敏, 李书琪. 基于粗糙集的多源数据库缓存冲突自动处理方法[J]. 计算机与现代化, 2020, 0(10): 36-39.
[9]	魏东平，罗丹. 一种基于区间预留编码的XML关键字查询算法[J]. 计算机与现代化, 2019, 0(10): 17-.
[10]	赵琦1,2,蒋朝惠1,2,周雪梅1,2,宋紫华1,2. 一种基于HTTP协议的隐蔽隧道及其检测方法[J]. 计算机与现代化, 2019, 0(06): 16-.
[11]	刘锋1,李淑芝2,邹臣嵩1. 物联网环境下基于情境的语义Web服务选择[J]. 计算机与现代化, 2019, 0(06): 38-.
[12]	方舟，程清，裴旭斌 . 电力营销信息系统数据安全防护[J]. 计算机与现代化, 2019, 0(03): 111-.
[13]	高强1，胡强2. 基于Petri网的服务流程结构健壮性判定[J]. 计算机与现代化, 2018, 0(10): 122-.
[14]	谢宾铭,王晓东. 区域网络中异构数据库存储复制技术[J]. 计算机与现代化, 2018, 0(07): 1-.
[15]	季朋1,2，李晖1,2，陈梅1,2，戴震宇1,2. DoFFT：一种基于分布式数据库的快速傅里叶变换方法[J]. 计算机与现代化, 2018, 0(06): 19-.

基于XML的Web信息数据库的建立

Construction of Web Database Based on XML

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价