收稿日期:
2015-11-20
出版日期:
2016-04-14
发布日期:
2018-09-30
作者简介:
陈冲(1990-),男,山东菏泽人,南京航空航天大学计算机科学与技术学院硕士研究生,研究方向:XML数据库; 蒋夏军(1973-),男,江苏南京人,讲师,博士,研究方向:时空数据库,计算机仿真。
基金资助:
江苏省自然科学基金资助项目(BK20140826)
An Efficient XML Pattern Matching Algorithm for Supporting Wildcard Query
(College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China)
Received:
2015-11-20
Online:
2016-04-14
Published:
2018-09-30
摘要:
XML查询语言当中,包含通配符*的查询能够方便有效地满足一些特殊查询要求,但在大数据时代下XML文件容量与结构复杂性不断增加,现有支持通配符查询的算法需消耗巨量内存来解析XML,并且在对嵌套通配符处理时需要大量的单路径匹配操作和局部结果的缓存。针对此现状,结合现有经典算法,提出一种新的、能够高效解决小枝模式当中含有通配符*的查询算法—WTwigList。该算法首先对查询模式进行通配符的层次关系处理,减少不必要的通配符匹配,以数据流形式解析XML文件并执行局部的扩展Dewey编码,经过滤操作后得到有序的叶子节点编码列表,在列表中执行匹配操作得到结果;其次在真实和合成数据集上做大量实验,结果表明WTwigList算法与现有算法相比,能够有效提高查询效率,在空间效率上具有一定优势,且能够快速准确地处理查询模式中PC关系。
中图分类号:
陈 冲,蒋夏军. 一种支持通配符查询的XML模式匹配算法[J]. 计算机与现代化, doi: 10.3969/j.issn.1006-2475.2016.04.014.
CHEN Chong, JIANG Xia-jun.
An Efficient XML Pattern Matching Algorithm for Supporting Wildcard Query[J]. Computer and Modernization, doi: 10.3969/j.issn.1006-2475.2016.04.014.
[1] Al-Khalifa S, Jagadish H V, Koudas Nick, et al. Structural joins: A primitive for efficient XML query pattern matching[C]// Proceedings of the 18th International Conference on Data Engineering. 2002:141-152. [2] Bruno N, Koudas N, Srivastava D.Holistic twig joins: Optimal XML pattern matching[C]// Proceedings of 2002 ACM SIGMOD International Conference on Management of Data. 2002:310-321. [3] Jiang Haifeng, Wang Wei, Lu Hongjun, et al. Holistictwig joins on indexed XML documents[C]// Proceedings of the 29th International Conference on Very Large Databases(VLDB). 2003:273-284. [4] Lu Jiaheng, Chen Ting, Ling Tokwang.Efficient processing of XML twig patterns with parent child edges: A look-ahead approach[C]// Proceedings of the 13th ACM International Conference on Information and Knowledge Management(CIKM). 2004:533-542. [5] Che Dunren, Ling T W, Hou Wenchi. Holistic Booleantwig pattern matching for efficient XML query processing[J]. IEEE Transaction on Knowledge and Data Engineering, 2012,24(11):2008-2024. [6] 李国良,冯建华,塔娜,等. TwigStar——快速处理XML twig查询中含通配符*的算法[J]. 计算机研究与发展, 2006,43(z3):430-437. [7] Lu Jiaheng, Ling Tokwang, Chan Chee-Yong, et al. From region encoding to extended dewey: On efficient processing of XML twig pattern matching[C]// Proceedings of the 31st VLDB Conference. 2005. [8] Lu Jiaheng, Ling Tokwang, Bao Zhifeng, et al. Extended XML treepattern matching: Theories and algorithms[J]. IEEE Transactions on Knowledge and Data Engineering, 2011,23(3):402-416. [9] 孟小峰. XML数据管理: 概念与技术[M]. 北京:清华大学出版社, 2009:126140. [10]毕鑫,王国仁,赵相国,等. XML数据中Twig查询处理与优化技术研究综述[J]. 计算机科学与探索, 2013,7(9):769-782. [11]Knorad C, Magnize F, Validating XML document in the streaming model with external memory[J]. ACM Transactions on Database Systems(TODS), 2013,38(4):84-87. [12]张红. 基于ASP.NET与XML的异构数据库数据交互解析与实现[J]. 计算机与现代化, 2011(1):18-19. [13]Hachicha M, Darmont J. A survey of XML tree pattern[J]. IEEE Transactions on Knowledge and Data Engineering, 2013,25(1):29-46. [14]David Hunter, Jeff Rafter, Joe Fawcett,等. XML入门经典[M]. 吴文国译. 4版. 北京:清华大学出版社, 2009. [15]University of Washington.XMLDataRepository[EB/OL]. http://www.cs.washington.edu/research/xmldatasets/, 2015-11-15. [16]Xu Xiaoshuang,FengYucai,Wang Feng. Efficient processing of XML twig queries with all predicates[C]//Proceedings of the 8th International Conference on Computer and Information Science Conference. 2009:457-462. |
[1] | 林 威. 基于自监督学习和数据回放的新闻推荐模型增量学习方法[J]. 计算机与现代化, 2023, 0(12): 1-6. |
[2] | 柴 荔, 王 萧, 龚嘉豪, 汪 洋, 吉顺慧, 张鹏程. 面向供应链的共识算法研究综述[J]. 计算机与现代化, 2023, 0(11): 22-27. |
[3] | 王重阳, 庄 毅. 基于SDN和改进CSA算法的多作业集群的负载均衡算法[J]. 计算机与现代化, 2023, 0(11): 28-35. |
[4] | 王光辉, 程功旭, 李 青. 基于区块链技术的电力物资共享云仓设计[J]. 计算机与现代化, 2023, 0(10): 99-106. |
[5] | 沈加炜, 陆一鸣, 陈晓艺, 钱美玲, 陆卫忠, . 基于深度学习的人体行为检测方法研究综述[J]. 计算机与现代化, 2023, 0(09): 1-9. |
[6] | 顾成伟, 丁 勇, 李登华. 基于计算机视觉的工业厂区人员安全警戒系统[J]. 计算机与现代化, 2023, 0(09): 20-26. |
[7] | 刘瑞雪, 李 文, 刘 芳, 杜守国. 用于具有缺失值的时间序列预测的张量自回归补全算法[J]. 计算机与现代化, 2023, 0(09): 51-58. |
[8] | 毛明扬, 徐胜超. 面向粒子群优化BP神经网络的粗糙集连续属性离散化算法[J]. 计算机与现代化, 2023, 0(09): 115-119. |
[9] | 陈嘉敏, 张伯泉, 麦海鹏. 基于特征融合的海马体分割[J]. 计算机与现代化, 2023, 0(08): 1-6. |
[10] | 申诗凡, 王立松, 王鑫梦, 秦小麟. 面向多机器人系统的元组空间协同模型[J]. 计算机与现代化, 2023, 0(08): 98-106. |
[11] | 钟松影. 基于关联规则Apriori算法的纺织原料成本预警[J]. 计算机与现代化, 2023, 0(07): 43-43. |
[12] | 钟林峰, 李彦锋, 张桂鹏, 刘文印. 基于区块链的去中心化网络购物数据共享方案[J]. 计算机与现代化, 2023, 0(07): 61-68. |
[13] | 陆伟强. 基于微服务的民机工业软件架构设计[J]. 计算机与现代化, 2023, 0(07): 73-78. |
[14] | 张军, 苏文浩. 基于LZO的Hadoop文件归档优化方法[J]. 计算机与现代化, 0, (): 1-6. |
[15] | 刘佩. 基于数据挖掘的医保控费系统[J]. 计算机与现代化, 2023, 0(06): 89-94. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||