Rule-based Information Extraction for Mechanical-Electrical-Plumbing-Specific Semantic Web
Automation in Construction, 2022
引用方式: Wu, L.T, Lin, J.R., Leng, S., Li, J.L., Hu, Z.Z. (2022). Rule-based Information Extraction for Mechanical-Electrical-Plumbing-Specific Semantic Web. Automation in Construction, 135, 104108. doi: 10.1016/j.autcon.2021.104108 http://doi.org/10.1016/j.autcon.2021.104108
摘要
信息抽取作为从纯文本中提取有意义的信息的重要手段,在各领域得到了广泛关注。然而,由于建筑机电领域的专业复杂性以及缺缺少带标签数据积累的问题,既有基于深度学习的信息抽取方法难以直接应用。因此,本研究提出一种基于规则的方法来实现机电领域的信息抽取。该方法包括基于“滚雪球”策略的大规模机电领域语料库构建方法、基于后缀匹配的命名实体识别方法以及基于依赖路径匹配的关系抽取方法。基于上述方法,研究构建了包含65MB文本的语料库,并利用算法自动构建了包括15978个实体、65110个关系的知识图谱。测试表明,提出的方法命名实体识别准确率达到81%、关系抽取准确率达到75%,相比已有深度学习方法分别有37%和49%的提升。
This research was supported by the National Natural Science Foundation of China (No. 51778336, No. 72091512), and the Tsinghua University – Glodon Joint Research Center for Building Information Modeling.
发表评论