一种基于属性感知的Web网页信息抽取方法及装置
2025-02-22 21:43
No.1342975073967153152
技术概要
PDF全文
本技术公开一种基于属性感知的Web网页信息抽取方法及装置,属于网页信息抽取技术领域。包括:爬取给定目标网站的原始网页数据,将其保存下来作为模型的原始输入,在原始数据上对数据进行预处理,去除script等原始数据中无用的标签输入,减少输入模型的噪声信息;提取网页中的变量节点,构造输入模型的token序列和xpath序列,同时记录序列的位置信息,在预训练模型的基础上增加属性感知嵌入模块,使得预训练模型模型能够感知到性的模式信息,将输入信息的嵌入通过一个分类层,模型输出Web页面信息抽取的最终结果。该方法能够提高Web页面信息抽取的准确率,为下游任务提供丰富的结构化知识,促进下游任务的发展。
背景技术
随着互联网的快速发展,以Web页面为载体的信息非常丰富。从Web页面中抽取信息是一个十分基础且重要的工作,它能在许多实际应用中发挥作用,比如知识库的构建、问答系统、推荐系统和检索系统等等。Web页面与文本丰富的传统文档(如新闻)不同,Web页面内的信息是由标记语言组成的,具有分块和语法不规范的特点,这些特点为Web页面的信息抽取增加了难度,同时也引发了学术界和工业界的广泛关注。 当前Web页面信息抽取方法主要关注的是如何对HTML页面进行表征,比如如何利用DOM树特征、Xpath信息、视觉特征等,并且增加了额外的计算开销,在大规模信息抽取任务中将变得效率低下。而且,当前的Web信息抽取工作缺乏对待抽取属性的模式有效利用,模型无法感知到待抽取属性的情况。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
施凡  李晔  许成喜  薛鹏飞  马慧敏  张雪艳  胡淼  丁然
技术所属: 中国人民解放军国防科技大学
相关技术
一种服务开发方法、装置、设备及存储介质 一种服务开发方法、装置、设备及存储介质
一种高精度双层优化方法的神经网络搜索架构构建方法 一种高精度双层优化方法的神经网络搜索架构构建方法
跨总线域的设备对宿主机空间DMA访问方法及相关设备 跨总线域的设备对宿主机空间DMA访问方法及相关设备
一种客户信息定期维护方法及系统 一种客户信息定期维护方法及系统
代码发布方法、装置、计算机设备和可读存储介质 代码发布方法、装置、计算机设备和可读存储介质
一种基于统一管理平台的子应用数据获取方法及装置 一种基于统一管理平台的子应用数据获取方法及装置
利用深度学习的BIM模型错误自动检测系统 利用深度学习的BIM模型错误自动检测系统
一种基于智能反射面的室内T型走廊场景路径损耗的分析方法 一种基于智能反射面的室内T型走廊场景路径损耗的分析方法
模型评估任务处理方法及装置 模型评估任务处理方法及装置
基于大数据的异常信号智能识别方法 基于大数据的异常信号智能识别方法
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利