信息抽取
信息抽取(InformationExtraction:IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。抽取系统的输入信息是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是...
资源总数
500
信息抽取 热门资料
查看全部 500 份 →基于重复模式的自动Web信息抽取
互联网上存在很多在线购物网站,抽取这类网站页面里的商品信息可以为电子商务、Web查询提供增值服务。该文针对这类网站提出一种自动的Web信息抽取方法,通过检测网页中的重复模式以及分析主题内容的特征获取网
2024-04-09
9
基于本体的文档引文元数据信息抽取
结合本体技术,提出了一种新的从文档中抽取引文元数据信息的方法。该方法采用模式匹配方式,可以从文档中提取作者、标题、日期等信息,并使用OWL 本体描述语言进行形式化,为进一步的语义搜索和语义存储
2023-12-21
8
基于GA和信息熵的文本分类规则抽取方法
文本分类是文本数据挖掘中一个非常重要的技术,已经被广泛地应用于信息管理、搜索引擎、推荐系统等多个领域。现有的文本分类方法,大多是基于向量空间模型的算法。这些算法很难适用于大规模的文本数据
2024-02-25
2
利用Lixto进行可视化的信息抽取 Visual Web Information Extraction with Lixto
利用Lixto进行可视化的信息抽取 Visual Web Information Extraction with Lixto
2013-12-18
174