跳转至

NLP之文章摘要

文本自动文摘 (automatic summarization/abstracting)是利用计算机自动实现文本分析、内容归纳和摘要自动生成的技术。

按照不同的标准自动 文摘 可以划分为不同的 类型
如果根据文摘的功能划分,可以分为指示型文摘(indicative)、报道型文摘(informative)和评论型文摘(evaluative)。
根据输入文本的数量划分,自动文摘可以分为单文档摘要和多文档摘要两类。
根据原文语言种类划分,自动文摘可以分单语言(monolingual)摘要和跨语言(cross-lingual)摘要。
根据文摘和原文的关系划分,则又可以分为摘录型文摘(extract)和理解型文摘(abstract),前者是由从原文中抽取出来的片段组成,而后者则是对原文主要内容重新组织后形成的。
如果根据文摘的应用划分,则可以分为普通型(generic)文摘和面向用户查询的(query-oriented)文摘,前者提供原文作者的主要观点,而后者则反映用户感兴趣的内容。

需要指出的是,上述文摘类型的划分并非互斥的,各种划分类型之间存在一定的重叠,例如,多文档摘要也可以是跨语言的多文档摘要。

1999曾将自动文摘方法概括为四种:自动摘录、基于理解的自动文摘、信息抽取和基于结构的自动文摘。而2005则从系统实现的方法考虑,将多文档自动文摘方法概括为三种:基于单文档文摘技术的方法、基于信息抽取的方法和基于多文档集合特征的方法。

一般来说,自动文摘过程包括三个基本步骤:

csdn-blog-_nlp-summary_miner_zhu-summary_21Oct23175444150040_1.png

文本分析过程是对原文本进行分析处理,识别冗余信息;文本内容的选取和泛化过程是从文档中辨认重要信息,通过摘录或概括的方法压缩文本,或者通过计算分析的方法形成文摘表示;文摘的转换和生成过程实现对原文内容的重组或者根据内部表示生成文摘,并确保文摘的连贯性。

由于不同的系统所采用的具体实现方法不同,因此,在不同的系统中上述几个模块所处理的问题和采用的方法也有所差异。例如,在基于句子抽取的多文档文摘系统中,其基本思想是通过计算句子之间的相似性,抽取文摘句,然后对文摘句排序的方法生成最后的文摘,因此,其核心技术集中在句子相似性计算、文摘句抽取和文摘句排序三个问题上,并不需要经过文摘表示这一中间环节。

多文档摘要

一般来说,多文档摘要的概念具有更大的外延,多文档摘要技术研究可以涉及更广泛的技术问题。从定义的角度讲,多文档摘要就是将同一主题下的多个文本描述的主要信息按压缩比提炼出一个文本的自然语言处理技术。从应用的角度来看,一方面,在互联网上使用搜索引擎时,搜索同一主题的文档往往会返回成千上万个网页,如果将这些网页形成一个统一的、精练的、能够反映主要信息的摘要必然具有重要的意义。另一方面,对于互联网上某一新闻单位针对同一事件的系列报道,或者对某一事件数家新闻单位同一时间的报道,若能从这些相关性很强的文档中提炼出一个覆盖性强、形式简洁的摘要也同样具有重要的意义。而这两种情况正是多文档摘要技术的两种典型应用。

1.问题与方法

无论是单文档文摘还是多文档文摘,目前采用的方法一般为基于抽取的方法(extracting method)或称摘录型方法和基于理解的方法(abstracting method)。在单文档摘要系统中,一般都采用基于抽取的方法。而对于多文档而言,由于在同一主题中的不同文档中不可避免地存在信息交叠和信息差异,因此,如何避免信息冗余,同时反映出来自不同文档的信息差异是多文档文摘中的首要目标,而要实现这个目标通常意味着要在句子层以下做工作,如对句子进行压缩、合并、切分等。所以,多文档摘要系统所面临的问题更加复杂。

另外,单文档的输出句子一般都按照句子在原文中出现的顺序排列,而在多文档摘要中,大都采用时间顺序排列句子,如何准确地得到每个句子的时间信息,也是多文档文摘中需要解决的一个重要问题。

正如前面指出的,自动文摘过程通常包括三个基本步骤,实现这些基本步骤的方法可以是基于句子抽取的,也可以是基于内容理解的,或者是基于结构分析的或其他方法。但无论采用什么样的方法,都必须面对三个关键问题:
①文档冗余信息的识别和处理;
②重要信息的辨认;
③生成文摘的连贯性。

常用的 冗余识别 方法通常有两种,一种是聚类的方法,测量所有句子对之间的相似性,然后用聚类方法识别公共信息的主题;另一种做法是采用候选法,即系统首先测量候选文段与已选文段之间的相似度,仅当候选段有足够的新信息时才将其入选。如最大边缘相关法MMR。

辨认重要信息 的常用方法有抽取法和信息融合法。抽取法的基本思路是选出每个聚类中有代表性的部分(一般为句子),默认这些代表性的部分(句子)可以表达这个聚类中的主要信息。信息融合(information fusion)法的目的是要生成一个简洁、通顺并能反映这些句子(主题)之间共同信息的句子。为达到这个目标,要识别出对所有入选的主题句都共有的短语,然后将之合并起来。由于集合意义上的句子交集效果并不理想,因此,需要一些其他技术来实现融合,这些技术包括句法分析技术、计算主题交
集(theme intersection)等。

为了确保文摘句子的一致性和连贯性,需要排列句子的先后顺序。目前采用的句子排序方法通常有两种:一种是时间排序法(chronological ordering),另一种是扩张排序算法(augmented algorithm)。在时间排序法中,一般选定某一个时间为参考点,然后计算其他相对时间的绝对时间。扩张排序算法的目的是试图通过将有一定内容相关性的主题(topically related themes)放在一起来降低不流畅性。

虽然很多学者致力于理解式方法的研究,但摘录型的摘要方法仍是实用性自动摘要的主流方法。已有的摘录型方法的主要思路是从文章中提取特征,然后采用有监督或者无监督的机器学习方法对句子进行分类、打分,并进行句子抽取和排序。特征提取的基
本单位是句子。

2.文摘评测

文摘自动评测是自然语言处理中比较棘手的问题,相对于机器翻译、信息检索等其他技术的评测更加困难,因为理论上根本没有完美的摘要作参考。

传统的文摘评价方法主要由人工根据以下几个指标评价文摘的质量:一致性、简洁性、文法合理性、可读性和内容含量。但是,在针对大规模文本进行评测时,人工评价需要消耗大量的人力,实现起来比较困难。文摘自动评估方法大致分为两类:一类称作内部(intrinsic)评价方法,与文摘系统的目的相关,它通过直接分析摘要的质量来评价文摘系统;第二类称作外部(extrinsic)评价方法,它是一种间接的评价方法,与系统的功能相对应,将文摘应用于某一个特定的任务中,根据摘要功能对特定任务的效果来评价自动文摘系统的性能,如对于信息检索任务而言,可以对比采用摘要进行检索与采用原文进行检索的准确率差异,通过文摘对检索系统的效果来评价文摘系统的性能。

内部评价方法可以按信息的覆盖面和正确率来评价文摘的质量,一般采用将系统结果与“理想摘要”相比较的方法。这种评价方法源于信息抽取技术。在信息抽取评测中,将原文的关键要点抽取出来,然后与人工抽取的内容相比较,计算其召回率(recall)、准确率(precision)、冗余率(overgeneration)和偏差率(fallout)等几个指标。这种内部评价方法存在的主要困难是“理想摘要”的获得问题。

凡本网注明"来源:XXX "的文/图/视频等稿件,本网转载出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性。如涉及作品内容、版权和其它问题,请与本网联系,我们将在第一时间删除内容!
作者: miner_zhu
来源: https://blog.csdn.net/miner_zhu/article/details/82854996