事件抽取的简单方法

再构建event graph, 不免要用到event extraction的方法，这里引用了一篇别人的总结作为参考学习

关系抽取

定义：自动识别实体之间具有的某种语义关系。根据参与实体的多少可以分为二元关系抽取（两个实体）和多元关系抽取（三个及以上实体）。

通过关注两个实体间的语义关系，可以得到（arg1, relation, arg2）三元组，其中arg1和arg2表示两个实体，relation表示实体间的语义关系。

根据处理数据源的不同，关系抽取可以分为以下三种：

根据抽取文本的范围不同，关系抽取可以分为以下两种：

根据所抽取领域的划分，关系抽取又可以分为以下两种：

限定域关系抽取方法：

其中基于机器学习的关系抽取方法又可分为有监督和弱监督。

有监督的关系抽取方法：

弱监督的关系抽取方法：不需要人工标注大量数据。

距离监督：用开放知识图谱自动标注训练样本，不需要人工逐一标注，属弱监督关系抽取的一种。

开放域关系抽取方法：

不需要预先定义关系类别，使用实体对上下文中的一些词语来描述实体之间的关系。

总结：

限定域关系抽取是目前研究的主流方向。

传统的基于模板的关系抽取方法可扩展性差，基于机器学习的关系抽取方法是目前研究的热点。

基于有监督学习的关系抽取需要人工标注大量训练数据，耗时费力，基于弱监督学习的关系抽取得到了越来越多的关注。

事件抽取

定义：从描述事件信息的文本中抽取出用户感兴趣的事件并以结构化的形式呈现出来。

步骤：首先识别出事件及其类型，其次要识别出事件所涉及的元素（一般是实体），最后需要确定每个元素在事件中所扮演的角色。

事件抽取相关概念：

限定域事件抽取：在进行抽取之前，预先定义好目标事件的类型及每种类型的具体结构（包含哪些具体的事件元素），通常会给出一定数量的标注数据。

限定域事件抽取方法：

基于模式匹配的方法：对某种类型事件的识别和抽取是在一些模式的指导下进行的（步骤：模式获取、模式匹配）
- 有监督的事件模式匹配：模式的获取完全基于人工标注的语料
- 弱监督的事件模式匹配：不需要对语料进行完全标注，只需要人工对语料进行一定的预分类或者制定少量种子模式
基于机器学习的方法
- 有监督事件抽取方法：将事件抽取建模成一个多分类问题
  - 基于特征工程的方法：需要显示地将事件实例转换成分类器可以接受的特征向量，研究重点在于怎样提取具有区分性的特征
  - 基于神经网络的方法：自动从文本中获取特征进而完成事件抽取，避免使用传统自然语言处理工具带来的误差累积问题
- 弱监督事件抽取方法：不需要人工大量标注样本，但需要给出具有规范语义标签（事件类别、角色名称等）的标注训练数据
  - 基于Bootstrapping的事件抽取：利用少部分人工标注的数据自动生成大规模标注数据（高置信度抽取结果会作为训练样本，然后再训练，不断迭代）
  - 基于Distant Supervison的事件抽取：完全自动生成事件标注样本，利用结构化的事件知识库直接在非结构化文本中回标训练样本

开放域事件抽取：在进行事件识别之前，可能的事件类型以及事件的结构都是未知的，因此该任务通常没有标注数据，主要基于无监督的方法和分布假设理论。

分布假设理论：如果候选事件触发词或者候选事件元素具有相似的语境，那么这些候选事件触发词倾向于触发相同类型的事件，相应的候选事件元素倾向于扮演相同的事件元素。

开放域事件抽取方法：

事件关系抽取，以事件为基本语义单元，实现事件逻辑关系的深层检测和抽取，包括：

总结：

组织和构建同时包含实体、实体关系、事件、事件关系的事件知识图谱得到了越来越多的关注。

事件抽取的简单方法的更多相关文章