关 闭

新闻中心

EEPW首页 > 工控自动化 > 设计应用 > 基于模板的对几种特殊结构句子的语句改写

基于模板的对几种特殊结构句子的语句改写

作者:时间:2009-05-07来源:网络收藏

0 引 言
语句改写是在不改变原语句表达意思的条件下的另一种表达方式,其技术可以应用到信息检索、问答系统、自动文摘以及机器翻译等系统中,并能够有效地提高相应系统的性能。
有关句改写方面的研究资料有很多,如汉语语句改写,对语句改写语料库的构筑、改写规则抽出及改写句的生成等进行了综述,并介绍了采用外国名著的多个中文译本进行句子对齐,获得句子的改写实例从而构建改写语料库的研究。文献将语句改写应用于汉语口语的机器翻译中,采用基于句子分析和语言生成技术的方法对口语句子进行了改写。关于英语和日语的语句改写研究,如文献从语料库中抽取用于改写研究的改写句子语料,注重于改写语料库资源的构筑研究,对改写句的生成涉较少。文献则采用一种近似于无指导的学习方法将日语中的名词短语改写为动词短语或是相关的从句,这种方法几乎不需要手工干预,而且易于实现机器学习。文献实现了对英语的改写,把被改写句中一系列不间断的单词事先编码后映射到中,将从语法中抽取出的改写规则递归的运用到改写句的生成中,这种方法要求改写句子的长度一般在5~12个单词内。
由于汉语缺乏严格的形态变化,既不像英语有词序、时态、人称、词尾变化等可参考,又不像日语有格助词和词尾变化等帮助决定句子的语法结构和时态,语序和虚词是汉语表达的重要手段。所以汉语语句改写的研究要相对困难。本文在对语句的语法结构进行分析的基础上使用基于的方法对几种具有特殊结构的汉语语句的改写进行了研究。通过模板的抽出,可以积累改写语料为后续研究提供资源。

本文引用地址:http://www.amcfsurvey.com/article/202699.htm


l 基于模板的语句改写方法
该文采用基于模板的语句改写方法,方法中的模板分为实例化模板和规则化模板。实例化模板是针对句子结构比较复杂的特殊句型设计的,鉴于这种特殊语句很难使用规则模板进行描述,而实例模板能够更好地体现其句子特性,并使模板匹配更加准确;规则化模板是由标志句子结构的关键词和其他的变项组成,语言知识的精细度高于规则并具有规则的抽象化特性。
这里涉及改写内容主要是:句子结构的变换,利用单句的特殊句式改变句子的结构达到改写的目的。
1.1 模板获取分析
汉语语法结构的分析是模板建立的关键。汉语语言表达要求细致,语言中的同一个意义可以用不同的句法格式来表达,这就造成大量的同义句式存在。在进行语句分析中对于不同的词类区别对待,将动词、助词、介词、和虚词保留,通过用变量来替代其他的一些实词构筑句子改写模板。以例句1为例进行说明。
例句1:我丢了办公室的两把钥匙。
在保持基本表达意思不变的情况下,在不同的场合根据不同的表达需要有不同的表达形式,即可用不同的句式来表示。表1中的四种句式可以用来表达例句1的意思。
表1中的四种句式互为改写句式。除A句式外,其他三种句式还可以因表达的需要而在内部格式上有所变化,从而生成更多的改写语句(见表2)。

可见例句1的改写句达10余种,可对应抽出10种句式的改写模板。
根据汉语句子的结构特点可以划分出汉语句子的基本句型,通过对所有句型的分析归纳总结出能被改写的几类句型。对汉语中很难归纳到某种句型的特殊句式,通过分析最后归纳出存现句、倒装句、名词谓语句、双重否定句、反问句、特指问句、选择问句、“把”字句、“被”字句、“比”字句等在句子结构上可以变换的句式。这些句式的转换主要是主题的转移,非常规语序大都是修辞的需要引起的。这些变化都多少会影响句子的感情色彩,但句子所要传递的信息没有改变。为了说明和处理方便,在此仅介绍存现句。
1.2 存现句的模板获取过程
存现句是表示什么地方存在、出现或消失什么人或事物的句子式。从结构上来说存现句由三部分组成:句首是表示处所或时间的词或短语,中间是动词或动词短语,句末是名词或名词短语。存现句是一个歧义句式,既可以表示存在、表示静态,又可以表示活动、表示动态。因此同一个意思可以用不同的句式表达。下面通过例子给出了存现句的语句改写模板的抽出过程。
例:墙上挂着一幅画。
→(有)一幅画在墙上挂着。
→(有)一幅画挂在墙上。
对应如下变换关系的句法结构框架:


上一页 1 2 下一页

关键词: 模板

评论


相关推荐

技术专区

关闭