问答系统的系统研究

2024-05-19 03:40

1. 问答系统的系统研究

中文问答系统相对于英文有如下几个方面的难点或不足之处:· 连写:中文是连续书写,分词是汉语言处理的基础。中文问答系统由于是句子级别的信息检索,要分析句子,首先要分词。· 形态:汉语缺乏狭义的形态变化,如英文中的主动被动语态,完成时进行时等,形态对于计算机就是标记,有利于计算机的处理。· 语法:汉语语法灵活,句子各成分之间的关系靠词序、“意合”、虚词,变化较多。· 语义:一词多义、同音词、同义词、近义词等,以及丰富的表达方式,上下文依赖度高,省略语等都是计算机处理的难点。· 语法研究:面向计算机处理的中文语法研究不足,如中文问答系统需要的关于中文句型形式化、不同句型之间的转换的研究资料极少。· 相关资源:缺乏包括语法、语义词典等中文语言学资源和相关生熟语料,国外这方面强得多,如TREC就提供的相当数量的可用于英文问答研究和评测的语料。中文问答系统需要在现有的中文信息处理技术基础上,充分研究和利用问答的特性与需求,通过各种方法解决和克服(或暂时回避)以上难点和困难,设计和开发问答系统。

问答系统的系统研究