如何评价智能问答系统

2024-05-19 02:19

1. 如何评价智能问答系统

许多研究机构和企业在开展智能问答研究，但其技术水平还有待进一步提高。
目前开放领域问答系统的研究主要针对单一的、孤立的、事实性的问题，在答案的精准度以及问题的复杂度上受限于现有的计算模型复杂性和知识库完善程度。
如果涉及到语义理解、复杂逻辑推理以及篇章层面语言分析等问题，Watson 就无法做出满意的回答；AI2到目前为止，也只能达到小学四年级学生的生物学水平。
在深度学习、知识图谱等技术的支持下，问答系统在算法、知识和数据上都存在着出现巨大突破的可能。
有理由相信，在不久的将来，计算机将实现高度智能的自动问答，所研发的技术会带来人工智能的科技革新，从而对信息社会造成深远的影响。

如何评价智能问答系统

2. 问答系统介绍

       这是我的第一篇技术博客，也是对近期学习的问答系统进行一个小结，方便回顾所学。文章难免有错误之处，欢迎大家批评指正，不胜感激。
  
 下面将从两个方面对问答系统进行小结：
  
 一、常见的问答系统种类及介绍
  
 二、问答系统中的常用技术
  
 1.根据问题所属的知识领域来分类：
  
 （1） 开放域闲聊性。        举例：微软小冰
  
 （2）  面向FAQ和任务型。举例：京东JIMI、苹果Siri
  
 （3）限定域知识型。         举例：左手医生（问答模型、信息检索）
  
 2.根据答案生成阶段的技术分类：
  
 （1）检索式                    （2）生成式
  
 3.依据答案来源分类：
  
 （1）基于知识图谱问答系统
  
 （2）机器阅读理解的问答系统
  
 （3）基于问答对的问答系统
  
         定义：给定自然语言处理问题，通过对问题进行语义理解和解析，进而利用知识库进行查询、推理得出答案。对事实性问答任务而言（如政策问题）这种做法依赖于知识图谱，准确率比较高。要求知识图谱是比较大规模的，因为KB-QA无法给出在知识图谱之外的答案。下面给出常见分类：
  
  （1）基于符号表示的KB-QA（传统的语义解析方法）
  
  （2）基于向量表示的KB-QA（知识表示学习的方法）
  
 评价标准：召回率(Recall)、精确率(Precision)、F1
  
 常用数据集：WebQuestion、SimpleQuestion、NLPCC KBQA数据集（中文）
  
 （1）基于符号表示的KB-QA（传统的语义解析方法）
  
         定义：该方法是一种偏语言学的方法，主体思想是将自然语言转化为一系列形式化的逻辑形式，通过对逻辑形式进行自底向上的解析，得到一种可以表达整个问题语义的逻辑形式，通过相应的查询语句在知识库中进行查询，从而得出答案。
  
 语义解析传统方法：
  
                问题->短语检测->资源映射->语义组合->逻辑表达式
                                          
 语义解析目前一般做法：
  
                建图->主题词链接->确定核心推导链->增加约束和聚合函数
  
 
  
                                          
   将语义解析简化为查询图生成，将其表述为具有分阶段状态和动作的搜索问题。
  
 （2）基于向量表示的KB-QA(基于表示学习的方法)
  
         定义：把知识库问答看做一个语义匹配过程。通过表示学习知识库以及用户问题的语义表示，得到低维空间的数值向量，再通过数值计算，直接匹配与用户问句语义最相似的答案。即问答任务就可以看成问句语义向量与知识库中实体、边的语义向量相似度计算的过程。
  
          随着深度学习的发展，基于表示学习的知识库问答取得了较好的效果。
  
 一般做法：
  
 问题和答案映射向量->向量匹配->计算问题-答案score->优化问题->候选答案选择
  
 详细过程：
  
 问题和答案映射向量：
  
          如何学习问题向量：把问题用LSTM进行建模
  
          如何学习答案向量：答案不能简单映射成词向量，一般是利用到答案实体，答案类型，答案路径，答案关系，答案上下文信息。分别和问句向量做相似度计算，最终的相似度为几种相似度之和。代表性的论文  [1]Dong, ACL. Question answering over freebase with multi-column convolutional neural networks.2015提出Multi-column CNN,在答案端加入了更多信息，答案类型、答案路径以及答案周围的实体和关系三种特征向量分别和问句向量做相似度计算，最终的相似度为三种相似度之和。
                                          
 向量匹配、计算问题-答案score：把这些特征分别映射成不同的向量，作为答案的其中一个向量（而不是直接拼接起来），最后用这些特征向量依次和问题做匹配，把score加起来作为总的score。
  
 优化问题、候选答案选择：一般用Margin Loss，极大化问题对正确答案的score，同时极小化问题对错误答案的score。当模型训练完成后，通过score进行筛选，取最高分的作为最终答案。
  
         早期方法使用记忆网络来做，论文：Bordes, arXiv. Large-scale simple question answering with memory networks.2015.首先通过Input模块来处理问题，加入知识库信息，将三元组通过输入模块变换为一条一条的记忆向量，再通过匹配主语获得候选记忆，进行cos匹配来获取最终记忆，将最终记忆中的宾语输出作为答案。在WebQuestions上得到了42.4的F1-score，在SimpleQuestions上得到了63.9的Accuracy。
  
          接着，又有很多位学者提出了其他基于知识表示学习的方法。其中论文[Xie.2018]提出一种基于深度学习的主题实体抽取模型，结合了问句单词级别和字符级别的嵌入表示来学习问题的序列表示，并利用双向LSTM对单词序列编码，最后使用CNN网络根据单词的上下文信息预测单词是否为主题词。在答案选择部分，文章提出一种基于自注意力机制的深度语义表示模型。使用双向LSTM和CNN网络来构建深度语义模型，并提出一种基于局部和全局上下文的自注意力机制用于计算单词的注意力权重。考虑语义表示学习和实体抽取任务之间的具有相互辅助作用，文章提出深度融合模型，将基于自注意力机制的深度语义表示模型与主题实体抽取模型结合，用多任务学习的方式进行联合训练。在NLPCC-ICCPOL 2016数据集上得到了83.45的F1-score。
  
          今年，Huang, WSDM. Knowledge graph embedding based question answering.2019 提出KEQA模型,不同于以往的直接计算问句和答案语义相似度的方法，本文尝试通过关系和实体学习模型从问句分别重构出实体和关系的知识表示，并进一步重构出三元组的知识表示，最终答案为知识库中与重构三元组最接近的三元组。同时文章也评估了不同的知识表示学习方法TransE,TransH, TransR对KEQA模型精度的影响。
  
 1）基于符号的方法，缺点是需要大量的人工规则，构建难度相对较大。优点是通过规则可以回答更加复杂的问题，有较强的可解释性.
  
 2）基于向量的方法，缺点是目前只能回答简单问题，可解释性差。优点是不需要人工规则，构建难度相对较小。
  
 1）复杂问句，目前End2End的模型只能解决简单问答。
  
 2）多源异构知识库问答。对于开放域问答，单一的知识库不能完全回答所有问题。
  
 3）训练语料，知识库中有实体和关系，除此之外还可能有描述实体的文本信息，或许可以结合结构化知识和非结构化文本。
  
 4）对话中的自然语言形式回复。传统的自动问答都是采用一问一答的形式。然而在很多场景下，需要提问者和系统进行多轮对话交互，实现问答过程。这时，需要系统返回用户的答案不再只是单一实体、概念、关系的形式，而是需要是以自然语言的形式返回答案。这就需要自动生成自然语言的回复。现有方法多利用 sequence-to-sequence 模型进行自然语言生成，在这一过程中，如何与知识库相结合，将知识库问答的答案加入自然语言回复中，仍是亟待解决的问题。
  
          机器阅读理解在 NLP 领域近年来备受关注，自 2016 年 EMNLP 最佳数据集论文 SQuAD 发表后，各大企业院校都加入评测行列。利用机器阅读理解技术进行问答即是对非结构化文章进行阅读理解得到答案，可以分成匹配式QA，抽取式QA和生成式QA，目前绝大部分是抽取式QA。阅读理解花样很多，但是基本框架差异不大。
  
          SQuAD(斯坦福问答数据集)：这是一个阅读理解数据集，由众包人员基于一系列维基百科文章的提问和对应的答案构成，其中每个问题的答案是相关文章中的文本片段或区间。SQuAD 一共有 107,785 个问题，以及配套的 536 篇文章。
  
 （1）匹配式QA
  
          给定文章、问题和一个候选答案集（一般是实体或者单词），从候选答案中选一个score最高的作为答案。这种形式比较像选择题型，已经基本上没人做了。
  
 （2）抽取式 QA
  
           让用户输入若干篇非结构化文本及若干个问题，机器自动在阅读理解的基础上，在文本中自动寻找答案来回答用户的问题。抽取式 QA 的某个问题的答案肯定出现在某篇文章中。抽取式 QA 的经典数据集是 SQuAD。
  
 （3）生成式QA
  
     目前只有MSRA的MS MARCO数据集，针对这个数据集，答案形式是这样的：
  
 1）答案完全在某篇原文
  
 2）答案分别出现在多篇文章中
  
 3）答案一部分出现在原文，一部分出现在问题中
  
 4）答案的一部分出现在原文，另一部分是生成的新词
  
 5）答案完全不在原文出现（Yes / No 类型）
  
          随着互联网技术的成熟和普及, 网络上出现了常问问题(frequent asked questions, FAQ)数据, 特别是在 2005 年末以来大量 的社区问答(community based question answering, CQA)数据(例如 Yahoo！Answer)出现在网络上, 即有了大量的问题答案对数据, 问答系统进入了开放领域、基于问题答案对时期。
  
 一般过程：问题分析 ->信息检索->答案抽取
  
 问题分析阶段：和基于自由文本的问答系统的问题分析部分基本一样, 不过还多了几个不同的研究点：
  
 （1）问题主客观的判断   
  
 （2）问题的紧急性（通常在CQA数据中）
  
 信息检索阶段：该阶段目标是如何根据问题的分析结果去缩小答案 可能存在的范围，其中存在两个关键问题：
  
 （1）检索模型（找到和问题类似的问题）
  
 （2）两个问题相似性判断（返回答案或返回相似问题列表）
  
 答案抽取部分：在答案抽取部分, 由于问题答案对已经有了答案, 答案抽取最重要的工作就是判断答案的质量.研究怎么从问题的众多答案中选择一个最好的答案.
  
 下面网址给出了一些论文和近期研究成果：
  
 https://blog.csdn.net/class_guy/article/details/81535287
  
 
  
  
 
  
                                          
 
  
  
  参考文献： 
  
 [1]Berant.EMNLP.Semantic parsing on freebase from question-answer pairs.2013
  
 [2]Yih.ACL.Semantic Parsing via Staged Query Graph Generation:Question Answering with Knowledge Base.2015
  
 [3]Dong, ACL. Question answering over freebase with multi-column convolutional neural networks.2015
  
 [4]Hao, ACL. An end-to-end model for question answering over knowledge base with cross-attention combining global knowledge.
  
 [5]Bordes, arXiv. Large-scale simple question answering with memory networks.2015
  
 [6]Huang, WSDM. Knowledge graph embedding based question answering.2019
  
 [8]Susht.知乎.一份关于问答系统的小结.2018

3. 问答系统的问答系统

 MVC模式开发，二次开发更容易支持纯静态Html生成，SEO友好支持UCenter，方便和诸多系统整合支持通行证整合，可以与phpwind、dedecms、shopex等整合支持微博分享，问题能轻松分享到新浪、腾讯、开心网、人人网等支持问题状态通知，包括站内短信和邮件提示占用系统资源少，运行速度快 OASK问答系统是功能最强大好用的问答系统，从一开始推出就受到了热烈的欢迎。经过3年众多用户的磨砺，OASK问答系统无论在功能、性能、安全性还是灵活性，都是首屈一指的佼佼者，已成为各类网站建立在线问答系统的首选软件。强大：除基本的问答功能外，还提供了：广告管理、用户整合、问答采集、各种JS调用、RSS订阅、积分兑换与在线支付、共享资料、手机WAP访问、视频音频问答等等相关功能，网站建设更便捷灵活：我们提供最强大好用的功能和多样化的应用逻辑，各种需求都能更好的被满足好用：我们提供未加密的ASP源代码，无需安装任何组件，提供强大和方便的管理后台，安装、管理、使用和修改更容易安全：我们对程序做了全面严格的安全检查，杜绝安全漏洞和垃圾群发，系统使用更可靠高效：我们从数据库的设计和访问到代码编写都力求效率的最大化，程序访问更快速售后：我们提供持续的升级和优质的售后服务，后续使用更放心推广：程序提供网页关键词和描述的智能设置、内链、网站地图生成、静态、伪静态等等，搜索引擎收录更快更全面美观：模板与程序分离，独创了可在Dreamwearver等软件里可视化编辑的纯网页模板，还提供多套模板可供选择，网站样式修改更方便

问答系统的问答系统

4. 问答系统与人工智能哪方面无关

问答系统与人工智能机器视觉，指纹识别，人脸识别，视网膜识别，虹膜识别，掌纹识别，自动规划，博弈，自动程序设计，遗传编程等方面应用无关。

人工智能早在1956年已经出现了，著名数学家、人工智能之父麦卡锡在这一年中最早使用了人工智能这个词。他说，一旦一样东西用人工智能实现了，人们就不再叫它人工智能了。而我们日常生活中已经每天都在使用人工智能了，只是我们没意识到而已。

所以正是因为这种效应，人工智能听起来总让人觉得是未来的神秘存在，而不是身边已经存在的现实。同时，这种效应也让人们觉得人工智能是一个从未被实现过的流行理念。其实并不是这样的，人工智能就是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

而人工智能的概念有很多，正因为如此，人工智能也分为很多种，我们可按照人工智能的实力将其分成三大类。这三大类分别是弱人工智能、强人工智能和超人工智能。

5. 什么是智能科普问答系统?它有哪些功能

智能科普问答系统通过对数据的深度加工和组织管理、以更自然的交互方式满足用户更精确的信息需求。智能科普问答系统借助互联网，突破时间和空间的限制，让公众可以随时随地获取自己想要的科学信息。
 智能科普问答系统以一问一答形式，精确地定位网站用户所需要的提问知识，并给网站用户提供交互服务。可以实现的功能有：
 1、相关问答推送。当网站用户提出问题时，系统不仅将问题答案推送出来，而且会将与这个问题相关的知识也都推送出来供用户查询，这样就做到了一次提问全面掌握所有信息。
 2、提问智能提示。用户在提问的过程中, 系统将已经输入的内容自动分析给予优化的补全或相关提示。
 3、焦点问题自动排行。对在一定的时间内，用户对知识提问的热度，系统自动聚焦，并按照访问频度将热点知识集中在系统页面上热点词聚焦  系统对用户提交的业务关键词进行统计，并按照访问的频度进行聚焦，将与关键词相关的业务列表自动链接，形成业务热点关键词。
 4、显在线客服问答。模拟在线客服人员，以网站智能客服形式完成客服作用。
 5、引导式交互客服服务。将常见问题整理成若干流程诊断型的知识，通过引导交互式地服务，尽量从Web端解决客户常见问题。
 6、客服座席协助。完成专家坐席功能，在普通坐席人员无法回答问题时提供标准化的知识协助，帮助普通客服人员快速，准确回答。

什么是智能科普问答系统?它有哪些功能

6. 问答系统是怎样设计的

软件系统的开发是按阶段进行的，一般划分为以下阶段：可行性讨论；需求分析；系统设计(概要设计、详细设计)；程序开发；编码，单元测试；系统测试；系统维护。 
软件开发过程中要明确各阶段的工作目标、实现该目标所必需的工作内容以及达到的标准。只有在上一个阶段的工作完成后，才能开始下一阶段的工作。 

1.可行性讨论 

明确系统的目的、功能和要求，了解目前所具备的开发环境和条件，论证的内容有：① 在技术能力上是否可以支持；② 在经济上效益如何；③ 在法律上是否符合要求；④ 与部门、企业的经营和发展是否吻合；⑤ 系统投入运行后的维护有无保障。 

可行性讨论的目的是判定软件系统的开发有无价值。分析和讨论的内容形成“系统开发计划书”，主要内容有： 

(1) 开发的目的及所期待的效果； 
(2) 系统的基本设想，涉及的业务对象和范围； 
(3) 开发进度表，开发组织结构； 
(4) 开发、运行的费用； 
(5) 预期的系统效益； 
(6) 开发过程中可能遇到的问题及注意事项。 

2、系统需求分析 

系统需求分析是软件系统开发中最重要的一个阶段，直接决定着系统的开发质量和成败，必须明确用户的要求和应用现场环境的特点，了解系统应具有哪些功能、数据的流程和数据之间的联系。需求分析应有用户参加，到使用现场进行调研学习，软件设计人员应虚心向技术人员和使用人员请教，共同讨论解决需求问题的方法，对调查结果进行分析，明确问题的所在。需求分析的内容编写成“系统需求分析报告”。 

3.系统设计 

可根据系统的规模分成概要设计和详细设计两个阶段。 

概要设计包括：① 划分系统模块；② 每个模块的功能确定；③ 用户使用界面概要设计；④ 输入输出数据的概要设计；⑤ 报表概要设计；⑥ 数据之间的联系、流程分析；⑦ 文件和数据库表的逻辑设计；⑧ 硬件、软件开发平台的确定；⑨ 有规律数据的规范化及数据惟一性要求。 

系统的详细设计是对系统的概要设计进一步具体化，其主要工作有：① 文件和数据库的物理设计；② 输入输出记录的方案设计；③ 对各子系统的处理方式和处理内容进行细化设计；④ 编制程序设计任务书。程序说明书通常包括程序规范、功能说明、程序结构图，通常用HPIPO（Hierarchy Plus Input Process Output）图描述。 

4、程序开发 

根据程序设计任务书的要求，用计算机算法语言实现解题的步骤，主要工作包括：① 模块的理解和进一步划分；② 以模块为单位的逻辑设计，也就是模块内的流程图的编制；③ 编写代码，用程序设计语言编制程序；④ 进行模块内功能的测试、单元测试。 

程序质量的要求包括：① 满足要求的确切功能；② 处理效率高；③ 操作方便，用户界面友好；④ 程序代码的可读性好，函数、变量标识符合规范；⑤ 扩充性、维护性好。 

降低程序的复杂性也是十分重要的。系统的复杂性由模块间的接口数来衡量，一般地讲，n个模块的接口数的最大值为n(n-1)/2；若是层次结构，n个模块的接口数的最小值为n-1。为使复杂性最小，对模块的划分设计常常采用层次结构。要注意编制的程序或模块应容易理解、容易修改，模块应相互独立，对某一模块的修改应对其他模块的功能不产生影响，模块间的联系尽可能少。 

5.系统测试 

测试是为了发现程序中的错误，对于设计的软件，出现错误是难免的。系统测试通常由经验丰富的设计人员设计测试方案和测试样品，并写出测试过程的详细报告。系统测试是在单元测试的基础上进行的，包括：① 测试方案的设计；② 进行测试；③ 写出测试报告；④ 用户对测试结果进行评价。 

6、文档资料 

文档包括开发过程中的所有技术资料以及用户所需的文档，软件系统的文档一般可分为系统文档和用户文档两类。用户文档主要描述系统功能和使用方法，并不考虑这些功能是怎样实现的；系统文档描述系统设计、实现和测试等方面的内容。文档是影响软件可维护性、可用性的决定因素，有句话讲，系统编程人员的每一张纸片都要保留，所以文档的编制是软件开发过程中的一项重要工作。 

系统文档包括：开发软件系统在计划、需求分析、设计、编制、调试、运行等阶段的有关文档。在对软件系统进行修改时，系统文档应同步更新，并注明修改者和修改日期，如有必要应注明修改原因，应切记过时的文档是无用的文档。 

用户文档包括：① 系统功能描述；② 安装文档，说明系统安装步骤以及系统的硬件配置方法；③ 用户使用手册，说明使用软件系统方法和要求，疑难问题解答；④ 参考手册，描述可以使用的所有系统设施，解释系统出错信息的含义及解决途径。 

7、系统的运行与维护 

系统只有投入运行后，才能进一步对系统检验，发现潜在的问题，为了适应环境的变化和用户要求的改变，可能会对系统的功能、使用界面进行修改。要对每次发现的问题和修改内容建立系统维护文档，并使系统文档资料同步更新。

7. 问答系统的介绍

问答系统(Question Answering System, QA)是信息检索系统的一种高级形式，它能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。问答系统是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。

问答系统的介绍

8. 问答系统哪个好

Ask2问答系统是一款开放源码的PHP问答程序。优点：1、基于自主MVC框架开发，框架结构清晰、易维护、模块化、扩展性好，性能稳定。2、支持Ucenter、Xunseach、CMS等系统整合，方便易用。3、简单易懂的模板语法让前端人员可独立完成模板制作及数据调用。4、站内seo优化的非常好5、内置文章功能，每个用户能发布自己文章6、问答内置三套PC模板和一套Wap模板，高仿360问答系统界面，大气简洁7、程序内置超强问答采集功能，无需写知名问答网站规则，一键采集十几万条数据，新站快速充实网站内容
8、内置强大标签自动识别功能，提问和问题采集均可识别关键词
9、强大搜索系统，搜索问题可通过输入字符串全文检索，如果检索不到通过转化成关键词检索，检索不到还可以转化成模糊检索，相关问题均可列出
完全可以满足政府机构、教育机构、事业单位、商业企业、个人站长使用。