本文共 2406 字,大约阅读时间需要 8 分钟。
本课题组从 2004 年开始了对问答系统的研究,对于各种细分的问答系统都有所涉及。这也是随着时代的发展以及我们对于问答系统的理解不断加深而产生
的变化。1.基于搜索引擎的事实性开放域问答系统 QUANTA
2005 年前后的搜索引擎是基于关键词的,网页链接作为信息获取的输出,用户并不能直接获取答案(搜索引擎更新换代的进步与问答理念与技术息息相关)。从智能信息获取的角度出发,我们最初的愿景是给用户一个确切答案,不需要用户自己去选择链接,点击进入相关页面再寻找答案。选择自然语言的问题表达形式,弥补了关键词的语义缺失问题,避免用户多次反复修正关键词才可达到目标的低效信息搜索方式。那个时代,可参考的系统有 Aranea [9] 、Just. Ask [10] 以及 Open Ephyra [11] 等。QUANTA 的主要特点是,在搜索引擎返回的查询碎片中产生候选答案,通过计算答案与问题之间的条件信息距离对答案进行重排序。条件信息距离在衡量指定语义环境下问题与答案的近似程度时具有通用性好、鲁棒性强的特点。实验表明,QUANTA在可以通过搜索引擎获得答案候选的前提下,性能已经接近上限(70%)。系统的不足是,回答问题的类型基本停留在事实性问题,并依赖于搜索引擎的开放服务[12-15] 。
2.融合了UGC的开放域问答系统QAnswer(趣答)
UGC(用户产生内容)给对话系统提供了很好的数据源,例如各种百科、cQA(问答社区)等。UGC的特点是,数据更新比较快,领域覆盖度广,可以处理的问题类型比较多。QAnwser 系统是基于融合了多种 UGC 数据的非特定领域问答系统。主要通过问题分析、问题检索、相似度重排序、答案质量分析、答案摘要,以及答案融合等环节获得答案。特别的,对定义型(广义的定义性问题,包括询问 A 的属性 B 等),采用了基于 Author Topic Model 的方法,通过相关性计算,可以从相关文章中获得和问题最相关的段落。QAnswer 系统在业界的测试中也取得了不错的成绩,得到认可[16-18] 。
3.知识图谱与信息服务
随着研究的深入,我们越来越深刻地感觉到QAnswer这种依赖互联网数据的问答系统的问题所在。首先,在最初的设想中,随着互联网数据指数增长,网上信息取之不尽用之不竭,且自动更新,只要能够保证指哪打哪,百发百中就一定能够捕获到用户需要的猎物,拱手奉上。其实不然,互联网数据虽然海量,但是和用户的即时动态需求相比还是很稀疏的。实际上不存在一个无限连续的查找表,可以覆盖世界上所有的问题与答案。以百度知道为例,每日新增的问题就超过百万,且没有收敛的趋势。这种缺乏深度内容理解与推理的问答系统,必然会面临长尾问题的挑战而使覆盖度有所欠缺。况且没有经过处理的互联网大数据,据统计只有 30% 是含有一定信息量的,其中仅有1%的内容可以称之为知识,也就是人们想要得到的。暂且假设系统搜索能力强大到能够满足大海捞针的信息挖掘,既往信息如果不加以凝练存储,就无法保持信息的一贯性,也就不可能满足非新闻类信息服务的需求。其次,通过一定程度的公测,我们发现,人们对开放域系统所提出的问题,尤其是关于常识性问题的咨询,就是一种调戏。换句话说,此类系统很难摆脱玩具的角色。当然,近来聊天机器人风起云涌,大家也仍旧抱着调戏的心态进行各种测试和评论,对其商业价值有种种推测与预见。因此,此类开放领域的问答系统很难独立完成信息服务的角色。针对第一个问题,我们从 2010 年开始,开展了知识相关的研究,针对第二个问题,将研究背景从开放域转换到垂直特定领域。
关于知识图谱,本期其他论文有比较详细的论述,本文就不赘述了。在对力物力评估的基础上,我们的主要工作集中在对通用知识图谱的补充和知识图谱的应用两个方面。在 Google 的支持下,我们研究了如何将社会信息作为动态知识,在使用时对 Google Graph这类静态知识库进行动态扩充。例如,当用户查询美国总统时,不仅仅提供个人静态信息,还可以从社会媒体中动态挖掘并产生树状知识结构,并显示与此人相关的各种社交媒体上比受关注的、热点的问题及其内容、评论等辅助补充知识图谱的动态信息。同时,我们还研究了如何动态、快速地产生特定领域的知识库等问题,从数据驱动的角度,融合多种异构数据(Web网页、社交文本、半结构网页、问答对、数据库等),扩充实体属性以及实体实例[19-20] 。
4.可扩展垂直领域对话平台以及实用系统
对话和问答系统有一致之处,也有区别。一般来说。对话系统是带有上下文和用户背景的问答。作为智能信息服务来讲,交互的过程也是信息获取的过程,而这个过程带有信息的补充、确认、澄清、修正、否定等多种交互因素,比起简单的一问一答要复杂很多。首先,如果要能够顺利的完成对话,就需要对用户的输入和自己的输出都有比较深层次的理解;其次需要有合理的对话策略;最后,从应用的角度来讲,对话系统在垂直领域具有很大的应用前景,其平台与技术的通用性和可移植性也是一个值得考量的问题。我们构建了一个面向垂直领域的通用对话系统平台,首先通过半自动和数据驱动的方式,建立领域知识库,然后从知识库出发,结合领域语料,构建领域相关文法对问题进行语义解析,并转换成知识库查询的形式获取答案。在这里我们特别采用了基于知识图的对话管理系统,将用户交互的上下文与当前系统状态构成一个动态知识图,通过对知识图匹配的情况进行分析,产生不同的对话动作,最有效地完成对话的目标。在这个平台上,我们由浅入深,快速部署,实现了天气问答、音乐问答、医疗问答、会议预定系统等垂直领域应用,部分应用已经投入使用,取得了比较好的效果。相关演示系统已经作为微信公众号发布,包括:公众健康问答、音乐问答、天气自动问答 TU、清华小智等[21-22] 。
转载地址:http://kgeql.baihongyu.com/