基于案例推理发展现状的文献综述


  摘  要:本文主要论述了基于案例推理的原理、工作流程,对案例推理方法关键技术进行了分析,提出现存的问题,并对应用现状做出简要阐述。
  关键词:案例推理;技术;问题
  文章编号:1674-3520(2014)-11-00-02
  一、基于案例推理的基本原理及流程简述
  案例推理 (Case—Based Reasoning,CBR) ,是由耶鲁大学 Shank 教授在 1982年出版的专著《Dynamic Memory》中提出的。[1]其主要进程有四步:相似案例检索(Retrieve)、案例重用(Reuse)、案例调整(Revise)以及案例学习(Retain)。案例推理中存在一个储存源案例的案例库,它以案例属性的辨识度为依据,通过算法进行检索,并依照属性权重不同呈现出对应的历史解决方案。其具体流程如下:
  (一)案例表示。案例表示是案例推理的首要步骤,相关工作者可以根据自身的需要制作出适合本案例系统的案例表达方法,并依据案例属性的特征赋予其相应的权重。
  (二)案例检索。案例的检索是 CBR 系统中的重要环节,即依照一定的检索规则在 CBR数据库中查找与目标案例的特征属性最为接近的案例,并提取出来。相似案例的检索要求达到检索出的相似案例尽量的少和检索出的案例与目标案例相似度尽量高这两个目标。目前较常用的案例检索算法有知识引导法、神经网络法、归纳索引法以及最近相邻法等。
  (三)案例调整。为了更好地服务应用实践,根据新问题对检索到的相似案例进行修改的过程称为案例的调整和修改。案例的调整和修改需要人们根据具体的技能知识灵活进行,没有较为统一的的方法可供借用,因此它是 CBR 的一个难题。
  (四)案例学习。案例学习是保持案例实效性与知识更新中的必要环节。案例学习包括案例库的维护和案例评价。案例的维护既是对案例库中案例的可利用性进行评估的过程,也是对案例库中蕴含的专业知识体系不断更新的过程[3]。案例的评价是指检索到的案例对于目标案例的参考价值的评定,它有助于提高相关人员对案例推理系统的认知程度,并及时修正系统中的相关问题。
  二、基于案例推理的关键技术
  (一)案例的表示与组织
  案例的恰当表示是目标事件向统一的标准量化式转换的过程。具体来讲,案例的内容一般有如下三个主要组成部分:① 具体问题及背景与环境状况;②解决方案的记录;③反馈结果与评价。部分案例还可采用基于特征向量的表示方法进行描述,即设置非空集合U,历史案例为U(x),其中的特征属性元素用a1,a2,a3….an表示,目标案例B(x)可与多种案例集合相交,交集所含元素越多表示两案例的关联程度越高。以此亦可宏观看出多种案例之间的相互关系。[1]
  案例的恰当组织有利于案例库的建立完善,从而为该项问题的案例储备做好工作。
  在CBR领域中运用较多、影响较大的组织案例的方法有罗杰·夏克(Roger Shank)的动态记忆模型和波特(Porter)的类型-实例模型。动态记忆模型是以具体的历史案例为基础,综合其特征属性集合作为实例单元,通过分析得出共性的属性特征与应对措施等要素,形成抽象层,作为抽象单元。案例即是在此两种层面动态存储;类型-实例模型则是一种单层次的案例组织模型,其中具有标志性的共同特征属性的案例被集合形成一种类型,这些类型反映着专业知识及原理。所有案例依据属性特征对于案例的影响程度赋予相应的权重并依次排列。
  两种组织类型都能够有效地体现不同案例的特征属性,动态记忆模型是依据客观实例抽象出科学的解决方法,较为直观,但组织整理的成本大且具有主观性;类型—事例模型则能够更全面的呈现出匹配案例,但需要决策者花费更多时间对方案做研讨,不利于应对突发事件的处理。
  (二)案例的检索与匹配环节
  案例的检索与匹配是实现案例推理的核心环节。案例的检索需要对目标案例的特征属性有较为明确的表示、录入,这就涉及到一个非常重要的处理技术——目标案例与源案例的相似度计算。
  案例与案例之间相似度的匹配实际上是其不同属性的量化比较,案例的各个属性根据其属性值对应地分为四类,即确定数型属性、确定符号属性、模糊概念属性、模糊数或模糊区间属性。
  确定数型属性的相似度可以用基于距离的方法来计算,丛浩哲等人对于该种方法阐述如下
  属性 ai的两个属性值 Xai和 Qai的相似度可表示为:
  [2]
  对于模糊概念属性及模糊数或模糊区间属性的表示方面,张本生、于永利 在CBR 系统案例搜索中的混合相似度度量方法的研究上认为其主要基于三个理论方法:①模糊集理论;②神经网络技术;③粗糙集理论。
  模糊集理论提供了一种处理不肯定性、不精确性案例的方法。基于模糊集理论,一般有两种常用的算法:TC相似模型(Tversky Contrast Matching)和最近相邻算法。其中TC相似算法虽然应用广泛但未能体现出不同案例特征属性对于该案例具体的影响维度。相比来说,最近相邻算法则引入了权值,但权值在各案例中的比重不变,且权值的赋予是有相关专家进行操作,因此会存在较大的主观性和不确定性。
  人工神经网络技术是人们模拟大脑神经的组织结构进行,进行分布式的网状数据分布,经过严密的算法不断调整各个节点间的相互关系。它能够更客观地反映不同案例间属性的影响程度。
  以上两种理论都是基于严密的数学算法进行,并以数值的形式计入案例库,具有很强的精确性。但其相关权重的赋予与规范样式的提出都具有不同程度上的主观,而粗糙理论集则是依靠对知识的高度概括及架构,建立多重索引,既能够起到简化案例库的作用,又可依据人们对不同问题进行不同方法的索引得出更为准确的历史案例。由于其不需要先验知识,而是对现有案例进行客观提炼和总结,形成的案例索引是较为客观的。