药学本体构建实践

摘要:分析了药学本体构建的意义,介绍了药学本体构建工具和构建的原则,使用protégé本体编辑器,并借鉴七步法构建思路,详细阐述了药学本体每一步骤的构建过程,包括药学本体需求分析,复用现有本体的可能性分析,药学领域知识的结构化分析和核心概念集的获取,药学本体类、属性和实例的定义。本文的药学本体已应用在基于本体的中文元搜索引擎查询结果自动分类系统中,并能通过系统的运行实现本体的进化。

关键词:本体;领域知识;本体构建

中图分类号:TP311

文献标识码:A

文章编号:1009-3044(2007)12-20000-00

Practice of Pharmaceutical Ontology

WANG Mei-wen

(Library of Zhejiang Pharmaceutical College,Ningbo 315100,China)Abstract:Pharmaceutical ontology construct is signality. Firstly, the software and principle for ontology constructing are introduced. Then,follwing the construct method of‘seven steps’, every step to construct pharmaceutical ontology is described particularly. The process includes: requirement analysis, re-use possibility of existing ontology, to structural analyse for pharmaceutical domain knowledge, to acquire the core concepts and to design the class,property and instance of pharmaceutical ontology. The pharmaceutial ontology has applied in the Chinese meta search engine search result automatic classification system.The ontology can evolve with use process of this system.

Key words:ontology; domain knowledge; ontology construction

1 引言

在信息管理领域,越来越多的研究热点集中在对信息的理解、基于语义的整理和开发上。本体作为一种机器可理解的、形式规范的、可共享的领域知识表现方法,是实现语义网的关键技术。事实上本体的应用在智能检索、语义标注、自动分类等方面已有很多的实验项目,但是对于具体领域本体的构建实践并不多。而大量高质量的本体的构建,是本体技术获得良好应用效果的基础和前提。

本文对药学领域的本体构建进行了实践,并将它应用在了中文元搜索引擎检索结果的自动分类中。

2 本体构建工具

2.1 本体的形式化编码本体实质上是领域知识的形式化表达,因此需要一种形式化的描述语言,利用机器可读的形式对本体进行编码,使计算机可以存储、访问或修改本体,并将本体嵌入到各应用系统中,或在不同的系统之间进行互操作。目前有许多本体描述语言,如许多本体描述语言,如RDF(S)、OIL、DAML、OWL等。本文的药学本体采用的是RDF(S)本体描述语言[1]。

本体需要描述领域内的概念集及概念之间的关系,在RDF(S)中,用类(Class)描述概念(术语),属性(Property)描述概念间的关系。具体描述方式如以下例子:

rdfs:label="中枢神经兴奋药">

rdfs:comment="通常为药典名"

fs:label="中文正式名">

2.2 本体的形式构建

直接用RDF等本体描述语言编辑本体工作量非常大,而且概念与概念之间的关系不直观,所以在构建本体时一般会使用一种界面友好的可视化本体开发工具来辅助构建本体。

protégé[2]是由斯坦福大学医学院的医学信息研究小组(Stanford Medical Information research group)开发出来的本体和知识库编辑器,它有一个交互式的图形化开发环境,支持各种标准的存储格式,比较容易学习使用,提供大量的插件,基于这些优点,protégé成为最受欢迎的本体构建工具,本文的药学本体也采用它作为本体的开发平台。

图1

protégé编辑界面

3.1 已有的构建方法

选择一条合适的本体构建的方法路线对于保证本体的构建质量是至关重要的。由于各自的学科领域和具体工程的不同特点,构建本体的过程各不相同,目前尚没有一套经权威标准化机构认可的本体构建方法。从一般方法

论角度出发,1995年由Gruber提出的本体构建5条原则得到公认:明确性和客观性、完整性、一致性、最大单向可扩展性、最少约束从本体的概念和作用我们可以看出,共享和重用是其本质特征,因此相比于一般的软件,本体的建设更应该遵循工程化生产的路线。采用标准化的表达方式和规范化的工作步骤。事实上,已有的本体构建方法中都体现了工程化的思路。常用的本体构建方法有:企业建模法(Tove)、骨架法(Skeletal Methodology)、METHONTOLOGY 法、七步法等。

3.2 药学本体构建方法

综合分析已有的本体构建思路后,结合药学领域知识结构特征,本文的药学本体较多地借鉴了斯坦福大学医学院开发的七步法[3]。基本思路是:

第一步,确定本体的专业领域和使用需求。

第二步,考虑复用现有本体的可能性。

第三步,列出本体中的重要术语。

第四步,定义类(class)和类的等级体系(Hierarchy)。

第五步,定义类的属性(solts)。

第六步,定义属性的分面,如取值的类型(valueType)容许的取值(Allowed Values)等。

第七步,定义类的实例(Instances)。

以上七步并不是严格的循序渐进的次序,而是互有交织循环完善的过程。在这个过程中需要领域专家和IT技术人员的协作配合。领域专家需要领会本体描述领域知识的规则,并按此规则对知识进行重新整合。IT技术人员则需要将领域专家的知识描述转化为本体表现形式,并用本体描述语言进行形式化,进而嵌入到应用系统中发挥作用。

笔者在图书馆有多年的药学文献标引和参考咨询经验,具备了一定的药学领域知识,同时对本体方法较熟悉,因此在药学本体的构建中担当了主要角色。为了保证质量,在构建过程中,笔者还请教了相关的专家,请他们对药学本体的知识组织体系及一些概语(术语)的解释进行了指导。

4 药学本体构建过程

4.1 需求分析

(1)药学本体领域范畴

本文构建的本体定位在药学领域,属于医药卫生领域的一个分支,是一个以药品为研究对象的学科。根据药品的来源分类,可分为中药(天然药物)、化学药品和生物制品,由于时间和人力的限制,笔者选择了化学药品为主要描述对象,将重点放在化学药品领域知识结构的组织与搭建,并选择其中几种具体药品(如阿司匹林、尼莫地平)进行详细描述。

(2)药学本体的应用目的

本文构建的药学本体将作为对中文元搜索引擎查询结果进行自动分类的分类知识库。因此,在构建本体时不仅要考虑药学领域自身的知识特征,而且要考虑到应用的场所特征。构建本体进所采用的概念、术语是由领域专家结合相关的学术文献抽取出来的,体现了从领域学者的角度来描述药学专业知识。而使用本体的人是元搜索引擎的使用者,他们不仅包括此领域的学者,还包括并不熟悉的此领域知识的人。因此本文的药学本体也提供了从这些非专业人土的角度来描述药学领域知识。

基于这个使用目的,笔者在提取领域概念时采用了两种资料来源,一种是药学专业期刊及工具书,另一种是分布于web上的相关网页内容。

4.2 复用现有药学本体的可能性分析

据笔者所知,现有的医药学领域的本体有很多,比较著名的有①美国的Unified Medical Language System Metathesaurus ( 联合医学语言系统元词表)。②英国曼彻斯特大学的Open Galen 项目。③基因本体联盟(GOC)开发的Gene ontology。这些本体都以英语为描述语言,侧重于医学的角度,并不适合本文分类系统的需要。当然,这些本体对医药学方面知识组织的思路为我们分析药学的领域知识提供了借鉴。

中国图书分类法[4]中的类目(概念)是表达文献内容学科知识领域的概念,而且分类法具有完备的类目组织系统,通过等级结构、逻辑关系显示文献主题概念(类目)之间的从属、并列、交替、相关等各种关系,在分类语言系统之中建立起语义联系。主题词表[5]中的主题词是表达文献主题的词和词组的集合,是经过规范化处理的,具有专指性、准确性、明确性和唯一性的术语集合。它还具有完备的参照系统通过主题词下设置“用、代、属、分、参”等多种参照项,以表示概念之间的等同关系、等级关系和相关关系。从某种程度上讲,主题词表与分类法都是相关领域概念和概念关系的集合,其基本功能和本体具有一致性,因此在药学领域本体构建时参考了《中国图书分类法(第4版 )》中的药学(R9)部分的体系结构,以及《分类主题词表》中的术语表达。

4.3 药学领域知识的结构化分析。

药学是个庞杂的学科,在参考了相关工具书[6,7,8,9,10]及分类法、主题词表的基础上,笔者认为:从知识工程的角度出发,药学领域最重要最核心的概念是药品,围绕每个药品,可以从药学各分支学科角度描述其药理学、药效学、药物制剂、药物分析、药物鉴定、药物不良反应、用法用量、贮藏、药事管理、商品学等方面的知识。

除了单个药品的各个分面知识外,药学领域还有一类是经过总结和提炼的某类药物的综合知识,例如“片剂制剂通则”、“抗生素药物相互作用”等。为了描述这些知识,我们为每个药品分设了按不同角度区分的抽象类,如卞卡青霉素注射液的上位类为抗生素(按药理作用分)、片剂(按剂型分),那些不属于单个药品知识的综合知识就可以在这些药品的相应上位类进行描述。

图2

药学本体结构图

4.4 药学核心概念集的获取

笔者从以下几个方面收集了药学领域的相关概念、术语及关键词:

(1)采用《中国药典》2005版(二部)中收录的化学药品名称,每种药品的概念包括中文正式名、英文名、化学名称、商品名称。

(2)以《中图分类主题词表》的体系结构为主要依据,参照相关工具书抽取出描述药学知识的学科分支,如药物治疗学、药理学、药物分析、临床用药注意事项等,并将这些分支学科进一步细化,如将临床用药注意事项细化为更小的概念,包括不宜使用者、安全剂量、患者类型、服药时间、禁忌病史、配伍禁忌等。

(3)药学领域的知识在不断地创新发展着,其相对活跃的一部分知识,就是药学专业论文。为了使药学本体能涵盖这些新的知识,笔者对《中国药学文摘》2004、2005年的年度主题索引进行了分析、整理,提取出新的概念或已有概念的不同表述,添加到本体中。

(4)从网页中抽取相关概念。虽然网页中出现首创的药学新知识的可能性比较小,但是网页中描述的药学知识通常表现了非专业人士对药学知识的表述方式,从中可以抽取出对于某一药学概念的“自然语言版”。如果将某一概念的正式术语称为主题词的话,那么其它表达这个概念的词都称为关键词,将这些关键词加入到本体中,是此药学本体能够对网页进行有效分类的重要手段。

4.5 定义类和类的层次结构

4.5.1 确定药品分类体系

药学本体的核心概念是各个药品,各个药品从不同的角度可以归为不同的类别体系,如按药理作用不同,可以分为:抗微生物药物、抗寄生虫药物,主要作用于中枢神经系统的药物……,上述各类可进行下一级细分,如抗微生物药物可分为抗生素、磺胺类、抗真菌药等等。药品的集合还可以按剂型分类:液体及半液体剂型、固体及半固体剂型、控制释放剂型等,又可往下一级细分:如液体及液体剂型可分为水剂、注射剂、糖浆剂、合剂等,设立各药品的类别概念主要是为了描述属于这个类的共性知识的概念,如抗生素的药物相互作用、糖浆剂制剂技术等。

4.5.2确定药学的各分支学科概念

药学各分支学科包括药理学、药物分析、药物化学、药物鉴定、药事管理、药物相互作用、药物不良反应等,这些分支学科可以看作是一个个元本体,各元本体中需要定义其相应的概念类、属性及实例。在本文的药学本体中,将各分支学科设立为与药品平级的类,类名设计为分支学科名后加“模板”作为其特征,如“药物不良反应模板”,并在下一步工作中根据分支学科的特点进一步定义其属性及实例。

4.2.3 与药品概念类平等的通用概念的提取

对于人、机构、疾病、设备等这些概念将与药品概念类及分支学科类产生经常的关联,例如患者(人的一种)将与的药物使用人,不宜使用者、药物代谢时间等诸多概念发生联系。为了提高表达的效率,将这些通用概念提取出来,作为药品概念类和学科分支类的平行概念。

4.6 定义类的属性及属性的侧面

概念之间关系的表示方法有两种:一种是设立特定的关系类,另一种是用属性来定义概念间的相互关系,在药学本体中,我们主要采取了第二种方法。

(1)药品概念类属性的定义,我们发现与单个药品概念类相关联的知识均可从药学分支学科的角度进行表达,即每个药品均有药理学知识、药物鉴定知识、药物不良反应知识等,所以药学分支学科类(如药物不良反应模板)可以作为药品类概念的属性,这样我们就在可以在这些属性下定义单个药品 各个侧面的知识,如阿司匹林的药物不良反应方面的知识。

把类定义为属性的方法是把属性的类型(type)定义成该类实例(instance),如我们为药品阿司匹林添加属性“药物不良反应”,并将其类型(type)定义为“instance of 药物不良反应模板”。

本文的药学本体为每个药品概念类设置了19个属性,分别为:中文正式名、化学名称、化学药品别名、商品名、英文名、制剂与规格、制备方法、物理性质、用法用量、用药注意事项、药事管理、药品商品学、药品贮存、药效、药物不良反应、药物代谢动力学、药物分析、药物历史、药物相互作用。

继承关系是整个本体体系中最重要的关系之一,子类将继承父类的所有属性,也可以拥有父类不具有的独特的属性。定义属性时我们同时需要为它定义约束条件:属性值(value type), 集的势(cardinality)、 属性所在的类(domain).

(2)药学分支学科类的属性定义根据各学科特点分别设计,如为“药物不良反应模板”设置了“不良反应症状”和“不良反应种类”2个属性。

图3

化学药品的属性定义

4.7 定义类的实例

定义类的实例就是为类的各个属性添加属性值。实例添加后,一条条知识单元完整了。本体对于领域知识的表达方式就是以类→属性→实例的形式来表达的。例如,我们为阿司匹林的“药物不反应”属性的“不良反应症状”子属性添加实例“呕吐”,就可表达一条完整的知识单元:“阿司匹林不良反应症状为呕吐”。实例所依据的领域知识单元从领域专家、工具书及学术论文处获取。

5 结语

药学本体的建设对于药学领域数字信息资源的深层次开发利用有重要作用。本文构建的药学本体旨在利用本体的思想和方法组织和整合药学领域知识,并用规范的形式化语言描述。本文的药学本体已应用在基于本体的中文元搜索引擎查询结坚果自动分类系统中,并通过系统的运行,实现了本体的进化。[11]由于时间和人力的限制,药学本体构建并不完善,更侧重于对药学知识的整体表现方式的探索,实例的添加较少。希望本文的工作能为语义Web、数字图书馆相关的领域本体构建研究提供有价值的参考,并期待更多专家的检验和评价。

参考文献:

[1]Lassila O., Swick R. Resource description framework (RDF) .cn/qkpdf/zsjs/zsjs200718/zsjs20071820-2.pdf" style="color:red" target="_blank">原版全文