知识集合的表示方式与科研评价中的应用

〔摘 要〕本文详细阐述知识集合的研究范围,从物元模型、知识集合中的组合表示和相关性三方面分析知识集合的表示方式,最后介绍了物元模型在科研评价中的应用。

〔关键词〕知识集合;物元模型;表示方式

〔中图分类号〕G250 〔文献标识码〕A 〔文章编号〕1008-0821(2009)08-0205-03

Representation Model of Knowledge Set and Application in Scientific EvaluationLiu Huijun Song Yaowu

(Library,Guangdong University of Technology,Guangzhou 510090,China)

〔Abstract〕This paper described in details of the research scope of knowledge set and analysed the representation model of knowledge set from three aspects of matter-element model,combinatorial description and relativity.Finally,the application of matter-element model in scientific evaluation was introduced.

〔Key words〕knowledge set;matter-element model;representation model

知识集合论是武汉大学王子舟对图书馆学研究对象积极探索得出的成果。以图书馆学基础理论和集合论、系统论作为理论基础,认为图书馆学的研究对象是知识集合,知识元素是组成知识集合的最小知识单元。知识集合的理论自提出以来受到不少学者的关注,本文详细阐述知识集合的研究范围,从物元模型、知识集合中的组合表示和知识集合中的相关性三方面分析知识集合的表示方式,最后介绍了物元模型在科研评价中的应用。

1 知识集合的研究范围

知识集合不是仅停留于物质的表面,而是从本质上揭示出了图书馆学的研究对象,并深化了对图书馆研究对象的研究——从图书馆转移到客观知识世界,可以说是从感性认识上升到理性认识的一个飞跃。有人认为知识集合对于图书馆缺乏专指性,认为知识集合是指对有序化了的文献库的微观描述。因此得出结论:知识集合只不过是作为文献成为图书馆的一个要素,而并非指图书馆整体。笔者认为是不贴切的。主要原因如下:

首先,这是其认识基点不同造成的结果。知识集合认为“图书馆”不是图书馆学研究的对象,“图书馆”只是一个机构的名称,它本身不能反映图书馆学研究的本质。这一点,在提出信息资源说时,已经作了精辟的论述。其次,知识集合本身是个由不同大小的知识子集组成的体系,同等级的知识集合联系起来还可以组成更大的知识集合。美国著名图书馆学家谢拉曾在阐述社会认识论时说“知识是如何发展和扩大的,这是人们特别是哲学家一直研究的一个主题,而怎样把知识安排得协调,使之成为一个完整的体系并加以利用,这还是一个几乎未被认识的研究领域”,当我们引入了知识集合的概念后,可以看到,知识的发展和扩大体系正是以集合形式构成的——也是所说的知识集合。对这个扩大体系的研究是很重要的,一般以具有机构实体形式的图书馆作为知识集合的基点,那么目前在文献资源共享的思想下发展起来的馆际合作、联机检索等,就是知识集合更宏观的研究内涵;知识集合更微观的研究内涵是知识子集,知识子集的研究就进入了对文献的知识内容与结构研究的领域,这种思想可追溯到我国古代时期的图书馆学思想,其研究重点是文献本身,即所谓“重书不重馆”,相对于对文献本身价值的研究而言,对图书馆管理等方面的学说甚少。它通常与目录学、版本学的研究融合在一起。到了图书馆学理论研究确立和发展时期,研究者则更多地是从图书馆这个机构本身出发,对图书馆进行研究。从当时对文献的定义中也可以看出这一倾向,“记录有知识的载体”这一描述着重于文献的物理形态,忽视了人们利用文献是获取文献的内容和它包含的知识。20世纪中后期,随着信息技术的发展和人们对知识。研究者的目光又重新回到文献本身包含的知识、信息上,而且,数字图书馆是21世纪图书馆的发展方向已成为研究者的共识,在国内外数字图书馆研究更成为一项社会化的研究课题,计算机专家侧重于信息技术(IT)的研究,图书馆专家则侧重于信息内容(content)的研究,这是在现代技术飞速发展的环境下,图书馆学专家应好好把握的研究方向。

总之,这种从古代基于文献研究的图书馆学研究思想发展到目前以知识集合为研究对象,可以说是一个“肯定——否定——否定之否定”的轮回。

2 知识集合的表示方式

2.1 物元模型

知识集合中的基本组成部分是知识元素,为了更好地对知识元素进行统一的存储、管理与组织,必须将知识元素逻辑地表示出来。采用可拓方法中的物元模型来表示知识集合中的知识元素,其模型建构如下:

以有序的三元组R=(N,C,V)来表示知识元,其中N表示事物,C表示特征,V表示事物关于C的量值。那么,对于N维知识元可表示为:

其中Ri=(N,ci,vi)(i=1,2,……)称为R的分物元,此时R为一个知识集合,简记为

由上可见,对于集合{R1,R2,……Rn}包含了几个组成元素,这些组成部分也可称为子集:

事物集:N (N={N1,N2,……,Nn})

物征集:C (C={C1,C2,……,Cn})

量值集:V (V={V1,V2,……,Vn})

为了更好的描述知识元的复杂多变性,引入参变量t,此时R记为R(t):

R(t)=(N(t),C,V(t))

或R(t)=(N(t),C,C(N(t))))

引入参变量物元可更方便描述事物的动态,如量变与质变,也可以描述不同特征,不同事物的相互之间的关系。

2.2 知识集合中的组合表示

可扩表示:可扩可以分为可加与可积,用表示可加,若事物N0与事物N构成聚合物N′,可记作N0N=N′;同样地,若C′=C0C则特征C′为特征C0与C之和。例如:印刷型文献是由图书、期刊、报纸及特种文献聚合而成,记为:图书期刊报纸特种文献=印刷型文献;又如:特种文献=科技报告会议文献技术标准专利文献政府出版物学位论文产品资料。

用表示可积,若事物N0和事物N可以构成系统N′,则称N为N0的可积事物,记作N0N=N′同样地,若C′=C0C则特征C′为特征C0与C之积。例如:图书馆机构是由其内部各部门组成的一个系统结构,一般包括领导机构、行政机构和业务机构三部分,业务机构通常包括采编部、流通部、阅览部、信息咨询部和技术部,可记为:采编部流通部阅览部信息咨询部技术部=图书馆业务机构。

可分表示:可分包括聚分和组分,若事物N0=N1N2……Nn,则称N0是可以聚分的,N0分解为N1,N2,……,Nn,称为事物的聚分,记作:N0/{N1,N2,……,Nn};例如:特种文献/{科技报告会议文献技术标准专利文献政府出版物学位论文产品资料};又如在《中国图书馆分类法》中,医药卫生类(R类)可分解为预防医学、卫生学,中国医学,基础医学,临床医学,内科学,外科学,妇产科学,儿科学,肿瘤学,神经病学与精神病学,皮肤病学与性病学,耳鼻咽喉科学,外国民族医学,特种医学,药学。因此可记为:医药卫生/{(预防医学、卫生学),中国医学,基础医学,临床医学,内科学,外科学,妇产科学,儿科学,肿瘤学,神经病学与精神病学,皮肤病学与性病学,耳鼻咽喉科学,外国民族医学,特种医学,药学}。同样地:农业科学/{农业基础科学,农业工程,农艺学,植物保护,农作物,园艺,林业,(畜牧、动物医学、狩猎、蚕、蜂),(水产、渔业)}

若事物N0=N1N2……Nn且N0能分解为N1,N2,……,Nn,称N0是可以组分的,记作N0∥{N1,N2,……,Nn}如:图书馆业务机构∥{采编部,流通部,阅览部,信息咨询部,技术部}

2.3 知识集合中的相关性

2.3.1 事物的相关

对两个事物N1(t),N2(t)(t为参变量),若c[N1(t)]=f[c(N2(t))]则称事物N1(t)与N2(t)关于特征C是相关的,记作:N1(t)~(c)N2(t)

例如:影响因子是一个国际上通用的期刊评价指标,它是一个相对统计量,所以可公平地评价和处理各类期刊。通常影响因子越大,期刊的学术影响力和作用也越大。具体算法为:

影响因子=该刊前两年发表论文在统计当年被引用的总次数该刊前两年发表论文总数

设N1(t)=中华外科普通杂志,N2(t)=中华泌尿外科杂志,t为时间参数t=2001年,c为影响因子,则:

[N1(t),c1,c1(N1(t))]=[中华外科普通杂志,影响因子,0.556]

[N2(t),c2,c2(N2(t))]=[中华泌尿外科杂志,影响因子,0.556]

由于c[N1(t)]=[c(N2(t))],称事物N1(t)与N2(t)关于特征C是相关的,即这两种期刊在学术上的影响力是一样的。

2.3.2 特征的相关

两个特征关于同一事物的相关:对事物N(t)的两个特征c1,c2(t为参变量),若c1[N(t)]=f[c2(N(t))]则称特征c1和c2关于N(t)是相关的。记作:c1~(N(t))c2

两个特征关于同族事物的相关:对同族事物{N}的两个特征c1,c2,若c1[N(t)]=f[c1(N(t))],N∈{N}则称特征c1和c2关于同族事物{N}是相关的,记作c1~({N})c2

例如:一个检索系统文献的组成包括4个部分:在检出文献中,与检索提问相关的文献;在检出文献中,与检索提问无关的文献;在未检出文献中,与检索提问相关的文献;在未检出文献中,与检索提问无关的文献。因此,可用检全率、检准率、漏检率和误检率来衡量检索效果:

由于c1(N)=1-c3(N);c2(N)=1-c4(N);所以特征c1与c3;c2与c4关于文献的检索效果是相关的。记作:c1~(N(t))c3;c2~(N(t))c4。另外,在检全率和检全率之间也存在着相关性,即一般来说,提高检全率会使检准率下降,提高检准率也会使检全率下降。如:提高标识的专指度,可提高检准率,但会影响检全率;若降低标识的专指度,则可提高检全率,但又会影响检准率。

2.3.3 物元的相关

对物元 R1(t)=N1(t),c1,c1(N1(t))

R2(t)=N2(t),c2,c2(N2(t))

c1[N1(t)]=f[c2(N(t))]

则称R1(t)与R2(t)是相关的,记作:R1(t)~R2(t)

(1)当c1=c2时,若c1[N1(t)]=f[c1(N2(t))],则R1(t)与R2(t)是事物相关的物元。

(2)当N1(t)=N2(t)时,若c1[N1(t)]=f[c2(N1(t))],则R1(t)与R2(t)是特征相关的物元。

3 知识集合物元模型在科研评价中的应用

现代信息网络技术的发展使得科技论文快速发表成为可能,大量的科研人员可以通过网络快速发表和传播自己的科研学术成果。国内的开放存取资源系统也涌现了如中国科技论文在线、中国预印本服务系统和奇迹论文文库的资源库。运行于2003年12的中国科技论文在线,5年的时间发展成为一个科研人员“阐述学术观点、交流创新思想、保护知识产权、快捷论文共享”的平台,共收录首发论文共26 358篇。因此共享时代论文的存在形式与传统形式大为不同,用可扩表示来表示共享时代论文的聚合形式,记为:信息共享时代的论文=期刊论文会议论文开放存取论文。

当前科研管理评价体系的缺陷与局限性。科技论文是科研成果评价的重要依据,在信息共享时代,将网络发表的科技论文纳入现有科研评价体系是必要的。设N1(t)=某期刊上的论文A,N2(t)=开放存取论文网站上的论文B,t为时间参数t=2008年,c为被引次数,则:

[N1(t),c1 ,c1(N1(t))]=[论文A,被引次数,11]

[N2(t),c2 ,c2(N2(t))]=[论文B,被引次数,11]

由于c[N1(t)]=[c(N2(t))],N1(t)与N2(t)关于特征C是相关的,即这两个论文在2008年的被引次数是一样的。可以看到,网络发表的科技论文与在期刊上公开发表的科技论文的指标存在相关,可以比较,因此将网络发表的科技论文纳入现有科研评价体系存在可操作的路径。

在科研评价体系中,不仅需要对论文本身进行评价,对于发表论文的期刊或网站也需要进行评价,在对开放存取资源进行评价时,评价的系统包括论文与网站,记作:开放存取资源的科研评价=网络发表的科技论文的评价开放存取网站的评价。对于开放存取网站的评价指标可以参照科技期刊学术标准的评价的数据指标,即总被引频次、影响因子、载文量、即年指标、论文地区分布数、基金论文比例、被引半期、自引总引比8个方面。记为:R(t)=(N(t),C,V(t))其中:C=cn={c1,c2,……,cn,……}={总被引频次,影响因子,载文量,即年指标,论文地区分布数,基金论文比例,被引半期,自引总引比};t则表示所选用数据指标进行评价的具体年份。

通过确定知识集合的物元模型我们可以建立信息共享时代的科研评价体系,进行全方面的科研评价,有利于公正、有效的科研管理。

参考文献

[1]孙倩,郭军成.关于知识集合论几个问题的讨论[J].河南图书馆学刊,2007,(1):20-22.

[2]刘兹恒,管计锁.对中国图书馆学研究对象的审视与展望[J].图书情报工作,2002,(1):45-48.

[3]门宝辉,梁川.城市环境质量综合评价基元模型及其应用[J].系统工程理论与实践,2003,23(3):134-139.

[4]蔡国梁,王作雷,黄斌,等.多指标可拓综合评价方法在城市经济可持续发展评价中的应用[J].科技通报,2005,21(4):297-301.

[5]陈广字.可拓评价方法在技术创新项目评价中的应用研究[J].工业技术经济,2004,23(5):65-71.