专用语料库在科技查新工作中的应用

关键词:科技查新;专用语料库;石墨烯

摘要:文章针对当前科技查新工作,尤其是国内外课题查新中存在的英文文献查找、中英文检索词转换、英文文献分析等方面存在的问题,提出将专用语料库技术应用于查新工作中,并以构建石墨烯类专业术语语料库为例,通过语料库分析建立领域专用词库,以期使上述问题得到解决。

中图分类号:G250文献标识码:A文章编号:1003-1588(2018)03-0109-03

科技查新是高校图书馆开展的一项重要的信息咨询业务,在科学研究、技术开发及促进科技成果转化等方面都发挥着重要的作用。然而在查新过程中,尤其是进行国内外课题查新时,查新人员往往需要找全、找准检索词,进而编制合理的检索式,找到相关文献,并对相关文献进行准确理解和把握,才能提高科技查新的查全率和查准率。

1高校科技查新的“瓶颈”

查新是科技查新的简称,是指查新机构的查新人员根据查新委托人提供的需要查证其新颖性的科学技术内容,按照一定的操作规范,做出查新结论并出具查新报告的信息咨询业务,为科研立项、成果鉴定、专利申报等提供了客观依据[1]。现阶段,各查新机构开展的查新业务主要分为国内科技查新和国内外科技查新,而查新人员普遍认为国内外课题查新的难度较大,归结起来主要包括:①文献查找。尽管当前许多查新员具备一定的外语能力,但由于查新工作往往针对的是学术性、专业性较强的领域,查新课题中涵盖繁杂晦涩的科技术语,查新员想要在庞大的外文数据库中找到所需的文献绝非易事。②检索策略。编制合理的检索式是科技查新的前提,而检索式又是由若干检索词组合而成,所以准确地提炼检索词成为提高查新质量的关键。在进行国内外查新时,查新员需根据提炼的中文检索词编制中文检索式,然后将所提炼的中文检索词翻译成对应的英文检索词,再进行英文检索式的编制。在中英文检索词的对等转换过程中,查新员通过采用一些英汉互译常用工具(见表1),找出与中文检索词对应的英文检索词。而查新员仅借助这些翻译工具,往往难以将中文检索词相对应的英文表述找准、找全。

例如“多层石墨烯”,谷歌给出的翻译是“Multilayer graphene”,而事实上其英文表述还可以是“Multilayered graphene或Multilayer stacked graphene”;再如“石墨烯薄膜”,谷歌和有道在线翻译词典均译为“Graphene films”,而查新员通过查找一些国外文献,会发现其英文表述还有“Graphene sheets”与“Graphene membranes”。由此可见,借助英汉互译工具对中文检索词进行英译,往往会造成对应英文检索词的缺失,进而导致难以查全相关英文文献。③信息分析。信息分析是指查新员将检索出的相关文献进行对比分析和综合判断,并撰写查新结论。这一阶段更需要查新员具备扎实的外文功底,通过对所查找外文文献的准确解读,提炼出与查新点可比对的那部分内容,进而做出以客观文献为事实依据的分析和判断。

在现阶段国内外科技查新工作中,查新员往往过分依赖英汉互译工具,而这些翻译工具缺少相关语境信息和相关领域知识,从而使翻译结果并不尽如人意。如果能建立一种面向查新员的科技术语专用词库,将会极大地提高查新员的工作效率。

2专用语料库的建立

2.1专用语料库的概念

专用语料库又称专题语料库(Special Purpose Corpus),是指人们出于某种特定的研究目的,只收集某特定领域的语料样本建成语料库,用于分析特定领域内语言的特点。专用语料库相较于双语语料库、多语语料库等其他类型的语料库而言,更适合作为编制专门领域工具书的理想语料[2]。

2.2专用语料库的构建意义

目前,越来越多的学者尝试将语料库技术应用于高校图书馆工作中,如:刘日升、杨振力提出以图书馆为主导的语料库资源共享平台建设构想[3],屈鹏指出图书馆应在研究开放环境下建成一套具有代表性、规模性、正确性、稳定性和开放性的科技语料库[4],王传英提出图书馆应积极构建基于双语平行语料库的信息服务平台以改善信息服务的质量和功能[5],田长斌指出应将智能语料库技术应用于智慧图书馆建设[6]。笔者认为,构建科技查新专用语料库有助于查新员快速查找中英文检索词,能够更加准确地分析、解读相关文献。

3构建专用语料库——以“石墨烯”为例

3.1语料来源

摘要作为一篇论文概要性的陈述,包含了大量该学科领域内的术语,因此笔者选用英文文献的摘要部分作为语料的来源。

3.2构建方法

3.2.1原始数据采集。语料库原始数据通过Clarivate Analytics公司运营的Web of ScienceTM平台获取。笔者以石墨烯的英文表述“graphene”为检索词,限定检索范围是摘要和标题,限定文献发表时间为2017年度进行检索(如果想获得更全面的结果,可以将时间范围设置得更大一些),共检索出目标文献12,424篇,并通过Web of ScienceTM平台导出工具将目标文献的摘要部分导出成txt格式文件,以此作为语料库生文本。

3.2.2生文本整理。生文本需要进行整理才可以进行语料库构建。笔者借助PowerGREP软件中正则表述式的编写和批量处理功能,对生文本中的多余空格、段首段尾空格、段落间空行、多余跳格、全角标点、全角字母和数字、全角空格等非标准字符进行删除或者替换。

3.2.3分词。英文书写中缩写的情况会使原本独立的两个词连接为一个词(如I am缩写为I’m),在语料库分析过程中会将这两个词当作一个词进行处理,影响分析的可靠性。笔者采用梁茂成等人编写的《语料库应用教程》中提供的自动分词工具Tokenizer進行分词[2],拆分文本中的缩写,保证统计结果的准确性。完整的语料库建库过程还包括在分词之后进行的词性还原和词性赋码。由于笔者只是利用语料库技术构建查新专用词库,因此可以省略这两个步骤。

3.2.4语料库分析。笔者采用AntConc软件进行语料库分析,将建立好的语料库文本导入软件中,以选定的“graphene”作为中心词,在“Word List”选项卡中进行词表检索,检索前勾选“Search Term”选项中的Regex复选框,以便在检索中获得“graphene”的各种变形。AntConc词表检索结果显示,除了功能词“the”“of”“and”等,“graphene”是出现频率最高的实词,这说明建立的专用语料库具有可用性。笔者仍然以“graphene”为中心词,在“Collocates”选项卡中进行左右邻近词的检索,左右跨度均设置为1(1L和1R),即表示检索中心词左侧和右侧最邻近的一个词所构成的词表,最小出现频率设置为1,得到AntConc邻近词检索结果。从该结果中选取有意义的实词进行分析,除了可以获得那些与“graphene”最常搭配的邻近词信息,还可以通过罗列词语搭配情况找出同一中文含義下的不同英文表述。为了进一步提高分析的全面性,笔者在“Clusters”选项卡下以“graphene”为中心词,设置词簇长度在2~4范围内进行词簇表的检索,得出AntConc的词簇检索结果,从中可以看出仍然有很多无意义的词簇搭配,笔者只选取其中有意义的实词搭配进行分析。结合该结果与上文中的邻近词分析结果可以进一步完善与“graphene”有关的检索专业词库。表2为最终构建的石墨烯类材料专业词库(因篇幅所限,表2展示的仅为所建词库的一部分),可应用于“石墨烯”相关领域的课题查新中,查新员可借助该词库进行检索词查找、检索式编制、相关文献分析等工作。与其他英汉互译工具相比,该词库储备的词汇更完整,释义更准确。

4结语

笔者通过分析现阶段国内外课题查新中存在的问题,尤其是英文检索词查找、英文文献解读等难题,提出将专用语料库技术应用于查新工作中,并以构建石墨烯类材料专业术语词库为例,旨在辅助查新员更加高效、准确、全面地检索及解读专业领域英文文献,进而提高科技查新的查全率和查准率,最终向查新委托人出具一份准确、高质量的查新报告。

参考文献:

[1]霍仲厚,刘胡波.医药卫生科技查新教程[M].北京:军事医学科学出版社,2005:3.

[2]梁茂成,李文中,徐家金.语料库应用教程[M].北京:外语教学与研究出版社,2010:4.

[3]刘日升,杨振力.语料库资源共享平台建设构想[J].大学图书情报学刊,2012(2):46-49.

[4]屈鹏.开放环境科技语料库质量评价研究[J].情报理论与实践,2016(5):79-85.

[5]王传英.基于双语平行语料库的信息服务平台建设[J].图书馆工作与研究,2010(12):79-82.

[6]田长斌.智慧图书馆中的智能技术应用研究[J].河南图书馆学刊,2017(9):62-64.

(编校:崔萌)