数字人文中的文本挖掘研究

摘要概述数字人文的概念、研究内容和现状,指出文本挖掘方法是数字人文研究的一个研究热点与趋势。在综述文本挖掘在数字人文各个研究领域中的具体应用基础上,重点介绍欧美发达国家文本挖掘应用于数字人文研究的前沿实践,以期为我国人文学科研究方法与范式的转型提供借鉴。

关键词 文本挖掘 数字人文人文研究

1引言

近年来国内数字化的浪潮越来越猛,各种古籍数字化、文献数据库建设的项目层出不穷。计算机技术与网络技术已经逐步深入到人文研究的各个领域,有效提升了人文研究各个环节的效率。尽管数字技术与人文学科的结合让我们看到了数字技术在人文科学研究中的巨大价值,然而就目前的情况来看,人文研究中利用数字技术的手段还比较单一,大都停留在人文资源的简单组织、检索与利用,缺乏对现有资源的深度分析和挖掘。国外在数字技术与人文研究交叉结合的研究领域形成了一个新的学科:数字人文,所取得的成果值得重视。数字人文学科从一个新的理论高度看待数字技术与人文研究的关系及其带来的影响。它为人文研究者提供了新的工具和平台,对海量的数字资源进行组织、标引、检索、挖掘和分析利用。在这样的背景下,本文在简单介绍了数字人文学科的概念和现状后,论述了数字人文的一个重点研究趋势是对海量数据的分析,而新兴的文本挖掘方法由于其能有效处理海量文献,处理非结构化数据以及较高的研究品质而成为网络时代数字人文研究中很有前景的研究方法。文章接着重点分析了文本挖掘方法在数字人文研究中的典型应用,介绍了欧美发达国家把文本挖掘方法应用于人文学科的一些前沿的研究项目,以期加快我国人文学科研究范式的升级和转型,促进我国人文学科的飞跃发展。

2数字人文:概念、现状与趋势

2.1数字人文概述

数字人文(Digital Humanities),又称作人文计算(Humanities Computing),是一个将现代计算机和网络技术深入应用于传统的人文研究与教学的新型跨学科研究领域。其产生的背景主要是由于海量的图书、期刊、报纸、照片、绘本、音乐、视频等人文资料的数字化,尤其是数字图书馆的迅猛发展。面对海量的数字文本,研究者急需新的工具和平台对之进行组织、标引、检索、挖掘和分析利用。数字人文是一个典型的文理交叉领域,研究项目和研究团队常常既包括传统人文领域(哲学、历史学、文学、语言学、艺术学、人类学等)的研究者,还包括精通计算机技术和多媒体技术的专家学者。在这两类人员的协作下,诸如数字仓储、文本挖掘、多媒体出版、数字图书馆、信息可视化、虚拟现实、地理信息系统等多种信息技术开始在人文领域得到深入应用。数字人文研究的核心在于通过将研究对象数字化以支撑、保障和创新人文科学研究的内容、方法和模式,研究对象包括各种可计算的基础数据对象,如自由文本、格式化数据、图像、声音等。针对这些数据进行的计算包括文本分析与检索、地图可视化、音视频检索等。数字人文的方法随着信息技术的发展而不断变化,因此其研究边界相对不固定。

2.2数字人文研究现状

2.2.1国外

国外数字人文的研究早已形成非常清晰的学术共同体。各种数字人文研究学会和专门的研究机构在国外已经非常普遍。多项数字人文研究项目和成果获得了国家层面的资助与学界的广泛关注,并取得了较大的反响。现在该研究领域形成了一个国际数字人文组织联盟(The Alliance of Digital Human-ities Organizations),由人文计算领域影响力最大的三个组织组成:文学与语言学计算协会(Associationfor Literary and Linguistic Computing)、人文领域计算机应用联合会(The Association for Computersin the Humanities)和数字人文学会(The Societyfor Digital H umanities|Socifit6 pour l""6tude desm6dias interactifs)。该联盟每年召开一次数字人文年度大会,由北美和欧洲的高校和研究机构轮流举办。

从数字人文的实践来看,全球范围内的数字人文研究中心已经不下50家,主要集中在欧美日等发达国家,其中较为知名的研究机构有:伦敦国王学院的人文计算研究中心、美国斯坦福大学的人文实验室、马里兰大学的人文技术研究机构、伊利诺伊大学的科学与学术情报研究中心以及日本立命馆大学的京都数字文艺研究中心等。很多项目和研究机构都得到了国家级和专业机构的基金资助。

2.2.2国内

“数字人文”这个概念在国内尚是一个新鲜的术语概念。据中国教育部社科司统计,大陆教育系统内有729家人文研究机构。但是到目前,专门的数字人文研究中心只有武汉大学2011年刚成立的一家。中国国家自然科学基金和国家社会科学基金及教育部人文社科基金尚未资助过以“数字人文”为主题的研究项目,目前也没有以“数字人文”为主题的连续性研讨会。

尽管没有使用“数字人文”的名称,许多高校和研究机构早已开展了“数字人文”研究,如中国社会科学院的地理信息服务平台系统;南京师范大学虚拟地理环境实验室的华夏家谱GIS平台;中国艺术研究院的西北人文资源环境基础数据库;北京大学的中国基本古籍库;首都师范大学国学传播中心的古籍电子定本工程等。这些数字人文项目为人文学科提供了基础数据保障和简单分析工具,大大方便了人文学科的研究过程。可见在数字图书馆建设浪潮的推动下,大陆的数字人文项目尤其是人文资料专题数据库建设取得了非常突出的成绩,且大部分人文学科已经采用计算机技术和网络技术进行人文资料的数字化整理、分析和展示。

但是就现状来看,对相关信息技术的使用还处于比较初级的水平。大部分的项目还停留在传统文本的数字化、数字作品的保存和简单分析与展示层面,尚未有项目针对已有的海量人文资源,挖掘其中更深入的知识和模式。

2.3数字人文的研究趋势

数字人文是一个快速发展中的文理交叉学科,已经在多个研究分支取得了丰富的成果。如在历史学方面的基于GIS的历史地理可视化;在文学方面的文本挖掘与TEI标准;在语言学方面的基于大型语料库的语料库语言学;在舞蹈方面的视频捕捉、运动分析与虚拟现实再现;考古学方面的图像分析、色彩还原和数字重建等。随着数字图书馆的发展和互联网数据的激增,每一个学科公开文献的品种与数量都越来越多。人们不但无法阅读一个学科或主题的全部文献,甚至无法浏览或知晓一个学科或主题的全部文献。面对海量文献,常规的阅读和分析已经无法应对内容稀薄而数量庞大的文献了。在这样的形势下,处理海量数字文献成为数字人文研究众多分支的共同目标。