杭州档案 > 档案学会 > 学术论文
文字: 大  中  小     打印
新技术条件下对档案检索语言的思考

上传时间:2006年07月17日 )

 

为提高档案检索工作质量,在档案检索中通常使用专门的检索语言,将检索提问转换成规范的检索标识,实现标引用语和检索用语的准确匹配,保证高质量的完成检索过程。但是,二十世纪后期以来由计算机技术和通讯技术组成的信息新技术编织出一个超强功能的数字化世界,使档案工作产生了众所周知的大变革。档案检索由手工向计算机转换,并逐渐脱离了簿式目录加卡片的时代,利用者只需摁动键盘、轻点鼠标便可自由地检索所需的档案信息。档案馆(室)花费大力气著录、标引并编排的分类目录和主题目录柜子上逐渐蒙上了层层灰垢,有些馆虽把分类目录、主题目录录入数据库,也因分类检索语言、主题检索语言太具专业性而乏人问津。“看似技术的成果,带来的却是一场全方位的改变人们思维和生存方式的翻天覆地的革命”。①事实表明,检索语言虽曾在档案检索中起着非常重要的作用,但新技术因素的导入打破了档案利用者和档案管理者之间的时空界限并引发了档案检索方式的悖论,使档案工作者不得不重新思考检索语言在档案检索中的存在必要、应用前景和发展方向。

回顾----检索语言在档案检索中的运用

长期以来,为满足档案提供利用的需要,档案工作者倾注大量心血,规范文书分类、立卷,对档案进行分类、整理、排架,想方设法提高检索能力。但随着档案馆(室)档案数量不断增加,档案内容日益丰富,试图从全宗的划分、全宗内档案的分类、案卷内档案的排列等方面提高检索能力的希望越来越成为一件渴望而不可及的事,检索能力也日益成为衡量一个档案馆(室)管理水平的重要标志。在此背景下,超越全宗、年度、问题、组织机构、保管期限等档案实体保管秩序的档案信息组织方法应运而生,并在实践过程中逐渐形成了分类法和主题法两大检索语言,建立了分类和主题两大检索系统。对于原先只能按全宗、目录或类别、案卷和文件为途径的检索工具而言,不能不说是一个巨大的进步。

就目前来看,无论是“以不同时期的国家机构、社会组织从事社会实践活动的职能分工为基础”②而编制的《中国档案分类法》,还是“选收20世纪初叶以来,反映政党、政府机关各项管理工作内容的名词,党政公文中经常涉及的政治活动、科学研究、生产技术、经济建设等方面的名词术语,以及反映新事物概念的专用名词”③而编制的《中国档案主题词表》,其作用主要体现在以下几个方面: 1.检索语言的单义性有效提高档案信息的查全率和查准率。自然语言作为我们日常生活口头和文字表达中使用的语言,由于不同地域、不同文化背景、不同时代、不同习惯等因素,经常表现为一词多义或一义多词。譬如“警察”,习惯上的和历史上的名称还有“民警”、“公安”、“巡捕”等。如果这种情况出现在检索过程中,就会造成匹配误差。而检索语言则完全不同,它是一种人工语言,又是一种受控语言,每一个分类号或主题词都有特定内涵,从而达到一词一义的效果,实现标引语言和检索语言的准确匹配,有效提高查全率和查准率。2.标引的多维性有助提供多途径检索。无论是分类法还是主题法都可以运用组配标引的方法为档案内容主题编制不同的检索标识,并通过卡片的分类编排,为人们查找某一主题的档案提供多途径检索。值得注意的是,这种多维性还体现在对档案内容隐含主题的标引和检索上。3.检索语言的逻辑排列有助满足族性检索需求,有效实现扩检和缩检。每一种检索语言都以其特定的体系或其他专门方法揭示检索标识之间的逻辑关系,如分类法采用等级结构,形成从总到分,从一般到具体的逻辑体系,主题法则采用族性索引、参照系统等,使一部检索语言形成一个总的概念体系,从而有效满足对档案内容族性检索的需求,并利用等级关系实现扩检和缩检。这些因素有力地促成了检索语言在档案检索中的广泛应用。

现状----新技术引发的档案检索方式的悖论

步入1990年代以后,由计算机技术和通讯技术互相结合基础上构建的数字式电子网络,以不可阻挡之势席卷全球。计算机技术以其高速的逻辑运算、多元化的组合检索能力,为信息的自动化检索开辟了广阔前景。通讯技术则将分散在不同空间的信息资源以数字方式存储,通过通讯网络互相连接,形成了跨越时间、空间、文化、语言的全新信息传播方式,消除了信息传递和交流的时空障碍,在信息实现社会共享的同时,使信息的远程检索成为可能。新技术深深诱惑并激励着刚刚步入开放状态的档案工作者,并为她们实现档案信息资源的自动化检索和远程检索带来了前所未有的契机。经过十年左右的努力和发展,国内大部分档案馆建立了内部局域网,部分档案馆还把档案信息接上了广域网,同时陆续将档案目录、档案指南甚至档案全文搬上了网络。在网络环境下检索档案信息,操作简便、过程瞬间完成、途径多元且可以自由组配、利用通讯网络还可异地检索,另外检索结果可根据需要随意变更输出格式。可以毫不夸张地说,一台计算机终端足可替代以往的各种检索工具。

然而,计算机的检索能力并非与身俱来,其能力的发挥取决于档案工作者对新技术的开发程度和应用水平,取决于前期档案基础工作中档案信息的有效组织。而目前问题的核心和关键环节是信息资源的有效检索正面临着新的课题。

先让我们重温一下传统技术条件下检索的一般模式:用户提出检索需求,档案工作者分析利用需求,档案工作者向用户提供簿式检索工具由用户自行完成检索〖或者档案工作者将分析结果借助检索语言转换成规范化的检索标识并通过卡片式检索工具(主要是分类目录、主题目录等)进行相符性比较完成检索〗。显而易见,传统技术条件下,检索过程始终有档案工作者的影子,特别是在利用检索语言进行检索时,档案工作者更是取着不可或缺的中介作用。

而在新技术条件下,伴随着检索环境从现实空间扩展至虚拟空间,检索模式逐渐由档案工作者辅助检索向用户自助检索发展:用户自行分析利用需求,用户将需求转换成概念,用户通过局域网(或广域网)利用计算机组配检索功能完成检索。从这一过程可以看出,档案工作者辅助检索功用的逐渐淡出,使用户在享受计算机检索高速、远程便利的同时,又陷入了一个无奈的泥淖,要么在电脑上一个全宗一个全宗如同翻阅簿式目录那样换汤不换药地浏览,要么通过自由词模糊检索无奈面对不可预测的查全率和可预测的高企的误检率。原因看似简单却耐人寻味,仅仅是档案工作者不可能要求用户熟悉极具专业性的分类法和主题词。也因为这个原因,新技术的应用使分类法、主题词等检索语言在档案部门渐受冷遇、风光不再,沦落为一块实实在在的“鸡肋”。

新技术带给档案界的变化确实很多,或许这具有小小悖论色彩的检索方式,仅仅只是这“厚礼”的一部分。人们依赖网络,是因为她的快节奏,而效率显然是衡量她的质量标准,只有建立高效的网络档案检索系统,才能够对用户有足够的吸引力,利用和开发档案信息才成为现实可能。

展望----架起沟通的桥梁

问题变得简单而清晰:新技术条件下档案检索语言是否还有存在必要?笔者以为,检索语言在我国档案检索中的应用有着悠久的历史,适用范围比较广泛。经过长期探索,积累了丰富的实践经验,又有比较系统的理论,《中国档案分类法》、《中国档案主题词表》均已修订两次。其理论和实践已为档案工作者所熟悉和理解,同时在不少档案馆(室),取得了良好检索效果。仅仅因为档案馆(室)新技术的应用,管理的科学化,就削弱甚至取消检索语言的看法是不够全面的,也不利于档案检索业务工作的发展。“就科学发展而言,悖论的发现和解决俞益成为一种重要的推动力量。”④也许正确的态度是,寻找一条将极具专业性的分类、主题检索语言适用于网络档案检索系统的方便之路。

基于这样一个前提,笔者就如何将检索语言适用于网络档案检索系统谈谈个人粗浅的设想。首先,主题法取代分类法。笔者主要从以下几方面考虑:1. 随着档案检索从档案工作者辅助检索向用户自助检索发展,减少极具专业性的检索语言数量,对自助检索方式而言无疑会减少用户适应检索语言的时间。2. 按词检索是人的习惯,主题词显然比分类号更人性化,更符合人的检索需要。3.《中国档案分类法》针对清代、民国、新民主主义、中华人民共和国四个不同时期所形成的档案,内设互不相容的四个表,为四种档案混合检索设置了事实上的障碍。4.《中国档案主题词表》经过第二次修订,主题词的数量增加了,同时主题词表中词族索引、参照系统的完善弥补了主题法部分缺陷,满足了用户按类检索和族性检索的需求。5.由于两种检索语言标引难度和目录编排难度不一,它们在档案馆的使用差异很大,档案馆工作人员普遍使用分类号,主题词基本无人问津。但是,在各机关文书处理部门,由于多年以前,公务文书在拟写过程中按规定标引主题词⑤,使新生成的文件在转化成档案之前即已拥有了主题检索标识。也就是说在新进馆的档案中,每份档案都已经标引有主题词。虽然,档案馆使用分类检索语言较普遍,但以发展的眼光来看,在档案事业的主体档案馆,主题词标引的压力远较分类号来得小的多,因为它对于基础工作繁重的档案馆来说只是一个存量。

其次,以主题词库为基础,增加与主题词匹配的关键词数量,建立既独立于主题词库又跟主题词密切关联的关键词库,作为沟通利用者使用的关键词和受控语言主题词之间的桥梁。前面我们谈到检索语言之所以在用户自助检索时代备受冷落,其实原因很简单,一是检索语言的专业性不可能要求用户在查档前去掌握,二是用户检索使用的自由词无法和主题词建立起某种关联。基于这种考虑,笔者提出以下设想:

1档案部门在计算机系统内建立主题词库、关键词库及彼此的关联。举例:

主题词库:主题词,如银行存贷款等信用活动的总称“信贷”。

关键词库:增加与主题词“信贷”匹配的现实生活中习惯的名称作为关键词,如“贷款”、“借款”、“放款”等表示同一概念的词汇。

在主题词库的主题词和关键词库的关键词之间建立关联。

2.用户的检索过程。举例:

如用户键入“贷款”检索相关档案信息,关键词库负责分析用户检索用语,将“贷款”相关的主题词“信贷”、主题词“信贷”的词族索引等提示给用户,用户根据提示的主题词完成检索或族性检索。

显然,关键词库的建立一方面起到了用户与主题词间桥梁的作用,另一方面理论上也为计算机进行主题词自动标引提供了可能。

   以上是本人在档案手工检索向计算机检索转变过程中,对档案检索语言尴尬境遇的一些粗浅想法,不避谫陋,希望有助于推动检索语言的研究,并使笔者因得到同仁的指点而有所受益。

①王健:《网络狼烟》,《21世纪的社会记忆》,2001年,第39页。

②中国档案分类法编委会:《中国档案分类法》,档案出版社,1997年。

③中国档案主题词表编委会:《中国档案主题词表》,档案出版社,1995年。

④张建军:《科学的难题――悖论》,浙江科学技术出版社,1990年版。

见《中国共产党机关公文处理条例》、《国家行政机关公文处理办法》。


     [关闭窗口]