中国第一历史档案馆所藏的上千万件明清档案是清史研究的重要资料。为了给研究人员提供更好的服务,目前,明清档案目录数据库已经正式提供利用。
根据明清档案形成和利用的特点,明清档案在采用分类法揭示文件内容时进行著录标引。在进行数据检索时,利用者可以通过分类号对档案内容进行系统的检索。分类法的特点是适用于族性检索,查全率高。明清档案数据库还可以通过题名内关键词对档案内容进行检索。题名内关键词具有主题词和自然语言的特性,用关键词检索在一定程度上可以起到主题词检索的作用。本文将以乾隆朝录附奏折数据库为例,通过实例分析的方法,探讨题名内关键词的作用及使用方法。
通过分析利用者对档案内容的检索需求,我们大致可以把检索需求分为以下几类:专题类检索、事实类检索、人物类检索和事件类检索。下表列举的是这四个类别,及各类分别对应的一个检索题目。
检索目标 |
题 目 |
人名、地名类 |
乾隆时期的张廷玉 |
事实类 |
清代台湾粮价 |
事件类 |
攻打大小金川 |
专题类 |
清代铸币 |
一、 对人名(物名)、地名类的检索
(1)人名检索
人名的直接检索入口有两个:责任者和题名。两者的作用不同:从责任者查找到的档案是其个人上奏疏的内容,从题名查找到的档案内容则为有关此人的档案。
例如利用者手工查找有关张廷玉档案,找到14件责任者为张廷玉的奏折,这些都是张廷玉上奏的奏折,而没有查找到张廷玉的个人档案。于是利用者首先利用计算机数据库进行责任者=为张廷玉的检索,结果为命中36条。然后,再使用题名查找,检索式为:“题名‘包含’张廷玉”,检索到2条记录:
1.大学士鄂尔泰奏折,题名为“奏为奉谕将云贵广西三省递到事件交张廷玉阅看事” ;
2.吏部奏折题名为“咨查张廷玉曾赏何项世职事”。
检索人名,一般是从查责任者或官职爵位入手,用此方法查找出的档案系此人所奏的奏折,查找有关此人内容的档案则较困难。如检索到的第二条为有关张廷玉的档案,这种类型档案检索用题名查找则很方便。
(2)物名检索
物名检索入口有两个:分类号和题名。从分类号查找物名,要根据名称所表示的类别查找到相应的分类号,如寺庙建筑要在J15中查找,图书要在K12中查找,要求利用者有归类分析的能力。从题名中查找物名与从分类号中查找作用相同。在操作上,从题名中查找物名因不涉及分类转换,直接用名称检索,比较方便。从检索结果比较,分类检索的结果是较多细类目的集合,用题内关键词查找则直接命中关键词所表示的内容。例如,利用者查找有关北京妙应寺(西四白塔寺)的资料,在没有查找到的情况下,请利用者用计算机在数据库中检索。
检索方法为:
首先,按分类号检索。查找分类号为J15(寺院及财产),在检索结果28条记录中,没有有关妙应寺的内容。其中地区号为11(京师地区)的也为0。挑选3条题名如下:
1.奏为知会军机处潭柘岫云寺等处御笔诗画事;
2.呈报热河布达喇庙生息银两数目事;
3.奏报请将五台山各处山场查明立界一切树木变通砍放事。
其次,使用题内关键词查找,检索表达式为:“题名‘包含’妙应寺”。检索结果为2条记录,题名如下:
1.工部左侍郎奏折“奏报妙应寺失火并自请设罪赔修事”,地区为京师地区。E32;
2.舒□□奏折 “复奏妙应寺失火事”,地区为京师地区。E32。
我们看到命中记录的分类号都为E32(案件审判)类,利用者通过分类表不易查到这个类别,因此容易漏查。通过题名检索则直接命中有关妙应寺的档案。
(3)地名检索
地名检索有以下两种情况:
首先省级地名可以有两个检索入口:地区复分号和题名关键词。用分类号查找需使用地区复分号,如京师地区为11。因地区复分号只有28个,检索比较简便。用题名关键词检索地区的作用与地区复分号一样。
其次省级以下地名检索只有一个直接入口:通过题名内关键词检索。
例如,查找临潼地区的档案。首先,按分类号查找。检索表达式为:“地区号=63(陕西)”。检索结果为4028条。由于数量太大,从其中找出临潼地区的档案很困难。再用题内关键词查找,表达式为“题名‘包含’临潼”。命中5条,题名如下:
1.奏请以西宁令与临潼令对调事;
2.奏请以拉萨礼调临潼令事;
3.奏请将吴忠诰调补临潼令事;
4.奏报遵旨派员押解永常案内有关职名赴临潼审明事;
5.奏请将朱学濂调补临潼令事。以上五条均为陕西巡抚或陕甘总督上奏的奏折。
由以上题名看到检索结果为利用者所需的内容。省以下府、州、县地名的检索(如陕西以下的西安府、耀州州、临潼县),因没有分类标引,可以使用题名关键词检索。西安府检索结果为238条记录,耀州检索结果为5条记录。
下表为人名(物名)、地名检索入口表:
|
责 任 者 |
分 类 号 |
题 名 |
人名 |
直接检索 |
间接 |
直接检索 |
物名 |
|
直接检索 |
直接检索 |
地名(省级) |
|
直接检索 |
直接检索 |
地名(省以下) |
|
间接 |
直接检索 |
以上实例表明:
1.利用题名关键词查找档案内的人名(物名)、地名等专指度非常高的项目,直接、便捷,查准指标很好。
2.由于题名关键词是自由标引,题名本身也不作为统一的标准格式著录,同时题名的质量由于著录人员的水平不同存在差异。因此题名内关键词检索查全率较低。
二、 事实类
例如,检索“清代台湾粮价”:
查分类表得知,雨水粮价分类号为T11。首先用T11进行检索,表达式为:“分类号A=T11‘并且’地区=41”,检索结果命中115条。其中5条题名如下:
1. 复奏漳泉二府粮价平减事;
2. 奏为海口米粮通运事;
3. 奏陈台湾谷价情形事;
4. 奏报冬季米价及台郡平粜各情形事;
5. 奏报闽浙两省雨雪粮价情形事。
分析这些题名看到台湾是地区分类号41(福建)下面的一个地区,要准确查找到台湾地区的档案,只能通过题内关键词查询。
接下来用题内主题词进行检索,选台湾、谷价、米价、粮价同时检索,表达式为:“(题名‘包含’台湾)‘并且’[(题名‘包含’粮价)‘或者’(题名‘包含’米价)‘或者’(题名‘包含’谷价)]”,检索结果命中26条(其中包含分类号为T11的8条)。分类号分布情况如下表:
E15 |
E21 |
F25 |
M32 |
P13 |
T11 |
1 |
1 |
1 |
2 |
13 |
8 |
将分类为T11以外的各类记录各举一例,题名如下:
1.奏报台湾得雨并被风米价情形事 E15;
2.奏报台湾民番安贴及收成粮价等事 E21;
3.奏报查访台湾番社匿藏鹿枪并民情米价等事 F25;
4.复奏粮价情形并招商贩台湾仓谷及采买川米平粜情形事 M32;
5.奏报台湾晚稻收成分数及米价事 P13。
由关键词检索,我们看到:
a)结果分布最多的类是在农业P13(农作物)和商业T11(商品、物价)中。
b)除P13、T11以外的其它类的记录(5条)都是含有多个主题词的情况,如奏报灾情及粮价、奏报原住民情形及粮价、奏报粮价及商业情形等。它们的第二或第三分类号都有P13或者T11。这证明P13、T11两个分类已经包含全部粮价的内容。
根据检索结果用P13、T11分别与关键词“台湾”做组合查询:1)检索式为:“分类号=P13‘并且’题名‘包含’台湾”结果为命中37条。2)重复做T11与“台湾”组配检索,结果为命中26条。
最后的检索结果为:P13类37条、T11类26条,共63条。
在这个查询中,有关粮价的档案全部集中在P13、T11类中。因为这类问题的档案在形成时非常有规律,在分类标引时概念明确不易出现标引错误。
检索步骤小结:首先在分类表上查找到反映“粮价”的分类,然后使用分类号进行检索。观察检索结果以选出关键词,再交替使用分类与地区组合查找和关键词与地区组合查找,保证得到较全面的检索结果。
在上述过程中,关键词检索的主要作用是查看含有粮价的档案分布在哪些分类号中,判断其它类中是否含有此类内容。然后选分布较多的类目号再进行多条件组合检索。其次,关键词“台湾”起到地区限定的作用。
三、事件类
例如检索有关攻打大小金山的档案:
首先,按分类号查询,检索分类号为F7(民族重大事件)的档案,结果为命中3935条记录。
然后,用题内关键词“金川”检索,表达式为:“题名‘包含’金川”,检索结果为539条记录。其中分类号分布在42个类目中,分布情况如下表:
类目 |
记录数 |
类目 |
记录数 |
类目 |
记录数 |
A12 |
1 |
D34.02 |
65 |
F22 |
1 |
B11 |
1 |
D34.04 |
2 |
F24 |
19 |
B12 |
2 |
D42 |
2 |
F25 |
1 |
C121 |
1 |
D62 |
1 |
F35 |
1 |
C132 |
2 |
E14 |
1 |
F41 |
1 |
C133 |
1 |
E329 |
1 |
F7 |
391 |
C134 |
2 |
F121 |
1 |
G11 |
1 |
C15 |
1 |
F125 |
2 |
G18 |
1 |
D221.04 |
1 |
F134 |
1 |
J13 |
3 |
D232.02 |
2 |
F135 |
5 |
J14 |
1 |
D234.02 |
1 |
F15 |
2 |
K12 |
1 |
D235.02 |
2 |
F17 |
1 |
M11 |
1 |
D27.02 |
1 |
F191 |
1 |
M17 |
6 |
D31.02 |
2 |
F2 |
1 |
P17 |
1 |
D33.02 |
1 |
F21 |
2 |
W34 |
1 |
数量排在前五位的分类号:F7命中391条记录,D34.02命中65条记录,F24命中19条记录,M17命中16条记录,F135命中5条记录,各选一条题名如下:
1.奏报九土司遵旨奉宣谕后会攻金川情形事 F7;
2.奏明札知富勒浑将投顺金川之兵丁张金鉴之妻子查拿监禁事 D34.02;
3.奏报办理杂谷等七处土司与大小金川互相争战情形事 F24;
4.奏报长芦山东商人愿捐输银九十万两以资攻打金川事 M17;
5.奏请将汪尔结安插于化林坪并巴底土舍丁足与金川等各土司之关系事 F135。
此案与金川有关的地区分布为17个省和边地,分布情况如下表:
地区 |
记录数 |
地区 |
记录数 |
地区 |
记录数 |
00 |
10 |
33 |
2 |
71 |
2 |
12 |
1 |
41 |
2 |
72 |
2 |
13 |
1 |
51 |
11 |
81 |
3 |
14 |
1 |
52 |
3 |
82 |
7 |
31 |
3 |
61 |
2 |
93 |
1 |
32 |
1 |
64 |
484 |
|
|
数量为前五位的是:64:484条,51:11条,00:10条,82:7条,81:3条,各选一条题名如下:
1.奏报择定进攻小金川日期并分派各路兵力事 64;
2.奏讯自金川逃出之湖北郧阳协兵丁屈全供单 51;
3.著令严饬各省缉拿金川逃兵事 00;
4.奏讯自金川逃回之贵州兵丁涂得仁供单 82;
5.奏报乾隆四十六年滇省查缉金川逃兵情形事 81。
民族分布情况如下表:
民族 |
记录数 |
04(藏族) |
427 |
33(羌族) |
8 |
其中二条记录题名如下:
1.奏报办理杂谷等土司仇杀大小金川情形事;
2.奏报办理小金川土司退还所占必危满等地方及各土司争执情形事 。
由上述检索结果可以看出:分类结果为42个,覆盖17个省,涉及两个少数民族。这是由于攻打大小金川件是一个非常重大的事件,具有时间跨度长,涉及国家政治、军事、经济等各个方面的内容的特点。基于这个特点,用分类检索的同时,再用关键词辅助检索就非常重要。单用分类检索,不能将分类类目都进行检索。关键词检索可以在分类的基础上扩大检索;可以揭示事件在各类档案中的分布情况,为进一步分类检索做指引。
检索步骤小结:
1.检索分类F7,命中3935条。
2.做进一步的分类检索(包括地区、民族、时间等):F7并且04并且64,命中2977条。D34.03并且04并且64,命中44条。
3.选“金川”做题内关键词检索,检索结果:539条,共包含42个类目。这反映了包括42个类目中有关攻打大小金川事件的记录。
最后的检索结果为:F7和D34.02两个类的分类检索3021条(其中有金川事件的内容,也有其它的内容),关键词检索539条(其中F7为391条、D34.02为65条,83条为其它类)。
在此例中,利用关键词检索的结果分布在42个类目中,表现出利用关键词检索具有将分散在不同类目中的同一主题聚集在一起的功能,如果仅用分类号检索,只能查找到两个分类号所包含的记录。其它类中所含83条档案,则会漏检。
四、专题类
例:查找有关清代铸钱的档案
首先,按分类号查询检索分类号为N12(货币制造)的记录,检索结果为2776条。其中5条题名如下:
1. 奏明委员先期发运京铜开修运道情形事;
2.奏请饬令云南督臣命鼓铸钱文官员照京钱搭配铜铅事;
3.奏报滇省运钱船开行日期事;
4.奏报筹办制钱以利民用事;
5.奏报查明铜厂井盐事。
由题名看到N12类目下的档案包含多个货币制造的下位的概念。有反映铜、铅、锡等原料的矿产和运输问题、有关铸钱的各种问题:铸炉问题、铸造问题、各管理机构等问题。除了铸钱,分类号N12还包含了其它概念的问题。
要实现查找到有关铸钱问题的档案,还应进一步进行检索。但是明清档案分类法中N12是最低层的类目,使用分类号检索不能再进行细分,进一步检索必须使用题内关键词检索。选择鼓铸、铸钱、制钱等相关关键词检索,检索表达式为:“题名‘包含’铸钱‘并且’题名‘包含’鼓铸‘并且’题名‘包含’制钱”,检索结果为命中245条记录,其中N12类命中193条。见下表:
类目 |
记录数 |
类目 |
记录数 |
类目 |
记录数 |
C121 |
2 |
E328 |
4 |
N2 |
3 |
C14 |
1 |
M31 |
6 |
P13 |
1 |
C214 |
2 |
M32 |
1 |
Q12 |
3 |
D33.02 |
1 |
N1 |
1 |
Q13 |
1 |
E16 |
11 |
N11 |
2 |
R51-44 |
2 |
E32 |
1 |
N12 |
193 |
|
|
E324 |
1 |
N13 |
7 |
|
|
选5条题名如下:
1.奏报铸钱有余毋庸再截留江西铜铅事 N12;
2.奏报增价收买商船招商开采以利鼓铸钱文事 N12;
3.奏报加铸钱文预筹采买铅锡事 N12;
4.奏为改配白铅鼓铸钱文事 N12;
5.奏报减轻制钱重量加铸钱文事 N12。
检索小结:以“N12”分类号检索的结果为:命中2998条记录,用“鼓铸、铸币”等关键词检索为193条N12类的记录。即在检索到的N12类2998条记录中关于鼓铸、铸币事项的档案有193条记录。题内关键词在这里起代替细分分类号的作用。
从表7看到,此检索内容最集中的类目是N12,为193条,其次是E16为11条,N13为7条,M31为6条。
通过以上的四个检索实践,可做如下小结:
(一)检索方法:
1.单独通过分类检索往往不能检索完全,要用题内关键词辅助检索。因此对一个题目进行检索时,最少要进行一次分类检索和一次题内关键词检索(实际上要反复进行多次)。根据检索题目的特点逐步修改条件,接近目标。
2.进行分类检索后,既要注意类目下所包含的细类情况,还要注意每个细类所用的关键词;进行关键词检索后,应注意档案的分类号分布情况,然后依据所观察的结果作下一步检索。
3.选择题内关键词很重要。首先,所选词汇应一定是清代档案中使用的词汇。其次,因档案使用的是自然语言,同一概念会用许多不同的词汇表达,检索一个概念时要将表达这个概念的词汇搜集全。
(二)题名内关键词在检索中的作用:
1.题内关键词在检索人名、地名这种专指度很强的事物时查准率非常高。
2.在分类检索中,有些问题牵涉很多类目。使用分类表索引查找不便,通过题内关键词查找可以找到档案数量最集中的类目进行检索,减少漏检。
3题内关键词检索具有将分散在不同类目中的同一主题聚在一起的功能,起到对分类检索进行补充的作用。
4.题内关键词有时可以起到代替细分分类号的作用。
在上述作用中第3、4条作用表现出关键词最重要的属性:主题的聚集性。因此这两条作用,是关键词重要的作用。
(三)关键词检索的局限:
题名关键词最大的问题是查全率低,其原因如下:
1.由于题名的性质,题名只能反映档案文件的主要主题内容,如档案内容包含多个主题时,题名内关键词不能完整地反映档案的内容。
2. 如果题名内含有足够的自由标引词,检索者能否将其全部选择出来进检索,会对检索效果有影响。如检索粮价问题时,须同时选“粮价”、“米价”、“谷价”三个词都进行检索,缺一不可。
3.有些档案的题名内没有明确反映内容的关键词。
由于以上原因,题名内关键词不适合单独使用,而应配合分类检索使用。
(四)对利用者提供服务的应用方法
根据题名内关键词检索和分类法检索的特点,在对利用者检索服务时可以按以下策略进行:
1.初步了解利用者的需求,利用题内关键词进行检索,具有直接、准确的特点。但此方法查全率较低。
2.详细进行需求分析,利用分类法进行多条件组配检索。
3.根据前两种检索的结果进行调整性的补充检索(如分类号与关键词的综合检索,或再选择不同分类组合的检索),使检索结果更加接近利用需求。
总之,分类检索是建立在分类标引的前提下,是一种能全面查找档案内容的检索方法。其特点是便于族性查找。题名内关键词检索方法,具有主题查找的功能,可以对分类检索进行补充,并使数据库检索在方法上比较完整,适应不同利用者的检索需求。
参考文献:
1.张琪主编:《情报检索语言实用教程》,武汉大学出版社,2004年。
2.黄俊贵、倪波主编:《文献分类与主题标引》,书目文献出版社,1990年。
(本文由作者提供,中华文史网首发,引用转载,注明出处)
作者:栗维健,中国第一历史档案馆副研究馆员