以扫描方式快速建立期刊题录数据库的操作方法探微,黄桂清授课见证 -【中华讲师网】黄桂清授课见证,黄桂清博客,黄桂清网站,黄桂清文章,黄桂清最新文章

黄桂清:以扫描方式快速建立期刊题录数据库的操作方法探微

绩效管理

2016-01-20 49093

以扫描方式快速建立期刊题录数据库的操作方法探微

一、    问题的提出及备选方法的分析

     图书馆作为人类知识的宝库，在保存人类文化遗产、传播知识与信息、开发智力、培养人才、推动人类文明的发展等方面有着不可替代的作用。但在各类信息大量涌现的今天，电脑信息及相关技术的飞速发展，使得单纯地拥有纸质载体文献已经不再是图书馆的优势，而易于为读者使用的电子信息产品则显示出更大的发展潜力。因此图书馆这个‘知识的宝库’要真正完成‘由知识到财富’即由“资料库——信息库——思想库”的整个深化过程，实现纸质载体向电子载体的战略转移将是一条有效的途径。

电脑信息及相关技术的出现，要求图书馆员以数字化的信息资料为管理对象，对电子化的信息进行深度加工与存贮，也就是在自动化及电子化上做文章，作出快速反应，广、快、精、准地提供信息，以适应读者的高层次需求，才能促成这个深化过程的尽快实现。图书馆要使自己的工作能有效的服务于读者，最重要的方式之一，就是要对馆藏图书信息资料这个宝库中的“宝藏”进行高效有序地组织，使数以万计的资料能井然有序“存”进去，并在读者需要时迅速准确地“取‘出来，这个过程既是资料有序化的过程，又是知识体系的重组过程，能顺利地实现这个转化过程，图书馆才能说开始迈入信息管理现代化的门槛。由此可见，实现文献信息由纸质载体向电子载体的转变，是21世纪图书馆的必然抉择。

实现这种转变有不少备选方案：一是加入到国际互联网中去，那里有着无穷尽的信息资料资源。但这种方式不一定能全面搜集到各种有用的相关信息，而且对于当前经费紧张的图书馆来说，开支的经费较难承受；二是买光盘电子产品或数据库。这种选择的好处是信息量大，查询方便，见效快。缺点是价格昂贵，资料容易过时。如果不能继续投入，则光盘的作用就受到极大的限制，且单纯的投入资金购置光盘及相应管理软件，并不能真正揭示馆藏，易与原有的图书信息资料资源脱节；三是采取‘走出去、请进来’或委托培养等方式，培养能够满足本馆业务需要的系统维护、硬件维修和操作人员。选择后一种方案也存在着经费等问题。

可以选用的方案还很多，具体应采取什么样的方法，应该根据各校的校情而定。从大的方面来说，大部分图书馆有着其相同的特点即共同的馆情，那就是：一是资金紧缺，图书期刊订阅量下降，收藏覆盖面严重萎缩。这样对现有馆藏的充分揭示就变得十分重要。要从大量的未经开发的纸质文献资料中为读者找到所需要的信息资料，靠传统的‘手工作坊’式的操作方法是根本无法满足需要的。第二个特点，是人员素质普遍不高、人手不足、传统工作业务量大、改革力不从心，人才问题成了困扰图书馆发展的一个大问题。造成这种局面的原因在于，图书馆本身的技术力量配置有限，很多馆员是一些不相关的行业转行而来，而有突出才能的技术人员又往往留不住，使人才成为整个系统的“瓶颈”环节。要在短期内培训出图书馆现代化建设合用的人才，不是一件容易的事情。

以目前的现实看，单纯以一个馆靠自己的力量完成全部数据处理及技术工作，显然力量不足。而现实又需要图书馆为读者提供深层次的信息资料服务。因此，图书馆从经费及人才上考虑，最现实的办法，就是建立‘人才共享’或‘技术共享’新观念，才能有效地解决上述的问题，即各馆进行协调，组织人才开发相应的软件，在快速建立数据库方面探索出一条可行的路子，并建立起人才与技术的共享机制，才有望在不长的时间里，以相对较小的代价，使各图书馆在信息资料资源的开发利用上获得长足的发展。图书馆应该根据这些‘馆情’来制订相应的发展的战略，而不应超越这个阶段，追求那些达不到的目标。时间是最大的付出，不能因为目前尚不具备‘一步到位’的条件就把工作停顿下来，那样只能给图书馆发展带来不利影响。明智的方法应该是从现有的条件出发，因校制宜，找到一条符合图书馆现实情况的发展路子。

最好的方法无疑是既能省钱又易于操作的方法，即：‘少花钱办大事，没有钱也要办事’，这是图书馆无奈又悲壮的选择。便捷的方法是自建数据库。作为那些没有资金投资买正版光盘的图书馆来说，最有价值的数据库，即能读者提供有效服务的数据当属期刊题录数据库。期刊是一个流动着的知识宝库，是图书馆信息资料的一个极为重要的部分，荟萃着各种最新的思想、观点、方法及信息，对教学和科研起着不可替代的参考作用。要使建立的期刊题录数据库真正有参考价值，数据量必须具备一定的规模，一般要求在10万条记录以上。如果每条数据以50个汉字算，那么建库就意味着要录入500万个汉字，工作量大得惊人。这也正是很多想自建数据库的图书馆踌蹰不前的原因。那么以图书馆各馆自身的力量，这个工作就真是没有办法完成了吗？就非得靠投入资金靠别人来完成吗？回答是否定的。

以笔者所在的桂林市委党校图书馆为例，该馆就是依靠本馆自己的力量，在不到2个月的时间里，建立起了拥有近10万条数据，能充分反映自身期刊馆藏资源的期刊题录数据库，并编制相应的应用软件，投入试运行达到了预期的效果，获得了本校领导的好评，得到了使用者的肯定。之所以开发获得成功，最重要的原因之一，就是因为该馆找到了适合本馆的建库路子：以扫描方法实现期刊题录数据的快速录入，以最快的速度完成常规录入方式最耗时的环节，并用电脑工具对题录文本数据进行快速处理，自动转换成数据库数据，实现快速建立期刊题录数据库的全过程。

　　二、如何实现以扫描仪的方法来快速建立数据库

实现这一步必须有一个最基本的硬件条件：有一台电脑及扫描仪，并安装相应的扫描软件。随着电脑及扫描仪硬件价格的不断下跌，购置这些硬件设备的条件应该是党校都具备的，软件一般随机奉送，也不成为其问题，真正的关键问题是实现这整个过程的方法。从技术上说，这一整套的操作方法实际上并不复杂，操作者只要稍加培训，甚至只要认真领会其操作要领就能掌握。具体步骤如下：

第一步：扫描。安装好扫描仪，由安装人员告知如何操作使用扫描仪，掌握最基础的一般操作方法后，就可以进入扫描工作了。这是最基础的工作，是建库工作的开端，对人员素质没有特别的要求。扫描实际上就是把期刊目录页的内容扫描进电脑中，使它作为图片文件而存在。图片信息在电脑磁盘上一般占空间较大，具体所占空间大小视使用的扫描软件系统而定。大的1张占到1M左右，小的一般5～6张图片占1M磁盘空间。正因为图片文件占空间较大，因此一个扫描阶段不宜持续太久，扫描1000页后就应该安排下一步的识别工作，以免图片文件占满电脑硬盘空间。扫描的期刊最好是在尚未装订前进行，这时目录页内容容易扫描。如果已经装订成册的期刊要进行扫描，因不能把目录页文字的部分完全摊平，容易导致一些内容扫描不全，影响题录数据的完整性。另外要注意有的期刊在扫描的页面内没有注明刊名或期次，这时就必须在扫描前在目录页面补写上，以免识别时不能注明出处。扫描的速度：一般１分钟可以扫描1页，以1页20个数据计算，1个小时就可以扫描1200个记录，1天工作5个小时，大体可以完成6000个数据的扫描录入，10万个数据的扫描，只要不到17天就可以完成了。而具备这个数目的数据库，已经算得上是一个中型数据库了。这个速度是手工录入所根本没有办法比拟的。但这仅是工作中的第一步，是整个过程中的其中一个环节。

第二步：识别：识别就是把已经扫描进去的图片转换成可以编辑的文本文字。这项工作是整个过程中最耗时的环节。这个环节所需要的时间，由三个因素决定：一是操作员的操作电脑的熟练程度；二是扫描仪的识别率的高低；三是期刊字迹清楚程度、纸质好坏。识别是扫描仪一项基本工作，即把扫描进去的目录页中的汉字图象转化成能进行文本编辑的文字字符。把目录页扫描进电脑后，就可以进行识别工作了。但为了高效工作，一般不主张扫入1页识别1页，那样整体上的速度会很低，一般提倡采取流水作业的作法，即先扫描进一定数目的文字图片（如1000页）后，即开始进入识别工作。识别操作技术不难掌握，扫描仪操作说明书上有说明。要注意的是：识别出来的文本数据，必须整理成一行一个记录，不能让硬回车符把一个题录数据截成2行乃至3行，那样将会给下一步处理带来困难，不易保证记录的完整性。另外，在作者姓名与篇名或者篇与姓名间要有一个固定的字符如‘\’符将它们分开，以作为电脑自动处理时的姓名标识符。在每本期刊识别文本的首页首行之首键入期次标识符‘**’号后，然后键入：刊名期次。期次统一用4位数码填写，即年份用后2位数，月份用2位数（月份只有1位数的前面补0）。识别文本中出现其它因为难以识而出现的怪点号、怪字符、英文字以及各种不规范的字符，暂时不要去管它，留待以后由电脑自动快速处理。手工删除它们当然不是不可以，但那将会花去很多不必要的时间，使工作效率大为降低。识别工作完成后，把文本部分保存为文本文件，然后删除图片文件，以释放硬盘空间。

第三步：文本数据整理。经过前两步的工作后，期刊目录页面上的篇名、页码、作者、期次等信息已经成为了可编辑的文本数据。但这时候的这些文本在排列上一般显得很乱且不规范，这是因为各种不同的期刊采用不同的方式来组织目录页：如有的页码在前，有的在后，作者名也有前有后。页码与篇名的连接符有时用小圆点，有时用花点，空格穿插其间，有时用短横线，有时还会有一些装饰背景等等。更为普遍的是，因为有些符号扫描仪识别不了，转换成文本数据后，形成各种奇怪的符号。如果这时用手工去进行整理的话，为此而耗费的工作量将使这个方法成为没有多少实用价值的方法，因此，整理的方法如何，几乎决定着这个“以扫描来快速录入期刊数据”的方法是否可行。科学而快捷的方法，应该是由电脑这个快速处理信息的工具来自动完成这些琐碎的整理工作。这里就涉及到一些关键的技术问题。解决这个问题有不少的可行方法，我们这里选用Office家族的Word软件中的宏处理方式来解决这个难题。

具体方法是：运行Office家族的Word软件，打开菜单标题“工具”，选择“宏”中的“录制新宏”。这里所谓的“宏”，实际上就是一个小程序，只不过它不要编制者直接编程，而是以一种“录制”的可视方式进行编制罢了，其中的过程以可视的方式实现，而实际形成的是一些可编辑的程序代码。我们不用管这些代码，而只管“录制”。所谓“录制”，就是把你在选择“录制新宏”选项后，把想要自动实现的过程实际操作一遍，完成后重新打开菜单标题“工具”，选择“宏”中的“停止录制”选项，这样整个录制新宏的过程就完成了。例如：如果我们想把文本数据中的空格去掉，我们可以先以上述的方法启动“录制新宏”功能，然后打开菜单标题“编辑”中的“替换”选项，把全部空格替换掉，替换完毕后停止录制宏。这样，这个宏就可以完成把文本数据中的空格删除的功能。

当然这个刚定义宏功能是单一的。但我们可以用这个方法制作一批功能单一的宏，这样就可以用这些宏实现各种不同的处理文本数据的功能。更深入一步，用相同的方法，可以录制出功能更复杂的宏，比如把这些单独功能的宏全部综合起来的宏，这样，只要调用这个宏就可以让文本数据一次按预定的要求快速地整理完成。以这个方法整理文本数据的速度，会使你觉得整理数据是一件轻松有趣的事情。要方便的调用这些宏，还可以做进一步的工作，那就是把它们调到菜单标题上来直观调用。具体方法是：打开菜单标题“工具”选择“自定义”选项，在“工具栏”选页卡上击“新建”建立一个新的工具栏，然后选择“命令”选页卡，选择“宏”一栏，这时右边会出现已经录制好的各个宏的名称，可以把这些宏用鼠标拖到新建的工具栏上去，而这个工具栏可以拖放到菜单标题栏中，这样，所录制的宏就可以作为直观的菜单工具选项方便地使用了。这里，要注意，录制的宏的名称最好作适当修改，这样，修改后的宏名可以说明其实现的功能，也更短小醒目。

第四步：把文本数据转换成数据库中的数据。文本数据只能进行直接的编辑及简单的查询，而要实现数据排序、查询、处理等各种复杂的功能，只有在数据库环境中才能方便实现，因此，把文本数据转化成数据库数据，是整个过程中最关键的一步，也是技术性最强的一步。这里涉及到一些数据库编程的知识，我们这里只讲最实用的、能完成从文本数据到数据库数据转换的简要程序代码，操作者只要依样画葫芦，把这些代码键入到数据库环境命令窗口，然后执行这些命令就能方便实现转换。进行这项工作的一个前提，是要在电脑上安装Office家族中的Visual Foxpro(3.0,5.0,6.0版本均可)，这个软件很容易找到，它是一个功能极为强大、运行速度极快的数据库环境。将软件安装好后，双击相应图标就进入了该数据环境。转换步骤主要有以下几步：

Ａ、创建一个包括相关的题录数据信息的简单的空数据库，取名为：期刊数据，至少包括以下5个字段：ml(篇名)、zo(作者)、kf(刊名)、qi(期次)、ye(页码)。具体方法是：进入Visual Foxpro数据库环境（以下简称数据库环境）后，操作各种菜单及选项，操作过程为：‘文件’-‘新建’-‘表’-‘新建文件’-‘保存’，然后在表设计器中输入以上的4个字段名，‘类型’全部选‘字符’型，‘宽度’分别为：160、20、40、20、6。‘确定’保存这个表结构，输入选‘否’后退出即可。

Ｂ、将文本数据填入空数据库。具体方法是：首先打开刚建的空数据库（操作过程：‘文件’-‘打开’，在对话框中选要打开的数据库即可），然后打印命令窗口（操作过程：‘窗口’-‘命令窗口’），在命令窗口中键入代码：

appe from wrbr.txt sdf

然后回车执行这条命令，就把文本数据填入了数据库。这里要注意，期刊文本数据是一个文本文件(wrbr.txt)，如果它不放在当前目录下，需指明文件所在的路径，否则系统将找不到该文件。

Ｃ、把期刊名称及期次分别填入不同字段(注意：此程序段需分别做成一个小程序文件执行，不能直接在命令窗口中使用。)具体代码是：

proc kfml && 填入期刊刊名程序代码

scan

if '**' $ ml

    kfml=subs(ml,3,len(allt(ml))-6)

endi

repl kf with kfml

ends

proc qici && 填入期次程序代码

    scan

      if '**' $ ml

        n=len(allt(ml))

        qici='19'+subst(allt(ml),n-3,2)+;

           '年第'+right(allt(ml),2)+'期'

      endi

      repl qi with qici

    ends

Ｄ、把数据库中的页码分离出来。具体代码是：

proc yema && 剥离页码程序

scan

for n=1 to 6

    if isdi(right(allt(ml),n))

      len=len(allt(ml))

      repl ye with subst(allt(ml),len-n+1,1)+ye

    endi

endf

for n=1 to 6

    if isdi(right(allt(ml),n))

      len=len(allt(ml))

      repl ml with left(allt(ml),len-n-1)

    endi

endf

ends

Ｅ、把数据库中的作者姓名分离出来。

        proc xlml && 剥离作者姓名

        scan for '\' $ ml

            repl zo with subst(ml,at('\',ml)+1,20)

            repl ml with left(ml,at('\',ml)-1)

        ends

经过以上的几个步骤，手工录入工作量巨大的工作就这样轻松地完成，数据库就建立起来了。至于数据库的应用，问题就简单多了，满足图书馆一般查询的需要，只要学会几句实用的数据库命令，就可以使这个数据库发挥作用。当然，如果想要这个数据库发挥更大的效用，那就需要编制相应的或简或繁的应用程序。为此，笔者编制了一整套《图书信息资料管理软件》，有近60个功能块，涵盖了‘日常馆务、书刊管理、资料查询、数据加工、信息服务、系统维护、常用工具、使用帮助’等八大方面，较全面的满足了图书馆图书信息自动化管理的需要。这套应用软件，也将象上述方法一样，以合适的方式，实现与全国各图书馆的‘技术共享’。

推而广之，由于这种快速建库的方式具有操作灵活、适应广泛等特点，因此，它不仅适合于期刊数据库的快速建库，也适合于书目数据库、工具书题录数据库、报纸题录数据库、全文数据库等库的快速建立，而所有这些数据库，都是各种类型的图书馆必须建立，而以常规方法却无法‘低耗高效’完成的。美国资深专栏作家尼古拉·尼洛庞帝认为：‘计算不再只和计算机有关，它决定我们的生存。’图书馆如果不想被时代抛弃，就必须去深刻把握“数字化生存”的含义，适应这个数字化的世界。可以预见，系列数据库的建立，将会对教学科研提供有效的智力支持，为图书馆更好地生存和发展提供条件。建库的过程中，当然可以借助外界现成的数据成果，但图书馆在建库方面，更应该有自己的特色产品，而用上述快速建库的方法来建立具有自身特色的各式数据库，无疑为图书馆建库提供了一个更贴近现实的极佳选择。

上一篇应考奇术，一招致胜:关于应考方法的对话

上一篇论文电脑写作组合论