水产科学研究的数据采集
1数据采集
文献检索方法最简便也应用最广,但由于机构名称不规范或检索策略不合理,容易带来漏检或误检。科研管理统计数据则多缺乏可供计量分析的字段。因此,将文献检索与科研管理统计两类数据作为基础数据可以最大程度地保证数据的全面性和客观性。由于各数据库收录期刊的范围存在差异,对单一数据库检索容易导致数据不全面。因此,选取中国知网“中国学术期刊的网络出版总库”和维普资讯“中文科技期刊数据库”同时作为数据来源库。检索策略为:机构=“中国水产科学研究院or黄海水产研究所or东海水产研究所or南海水产研究所or珠江水产研究所or长江水产研究所or黑龙江水产研究所or淡水渔业研究中心or渔业机械仪器研究所or渔业工程研究所”,人工识别分析机构名称的各种不规范写法后,进一步优化检索式,如:“黄海水产所”实际应为“黄海水产研究所”,因情况众多不再逐一列举。最后将检索结果分别导入EXCEL表。科研管理统计数据主要来自于各研究所历年统计上报的数据,导入EXCEL表。因此,基础数据包括三部分,分别为中国知网检索数据、维普资讯检索数据和科研管理统计数据,下文将详述基础数据的去重与合并。以黄海水产研究所2007年数据为例,基于文献检索和科研管理统计获得的数据量如表1,可见实际数据量大于每个单独统计来源的数据量。
2数据清洗
数据清洗的原理是根据回溯思想,通过分析“脏数据”产生的原因和存在形式,利用现有的技术手段和方法检测“脏数据”,制定数据清洗的方法、规则和策略并加以实施,将“脏数据”转化为“干净数据”。实践中,多将来自不同数据源的数据转换成统一的格式,补充遗漏记录,去除错误或重复记录,提高数据质量以满足分析的需求。实践表明,数据清洗约占文献计量工作量的80%~90%[4]。数据清洗方式以人工和计算机辅助人工为主,人工清洗结果精确得当但工作量大、效率低,目前通行的办法是计算机辅助人工处理[7]。近年来市场上已有数据清洗软件商品和专门的ETL工具[8,9],但这些软件多适用于特定数据库的文献格式、对中文文本的支持性较差且有些还需支付高额的使用费。笔者借鉴前人研究的基础,结合实际工作,提出一些自己的做法。2.1数据去重将来源为“中国知网”和“维普资讯”的数据进行合并,首先去除二者共同收录的文献。由于不同数据库数据格式不统一,不能通过相同题名的字符完全匹配进行数据查重,如:同一篇论文,在不同数据库中收录时存在如下问题:标点符号(括号、引号、破折号等)全半角不统一且无规则;专有英文名称等大小写字母不统一;题目中混入空格等无意义字符;系列文章的序号将阿拉伯数字与大写数字混用;生僻字被拆分成两个字录入等。利用基于EXCEL的VBA编程,采用题名相似匹配与人工辅助相结合的方法对数据进行查重处理。处理流程如图1所示。(1)筛选各数据库中待分析的特征题录字段,形成格式统一的表。(2)对“题名”字段进行预处理,如:半角化、去空格、大写字母转小写等。(3)建立空表,命名为“VIP-CNKI”、“SUSPECT”。(4)将“中国知网”数据复制至“VIP-CNKI”,用维普资讯数据与“VIP-CNKI”逐条对比。(5)如果题名完全相同,则认为是重复记录不做处理,继续对比下一条。(6)如果题名不同,则当题名长度差异在20%以内且相同字符匹配率达60%,将这两条数据添加至疑似相同文献表“SUSPECT”,继续对比下一条;当题名差异在20%以上,或相同字符匹配率60%以下,则将该条维普数据添加至表”VIP-CN-KI”,继续对比下一条数据。(7)当所有对比完成之后,人工判断表“Suspect”里的文献是否为相同文献,并做标记,直至判断结束。批量导入标记为“不同”的维普文献至“VIP-CNKI”。经去重后合并的表“VIP-CNKI”即为基于文献检索的中国水科院中文期刊论文集。用该数据集与科研管理统计数据对比进行去重及合并,并补充科研管理统计数据中缺失的字段,即为水科院中文期刊论文总集,因方法和流程与上述类似,故不再赘述。2.2字段清洗原始数据存在分隔符不统一、数据格式不一致、一词多形等问题,如对其直接进行计量分析,将产生巨大的统计误差。因此,将中国水产科学院中文期刊论文总集,导入ACCESS数据,对作者、关键词、机构、引文量、年份等字段进行规范化处理。根据存在问题的类型和规律制定数据处理规则,然后编写基于ACCESS的VBA程序进行批量处理。因为很难一次完整地识别所有规则(比如:存在多种分隔符),因此通常采用循环处理机制,即查找规则→编写代码→执行清洗→检查清洗结果→修改代码→执行清洗,必要时该工作需重复多次,直至数据格式完全统一。引文数量和年份等数值型字段主要进行数据类型的统一,原始数据有文本型、数值型、日期型等存储格式,将其统一转为数值型格式。关键词字段和作者字段主要进行分隔符的统一,原始数据的分隔符有全角分号、半角分号、双分号、叹号、空格等。作者字段包含的分隔符有全角半角形式的叹号、分号、双分号、逗号、[1]、[2]、[1,3]、[1,2,3]、[2,3,4]、空格等,将各种分隔符统一用半角分号替换。此外,作者的姓和名中间有时存在空格,与不同作者的间隔符相混淆,需要首先处理。作者字段的空格处理方式具体为:根据空格所在位置及前后字符是否为汉字进行判断,如果属于英文作者名内的空格应保留,如果是双汉字姓与名间的空格则删除,其它情况则替换为半角分号。机构字段存储的是参与合作单位的机构地址,清洗后获得参与合作单位的机构名称。由于作者自身著录不规范或其它原因,造成了机构名称的多样性,给统计工作带来困难。分析发现,机构名称的多样化主要有四个原因:一是仅著录了子机构名称而忽略其母机构;二是仅著录重点实验室名称未著录机构名称,特别是在国家级和省级重点实验室发表的论文中比较常见;三是仅著录机构简称;四是著录不规范的全称。因此,需建立包括处理分隔符、去除地址数据、机构名称规范化三步的清洗机制,如图2。(1)规范机构间的分隔符为半角分号。(2)去除地址数据。最普遍的一种格式为“机构名称,地名邮编”,如“大连水产学院,大连116023”。当分隔符后面的字符串末端为六位及以上数字时,直接去除该字符串。(3)对上述过程未处理到的一些错误数据进行人工清洗。比如部分字段中混入职称、个别地名与邮编间存在分隔符导致无法识别。(4)机构名称规范化。首先建立机构名称词表,包含一级机构名称、二级机构名称及相应的不规范写法的映射,如表2。一级机构和二级机构均规范为相应的规范化名称。对机构名称字段进行规范化程序处理。建立一个二维数组,将机构名称词表中的所有机构存放在第一维中,并将对应的规范化名称存放在第二维中。利用分词法从机构字段切分机构名称,与数组中的第一维数据比对,如果存在包含关系,则用第二维中的规范化的名称替代。如:机构名称包含“农业部淡水鱼类种质资源与生物技术重点开放实验室”则将其替换为“长江水产研究所”。(5)机构去重。同一机构多人参与该论文的,机构名称被多次著录,此时仅保留一个。建立一个空数组,将机构字段的机构名称和数组中已存入的机构名称逐一对比,如果该名称已存则继续处理下一个名称,如果不存在则将该名称存入数组。
3结束语
长期以来,国内科研评价重评价结果轻数据准备相关方法和经验总结,使得大量评价忽视数据准备工作的重要性,同行在开展计量评价时也缺乏参考。笔者基于机构评价的文献计量实践,积累了大量数据采集与数据清洗的经验,力求踏实、严谨、准确的开展数据准备工作从而为中观层面的文献计量评价提供客观的数据。(1)对多种文献格式具有兼容性,当前的文献分析软件多仅针对一种或几种数据库文献格式[10,11],笔者所述方法能够处理从不同数据库下载文献题录甚至科研管理统计数据,处理的字段也具有较大的灵活性,可以根据特定研究需要有针对性的采集和分析相关字段。(2)在文献采集方面,综合文献检索数据和科研管理统计数据,其中检索两个国内综合性数据库,保证基础数据的全面准确。因为非本单位的科研管理统计数据难以获得,本方法更适用于开展本单位、本系统的科研评价,在多单位的同行比较中则受到限制。
(作者:闫雪 欧阳海鹰 曾首英 葛长水 唐琳 邵萍 陈柏松 单位:中国水产科学研究院)
声明:本站未注明出处的转载文章是出于传递更多信息之目的。若有未注明出处或标注错误或侵犯了您的合法权益,请与本网站联系,我们将及时更正、删除,谢谢!
欢迎关注本站(可搜索)"养鱼第一线"微信公众帐号和微信视频号"养鱼第一线刘文俊视频号"以及头条号"水花鱼@渔人刘文俊",将会定期向你推送信息!