无数据、不论文,但数据要怎么保存?
✚
●
○
原文首发于《数据分析与知识发现》,本文由作者在原文的基础上进行了修改与扩展。
● ● ●
对于很多学科领域,论文结论建立在数据基础上:无数据,不论文;不可验证,则无可信研究。
而支撑论文结论的研究数据(supporting data,论文支撑数据),是论文研究的有机部分,是论文结论的验证基础。它的开放共享,是论文结论得到客观检验、重复验证和可靠应用的保障 [1]。
国务院办公厅《科学数据管理办法》、中办国办《关于进一步弘扬科学家精神加强作风和学风建设的意见》、中国科学院《科学数据管理与开放共享办法》、国家卫健委《医学科研诚信和相关行为规范》、中国农业科学院《数据管理与开放共享办法》等,均要求支撑论文结论的数据开放共享。众多期刊要求作者提供数据可获得性声明 [2],强烈鼓励或强制规定作者把支撑数据提交到公共平台共享 [3]。
期刊《数据分析与知识发现》从 2016年起要求投稿者须在论文评审中提交论文支撑数据,要求被录用论文的作者通过公共平台保存或通过自存储支持对这些数据的公开检验、并在论文中提供数据可获得性声明 [4]。在实践中,由于种种原因,许多作者选择自存储这些数据,但是,“自存储” 数据的可获得性差,甚至被遗失、被损坏、被修改。
支撑数据的不能公开验证,直接威胁到论文的可信赖性和科学研究的公信力。
为保障论文支撑数据的可靠检验,《数据分析与知识发现》从2022年3月20日起,要求所有投稿者除在论文评审中提交论文支撑数据外,在论文录用后将论文支撑数据提交到期刊选择的公共数据平台进行公共保存并按规范的授权许可开放获取。
在征询作者和期刊编委意见的基础上,该刊在制定本办法时遵循了以下原则,特分享给致力于推动数据公共保存与共享的其他期刊和学者。
1 宏大政策到可靠实践的死亡之谷
许多宏观公共政策在实施中高举轻放、说多做少、缺斤少两,带来从宏大政策到可靠实践的死亡之谷。尽管可能找出多方原因,但夯实实施责任链、合理平衡相关者利益、分类精准设计实施机制是保证政策实施的重要突破口。
《数据分析与知识发现》认为,论文支撑数据公共保存与共享符合国家、作者和期刊的共同利益。
对于国家,提高科研论文结论的可验证性,是事关科学研究的质量与诚信、科研投入的回报、乃至国家科研声誉的基本要求。
对于作者,论文支撑数据的公共保存与共享,明显有利于提高论文及其作者的可信赖度,是作者的科研诚信和科研素质的基本衡量。
对于期刊,这是学术期刊办刊质量、学术良心和期刊合规性的基本标杆 [5]。期刊有责任从自己做起,真做、做实,主动解决问题而不是找理由推卸责任。
为此,《数据分析与知识发现》致力于建立可靠的实施管理链,知行合一、以终为始:熟悉相关法律法规,保证依法办事;制定多层实施细则,做到可操作可检验可问责;建立全流程保障措施,做到方便、高效和可持续;把已有最佳实践作为本领底线,保障实施水平和效率;绑定作者、期刊和数据平台,形成可持续可靠实施的利益共同体。
2 尊重和合理平衡相关者利益
论文支撑数据开放共享涉及多元利益相关者:资助者(纳税人)、研究机构、研究者、数据工作者、出版者、数据平台、数据使用者(科学界、企业、公众)等。
根据新制度经济学 [6],人的行为是有限理性的,人都有为自己谋最大利益的机会主义行为倾向。不同的利益相关者各有自己的利益诉求,这些诉求可能在不同阶段还有不同的优先度,可能可以在不同条件下让渡。好的政策就是承认这种自然的和必然的现象,有效建立不同利益相互博弈、调适和平衡机制。
论文支撑数据开放共享政策实施中,尤其需关注研究人员及其机构的利益诉求。英国研究与创新理事会提出 [7],要考虑在数据安全、隐私保护、研究竞争、商业竞争、数据方法创造性、数据权益、管理成本、共享成本等方面的合理需求。多项调查也证实 [8-11],科研人员赞成数据共享但存在很多合理担心。
只有当合法利益得到保护、合理顾虑得到消解时,人们才会做出公共政策期待的行为,尤其当这种行为需要付出额外努力或让渡部分利益时。
因此,需要充分承认多元利益相关者的复杂利益诉求,有意识地合理地在制度上对多元利益进行调适与平衡,让各方利益相关者感到道义上应该做、心理上愿意做、有条件方便做、有激励和奖惩使得做了有好处不做有坏处,从而形成可靠、健壮和可持续的数据共享生态体系。
科研数据管理及其开放共享都是复杂现象,应根据具体的数据类型、共享对象类型、共享使用程度等进行分类管理,针对不同情况精准设计实施措施。
例如,科研数据可分为采集或实验直接获得的原始裸数据(raw data)、经过清理和规范处理后可用以分析、计算、实验的研究数据(research-ready data)、经过处理、计算等得到的可分析数据(analyzable research data)、直接支撑特定论文结论的数据(article supporting data)、以及关于方法、流程、工具、研究材料等的描述数据(methodology/instrumentation data)。它们与验证论文结论的相关度明显不同,在数据保护、研究竞争、长期利用潜力、共享成本等方面区别很大。而且,一项研究中会产生大量的研究数据,可能用于整个项目中的多个研究问题及相应的多篇论文。
期刊要充分理解和保护作者及作者机构的合法权益,从目标论文的评审和论文结论的可靠验证出发确定论文支撑数据*,防止不加区分地宽泛主张公共权利可能带来的消极影响。
因此,根据审慎原则,《数据分析与知识发现》将论文支撑数据主要定位于直接支撑论文的结论的数据(article supporting data),同时鼓励和支持作者对研究数据进一步管理、保存和共享需要。
又如,权益管理也要区别不同情景、照顾合理担心、遵循比例原则。要承认不同类型、体量和成本的数据在共享范围和使用授权上可能不同,认可科研人员希望分享自己数据被直接利用后产生的利益的合理性,承认数据共享可能有成本,承认科研竞争或诚信不足带来的新挑战,认可对共享的某些限制的正当性,防止 “好心” 的简单措施带来阻断效应。
要促进各方加强对科研人员共享数据的激励,例如数据确权、灵活授权、作者贡献认可、免责声明等,通过推拉结合的多措并举 [12],设计能强化那些支持政策目标的行为的激励类、能力类、服务类措施,设计能化解那些阻碍政策目标的行为的保护类、尽责管理类、评价类措施。
4 建立可信赖的实施过程
可信赖性是公共政策实施的生命线。期刊和数据平台是实施中的利益相关者,还因其对作者个人的实际 “强势地位” 而对政策实施的可信赖性承担主体责任。它们如果不能勤勉尽责、或不能被证明勤勉尽责,将对政策实施带来严重伤害。
可信赖性体现在对一个实体做某件事的诚意、能力、效率、公平性和可靠性的信任。可信赖性必须循证化,这一方面体现在相关制度、方法、规则、流程等的可操作、可管理、可检验、可问责,没有说不清道不明的 “盲盒”;另一方面体现在这些制度、办法、规则、流程及其结果的可公开、可检验、可评价、可审计;再一方面体现在健全明确的责任链、追责机制、法律和经济责任。
在现实环境中,可信赖性还体现在,对保护上下游环节的相关利益者的合法利益尽到注意义务,承担在没有尽到注意义务时的连带责任。例如,期刊除要求自己及其同行评议专家对论文支撑数据尽责保密外,还应尽责选择能保护作者合法权益和为作者提供优良服务的平台,应主动检验平台在提供相关服务中的可信赖性,应与平台一道尽责检验使用者在数据共享中的合法合规性。
《数据分析与知识发现》经过仔细考察和友好协商,选择 “科学数据银行” [13](sciencedb)作为论文支撑数据公共保持与共享的服务平台,在勤勉诚信的共同理念和科研数据开放共享的最佳实践基础上,共同实施该刊论文支撑数据的公共保存和共享。
《数据分析与知识发现》在3月21日邀请了国内科学数据界、科技期刊界和科技知识服务界多位专家对办法实施进行咨询。在充分肯定该刊努力的同时,专家们也提醒该刊注意实施中可能面临的挑战。
对论文支撑数据的公开可验证,作者承担主体责任。本文前面提到的考虑和措施,能支持作者更为方便和可靠地做到这点,这是对作者最根本的 “激励”。而且,通过公共保存及其共享服务,帮助作者显著减轻在数据长期保存、支持公开验证上的负担,也为作者提供数据确权、保存证明、数据利用统计等的服务。
期刊和平台将继续努力减轻作者不必要的负担,但作为基于数据进行研究的研究者,也应主动了解科学诚信对论文支撑数据公开验证的要求,掌握相应的基础能力。
我们相信有良知的作者会做出正确选择。当然,面对 “现实” 环境,不得不承认 “劣币驱除良币” 的可能性。面对这种情况,期刊应该有原则有底线有良心,也应相信大多数作者们。因此期刊将努力通过高水平服务吸引高水平作者,而不是通过 “不作为” 或 “放一码” 来容忍可不验证的虚假成果或吸引 “作者”。如果真出现了大量 “作者” “流失”,这就不仅是一家刊物的悲哀了。
如何避免 “孤军奋战”、推进形成良性的生态环境?
应该看到,我国在科学数据公共共享上已取得长足进步,例如国家科学数据中心体系在数据汇交、共享上取得了显著成就,许多机构也在积极建设具有可操作、可检验、可追责、可评价、可持续性的法人机构科学数据管理机制,这些为论文支撑数据的公共保存与共享提供了良好基础。
当然,不同研究领域、不同性质的研究、甚至同一领域内针对不同主题与研究内容的论文,论文支撑数据的具体含义可能有所不同,其可靠验证与共享的方法也不尽一样,需要由各学科各期刊制定出具体办法。
那种期盼由 “上面” 或别人为自己提供 “直接抄用” 且 “没有争议” 的办法的想法,本身就是不科学和不负责任。而且,我国科技期刊界建设高水平期刊的努力,也离不开各个期刊在保证论文支撑数据的可公开检验上的达标努力,科技期刊管理部门在这方面也是可以大有作为的。
论文支撑数据开放共享是一个持续努力的过程,需要期刊、作者、评审专家、合作平台一起,需要科技界、科学数据界、科技期刊界一起,勤勉尽责前行。毕竟,“摸着石头过河”,不是只站在岸上 “研究” 石头,要下河才能过河,敢于呛水才过得去河。
原文链接:https://manu44.magtech.com.cn/jwk_infotech_wk3/attached/file/20220323/20220323164520_527.pdf
*论文支撑数据:
制版编辑 | 姜丝鸭