我国政府网页归档进展研究(2)

来源:眼科新进展 【在线投稿】 栏目:期刊导读 时间:2021-07-22
作者:网站采编
关键词:
摘要:2020年初,浙江省档案馆采集抗“疫”网页档案是网页归档项目的最新实践。在新冠肺炎疫情防控工作中,浙江省档案馆认为“各级政府门户网站上产生的

2020年初,浙江省档案馆采集抗“疫”网页档案是网页归档项目的最新实践。在新冠肺炎疫情防控工作中,浙江省档案馆认为“各级政府门户网站上产生的疫情网页信息形成速度快、种类多、价值高”,因而开展了抗“疫”网页专题档案的采集工作。该馆制定了《浙江省档案馆2020年新冠肺炎疫情防控专题网页档案收集与归档工作方案》,对指定网站自2020年1月新冠肺炎疫情发生之后发布的有关各地疫情防控工作开展的通知、公告、通报、新闻报道等内容进行采集。截至2月19日,采集视频文件总时长3316分钟,图片文件2826张,静态网页页,数据量达51GB[4]。

上述实践项目已经在我国档案界燃起了网页归档的星星之火,必将带动各级各类档案馆政府网页归档工作的快速发展。

4.归档策略进展。

(1)归档模式。站在档案机构角度看,政府网页归档模式有主动收集和被动收集两种。主动收集是指档案机构远程启动爬虫程序收集政府网页,前文英、美、加国家档案馆政府网页归档都采用此种模式。该模式集约统一,但技术受限,有些网页信息无法收集。被动收集是指档案机构等待网页形成机构移交网页档案。该模式收集信息齐全,对网页形成机构要求较高。

北京市档案信息网的网页归档结合了两种模式。对存量网页主动收集,对增量网页被动收集。主动收集是依托北京数字档案室管理系统的归档功能模块,下达网页采集任务,通过爬虫程序将指定的网页下载到本地,并根据关键字提取元数据信息,对网页文件的内容创建全文索引。被动收集是依托北京市档案信息网网管理后台开发的归档功能模块将网页推送给北京数字档案室管理系统[5]。

(2)归档范围与归档时间。归档范围与归档时间是归档策略的核心问题。郑州市档案局(馆)的政府网页归档范围是以gov.cn结尾的郑州市所有政府部门、机关单位的网站。网站更新缓慢的每六个月收集一次,更新较快的每周收集一次。网站升级改版的时候必须收集。还应公众要求,根据重大事件灵活收集[6]。

北京市档案信息网的网页及网页中的图片、文档文件必须归档。有附件的网页,附件与网页作为一件同时归档。归档时间为每周一次定期归档[7]。

宁波市政府网页归档采取办理完毕或更新后实时归档和定期归档相结合的方式,定期归档时间一般不晚于次年6月底[8]。

(3)元数据方案。在电子文件归档过程中,需要元数据全面描述电子文件,保障电子文件真实、完整,提高电子文件的可理解性以助于其长期可读[9]。网页归档也是如此,元数据具有重要作用。北京市档案信息网的网页归档依据其元数据方案实施。方案中必选项包括标题、网站名称、网站域名、来源、发布时间、采集时间、采集人,可选项包括年度、主题词、作者、归档日期、关键词、摘要、网址、类别、保管期限、档号、全宗号、件号[10]。宁波市政府网页归档要求将网页的元数据同时归档。

5.归档技术进展

(1)分类整理。无论何种信息归档,都需要进行分类整理,政府网页归档亦是如此。北京市档案信息网的网页归档按照“年度—保管期限—类别”进行分类,分类后的档号由“全宗号—年度—保管期限代码—类别代码—件号”组成。网页档案以件为单位组件保存,件的计算机命名规则为“档号+D+两位顺序号”[11]。

(2)归档系统。政府网页归档工作需要一个软件系统作为平台来实现,归档系统是必不可少的基础条件。北京市档案信息网的网页归档系统依托北京市档案信息网和北京数字档案室管理系统开发。北京市档案信息网的网站端具有归档功能模块,北京数字档案室管理系统端具有网页归档接口、归档任务管理、代码管理、档案类别管理、元数据管理、归档网页检索、浏览、管理等功能模块[12]。

(3)存储格式。郑州市档案局(馆)的政府网页归档的存储格式是WARC格式,但一般会压缩成gz文件,分卷压缩[13]。北京市档案信息网的网页归档的存储格式是PDF格式,并对网页档案采用设置层级文件夹的形式进行存储[14]。宁波市政府网页归档的存储格式是WARC、OFD等通用格式,并满足可长期保存的要求[15]。

二、我国政府网页归档的未来发展

1.确立政府网页归档的馆藏思想。近些年来,政府加大了网络办事的力度,政府网站的数量、质量和重要性在飞速提升。2014年《国务院办公厅关于促进电子政务协调发展的指导意见》(国办发〔2014〕66号)、2015年《国务院关于积极推进“互联网+”行动的指导意见》(国办发〔2015〕40号)、2016年《国家信息化发展战略纲要》《国务院关于印发政务信息资源共享管理暂行办法的通知》(国发〔2016〕51号)、《关于加快推进“互联网+政务服务”工作的指导意见》(国发〔2016〕55号)、《国务院关于印发“十三五”国家信息化规划的通知》(国发〔2016〕73号)、2017年《国务院办公厅关于印发政务信息系统整合共享实施方案的通知》(国办发〔2017〕39号)、《国务院办公厅关于印发政府网站发展指引的通知》(国办发〔2017〕47号)、2018年《国务院办公厅关于印发进一步深化“互联网+政务服务”推进政务服务“一网、一门、一次”改革实施方案的通知》(国办发〔2018〕45号)等一系列指导性文件发布,政务信息网络化趋势不可阻挡。在这种大背景下,无论是档案机构还是社会公众,都要认识到网络信息的价值。必须尽早确立“让网络信息变成档案永久流传后世”[16]的新型馆藏思想。那些网络上的政府信息与办事信息,是网络时代政府公务活动与社会活动的记录,是社会记忆的重要组成部分,具有重要凭证价值。因而,政府网页需要归档,归档后的网页档案是新时代档案形式的一种,是新时代的档案馆藏。

文章来源:《眼科新进展》 网址: http://www.ykxjzzz.cn/qikandaodu/2021/0722/993.html



上一篇:终身教育信息化发展的特征图谱分析
下一篇:年我国媒介素养教育研究的现状与进展基于核心

眼科新进展投稿 | 眼科新进展编辑部| 眼科新进展版面费 | 眼科新进展论文发表 | 眼科新进展最新目录
Copyright © 2019 《眼科新进展》杂志社 版权所有
投稿电话: 投稿邮箱: