数据加工

简介

数据加工实现农业科学数据按照一定规则进行农业科学数据清洗,检查数据一致性并处理无效值、缺失值等,开展数据治理控制与数据治理标识,确保数据处理全流程管理并保障科学数据质量。数据加工主要包括:数据清洗、文本数据结构化处理、数据格式转换、数据质量管控等。

数据清洗:对农业科学数据进行重新审查和校验,发现并纠正数据文件中可识别的错误,从数据准确性、完整性、一致性、唯一性、适时性、有效性等方面检查数据,并按照一定清理规则将原始数据中“脏数据”转换为满足数据治理要求的科学数据。

文本数据结构化处理:通过文本“碎片化”加工实现文本数据由非结构化数据形式处理成为半结构化、结构化数据。中心可根据科学数据用户业务需求实现文本数据的半结构化转换,即识别文本数据中各级标题及其所属文本、插图和表格等数字对象,并进行规范化标注,支撑知识组织与知识挖掘。

数据格式转换:实现不同学科领域、不同类型数据的格式转换,如地理信息数据、空间数据、遥感数据等的格式转换,实现数据从一种表示形式转变为另一种表现形式的过程,支持数据的有效存储、应用与共享。

数据质量管控:中心实现对农业科学数据治理相关规范的制定、审核、发布,基于有效的数据治理管理规范、数据质量监督手段和工具、治理方法和过程等提升农业科学数据质量管理水平。