18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 信息时代 > 科学数据库系统(数据库)

科学数据库系统(数据库)

时间:2022-12-30 12:30:01 | 来源:信息时代

时间:2022-12-30 12:30:01 来源:信息时代

    科学数据库系统 : 在计算技术和数据库技术的支持下,按照一定的规则系统组织的相关科学数据的系列或者集合,能进行长期的管理和保持,并能被科研人员访问和使用,支持一类或者若干类科学问题的研究。科学数据是来自于观察、试验、模拟、模型及以更高级别形式组织的所有复杂的数据实体,以及需要对数据进行描述和解释的相关文档。它是观测、实验和计算等科学活动中产生的数据或事实属性,它反映了自然世界存在的客观规律,是人类发展科学概念、理论和模型进而建立从原子尺寸到宇宙空间表达模式的基础。科学理论可能不断改进,但是科学数据将保留下来并不断使用。科学数据来自于各种科学实践活动,如物理、化学和材料等科学进行试验、实验产生实验数据,生态环境、地球、空间等科学进行的观测、调查、监测、探测产生的观测数据,计算机科学、计算数学与其他如力学、材料、生命科学等结合进行数值模拟产生的计算数据。每个科学领域都有科学数据,但存在 数据类型和应用层次,如数值数据、空间数据、图形数据、文本数据和实物数据等表现形式。在数据的加工和应用上,原始数据是原始实验或观测记录,校准数据是指对异常和仪器偏差校正后的数据,简化数据是按照标准归纳简化表达的数据,评价数据是对多个观测、实验数据严格评估得出的最佳数据。一般地,所有的科学数据都应该有元数据,元数据说明获取数据的技术条件,某些情况下还要记录实验、观测时间和地点等。
1.科学数据库发展历史
早在1000多年前,中国和其他国家的人们就将有关太阳和极光活动的信息编入了史册。在西方,系统地研究地球物理学的方法可以追溯到数个世纪以前,在18世纪和19世纪,早期的地磁和地震观测台的数据交流主要是通过出版观测站年度观测报告来进行的,有关海洋学和地质学的数据则记录在航海日志当中。尽管没有方便易行的方法来复制这些原始记录,有关地磁领域、板块构造学和海洋学的知识在很大程度上要归功于这些记录。传统上,科学数据被保存于印刷物、论文、书籍、百科全书、报告、实验手稿和日志、野外考察笔记。随着化学、气象、地质调查和天文领域等科学数据的迅速增长,传统出版物已经不能应付科学数据的发布,早期出现了少数的专业杂志致力于数据发布,如1959年的the Journal of Chemical Engineering Data(美国),1969年的Atomic and Nuclear Data Tables(英国),1972年的Journal of Physical and Chemical Reference Data(美国),2002年的Journal of Astronomical Data则接受完整的科研数据并以光碟发布。
自20世纪70年代开始人们已普遍使用计算机技术获取、管理和归档科学数据,建立各种专业和综合的数据库。美国计算机协会(ACM)于20世纪70年代组织研讨大规模数据库系统(very large databases,VLDB)技术,欧洲原子能研究组织(European Organization for Nuclear Research,CERN)于20世纪80年代开始建立专业数据库网络。随着在线主机服务的发展,科学数据库开始面向公众服务,如 1983年建立的科技信息在线网络(the scientific and technical information network,STN),覆盖了化学和生命科学领域的200多个数据库。更多的科学数据库是为专业科学家使用,如1977年美国地质调查局建立拥有50多个地球科学数据处理系统,约0.5TB数据量。
数字化的科学数据管理是信息时代的新生事物,在物理、生物实验科学领域人们逐步把纸面记录的科学数据转化电子记录,而在天文、地球科学等领域的观测数据通常是直接获取仪器的电子化记录。随着科学技术的进步,某些领域如晶体结构、基因数据等要求建立国际化的数据中心以便全面存储、管理、评价数据。20世纪90年代末以来,建立科学数据获取、评估和分发的数据中心机制在科学领域得到广泛、迅速发展,2001年后,Web技术已经成为科学数据发布的基本工具,通过网络即可访问国际上的绝大部分科学数据库。
2.科学数据库发展趋势
通过传感器、试验、计算机模拟等手段,现代科学数据的规模和复杂度呈几何级增长。国际上,随着信息技术的发展,近10年来发达国家和地区逐步建立了庞大体系的科学数据资源,开发了先进的应用系统,成为面向21世纪知识创新的信息化科研环境的基础设施和支撑条件,为基础研究、应用研究和社会经济发展提供了数据支撑。
20世纪90年代以来,美国政府逐步在国家层面上构建数据共享的框架,首先由美国国家航空航天局(NASA)启动“分布式、最活跃数据档案中心群”项目,建立了庞大的科学数据中心体系,包括13个学科性的世界数据中心和9个国家数据中心,包括的世界数据中心有大气微量气体中心、海洋地质学与地球物理学中心、地震学中心、人类与环境相互作用中心、气象数据中心、海洋学中心、遥感陆地数据中心、火箭与卫星中心、太阳陆地物理数据、地球自转中心、固体地球物理学中心以及古气候学中心等。世界数据中心中国地区中心共有海洋、气象、地震、地质、地球物理、空间、天文、冰川冻土、可再生资源与环境等9个学科数据中心;俄罗斯地区中心建立包括海洋地质与地球物理学、气象学、海洋学、火箭与卫星、地球自转、日地物理、固体地球物理7个学科中心; 欧洲地区中心建立了包括气候学、固体潮、地磁学—哥本哈根(丹麦)、地磁学—爱丁堡(英国)、冰河学、海洋环境科学、大气遥感、土壤、太阳活动性、日地物理、太阳黑子指数等11个学科数据中心;日本地区中心建立了包括气辉、极光、宇宙射线、地磁学—孟买(印度)、地磁学—京都(日本)、电离层、核辐射、太阳射电辐射、日地科学—悉尼(澳大利亚)、空间科学卫星数据等10个学科数据中心。
在其他的基础、交叉和前沿科学领域,随着信息技术的深入应用,数据资源的指数级增长对数据存储、应用接口、数据传送、检索分析等提出了较高的要求,国际上由各类科学团体如国家部门、科研机构、国际组织等逐步建立了一批大规模科学数据库。如美国国家标准局(NIST)开发了80多个数据库,内容涉及到物理、化学(分析化学、化学动力学、化学与晶体结构等)、环境、材料性质、产品设计等多个学科领域。并提供了多种服务形式,包括在线免费、Data Gateway集成服务等。
剑桥晶体结构数据中心 CCDC(Cambridge Crystallographic Data Center)是1965年由剑桥大学晶体研究工作组建立,1989年成为独立机构,现成为全球最大的晶体结构的数字化数据库,每年约增加1万个化合物。
在生物信息领域,出现了很多迅速成长的数据库,通常是复杂的数值、文本、图像等混合数据,其使用需要更好地技术维护。如PDB,蛋白质数据库,约2万条记录,1GB数据量。SWISS-PORT,蛋白质系列数据库,含百万条记录,约10GB。TrEMBL,是SWISS-PORT计算机注释补充材料,约100GB。MEDLINE,医学与生命科学文献数据库,约100GB。EMBL核酸系列数据库,数据量已达到TB级。GeneExpression数据库,如包含DNA切片等图像数据,数据量预计将达到PB级。NIH Genetic Sequence Database,通常称为GenBank,1982年由NIH建立。GenBank数据原先主要来自于生物学文献,现在则直接来源于测序工作者提交的序列,由测序中心提交的大量EST序列和其他测序数据,以及与其他数据库协作交换而来的数据。GenBank中的数据呈指数增长。1985年,基因库仅有5700条记录,至2006年2月,在传统的GenBank分支系统中,已有597亿多个碱基,序列记录达到5458万余条: 在WGS分支信息中,已有631亿个碱基,序列记录达到1246万余个。
在天文、高能物理等科学领域,由于大量使用高吞吐量的传感仪器,产生了大规模的科学数据。“数字化天空测量”产生的数据文档按比例将在10年内从今天最大的10TB增长到1000TB。据估计,美国国际虚拟天文台项目从2004年起每年将产生500TB的数据。激光干涉仪重力天文台项目从2002年起每年产生250TB数据。2004年开始运作的VISTA望远镜每晚产生250千兆字节的源数据,每年将产生10TB存储数据。如SIMBAD天文数据库是关于天文数据的标识、测量和参考文献的数据集,由法国斯特拉斯堡天文台建立。SIMBAD数据库包括约375 万个天体(objects),983 万个标识符(Identifier),17万条参考文献,520万条在文献中被引用的天体。同时,SIMBAD还支持虚拟天文台VO和天文网格AstroGrid等重大应用项目。欧洲高能粒子物理实验室(CERN)强子对撞机(LHC)试验的规模在物理界是空前盛大的,每次试验涉及到全球成百个仪器和5000多个物理学家,一年四次LHC试验将会产生几千TB的试验数据。如此大量的数据需要被处理和分布,以便搜索显示希格斯玻色子存在的信号或其他信号。围绕LHC等试验数据的处理,已经建立了大量的数据网格,如美国国家科学基金会(NSF)网格物理网、能源部(DOE)粒子物理数据网格、NSF国际虚拟数据网格实验室和欧盟(EU)数据网格工程及英国(UK)GridPP、意大利INFN网格和NorduGrid等国际网格项目。这些试验每年将需要存储、处理大约10PB数据量。
在医药与健康、工程技术、模拟计算、社会科学等领域,也产生了大量的科学数据,通常结合应用项目建立科学数据库。如英国e-Diamond、美国国家数字乳房X线照片档案和欧洲的MammoGrid等,建立的TB级数据库包含数字扫描技术X线照片、核磁共振成像扫描及其他医学图像数据等,将提供建立一个可视化的数据标本,从而协助医生远程、实时、自动诊断成为可能。英国建立了Essex的ESRC数据归档、曼彻斯特MIMAS和爱丁堡EDINA等社会科学领域数据,数据量超过了1TB。在工程领域,英国分布式飞行维护环境项目(DAME),建立了发动机引擎的压力、温度和振动传感器数据,每年产生上千TB的数据,用于聚合实验和实际数据检测、监控潜在问题。

关键词:数据,系统,科学

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭