学坛作文网

浅谈数据密集型数据资源云平台的构建论文

2019-12-10 15:21:01 142

浅谈数据密集型数据资源云平台的构建论文

福布斯杂志说:“现在,在浏览新闻网站或参加行业会议时,几乎不可能看到或听到'大数据'一词。”数据已成为人们关注的热点。工业,科学和政府部门。近年来,《自然》,《科学》等国际顶级学术期刊相继发表专刊,以促进大数据的研究。中国,美国和其他政府也已经启动了大数据的研究和部署。业界已率先认识到大数据的巨大价值和战略意义。亚马逊,谷歌和IBM等IT巨头已经探索了解决大数据的解决方案。云计算已逐渐成为他们共同的探索方向。科学界也逐渐意识到大数据的影响。相信随着大数据时代的到来,科学研究已进入数据密集型科学研究的阶段,中国科学范式的转变已成为科学界研究的重点。本文探讨了数据密集型科学研究的内涵和特点,以及科学界面临的挑战,并建立了一个数据资源云平台,以帮助研究人员解决数据密集型科学研究中的问题。

1数据密集型科学研究的内涵和特征

数据密集型科学研究是一种直接从海量数据中发现科学规律的研究范式。大数据环境中实验科学,理论科学和模拟科学的继承和发展。它包括三个基本活动:科学数据的收集,管理和分析。数据来源主要是大型国际实验,跨实验室,单实验室或个人观察实验,个人生活等。在这种新的科学研究范例中,使用科学仪器或模拟方法收集数据,然后通过计算机硬件和软件设备执行数据管理和分析,并将处理后的数据,信息和知识存储在计算机中。信息科学贯穿于科学活动中,研究人员对数据的检查始于整个科学活动中相对较晚的步骤。数据密集型科学研究作为大数据环境下科学研究的一项新进展,具有以下三个特征:

(1)数据驱动而不是假设驱动。在传统阶段,实验科学,理论科学和模拟科学可获得和使用的数据相对较少。只能采用假设驱动的研究方法。首先,假设基于前人的研究结果和他们自己的知识,然后通过设计实验,理论推导或计算机模拟等定义明确的方法来获取相关数据并检验假设。现在,科学研究已从数据稀缺的时代过渡到数据泛滥的时代,数据密集型科学研究不再需要模型和假设,研究人员的重点已经从“如何验证这个假设”变为“我可以从这些数据中获取信息。”有什么联系?”数据已成为研究活动的起点和动力。

(2)强调可重复性。科学研究是人类了解世界,改造世界的重要手段。确保科研成果的可靠性和真实性是科学研究的前提,可重复性是检验科研成果的可靠性和真实性的最有效手段。在数据密集型科学研究中,技术的进步使数据发布更快,更广泛,并且影响更大。因此,为了更好地保证科学研究的可靠性,必须更加重视科学研究活动的可重复性。性,以便尽快识别错误或伪造的科学研究成果,以最大程度地减少负面影响。 中国

(3)相关性,不是因果关系。数据密集型科学研究通过对科学数据的分析和挖掘,直接从科学数据中发现科学定律,并了解事物之间的关系。它的本质在于客观,但不能像实验科学,理论科学和模拟科学那样进行逻辑检验。因果关系。但是,科学研究是人类了解世界的一种手段。其目的不仅是发现科学定律,而且是探索法律运作的根本原因。在获得相关性之后,有必要通过结合前三种科学方法来解释因果关系。

数据密集型科学研究是对前三种科学的继承和发展。它被视为科学探索的新范例。它具有巨大的价值和意义,当然也面临一些新的挑战。挑战。

2数据密集型科学研究所面临的挑战

2. 1科学数据方面的挑战

科学数据面临许多方面的挑战但是,从研究的角度来看,根本的挑战在于它的规模,复杂性和特异性。

(1)规模是科学研究数据最明显的特征,也是研究人员面临的主要问题,主要表现在原始数据规模和数据增长规模上:1原始规模数据性别。科学研究是一项持续不断的活动,传统科学已经产生了大量的数据积累。例如,澳大利亚的平方公里阵列射电望远镜项目自发射以来每天产生数PB的数据。 2数据增长率规模。随着研究人员的研究方法和研究手段变得越来越先进,科学研究可以生成和获取的数据量也在增加。数据的增长速度已经超过了数据存储容量的增长速度,从而导致了数据存储和处理能力的提高。与不断增长的数据量之间的矛盾变得更加尖锐。

(2)复杂性是科学研究大数据的重要特征,给科学数据共享带来很大困难,主要是数据类型的复杂性和数据结构的复杂性:1数据类型的复杂性。国家科学理事会从研究类型的角度将科学数据分为四个基本类别:预测,计算,实验和记录。这种划分模糊了在特定学术活动下收集的数据类型的复杂性。 。计算机技术和科学方法的进步使研究人员能够结果数据类型越来越复杂,例如磁共振成像,基因序列,电子显微镜数据等。 2数据结构的复杂性。传统的科学数据以结构化的方式存储在关系数据库中,但是随着研究人员访问数据的渠道和方法的多样化,非结构化数据成为科学数据的主流形式。与结构化数据相比,非结构化数据的组织更加混乱和复杂,给数据处理和共享带来了挑战。

(3)特异性是区分科学数据与其他数据,挑战科学数据共享和学术信息交换的一项关键功能,主要在于识别的特异性和价值的特异性:1性别。由于科学数据与客观世界是分离的,因此对科学数据的理解不可避免地是主观的。数据收集者认为这是数据的收集。接收者可能不这么认为,观察数据或模拟数据可能是或至多是“供认证据”; 2价值的特殊性。作为可重复使用的非消耗性资源,科学数据具有附加值,需要研究人员加以实现。有两个因素影响科学数据的欣赏程度。一是科学数据本身的价值,它决定了理论欣赏的最大程度。第二是数据用户确定实际赞赏程度的能力,而科学数据的交换和共享可以实现数据。多方的使用促进了科学数据价值的指数增长,因此如何实现科学数据共享已成为科学界的当务之急。

2. 2科研挑战

首先,研究人员缺乏将数据转化为知识的意识和方法。一方面,中国没有意识到科学数据的价值特异性。随着科研人员的退休,项目的结束等,大多数科学数据将被废弃,其他人将无法使用。另一方面,数据密集型科学研究没有参考依据,科学研究方法需要从传统的假设驱动转变为数据驱动,研究人员必须培养以数据为基础的数据敏感性,并转变其研究方法以获得数据价值。最大化。

其次,研究人员缺乏设备和技术支持。目前,这些研究项目是金字塔形的,第一层项目可以由国际财团或美国国家科学基金会资助以获得超级计算和存储资源,而第二和第三层项目中的大部分获得的资金相对较大。资金。数据密集型科学研究的资源需求有限,难以满足。研究人员无法获得确保该项目处于平等地位所需的资源,拖延知识创新的过程,并且不利于科学的可持续发展。

最后,数据共享存在障碍。一方面,不同地区,不同学科之间没有统一的交流平台。尽管科学研究的地理分布和跨学科性质正在加剧,但仍有近87.5%的数据未能形成供研究人员使用的数据源。 。另一方面,不同实施级别的数据共享将涉及各种利益,策略,系统等。这些因素导致了原始数据和研究方法无法真正共享的事实。跨国项目在这方面的问题尤为突出。因此,完善的科学传播体系值得科学界和国际社会的关注。

3分析数据密集型科学研究中云计算的必要性

云计算是一种基于Internet的,按需,按需和便捷的访问方式共享资源池(例如计算设施,存储设备,应用程序等)的计算模型,Gartner的2014年技术成熟度曲线,云计算处于泡沫的底部,并且已经过了最危险的预期扩展期人们对云计算已逐渐变得更加理性和成熟。业界不再热衷于推测云计算概念,而是将实现云计算的成熟和规模应用作为努力的方向。 Gartner在2014年个人云时代和规模IT的十大技术和趋势选择中都使用了云计算。云计算真正与实际应用程序和环境集成,从探索到应用程序的转变,成为大数据时代的个人和企业。数据管理的必然选择。

在数据管理的使用和理解中,许多科学领域至少落后于商业领域10年。云计算在商业领域的广泛应用具有科学领域的参考价值,而云计算在数据密集型领域的应用在科学研究中是可行和必要的。

首先,帮助研究人员应对科学大数据规模带来的存储挑战。超大规模是云计算的最基本特征。它的底层由成千上万甚至数百万个服务器群集组成。例如,谷歌云计算中心拥有数百万台服务器,而云计算中心则通过运维管理和资源管理。这些机制集成并管理了这些巨大的计算机集群,并具有海量数据存储能力,可以有效应对科学大数据的规模。另外,与传统的垂直扩展方法相比,云计算采用水平扩展模式,即增加更多的逻辑单元资源,而传统的垂直扩展方法是提高单个逻辑单元资源的性能。 中国横向扩展模式的成本较低且部署周期短。短,灵活等优势,可以更好地应对科学大数据增长的规模。

其次,为研究人员提供了处理非结构化数据的灵活性,以应对科学大数据的复杂性。作为云计算系统中关键的数据处理组件,MapReduce具有两个核心概念:第一,解决问题,分布式处理是面对海量数据时的首要选择;其次,用移动计算代替移动数据,避免了数据传输过程中产生的大量通信开销。 MapReduce最初设计用于处理大量的非结构化数据,并部署在大规模的基础架构上,使云计算具有处理科学大数据的规模和复杂性的能力。结合虚拟化技术在云计算,云表中的成功应用它可以根据用户的实际使用情况计算资源的动态分配,及时满足用户对计算资源需求的变化,帮助研究人员应对突发事件。

第三,实现数据的长期保存和可用性,为科学数据共享提供保护。根据科学研究活动的过程,科学数据可以分为原始数据,派生和组合数据以及文献。这些数据是数据密集型科学研究的核心要素,因此必须保证科学数据的完整性,安全性和可用性。云计算中心拥有完善的保障措施。在硬件方面,它采用了诸如计算节点同构互换性,网络和能量冗余设计之类的措施,并且软件使用了多个容错和心跳检测副本来确保数据可用性。获得并安全。而且,科学数据由云计算提供商进行管理,打破了数字资源分散的原始局面,有利于资源的有效流通,利用和共享,实现了科学数据的价值特异性。

第四,建立统一的科研活动平台,使所有研究人员能够平等享受各种服务。服务是云计算的核心概念,也是云计算与传统并行计算,分布式计算和网格计算之间的主要区别。云计算旨在允许用户平等且透明地使用云计算资源,就像使用诸如水力发电这样的基础设施一样容易。云计算通过向用户提供统一和集成的平台,将传统的应用程序集成概念扩展到服务集成,从而实现资源和服务功能,例如数据收集服务,数据存储服务,数据管理服务,数据处理服务和数据参考服务。集成到云计算系统中。

4数据资源云平台的构建

但是,云计算技术并未提供完整且通用的解决方案,无法满足可重复性,数据共享的要求在信息资源管理领域使用相关技术的需求可以帮助研究人员在更大程度上应对科学大数据的挑战。因此,数据资源云以云计算为基础,以数据密集型科学研究为主体,并辅以信息资源管理相关技术,以数据为中心,面向科学活动和面向数据服务的服务平台。 。

4. 1云基础服务平台

云计算基础服务平台是整个数据资源云的基础。物理基础架构是根据云计算平台标准构建的,为上层服务提供硬件。在支持和环境保护方面,研究人员可以充分利用平台提供的软件和硬件设施,轻松构建大型应用程序。虚拟化技术是研究人员像使用本地资源一样使用数据资源云的关键技术。它可以分配和封装计算资源,存储资源,网络资源,科研设备等,并为用户提供接口。该表格可供研究人员使用。研究人员可以将存储在本地磁盘上的数据传输到数据资源云,然后将其移交给专业人员进行集中管理,以实现长期数据保留。也可以通过该接口访问和使用各种大型仪器和设备,以平等地访问项目所需的资源。

4. 2科学数据处理和服务层

4. 2. 1科学数据处理

考虑到数据密集型科学研究的特征,数据资源云并不是传统的想法是建立,但要遵循以数据为驱动的概念,以数据为起点,经过科学数据资源的科学数据处理步骤之后,研究人员要进行研究,因此在科学数据处理中,数据资源云已经采用了流程和技术。与传统的假设驱动平台不同。

首先,必须获取原始数据,例如实验数据,模拟数据和科研人员信息。资源数据可以在后续操作中产生更大的价值。数据集成消除了数据之间的异质性,消除了重复数据,从逻辑上封装了关联数据,并减少了后期处理中的资源开销。为了满足数据密集型科学研究的可重复性,数据沿袭管理已成为科学数据处理过程中必不可少的部分。数据沿袭通常出现在包含多个数据集的应用程序中,并用于描述随时间推移数据生成和演化的整个过程。对于项目实施者,数据沿袭与分布式文件系统的灾难恢复备份机制配合使用,以在发生故障时正确,快速地恢复数据。对于数据用户,他们可以充分了解数据的演化过程,加深对实验结果的了解,有助于实现科学研究成果的重现,并确保研究活动的可靠性和可重复性。

其次,科学数据分析是科学研究活动中的关键环节,包括海量语义分析,科研人员需求分析和海量数据挖掘。语义技术可以定义概念,术语等的机器编码定义,并且可以对它们之间的相互关系进行声明性和条件性定义,从而使研究人员,学生甚至普通人都可以使用跨区域,跨学科的数据。公众的理解和使用是促进数据共享的关键。在海量数据中挖掘规则是数据密集型科学研究的重要手段。数据资源云可以为研究人员提供灵活的计算功能。 MapReduce在海量数据和非结构化数据处理方面的功能已得到各行各业的认可。云科学工作流程在重复性和流程工作方面更为出色,并且可以为研究人员提供可视化建模工具,以便研究人员即使没有编程知识也可以根据实际需求设计云科学工作流程模型。任务与科学工作流任务之间的关系。因此,将MapReduce与云科学工作流程结合起来可以帮助研究人员应对科学数据的规模和复杂性。此外,为了提高后续服务的质量,有必要根据研究者和环境的问题,使用数据挖掘方法和工具来分析其学习水平,研究经验,研究方向等。他们所处的位置,并探索他们的兴趣点和知识需求点隐藏的需求分析文档可为后续的推送服务提供基础。

最后,研究人员判断并检查处理结果的价值。在数据密集型科学中,研究人员不再直接参与科学数据的处理和分析。该任务由数据资源云完成。他们的任务是检查和筛选整个科学活动中的分析结果。或将有价值的结果作为知识处理,发布到数据资源云中。如果结果没有实际价值或未能达到预期的结果,研究人员将反馈到上一个链接,数据资源云将根据研究人员的反馈信息通过重新选择数据来对数据进行重新处理。并调整云科学工作流程模型。获得满意的结果。

4. 2. 2数据服务

鉴于数据密集型科学研究的数据驱动性,可重复性,仅提供给研究人员的知识已不足以满足其资源需求。在数据密集型科学研究中,数据的获取和重组已经成为同等重要甚至更为重要的研究资源。数据资源云将数据服务作为特殊服务。在保留传统的云服务平台为用户提供知识服务项目的同时,还创造性地将原始数据,派生和重组数据添加到服务内容中,并努力为用户提供更全面的信息。数据服务可满足研究人员在数据密集型科学研究中的需求。

5结论

相关文章
三作三评升格作文,开发资源广泛阅读

三作三评升格作文,开发资源广泛阅读

丹桂市的校园在9月充满了芬芳,而且芬芳也弥漫。在这个金色的秋天,我们迎来了第35个教师节。在这一特殊的日子,泰兴市高中的所有英语老师都认真听取了台州市教育局英语教育与研究所所长严学华先生的专题报告
珍惜资源,爱我国土_650字

珍惜资源,爱我国土_650字

而且我们只知道我们在浪费资源,我们也不知道该如何珍惜它。地球母亲非常爱我们。她从不为自己的孩子感到后悔。她已经给了我们很多的身体部位:她用她优雅的“长发”让人们砍伐和建造房屋。给人们水和电
珍爱资源 爱我国土_800字

珍爱资源 爱我国土_800字

现在电视上有许多公益广告,它们可以节省资源并节省资源。也有许多动画片可以教育儿童勤奋保存。我认为我们每个人都应该节水,省电和节约土地。 我问父亲:“在电视上,绿色的山丘是金山银山
高考英语作文:资源节约型社会_650字

高考英语作文:资源节约型社会_650字

                     cent最近,我们学校开展了“为节能型社会做点努力”的活动。我们的同学非常关注不断增加的精力不足,并提出了自己的建议
酒店人力资源管理论文

酒店人力资源管理论文

酒店人力资源管理论文(选3) 在日常学习和工作中,每个人都熟悉这些论文,我们可以通过撰写论文来培养我们的科研能力。如何写论文以避免踩雷?以下是编辑收集的酒店人力资源管理论文(选3),欢迎阅读和收藏
废纸的“复活”节-珍惜资源作文400字

废纸的“复活”节-珍惜资源作文400字

这是中文课,但老师并不打算让所有人学习课文,他是我们最喜欢的老师张。教室的钟声响了,张老师手里拿着一小叠废纸,轻轻轻柔地走进教室,这似乎很神秘。嘿,这很奇怪。老师要用废纸上课吗
浅谈人力资源战略规划论文

浅谈人力资源战略规划论文

关于人力资源战略规划论文1 摘要:从学术意义上讲,通过工程技术和管理科学的结合,可以实现企业资源的最佳结合,从而获得长期利益。尽管两者的发展历史,研究目的和理论方法都是独立的学科
保护自然资源,共筑美好蓝天 环保作文700字

保护自然资源,共筑美好蓝天 环保作文700字

谈到过去的“深圳”和“浦东”,也许认识的人并不多,但是现在这两个地方已经成为举世闻名的大都市。社会的进步和科学技术的革新极大地改变了我们的世界,但与此同时,也出现了一些问题
节约资源 三年级环保作文300字

节约资源 三年级环保作文300字

今天,我和父亲来到清水公寓住宅区,这是杭州首批进行垃圾分类的试点地区。进入社区后,我立即发现这里的垃圾箱与众不同。根据不同的垃圾分类,它使用了四种不同的颜色。红色用于堆放危险废物
珍惜地球资源 环保演讲稿700字

珍惜地球资源 环保演讲稿700字

亲爱的老师,亲爱的同学们: 您好,我是第五节(1)的娄一树。今天我演讲的主题是“珍惜地球的低碳生活。 4月22日,星期五是一个特殊的日子,你知道今天是几号?是,这是地球日。你知道吗
加强水文水资源勘测合理开发利用水资源论文

加强水文水资源勘测合理开发利用水资源论文

1合理开发和利用水资源的要点 在人类生存和发展中,水资源是重要的物质资源,人类拥有否为了生存,当前的水资源已不能满足社会快速发展的需要,因此需要合理开发和利用水资源
浅谈数据密集型数据资源云平台的构建论文

浅谈数据密集型数据资源云平台的构建论文

福布斯杂志说:“现在,在浏览新闻网站或参加行业会议时,几乎不可能看到或听到'大数据'一词。”数据已成为人们关注的热点。工业,科学和政府部门。近年来,《自然》
浅谈淮委信息化资源的整合与共享论文

浅谈淮委信息化资源的整合与共享论文

1状态 近年来,淮委员会的信息化依靠淮安电子政务系统项目,防洪抗旱指挥系统。工程,水资源监测能力建设和淮河。建成了数据灾难恢复备份中心和淮委员会重要的信息系统级保护等重点项目
浅谈资源型城市产业转型与资源整合论文

浅谈资源型城市产业转型与资源整合论文

资源型城市通常是通过开采矿产等自然资源逐渐形成的工业城市。由于资源的枯竭,产业结构的调整以及市场需求的变化,一些区域性冲突正在加剧。龙岩市作为中国城市化进程中的资源型城市
珍惜资源 爱我国土_800字

珍惜资源 爱我国土_800字

地球,人类之母,生命的摇篮,这个美丽的家,多么美丽可亲。 今天,在中国960万平方米的土地上居住着1,372.71百万人口,占世界人口的五分之一。这也意味着我们将消耗大量的社会资源
同类文章
完美的结合 高中生议论文600字

完美的结合 高中生议论文600字

一次,几个朋友一起讨论了您最讨厌的人。一个朋友说我讨厌老板,另一个朋友说你的性格就像你的老板。他说你讨厌你有他的影子,这不是在开玩笑吗?我的朋友说,我发现有些讨厌母亲的孩子也和她一样
梦想 关于梦想的议论文600字

梦想 关于梦想的议论文600字

每个人都有一个梦想,包括一个也有梦想的新生婴儿。梦想是什么?梦想是如何形成的?梦想代表什么?现在让我们一起学习什么是梦想?这三个问题是梦想如何形成的。 现在,让我们来看第一个问题;梦想是什么
学会择善而从 初一议论文400字

学会择善而从 初一议论文400字

著名的法国哲学家和作家伏尔泰曾经说过:“我不同意您的发言,但我誓言捍卫您的发言权。”这句话表明,任何人都可以持有自己的意见。但是,这并不意味着必须认真对待每一个观点。可以说
电力工程设计概预算的分析及控制论文

电力工程设计概预算的分析及控制论文

摘要:电力工业在社会经济发展中起着非常重要的作用,是各个领域建设和发展的基础。在此基础上,分析了电力工程设计阶段预算管理部分,讨论了设计预算中的一些问题
GIS在测绘工程的运用论文

GIS在测绘工程的运用论文

摘要:在电子测绘工具中,GIS非常突出,功能更强大,除基本的制图功能外,还可以实现空间查询,实际工作带来了极大的方便,不仅减轻了测绘人员的工作压力,而且可以进一步提高测绘工作的效果
怎样有效控制铁路信号工程质量论文

怎样有效控制铁路信号工程质量论文

摘要:随着经济的发展和进步,在铁路管理项目中,有必要将管理过程与项目质量监督管理体系相结合,并充分发挥其作用。铁路国民经济支柱产业的优势。本文结合案例讨论了铁路信号工程的质量控制措施,仅供参考
学生主动参与体育教学研究性论文

学生主动参与体育教学研究性论文

经过多年的实践探索,作者总结了许多有效的体育课堂教学经验。本文从两个方面进行讨论。第一部分从三个方面描述了让学生积极参与体育运动的意义。第二部分列出了学生积极参加体育运动的具体方法。 首先
火力发电厂土建与电力工程安装探讨的论文

火力发电厂土建与电力工程安装探讨的论文

[摘要] 随着中国社会经济和社会生产的不断发展和进步,建设项目发展迅速,对施工技术和施工要求极高。 。环境更加复杂。其中,电气安装工程是整个建设工程的重要组成部分,与土建工程有着密切的关系
工程制图课训练学生严谨能力分析论文

工程制图课训练学生严谨能力分析论文

摘要: 随着计算机技术的出现,在室内设计领域也出现了使用计算机软件绘制工程图的浪潮。尽管计算机图形学具有其无与伦比的优势,但是工程图的基础知识仍然是设计人员必须掌握并应引起足够重视的技术手段
管道工程设备的采购风险论文

管道工程设备的采购风险论文

管道设备采购是指在石油和天然气管道站中用于管道运行,供电,检测,监测,测量,应急保护等的设备,包括各种油泵,加热炉,压缩机单元,开关设备,不间断电源,干式变压器,微机集成自动化系统,防爆设备