
2.2 困境
数据共享不足:高度数据开放是数据应用的前提。目前一些机构拥有大量数据但不愿提供给有关部门共享,导致信息不完整或重复投资。另外,政府、企业和行业信息化系统建设往往缺少统一规划和科学论证,数据之间缺乏统一的标准,形成了众多“信息孤岛”。无疑,这给数据应用造成极大障碍。
技术人才匮乏:高端技术人才是数据应用的关键。麦肯锡公司预测美国到2018年需要深度数据分析人才44~49万,缺口14~19万人;需要既熟悉本单位需求又了解大数据技术与应用的管理者150万,这方面的人才缺口更大。
3 大数据分析的意义
近年来,包括互联网、物联网、云计算等信息技术在内的IT通信业迅速发展,现代信息社会已经进入了大数据时代。大数据改变的不只是人们的日常生活和工作模式、企业运作和经营模式,甚至还引起科学研究模式的根本性改变。
大数据中蕴含着大价值,大数据价值的合理共享和利用将创造巨大的财富。大数据智能分析能够给智慧城市的管理和服务系统提供新的洞察力,是提升智慧城市“智商”的关键。以大数据技术为支撑的综合智能化分析和决策系统,使智慧城市的管理系统和服务系统充分、有效、合理地发挥各自的作用,解决目前困扰各地的“信息孤岛”现象,做到信息资源的共享、智能决策的集成,实现智慧城市让城市生活更美好、更幸福的目标。
4 大数据分析方法
大数据不单单是数据大,而且呈现了不断增长的复杂性。当前最重要的是对大数据进行分析,只有通过分析才能获取智能的、深入的、有价值的信息,大数据分析方法是决定最终信息是否有价值的决定性因素。
可视化分析:在信息化建设过程中,数据可分为三种类型:结构化数据,非结构化数据和半结构化数据。由于所涉及到的数据比较分散、数据结构可能不统一,而且通常以人工分析为主,加上分析过程的非结构性和不确定性,所以不易形成固定的分析流程或模式,很难将数据调入应用系统中进行分析挖掘。借助功能强大的可视化数据分析平台,可辅助人工操作将数据进行关联分析,并做出完整的分析图表。
数据可视化的优点:第一,交互性强。用户不仅能看数据,还能方便地管理和开发数据。第二,多维性好。通过每一维的值分类、排序、组合来显示数据的多个属性或变量。第三,直观度高。数据可以用图像、曲线、二维图形、三维体和动画来显示。
数据挖掘算法:数据挖掘是一个从不完整的、不明确的、大量的并且包含噪声的具有很大随机性的实际应用数据中,提取出隐含其中、事先未被人们获知、却潜在有用的知识或模式的过程。数据挖掘在有效处理海量且无序的数据时,还能够发现隐藏在这些数据中的有用的知识,最终为决策服务。数据挖掘就是利用一系列相关算法和技术从大量的数据中提取出为人们所需要的信息和知识,隐藏在数据背后的知识,可以以概念、模式、规律和规则等形式呈现出来。
预测性分析能力:根据可视化分析和数据挖掘的结果,预测性分析可做出一些预测性的判断。可视化分析和数据挖掘都是前期铺垫工作,只要在大数据中挖掘出信息的特点与联系,就可以建立科学的数据模型,通过模型带入新的数据,从而预测未来的数据,大数据分析最终要实现的应用领域之一就是预测性分析。大数据的预测分析能力,能够帮助企业分析未来的数据信息,有效规避风险。在通过大数据的预测性分析之后,无论是个人还是企业,都可以比之前更好地理解和管理大数据。
语义引擎:非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。
数据质量和数据管理:大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。
5 大数据技术
大数据环境下,数据来源非常丰富且数据类型多样,存储和分析挖掘的数据量庞大,对数据展现的要求较高,并且很看重数据处理的高效性和可用性。然而,传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理;传统的并行数据库技术追求高度一致性和容错性,难以保证其可用性和扩展性;传统的数据处理方法是以处理器为中心,而大数据环境下,需要采取以数据为中心的模式,减少数据移动带来的开销。
在数据采集方面使用的新方法有以下几种。
系统日志采集方法:用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。
网络数据采集方法:用于非结构化数据的采集,将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。
其他数据采集方法:对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。
6 大数据工作的开展
第一个是完善信息采集平台。充分利用物联网等技术,使越来越多的基础设施具备信息自动采集和迅捷采集的能力,便于信息的获取更加便捷和高效。扩展采集的设备类型和支持的协议类型,使数据采集的范围和通道越来越广。在此基础上,打破各行业的信息资源壁垒,实现信息资源的高度整合和共享。
第二个是加强大数据分析和挖掘。大数据如何为我所用,如何体现价值,缺少大数据分析光有一堆大数据的堆积和存储是没有任何意义的。我们应结合重点行业,如水利、交通、城管、公共安全,推动这些行业的大数据分析和预测挖掘系统,并以典型行业和典型项目为基础逐步扩展。
第三个是推动大数据可视化。现代城市产生的数据量非常大,对数据价值的挖掘不能只依靠数字和报表,大数据可视化有助于帮助用户更形象地分析、挖掘数据的价值。通过数据可视化方式,包括GIS和专业图形的可视化方式,用非常直观的方式帮助业主去获取数据价值,从而分析、挖掘数据中间的关系和趋势。数据可视化方式是我们未来发展的重点。
参考文献
[1] 维克托·迈尔-舍恩伯格.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.浙江:浙江人民出版社,2013.
[2] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013, 50(1):146-169.
[3] 李芬,朱志祥,刘盛辉.大数据发展现状及面临的问题[J].西安邮电大学学报,2013,18(5):100-103.
[4] 王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1134.
[5] 王珊,王会举,覃雄派,等.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1751.
[6] 李战怀,王国仁,周傲英.从数据库视角解读大数据的研究进展与趋势[J].计算机工程与科学,2013,35(10):1-10.
(www.fabiaoba.com),是一个专门从事期刊推广期刊发表、投稿辅导、发表期刊的网站。
本站提供如何投稿辅导、发表期刊,寻求论文刊登合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级论文刊登/国家级论文刊登/
CSSCI核心/医学投稿辅导/职称投稿辅导。
投稿邮箱:fabiaoba365@126.com
在线咨询:
275774677、
1003180928
在线咨询:
610071587、
1003160816
联系电话:13775259981
主管单位:山东省教育厅 主办单位:山东省教委 国内刊号:CN 37-1025/G4 国际刊号:IS...
主管单位:国家民族事务委员会 主办单位:西北民族大学 出版地:甘肃省兰州市 国际标...
期刊简介: 《种子科技》(月刊)创刊于1983年,曾用刊名:(种子通讯)是中国种子协...
期刊简介: 《高等工程教育研究》是我国第一份、也是唯一一份面向工程教育研究的全国...
期刊简介: 主管单位:吉林省社会保险事业管理局 主办单位:吉林省人力资源和社会保障...
主管单位:湖北省国资委 主办单位:湖北省经济干部管理学院 出版地:湖北省武汉市 国...
近来发现有些作者论文投稿存在大量剽窃、抄袭行为,“发表吧”对此类存在大量剽窃、抄袭的论文已经停止编辑、推荐。同时我们也提醒您,当您向“发表吧”投稿时请您一定要保证论文的原创性、唯一性,这既是对您自己负责,更是对他人的尊敬。
此类投稿的论文如果发表之后,对您今后的人生和事业将造成很大的麻烦,后果不堪设想,请您一定要慎重,三思而后行。
如因版权问题引起争议或任何其他原因,“发表吧”不承担任何法律责任,侵权法律责任概由剽窃、抄袭者本人承担。