大数据运营之数据存储-创新互联

大数据服务的数据源不但来自归属于不同行业的组织之中,而且其类型还具有多样性(Variety)特征。

创新互联专注于企业成都全网营销、网站重做改版、扶余网站定制设计、自适应品牌网站建设、成都h5网站建设成都做商城网站、集团公司官网建设、外贸网站建设、高端网站制作、响应式网页设计等建站业务,价格优惠性价比高,为扶余等各大城市提供网站开发制作服务。

多样性指的是大数据服务不仅包括例如姓名、年龄这样的结构化数据,还包括歌曲、电影这样的非结构化数据,此外网页、邮件这样的数据介于结构化和非结构化之间,属于半结构化数据,也是大数据服务的重要数据源。

结构化数据来源于业务需求,系统分析员将需求中静态的“名词”提取出来并进行抽象,作为数据库表结构设计的依据。比如我们设计一个学籍管理系统,通过分析发现“张三”、“李四”等学生具有姓名、年龄、所属院系、所选课程、课程分数等属性,于是系统分析员将这些属性选取出来并设计一个“学生”类,那么“学生”表结构就相当于一个模板,可以将“张三”、“李四”等学生的姓名、年龄、班级等结构化数据存储到数据表中。由于数据表是二维的,借助关系型数据库的SQL语言,可以从多个维度对结构化数据进行查询统计。

与结构化数据相对的是非结构化数据。顾名思义,非结构化数据是不可以提取字段并定义属性的,只能以图片、语音、视频的媒体形式存在。虽然非结构化数据不像结构化数据那样能够进行统计分析,但是并不代表非结构化数据并没有价值。

非结构化数据可以以多媒体的形式存在,生动形象地反馈信息,因此我们可以从非结构化数据中采集有价值的信息,并将这些采集的新增转化为结构化数据,通过对非结构化数据的“理解”来发现其中隐藏的价值。

介于结构化数据和非结构化数据之间的是半结构化数据。半结构化数据的结构和内容混合在一起,例如电子邮件、网页等。从半结构化数据中同样可以抽取出许多有价值的数据,比如电子邮件中可以采集到发件人、收件人、标题等,通过对邮件的收发地址、频率、主题等进行分析,可以形成以电子邮件为通信媒介的社交网络。

企业可以根据应用的要求、数据的规模、数据的类型等维度进行分析和设计,选择不同的存储架构。

对于数据规模大、数据结构简单、对查询效率要求高的应用,可以采用Hadoop/Hbase这样的分布式存储架构。由于Hadoop/HBase存储架构采用键值存储结构,具有良好的可扩展性,因此可以通过增加基础设施资源来提高查询效率,系统整体性能随着集群规模的增大而线性增长。

对于需要关联多个数据模型才能实现的分析型应用,则可以考虑采用关系型数据库作为存储库。对于以邮件、文档、录音、录像等文件形式存在的非结构化数据,可以采用NAS(Network Attached Storage,网络连接式存储)存储架构,对于存取频率高、单次存取数据量小的结构化数据,具有明确数据类型和数据长度,可以考虑采用SAN(Storage Area Network,存储区域网络)存储架构。

对于以文件为存取单位的非结构化数据,则适合采用NAS(Network Attached Storage,网络连接式存储)存储架构。通常情况下,存储架构采用SAN和NAS混合的形式。

SAN和NAS属于“主机+磁盘阵列”的系统架构,在大数据时代,随着数据量的不断增加,企业越来越采用“单机+硬盘”组成的系统架构。这种架构适合于需要批量数据处理的分析型应用,并且对单个应用设备的能力要求不高,可以有效地利旧低端设备,可以快速地实现横向资源扩展。

另外有需要云服务器可以了解下创新互联cdcxhl.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


文章名称:大数据运营之数据存储-创新互联
网页网址:http://bzwzjz.com/article/doscss.html

其他资讯

Copyright © 2007-2020 广东宝晨空调科技有限公司 All Rights Reserved 粤ICP备2022107769号
友情链接: 成都网站制作公司 外贸营销网站建设 高端定制网站设计 成都网站建设 成都网站建设 网站建设方案 定制网站制作 成都网站建设 高端网站设计推广 成都网站建设公司 H5网站制作 定制网站建设 企业网站建设 成都网站设计 成都网站设计公司 成都网站建设 定制网站设计 网站建设方案 商城网站建设 高端网站设计 网站制作 成都网站设计公司