大家好,今天小编关注到一个比较有意思的话题,就是关于大数据怎么做的问题,于是小编就整理了4个相关介绍大数据怎么做的解答,让我们一起看看吧。
1. 大数据处理之一:采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的 数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除 此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户 来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间 进行负载均衡和分片的确是需要深入的思考和设计。
2. 大数据处理之二:导入/预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这 些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使 用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
3. 大数据处理之三:统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通 的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于 MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
4. 大数据处理之四:挖掘
1、确定需要求和计算的单元格。
2、选取每列数据的最底部的单元格作为存放求和计算总数的单元格,多列同时选择按住Ctrl键。
3、求和快捷键。
同时按住“Alt键”“=键”,即可自动出现快捷求和的公式。
4、检查修正单元格范围。
数据逐层进行架构和管理
作为大数据架构师,我们使用自上而下的方法逐层启动解决方案描述。我们需要从建筑学的角度考虑三层:概念、逻辑和物理。
描述的第一层是 概念,代表业务实体的数据。
第二层是 逻辑,描述对象之间的关系。
第三层是 物理的,表示数据机制和功能。
简单理解:大数据是一门关于数据的收集和分析技术。之所以叫大数据,是因为它是从各个方面、各个维度去收集数据,所以叫大数据。大数据这门技术诞生的背景是,当代互联网时代产生了数量庞大的数据,这些数据当中有些很重要的需要找出来,依靠人工太耗时费力,所以大数据技术应运而生。
大数据有什么用?
大数据技术的目的(作用)是从各类数据中发现有用的信息和规律。
大数据能干嘛?
利用各个渠道收集的关于目标对象的数据,就能知道目标对象是什么身份、什么性别年龄、单身还是已婚、从事什么工作、有没有负债、有没有犯罪前科、征信是否良好、有什么爱好、性格怎么样、最近在哪开过房、手机通讯录里都有谁、,,,,,总之,可以用来研究目标对象的任何信息,从中找到想要的数据和规律。
到此,以上就是小编对于大数据怎么做的问题就介绍到这了,希望介绍关于大数据怎么做的4点解答对大家有用。