学习笔记:大数据
介绍
- 该篇记录了关于大数据方向的某些重要知识点
- 如有任何问题,欢迎指出
一、基本概念和定义
1.大数据
可以理解为多个数据集
2.大数据的工作内容:
数据获取——传统互联网厂商通过底层用户反馈得到数据;传统行业可以通过传感器来进行获取数据;个人使用python爬虫获取数据。
数据存储——将获取到的数据存储在本地。存储设备、HDFS、Hbase、Hive。
数据分析——对数据进行表象性的进行分析操作
数据挖掘——对数据进行深入的挖掘操作,找到数据与数据、类别与类别、属性与属性之间的深层次的关联。
3.数据发展阶段:
数据早期形态——上游向低位向下流
数据发展时期——即时通信出现,冲击短信行业
数据推送阶段——底层一对多辐射
数据反向流通阶段———上游收到下游的信息
4.基本概念
结构化数据——数据能够以二维表格表示的数据(文本。数据库)
非结构化数据——数据无法以二维表格表示的数据(图片、视频)
半结构化数据——具有一定结构化数据,但又不能全部表示的数据(xml网页)
集群——(厨师与厨师枝江的关系)
分布式——(厨师与小工的关系)
二、大数据存储技术
1.集群NAS
发展——DAS(维护操作、文件、存储系统)-SAN(维护操作和文件系统)-NAS(只维护操作系统)
优势——采用双工模式
NAS的组件——存储、引擎、网络协议
2.HDFS分布式文件系统
特性——高容错性(认为硬件是不可靠的)、高吞吐量、大文件存储(HDFS的元数据是固定大小150bit)、支持流式数据访问