学习笔记:大数据

介绍

  • 该篇记录了关于大数据方向的某些重要知识点
  • 如有任何问题,欢迎指出

一、基本概念和定义

1.大数据

  • 可以理解为多个数据集

2.大数据的工作内容:

  • 数据获取——传统互联网厂商通过底层用户反馈得到数据;传统行业可以通过传感器来进行获取数据;个人使用python爬虫获取数据。

  • 数据存储——将获取到的数据存储在本地。存储设备、HDFS、Hbase、Hive。

  • 数据分析——对数据进行表象性的进行分析操作

  • 数据挖掘——对数据进行深入的挖掘操作,找到数据与数据、类别与类别、属性与属性之间的深层次的关联。

3.数据发展阶段:

  • 数据早期形态——上游向低位向下流

  • 数据发展时期——即时通信出现,冲击短信行业

  • 数据推送阶段——底层一对多辐射

  • 数据反向流通阶段———上游收到下游的信息

4.基本概念

  • 结构化数据——数据能够以二维表格表示的数据(文本。数据库)

  • 非结构化数据——数据无法以二维表格表示的数据(图片、视频)

  • 半结构化数据——具有一定结构化数据,但又不能全部表示的数据(xml网页)

  • 集群——(厨师与厨师枝江的关系)

  • 分布式——(厨师与小工的关系)

二、大数据存储技术

1.集群NAS

  • 发展——DAS(维护操作、文件、存储系统)-SAN(维护操作和文件系统)-NAS(只维护操作系统)

  • 优势——采用双工模式

  • NAS的组件——存储、引擎、网络协议

2.HDFS分布式文件系统

  • 特性——高容错性(认为硬件是不可靠的)、高吞吐量、大文件存储(HDFS的元数据是固定大小150bit)、支持流式数据访问