学习大数据分析!

| 2022-09-16
  • 一:数据分析目的和分类

深入浅出学习大数据:核心篇之大数据分析!

  • 数据分析处理来自对某一兴趣现象的观察、测量或者实验的信息,数据分析目的是从和主题相关的数据中提取尽可能多的信息,主要目标包括:

• 推测或解释数据并确定如何使用数据;

• 检查数据是否合法;

• 给决策制定合理建议;

• 诊断或推断错误原因;

• 预测未来将要发生的事情

由于统计数据的多样性,数据分析的方法大不相同,可以将数据根据下述标准分为几类:根据观察和测量得到的定性或定量数据,根据参数数量得到的一元或多元数据,此外,有些工作对领域相关的算法进行了总结,Manimom等对数据挖掘算法进行了分类,将其分为描述性(deive)、预测性和验证性(veryfying),Bhatt等则将多媒体分析方法划分为特征提取、变形、表示和统计数据挖掘,然而并没有对大数据处理方法进行分类的工作,Blackett等根据数据分析深度将数据分析分为三个层次:描述性(deive)分析,预测性分析和规则性(preive)分析。

  • 描述性分析

基于历史数据描述发生了什么,例如,利用回归技术从数据集中发现简单的趋势,可视化技术用于更有意义地表示数据,数据建模则以更有效的方式收集、存储和删减数据,描述性分析通常应用在商业智能和可见性系统。

  • 预测性分析

用于预测未来的概率和趋势,例如,预测性模型使用线性和对数回归等统计技术发现数据趋势,预测未来的输出结果,并使用数据挖掘技术提取数据模式(pattern)给出预见。

  • 规则性分析

解决决策制定和提高分析效率,例如,仿真用于分析复杂系统以了解系统行为并发现问题,而优化技术则在给定约束条件下给出最优解决方案。

  • 二、应用演化

数据驱动的应用在过去几十年里已经出现,例如,20世纪90年代在商业领域出现的商业智能,21世纪初期出现的基于数据挖掘的web搜索引擎,接下来将介绍在不同时期典型大数据领域中具有高影响力的大数据分析应用的发展。

  • (1)商业应用演化

早期的商业数据是结构化的数据,由企业或公司收集并存储在关系数据库管理系统中,这些系统应用的数据分析技术通常是直观简单的,Gartner总结了商业智能应用的常用方法,包括报表(reporting)、仪表盘(dashboard)、即时查询(adhocquery)、基于搜索的商业智能、在线事务处理、交互可视化、计分卡、预测模型和数据挖掘。21世纪初期,互联网和web使得企业将其业务上线,并能和客户直接联系,大量的产品和客户信息如点击流数据日志和用户行为可以通过web收集,通过使用不同的文本和web挖掘技术,可以完成产品放置优化,客户事务分析,产品推荐和市场结构分析,据报道,2011年移动手机和平板电脑的数量首次超过了笔记本和PC机,移动手机和物联网构建了具有位置感知、个人为中心和上下文感知的革新性应用。

  • (2)网络应用演化

早期的网络提供电子邮件和网站服务,因此文本分析、数据挖掘和网页分析技术被用于挖掘邮件内容、创建搜索引擎,网络数据占据了全球数据的绝大部分,包含文本、图像、视频、照片和交互式内容等多种类型的数据,随后,用于半结构化和无结构数据的分析技术得到了发展,例如,图像分析技术可以从照片中提取有意义的信息,多媒体分析技术可以使商业或军事领域的视频监控系统自动化,2004年后,诸如论坛、博客、社交网站、多媒体分享站点等在线社交媒体的出现使得用户能够产生、上传和共享丰富的用户自主创造内容,从这些不同人们发布社交媒体内容中可以挖掘每天的热门事件和社会政治观点等,从而提供及时的反馈和意见。

  • (3)科学应用演化

科学研究的许多领域中高生产量的传感器和仪器将产生大量的数据,如天文学、海洋学、基因学和环境研究等学科领域,美国NSF宣布对BIGDATA项目进行立项,促进数据分享和分析,有些科学研究学科以前已开发出对海量数据的分析平台,并取得了有效地成果,例如在生物学科,iPlant利用信息基础设施,物理计算资源和支持互操作的分析软件等,向致力于丰富植物科学知识的研究者、教育者和学生提供数据服务,iPlant数据集是多样性的数据,包含权威的和供参考的数据、实验数据、仿真建模数据、观察数据和其他处理后的数据。

.

基于以上的分析,可以将数据分析的研究分为6个方向:结构化数据分析、文本分析、web数据分析、多媒体数据分析、社交网络数据分析和移动数据分析,结构化数据分析是指传统的数据分析,Web数据、多媒体数据、社交网络数据和移动数据,从数据形态上可能包括结构化数据的某些数据类型(如文本),但是在特定的应用领域里面,具有新的分析要求和特性。

  • 三、常用分析方法

尽管目标和应用领域不同,一些常用的分析方法几乎对所有的数据处理都有用,下面将讨论三种类型的常用数据分析方法。

  • 数据可视化

与信息绘图学和信息可视化相关,数据可视化的目标是以图形方式清晰有效地展示信息38),一般来说,图表和地图可以帮助人们快速理解信息,但是,当数据量增大到大数据的级别,传统的电子表格等技术已无法处理海量数据,大数据的可视化已成为一个活跃的研究领域,因为它能够辅助算法设计和软件开发,Friedman和Frits分别从信息表示和计算机科学领域对数据可视化进行了探讨。Tabusvis则是一个轻型的可视化系统,提供对多维数据的灵活、可定制的数据可视化。

  • 统计分析

基于统计理论,是应用数学的一个分支,在统计理论中,随机性和不确定性由概率理论建模,统计分析技术可以分为描述性统计和推断性统计,描述性统计技术对数据集进行摘要(summarization)或描述,而推断性统计则能够对过程进行推断,更多的多元统计分析包括回归、因子分析、聚类和判别分析。

  • 数据挖掘

是发现大数据集中数据模式的计算过程,许多数据挖掘算法已经在人工智能、机器学习、模式识别、统计和数据库领域得到了应用。此外,一些其他的先进技术如神经网络和基因算法也被用于不同应用的数据挖据。有时候,几乎可以认为很多方法间的界线逐渐淡化,例如数据挖掘、机器学习、模式识别、甚至视觉信息处理、媒体信息处理等等,此处以“数据挖掘”作为一个通称。