大数据(老师复习提到的)

大数据(老师复习提到的)

2023年6月29日发(作者:)

第一章 大数据概论

1.大数据的基本概念: 大数据(Big Data),数量极其庞大的数据资料。通俗地讲大数据就是貌似毫无意义,但存在着的数据,其中包括结构化,半结构化和非结构化的所有数据。经过处理后的大数据就是大数据信息。 1ZB=1024EB=1024PB=1024TB=1024GB

2.大数据的数据来源: 管理信息系统,网络信息系统,物联网络系统,科学实验系统

3、生产数据的三个阶段: 被动式生成数据(数据库技术),主动式生成数据,感知式生成数据

4、 大数据的特点

数据产生方式

数据采集密度

数据源

传统方式

被动采集数据

大数据时代

主动生成数据

采样密度较低,采样数据有限 利用大数据平台,可对需要分析的事件的数据进行密集采样,精确获取事件全局数据

获取较为孤立,不同数据源之间的数据整合难度较大

大多采用离线处理方式,对生成的数据集中分析处理,不对实时产生的数据进行分析。

利用大数据技术,通过分布式技术、分布式文件系统、分布式数据库等技术对多个数据源获取的数据进行整合处理。

较大的数据源、响应时间要求低的应用可以采取批处理方式集中计算;

对于响应时间要求高的实时数据处理采用流处理的方式进行实时计算,并通过对历史数据的分析进行预测分析

数据处理方式

5、大数据的特性(四V一O):Volume,Variety,Value,Velocity,On-Line

6、大数据时代的数据格式特性:结构化信息(数据库,联机事务处理系统(OLTP0), 可排序和查询),半结构化信息(XML、HTML,电子邮件,网络上的信息,数据结构和内容混杂在一起),非结构化信息(文档、图片、视频/音频,映射数据,可感知的形式中,其庞大规模和复杂性需要高级分析工具来创建或利用一种易于人们感知和交互的结构)

7、大数据的应用领域:医疗记录,天文学,生物、基因组学,军事侦察,社会网络、数据。。。

8、主要的大数据处理系统;数据查询分析计算系统, 批处理系统,, 流式计算系统, 迭代计算系统, 图计算系统, 内存计算系统

9、 大数据处理的基本流程: 数据抽取与集成,, 数据分析(核心), 数据解释

10、大数据三个重要的技术问题

利用信息技术等手段处理非结构化和半结构化数据

探索大数据复杂性、不确定性特征描述的方法及大数据的系统建模

数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响

11、几个典型大数据技术应用平台(典型工具):

Hadoop:分布式文件系统(HDFS),实现和分布式计算框架(MapReduce) HPCC:高性能计算与通信

Storm:开源软件,分布式的、容错的实时计算系统,处理庞大的数据流实时分析,在线机器学习,不停顿计算,分布式RPC(Remote Procedure Call,远程过程调用

Apache Drill

RapidMiner

12、大数据技术构架

13、大数据整体技术:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等

大数据关键技术:大数据采集、大数据预处理、大数据存储及管理、开发大数据安全大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)

14、大数据未来发展趋势:数据资源化,数据科学和数据联盟的成立,大数据隐私和安全问题(结合专业知识及翻转课堂过程中的资料论述)

第二章 大数据的采集与预处理

1.

2. 数据采集 DAQ 3.数据采集系统:用于数据采集的成套设备(DAS,包括硬件部分和软件部分,硬件部分又分为模拟部分和数字部分

流程:采集传感器-模拟信号-数字信号-计算机-显示或打印

目标和特点:精度和速度, 实现动态测试

3. 临床试验电子数据采集系统(EDC)通过互联网从试验中心直接远程收集临床试验数据的一种数据采集系统。(在国内应用较少)

基本功能:数据录入数据导出,试验设计,编辑检查,操作痕迹,系统安全,在线交流

,医学编码,支持多语

优点: 提高了临床研究的效率,缩短了临床研究周期

通过逻辑检验和录入数据检查提高了数据质量

对研究质量的监测更加方便

对临床研究的影响: 改变了传统意义上的数据管理模式,EDC的应用是临床研究的必然趋势,加快新药研发和上市的进度。

4. 大数据采集的数据来源: 结构化数据(数据库); 半结构化和非结构化数据(90%)

信息数据采集需要考虑:采集量,采集速度,采集范围

商业数据: 企业ERP

互联网数据:社交网络数据,Facebook,Google

传感器数据:物联网

5. 大数据采集的技术方法:系统日志采集方法,.网络数据采集方法(对非结构化,网络爬虫或网站公开API)

其他数据采集方法:保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。

6. 大数据处理:抽取(复杂数据转化为单一),清洗(去噪)

7. 大数据集成:大量不同类型的数据原封不动的保存在原地,而将处理过程适当的分配给这些数据; 问题:数据转换、数据的迁移、组织内部的数据移动、从非结构化数据中抽取信息和将数据处理移动到数据端

第3章 大数据建模(简单了解每种建模原理,能区别实例的理论原理)

第三章大数据建模

1. 数据建模的定义建模就是建立模型,就是为了理解事物而对事物做出的一种抽象,是对事物的一种无歧义的书面描述。如数学建模,统计建模,数据挖掘建模,大数据建模

2、数据模型之间的关系:相互联系,相互区别

3. 经典大数据建模常用的技术方法:分类(医疗诊断、信用卡的信用分级、图像模式识别)、回归分析(预测与控制)、聚类(市场分析)、关联规则(金融行业、企业中以预测客户的需求)、神经网络方法(生物信号的检测与自动分析、医学专家系统)、Web数据挖掘

4. 大数据分析模式分类:根据实时性:可分为在线分析和离线分析

根据数据规模:可分为内存级、BI级和海量级

根据算法复杂度的分类:分为时间复杂度和空间复杂度两类

5. 大数据建模流程:模型建立、模型训练、模型验证和模型预测四个步骤

数据建模应遵循的9个定律 :目 标律,知识律 ,准备律,试验律,模式律,洞察律,预测律,价值律,变化律

6.大数据建模应用案例:百度疾病预测系统,临床决策支持系统

第四章 数据可视化应用

1. 数据可视化的目的就是将隐藏在数据背后的、特别重要的信息以讲故事的方式分享给用户。数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。

2. 数据可视化技术:交互性,多维性,可视性

3. 数据可视化流程

4.数据可视化过程:将事物图形化,将事物的数值图形化,将事物的关系图形化,将时间和空间可视化,将数据进行概念转换,让图表“动”起来

第5章 Hadoop概论

1. Hadoop平台以HDFS (Hadoop Distributed File System,Hadoop分布式文件系统)、MapReduce(Google MapReduce的开源实现)、Common、YARN等模块为核心,为用户提供了细节透明的系统底层分布式基础架构。用户可以利用Hadoop轻松地组织计算机资源,搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理。

优点:可扩展,低成本,高效率,可靠

3. Hadoop结构简介:

3.1 HDFS:,Namenode(主服务器),Datanode(管理存储的数据),Client(获取文件)

3.2MapReduce:映射、简化编程:Map-分解,Reduce-结果汇报

第6章 HDFS、MapReduce和Common概论(老师直接跳过了)

第七章NoSQL技术介绍。

1. NoSQL管理:包括大数据的一致性策略、大数据的分区与放置策略、大数据的复制与容错技术以及大数据的压缩和缓存技术等。

2. 分布式系统的CAP理论是构建NoSQL数据管理的基石。CAP,即Consistency(一致性)、Availability(可用性)和Partition Tolerance(分区容错性)

3.数据分区:“化整为零”,通过一定的规则将超大型表分割成若干个小块分别处理。

4.数据分区技术:范围分区,列表分区,哈希分区 5.数据放置策略:1)顺序放置策略:将各个存储节点看成是逻辑有序的,在对数据副本进行分配时先将同一数据的所有副本编号,然后采用一定的映射方式将各个副本放置到对应序号的节点上

2)随机放置策略:通常是基于某一哈希函数来实现对数据的放置的,所以这里所谓的“随机”其实也是有规律的,很多时候被称为“伪随机放置策略”

6.系统故障类型

故障类型

崩溃故障

故障子类

失忆型崩溃

中顿型崩溃

停机型崩溃

失职故障 接收型失职

发送型失职

应答故障 返回值故障

状态变迁故障

时序故障

随意故障

故障语义

服务器崩溃(停机),但停机前工作正常

服务器只能从初始状态,遗忘了崩溃前的状态

服务器可以从崩溃前的状态启动

服务器完全停机

服务器对输入的请求没有响应

服务器无法接收信件

服务器无法发送信件

服务器对服务请求做出错误反应

返回值出现错误

服务器偏离正确的运行轨迹

服务器反应迟缓,超出规定的时间间隔

服务器在任意时间产生的随意错误

7. 数据缓存技术:为了在用户和数据库之间建立的一层缓冲机制,把经常访问的数据放在内存缓冲区,利用内存高速读取的特点来提高数据查询效率。建立的这一层缓冲机制,也便于在不同节点之间进行数据交换。分布式缓存可以横跨多个服务器,所以可以灵活的进行扩展。

8. 分布式数据缓存的特点:高性能,动态扩展性,高可用性,易用性(分布式缓存提供单一的数据与管理视图、动态扩展或失效恢复时无需人工配置、自动选取备份结点且多数缓存系统提供了图形化的管理控制台,便于统一维护)

9. NoSQL的种类Key-Value键值存储,Column-Oriented列存储,Document-Oriented面向文档存储Graph-Oriented图形存储

10.典型的NoSQL工具(有点印象):Redis,BIgtable,CouchDB,Neo4j

第八章 云计算

1. 云计算是一种用于对可配置共享资源池(网络、服务器、存储、应用和服务)通过网络方便的、按需获取的模型,它可以以最少的管理代价或以最少的服务商参与,快速地部署与发布。

2. 云计算基本特征(楼言强调:分布式存储,虚拟化技术)

规模经济性,强大的虚拟化能力,支持快速部署业务,通用性强,价格低廉,高可靠性,高可扩展性

3. 云计算服务模式

云计算基于SOA(Service-Oriented Architecture,面向服务的体系结构)的理念和技术,将计算资源和应用变成各种服务(XaaS),可以说云服务即一切皆服务:软件即服务(SaaS),平台即服务(PaaS),基础设施服务(IaaS)

4. 云计算有三种部署模式,即公有云、私有云和混合云。 5. 云计算与大数据的关键技术:虚拟化技术,数据分布式存储,大数据管理技术,并行编程模式,云计算数据中心,云计算集群,云计算仿真

虚拟化技术:服务器,存储,应用,平台,桌面

数据分布式存储:云计算的数据存储技术本质上是一种分布式的数据存储技术及与之相关的虚拟化技术。 目前云计算的数据存储技术主要有Google的GFS和Hadoop 开发团队开发的HDFS。

6. 云计算安全关键技术:可信访问控制,密文检索与处理,数据存在与可使用性证明,数据隐私保护,虚拟安全技术,云资源访问控制,可信云计算

7. 生物医学大数据的云解决方案(结合实际简答):

解决方案:获取云计算资源、存储和搜索数据,运行和共享系统镜像,配置和执行并行计算

流程:生物医学项目规划、生物云的方案选择、方案执行

8. 区域医疗信息云平台建设:IaaS层,PaaS层,SaaS层,SaaS模式下的主要应用

第九章 大数据解决方案

1大数据解决方案系统架构.

2. 医学大数据具体应用案例:

第十章 医学大数据挖掘

1.医学大数据的种类:医院医疗大数据,区域卫生信息平台大数据,基于大量人群的医学研究或疾病监测大数据,自我量化大数据,网络大数据,生物信息大数据

医院医疗大数据:主要产生于医院常规临床诊治、科研和管理过程。包括各种门急诊记录、住院记录、影像记录、实验室记录、用药记录、手术记录、随访记录和医疗保险记录等。这些医疗数据中的大多数都是用医学专业方式记录下来的,是最原始的临床记录

2. 大数据挖掘概述 两个基本问题:挖什么 怎么挖

样本数量

事物之间的关系

追求的目标

传统数据挖掘

少量数据样本

遵循事物之间的因果关系

追求绝对的准确性

大数据挖掘

分析与事物相关的所有数据,研究的样本数量趋近于总体数量

寻找事物之间的相关关系

追求效率和趋势 挖掘方式 采集方法,内容分类,采信标准等都已存在既有规则,方法论完整。

挖掘新鲜事物,还没有形成清晰的方法、路径、以及评判标准。

医学大数据挖掘的特点:隐私性,多样性,不完整性,冗余性,动态性

医学大数据挖掘的主要方法:自动疾病预测,关联分析,聚类分析,模糊系统与进化算法

发布者:admin,转转请注明出处:http://www.yc00.com/news/1687988072a64251.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信