《白话大数据与机器学习》读书笔记1

《白话大数据与机器学习》读书笔记1

2023年7月21日发(作者:)

《⽩话⼤数据与机器学习》读书笔记1第1-4章这部分是⼤数据⼊门所需的系统性知识第1章 ⼤数据产业对⼤数据产业的理解:1、⼤数据是⼀个以数据为核⼼的产业,是⼀个围绕⼤数据⽣命周期不断循环往复的⽣产过程,在作者看来⼤数据产业⽣产流程从数据的⽣命周期的传导和演变上可以分为⼏个部分:数据收集、数据存储、数据建模、数据分析、数据变现。2、“⼤数据”这个⼈造词汇其实很容易产⽣不少误解,尤其是这个“⼤”字,很容易让⼈感觉,数据量必须⼤,⽽且特别⼤,越⼤越能形成产业,也越有价值。其实这真的是“⼤数据”给⼈带来的误导。⼤数据产业的存在和其他产业并⽆⼆致,本⾝是为了给其他产业提供服务。3、⼤数据⼈才,⼤数据⼈才⼤致可以分为以下3个⽅向:(1)⼤数据架构⽅向研究的主要⽅⾯:架构理论(⾼并发,⾼可⽤,并⾏计算,MapReduce,Spark等);数据流应⽤(Flume,Fluentd,Kafka,ZMQ等);存储应⽤(HDFS,Ceph等);软件应⽤(Hive、HBase、Cassandra、PrestoDB等);可视化应⽤(HightCharts、ECharts,D3,HTML5,CSS3等)(2)⼤数据分析⽅向研究的主要⽅⾯:数据库应⽤(RDBMS,NoSQL,MySQL,Hive,Cassandra等);数据加⼯(ETL,Python);数据统计(统计,概率);数据分析(数据建模、数据挖掘、机器学习、回归分析、聚类、分类、协同过滤)(3)⼤数据开发⽅向研究的主要⽅⾯:数据开发(RDBMS,NoSQL,Hive);数据流⼯具开发(Flume,Heka,Fluentd,Kafka,ZMQ等);数据前端开发(HightCharts、ECharts,JavaScript、D3、HTML5、CSS等);数据获取开发(爬⾍、分词、⾃然语⾔处学习、⽂本分类等)第2章 步⼊数据之门数据应⽤领域中的常见概念:1、数据:⼀些符号如果想要被认定为数据,那就必须承载⼀定的信息。⽽信息是很可能因场景⽽定,因解读者的认知⽽定,所以⼀些符号是不是可以被当做数据,有相当的因素是取决于解读者的主观视⾓的。2、信息:信息就是那些把我们不清楚的事情阐明的描述,⽽已经明确或者知晓的东西让我们再“知晓”⼀遍,这些被知会的内容就不再是信息了。3、算法:算法可以被理解为“计算的⽅法和技巧”,在计算机中,算法⼤多数指的就是⼀段或者⼏段程序,告诉计算机⽤什么样的逻辑和步骤来处理数据和计算,然后得到处理的结果。算法的应⽤是⼀个辩证的过程,不仅在于不同算法间的⽐较和搭配使⽤有着辩证关系,在同⼀个算法中,不⽤的参数和阈值设置同样会带来⼤相径庭的结果,甚⾄影响数据解读的科学性。4、商业智能:通过⽤于基于事实的⽀持系统来辅助商业决策的制定;是⼀个具体的、⼤的应⽤领域,也是数据挖掘和机器学习应⽤的⼀个天然亲密的场景。第3章 排列组合与古典概型1、误解1:对“概率”⼀词本⾝的理解有偏差。“概率”⼀词的汉语含义是⼏率、可能性、可能程度;概率本⾝的解释是对于⼤量样本分布⽐例的解释,⽽⾮单次事件的可能性的解释。2、误解2:事件之间的独⽴性。扔出⼀次硬币,得到正⾯,下⼀次重新再扔,那么这⼀次扔硬币和上⼀次扔硬币之间是没有关系的。第4章 统计与分布1、加和值:得到的所有数据的总和,⽤希腊字母Σ来表⽰,读作“西格玛”。2、平均值:得到的总和除以个数得到的值,为指标的⼀个⽅⾯。3、标准差:中⽂环境中⼜常称均⽅差,是离均差平⽅的算术平均数的平⽅根,⽤σ表⽰。标准差是⽅差的算术平⽅根。标准差能反映⼀个数据集的离散程度。平均数相同的两组数据,标准差未必相同。所有数减去其平均值的平⽅和,所得结果除以该组数之个数(或个数减⼀,即变异数),再把所得值开根号,所得之数就是这组数据的标准差。4、加权均值:权指的是权重,也就是所占的“⽐重”或“重要程度”。5、众数,中位数:(1)众数:是在样本对象中出现最多的那个数。(2)中位数:顾名思义,就是位于中间位置的数。如:168,172,175,175,177,177,185,205共8个数字,那么中位数是176,即(177+175)/2。6、欧式距离:Euclidean Distance,在⼀个N维度的空间⾥,求两个点的距离,那么这个距离需要⽤两个点在各⾃维度上的坐标相减,平⽅后加和再开平⽅。欧式距离⾥的距离计算:7、曼哈顿距离:也叫出租车距离,⽤来标明两个点在标准坐标系上的绝对轴距总和。曼哈顿距离⾥的距离计算:8、⾼斯分布:Gaussian Distribution,也叫正态分布。⾼斯分布的概率密度函数:9、泊松分布:是⼀种统计与概率学中常见的离散概率分布。泊松分布的概率函数:

发布者:admin,转转请注明出处:http://www.yc00.com/news/1689899184a293268.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信