之前从比较浅的角度介绍了AR、MA、ARMA等模型,最近在课堂上发现其实还有很多细节可以深究。如果只是想要简单了解这些模型然后应用,我个人觉得之前的文章已经足够了,而如果有兴趣更深入地了解AR和MA模型,这里会更多地从数学的角度,分析一下它们的表达式、期望方差以及平稳的条件。 首先介绍一下滞后算子(Backward shift operator)和差分算子(difference operator)。对一段时间序列,滞后算子为: B X t = B ( X t ) = X t − 1 BX_t = B(X_t) = …

2021年10月21日 0条评论 7点热度 阅读全文

直方图和密度图 一、直方图 直方图反映的是一组数据的分布情况 0x1 绘制直方图 hist方法可以用来绘制直方图,为了使图像更清晰,可以指定每个柱间宽度: s = Series(np.random.randn(1000)) plt.hist(s) plt.hist(s,rwidth=0.9) 直方图反应的是分布情况,为了加深这一理解,可以看如下实验: 反映了每个值出现的次数 0x2 指定分布区间 通过bins指定分布区间个数 0x3 指定颜色 二、密度图 0x1 绘制密度图 生成密度图只需要在plot的时候指定ki…

2021年9月12日 0条评论 6点热度 阅读全文

简单列表 例如list1=[“a”,“b”,“c”,“d”] for i in list1: print(i) 列表中元素为元组时: 例如list2=[(“a”,1),(“b”,2),(“c”,3),(“d”,4)] for x,y in list2: print(x,y) 输出为: 列表中元素为集合时: 例如:list3=[{“a”,1},{“b”,2},{“c”,3},{“d”,4}] for x,y in list3: print(x,y) 输出为: 注意:集合中的元素是无序的,所以打印出来也是随机排列的。 …

2021年9月4日 0条评论 6点热度 阅读全文

进行数据分析时,会发现有时候一个模型中的变量之间可能具有相关性(correlation),比如面积和长度就具有高度的相关性,如果同时对这些参数建模,就存在共线性问题,所以一般是只针对其中一个参数建模。而这种相关性,其实还存在于数据之中,比如时间序列数据,在不同的时间,同一个对象的数据之间就是相互有联系的,那么我们应该怎么对这些具有相关性的数据进行建模分析呢。 在进一步分析之前,再次强调一下,这里分析的是相关数据,因为一开始我自己也搞混了,所以这里再举多几个例方便理解。 第一个例子是婴儿体重的变化数据,假设我们要测量…

2021年3月20日 0条评论 4点热度 阅读全文

五、细胞自动机 原文:Chapter 5 Cellular Automatons 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 细胞自动机(CA)是一个世界的模型,带有非常简单的物理。 “细胞”的意思是世界被分成一个大口袋,称为细胞。 “自动机”是一台执行计算的机器 - 它可能是一台真机。 ,但更多时候,“机器”是数学抽象或计算机的模拟。 本章介绍了史蒂文沃尔夫勒姆(Steven Wolfram)在 20 世纪 80 年代进行的实验,表明一些细胞自动机展示出令人惊讶的复杂行为,包括执行任意计…

2021年2月16日 0条评论 4点热度 阅读全文

1. 在时间序列分析中, 数学模型是什么?数学公式又是什么?数学推导过程又是什么?… … 一句话:用数学公式后者符号来表示现实存在的意义。数学是“万金油”的科学,它是作为工作和分析方法运用到某个学科当中。比如在物理学中,数学公式或者数学符号也是表示现实存在的意义,G表示重力,再比如用什么表示分子,这些东西都是现实存在,而通过在数学层面的公式计算或者推导,就能够得到某种结果反推到现实中存在的意义是否准确。说白了是把现实的意义符号化和简单化的表示出来。 时间序列分析属于计量经济学的一个分支。我们知道计量经济学的分析手段…

2020年10月17日 0条评论 3点热度 阅读全文

文章目录 概念: 应用 大数据技术的不同层面及其功能 数据计算模式及产业 大数据产业 大数据产品市场调查 大数据技术应用场景相对单一 企业构建大数据平台的主要方式 企业使用 Hadoop 版本搭建数据平台情况 企业大数据平台的普遍组件 大数据与云计算、物联网 云计算 物联网 参考资料 概念: 大数据很火热,但实际上能准确说出的概念的人很少。 为了为之后学习Hadoop打下概念基础以便更容易掌握学习框架,先来看看维基百科和百度百科介绍大数据: 维基百科中文:大数据(英语:Big data),又称为巨量资料,指的是在传…

2020年7月13日 0条评论 5点热度 阅读全文

微积分主要包含两个互不的方面:     导数(微分):主要研究函数在局部的变化速率。如根据物体的位置函数求其移动速度。被广泛的应用于工程实现。     积分:常被用于计算函数在一段范围内的累积效应。针对连续型随机变量,根据他的概率密度函数,计算随机变量落在某区间内的概率。 主要应用理论研究。 导数和积分:位置、速度     位置l(t)为t时刻离起点的距离     速度v(t)为t时刻的速度 &n…

2018年11月21日 0条评论 10点热度 阅读全文

《饮食男女》开头说:“人生不能像做菜,把所有的料都准备好了才下锅。” 但做大数据挖掘不一样,MapReduce 不同于人生,一定要把准备工作做好了,才能顺利运行后面的步骤。如果你的 HiveQL 代码没毛病,却一运行就出现 Fail 提示,可以看看,是不是少了下面哪项准备工作? 指定队列 set mapred.job.queue.name=queue01; //自己指定一个队列 在 HADOOP 中,队列的组织是一切的基础,决定了队列管理和资源分配,一定要在程序开头指定一个队列,注意任务和资源的平衡。 自动化 Ma…

2018年8月26日 0条评论 23点热度 阅读全文

三、随机变量 原文:prob140/textbook/notebooks/ch03 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 许多数据科学涉及数值变量,它的观察值取决于几率。其他值提供的变量的预测值,随机样本中观察到的不同类别个体的数量,以及自举样本的中值,仅仅是几个例子。 你在 Data8 中看到了更多例子。 在概率论中,随机变量是在结果空间上定义的数值函数。 也就是说,函数的定义域是Ω,它的值域是实数行。 随机变量通常用靠后的字母表示,如X和Y。 结果空间上的函数 随机抽样可以看做重…

2018年6月24日 0条评论 4点热度 阅读全文