之前从比较浅的角度介绍了AR、MA、ARMA等模型,最近在课堂上发现其实还有很多细节可以深究。如果只是想要简单了解这些模型然后应用,我个人觉得之前的文章已经足够了,而如果有兴趣更深入地了解AR和MA模型,这里会更多地从数学的角度,分析一下它们的表达式、期望方差以及平稳的条件。 首先介绍一下滞后算子(Backward shift operator)和差分算子(difference operator)。对一段时间序列,滞后算子为: B X t = B ( X t ) = X t − 1 BX_t = B(X_t) = …

2021年10月21日 0条评论 7点热度 阅读全文

直方图和密度图 一、直方图 直方图反映的是一组数据的分布情况 0x1 绘制直方图 hist方法可以用来绘制直方图,为了使图像更清晰,可以指定每个柱间宽度: s = Series(np.random.randn(1000)) plt.hist(s) plt.hist(s,rwidth=0.9) 直方图反应的是分布情况,为了加深这一理解,可以看如下实验: 反映了每个值出现的次数 0x2 指定分布区间 通过bins指定分布区间个数 0x3 指定颜色 二、密度图 0x1 绘制密度图 生成密度图只需要在plot的时候指定ki…

2021年9月12日 0条评论 6点热度 阅读全文

简单列表 例如list1=[“a”,“b”,“c”,“d”] for i in list1: print(i) 列表中元素为元组时: 例如list2=[(“a”,1),(“b”,2),(“c”,3),(“d”,4)] for x,y in list2: print(x,y) 输出为: 列表中元素为集合时: 例如:list3=[{“a”,1},{“b”,2},{“c”,3},{“d”,4}] for x,y in list3: print(x,y) 输出为: 注意:集合中的元素是无序的,所以打印出来也是随机排列的。 …

2021年9月4日 0条评论 6点热度 阅读全文

进行数据分析时,会发现有时候一个模型中的变量之间可能具有相关性(correlation),比如面积和长度就具有高度的相关性,如果同时对这些参数建模,就存在共线性问题,所以一般是只针对其中一个参数建模。而这种相关性,其实还存在于数据之中,比如时间序列数据,在不同的时间,同一个对象的数据之间就是相互有联系的,那么我们应该怎么对这些具有相关性的数据进行建模分析呢。 在进一步分析之前,再次强调一下,这里分析的是相关数据,因为一开始我自己也搞混了,所以这里再举多几个例方便理解。 第一个例子是婴儿体重的变化数据,假设我们要测量…

2021年3月20日 0条评论 4点热度 阅读全文

五、细胞自动机 原文:Chapter 5 Cellular Automatons 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 细胞自动机(CA)是一个世界的模型,带有非常简单的物理。 “细胞”的意思是世界被分成一个大口袋,称为细胞。 “自动机”是一台执行计算的机器 - 它可能是一台真机。 ,但更多时候,“机器”是数学抽象或计算机的模拟。 本章介绍了史蒂文沃尔夫勒姆(Steven Wolfram)在 20 世纪 80 年代进行的实验,表明一些细胞自动机展示出令人惊讶的复杂行为,包括执行任意计…

2021年2月16日 0条评论 4点热度 阅读全文

1. 在时间序列分析中, 数学模型是什么?数学公式又是什么?数学推导过程又是什么?… … 一句话:用数学公式后者符号来表示现实存在的意义。数学是“万金油”的科学,它是作为工作和分析方法运用到某个学科当中。比如在物理学中,数学公式或者数学符号也是表示现实存在的意义,G表示重力,再比如用什么表示分子,这些东西都是现实存在,而通过在数学层面的公式计算或者推导,就能够得到某种结果反推到现实中存在的意义是否准确。说白了是把现实的意义符号化和简单化的表示出来。 时间序列分析属于计量经济学的一个分支。我们知道计量经济学的分析手段…

2020年10月17日 0条评论 3点热度 阅读全文

文章目录 概念: 应用 大数据技术的不同层面及其功能 数据计算模式及产业 大数据产业 大数据产品市场调查 大数据技术应用场景相对单一 企业构建大数据平台的主要方式 企业使用 Hadoop 版本搭建数据平台情况 企业大数据平台的普遍组件 大数据与云计算、物联网 云计算 物联网 参考资料 概念: 大数据很火热,但实际上能准确说出的概念的人很少。 为了为之后学习Hadoop打下概念基础以便更容易掌握学习框架,先来看看维基百科和百度百科介绍大数据: 维基百科中文:大数据(英语:Big data),又称为巨量资料,指的是在传…

2020年7月13日 0条评论 5点热度 阅读全文

三、随机变量 原文:prob140/textbook/notebooks/ch03 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 许多数据科学涉及数值变量,它的观察值取决于几率。其他值提供的变量的预测值,随机样本中观察到的不同类别个体的数量,以及自举样本的中值,仅仅是几个例子。 你在 Data8 中看到了更多例子。 在概率论中,随机变量是在结果空间上定义的数值函数。 也就是说,函数的定义域是Ω,它的值域是实数行。 随机变量通常用靠后的字母表示,如X和Y。 结果空间上的函数 随机抽样可以看做重…

2018年6月24日 0条评论 4点热度 阅读全文

四、数据清理 原文:DS-100/textbook/notebooks/ch04 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 数据以多种格式出现,并且在分析的实用性方面差别很大。尽管我们希望,我们所有的数据都以表格的形式出现,并且每个数值的记录都一致和准确,但实际上,我们必须仔细检查数据,找出最终可能导致错误结论的潜在问题。 术语“数据清理”是指梳理数据,并决定如何解决不一致和缺失值的过程。我们将讨论数据集中发现的常见问题,以及解决这些问题的方法。 数据清理存在固有的局限性。例如,没有任何…

2018年6月6日 0条评论 1点热度 阅读全文

十五、分类 原文:Classification 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 David Wagner 是这一章的主要作者。 机器学习是一类技术,用于自动寻找数据中的规律,并使用它来推断或预测。你已经看到了线性回归,这是一种机器学习技术。本章介绍一个新的技术:分类。 分类就是学习如何根据过去的例子做出预测。我们举了一些例子,告诉我们什么是正确的预测,我们希望从这些例子中学习,如何较好地预测未来。以下是在实践中分类的一些应用领域: 他们有一些每个订单的信息(例如,它的总值,订单…

2018年1月28日 0条评论 2点热度 阅读全文