什么是统计学?
统计学是应用数学的一个分支,涉及从定量数据中收集、描述、分析和推断结论。统计学背后的数学理论很大程度上依赖于微分和积分、线性代数和概率论。
从事统计工作的人被称为统计学家。他们特别关心如何根据小样本的行为和其他可观察特征得出关于大群体和一般事件的可靠结论。这些小样本代表大群体的一部分或一般现象的有限数量的实例。
要点
- 统计学是对数据的研究和操作,包括收集、审查、分析数据和从数据中得出结论的方法。
- 统计学的两个主要领域是描述性统计和推论性统计。
- 统计数据可以在不同级别上进行交流,从非数字描述符(标称级别)到参考零点(比率级别)的数字。
- 可以使用多种抽样技术来编制统计数据,包括简单随机、系统、分层或整群抽样。
- 统计数据几乎存在于每家公司的每个部门,也是投资不可或缺的一部分。
了解统计数据
统计学几乎应用于所有科学学科,例如物理科学和社会科学以及商业、人文、政府和制造业。统计学从根本上来说是应用数学的一个分支,它是从微积分和线性代数到概率论等数学工具的应用发展而来的。
在实践中,统计学的理念是,我们可以通过研究少量相似对象或事件(样本)的特征来了解大量对象或事件(总体)的属性。在许多情况下,收集整个人口的全面数据成本太高、太困难或不可能,因此统计数据从可以方便或经济地观察的样本开始。
统计学家测量和收集样本中个体或元素的数据,然后分析这些数据以生成描述性统计数据。然后,他们可以使用样本数据的这些观察到的特征(正确地称为“统计数据”)来对更广泛群体的未测量(或未测量)特征(称为参数)做出推论或有根据的猜测。
非正式的统计数据可以追溯到几个世纪前。 1654 年法国数学家皮埃尔·德·费马 (Pierre de Fermat) 和布莱斯·帕斯卡 (Blaise Pascal) 之间的早期通信记录经常被引用为统计概率分析的早期例子。
描述性统计和推论性统计
统计学的两个主要领域被称为描述性统计和推论统计,前者描述样本和总体数据的属性,后者使用这些属性来检验假设并得出结论。描述性统计包括平均值、方差、偏度和峰度。推论统计包括线性回归分析、方差分析 (ANOVA)、logit/Probit 模型和原假设检验。
描述性统计
描述性统计主要关注样本数据的集中趋势、变异性和分布。集中趋势是指对样本或总体的特征、典型元素的估计。它包括描述性统计数据,例如均值、中位数和众数。
变异性是指一组统计数据,显示样本或总体的元素之间在测量的特征上存在多少差异。它包括范围、方差和标准差等指标。
分布是指数据的整体“形状”,可以用直方图或点图等图表来描绘,并包括概率分布函数、偏度和峰度等属性。描述性统计还可以描述数据集元素的观察到的特征之间的差异。它们可以帮助我们理解数据样本元素的集体属性,并形成使用推论统计检验假设和进行预测的基础。
推论统计
推论统计是统计学家用来从样本特征中得出有关总体特征的结论的工具,并确定他们对这些结论的可靠性的确定程度。根据样本量和分布,统计学家可以计算统计数据的概率,该统计数据衡量数据样本内的集中趋势、变异性、分布以及特征之间的关系,从而提供整个总体的相应参数的准确图像,并从中得出总体数据。抽取样本。
推论统计用于对大群体进行概括,例如通过调查消费者购买习惯样本或尝试预测未来事件来估计产品的平均需求。这可能意味着根据样本期间的回报来预测证券或资产类别的未来回报。
回归分析是一种广泛使用的统计推断技术,用于确定因变量与一个或多个解释(自)变量之间关系(相关性)的强度和性质。通常对回归模型的输出进行统计显着性分析,这是指通过测试或实验产生的结果不太可能是随机或偶然发生的。这很可能归因于数据阐明的特定原因。
对于严重依赖分析数据和研究的学科或从业者来说,具有统计显着性非常重要。
均值、中位数和众数
术语均值、中位数和众数属于集中趋势的范畴。它们描述了给定样本组中的典型元素。您可以通过将组中的数字相加并将结果除以数据集观测值的数量来找到平均描述符。
集合中的中间数字是中位数。所有包含的数字中有一半高于中位数,一半低于中位数。如果一个社区有五栋房屋,且价值分别为 500,000 美元、400,000 美元、350,000 美元、325,000 美元和 300,000 美元,那么该社区的房屋中位值将为 350,000 美元。两个值较高,两个值较低。
众数标识介于最高值和最低值之间的数字。它在数据集中出现的频率最高。
了解统计数据
统计的根源是由变量驱动的。变量是标记项目特征或属性的可计数的数据集。例如,汽车可以具有品牌、型号、年份、里程、颜色或状况等变量。通过组合一组数据中的变量(例如给定停车场中所有汽车的颜色),统计数据使我们能够更好地了解趋势和结果。
变量有两种主要类型。首先,定性变量是通常是非数字的特定属性。汽车示例中给出的许多示例都是定性的。统计中定性变量的其他例子包括性别、眼睛颜色或出生城市。定性数据最常用于确定任何给定定性变量发生结果的百分比。定性分析通常不依赖于数字。例如,试图确定女性拥有一家企业的比例需要分析定性数据。
统计学中的第二类变量是定量变量。定量变量是通过数值研究的,只有当它们涉及非数值描述符时才具有权重。与定量分析类似,这些信息植根于数字。在上面的汽车示例中,行驶里程是一个定量变量,但数字 60,000 没有任何价值,除非我们知道这是行驶的总里程数。
定量变量可以进一步分为两类。首先,离散变量在统计上有局限性,并推断潜在的离散变量值之间存在差距。足球比赛中的得分是一个离散变量,因为:
- 不能有小数,并且
- 一支球队不可能只拿到一分
统计学还利用连续定量变量。这些值是有一定范围的。离散值有局限性,但连续变量通常以小数表示。在测量足球运动员的身高时,可以获得可能限度内的任何值,并且高度可以测量到 1/16 英寸(如果不是更进一步的话)。
统计学家可以在公司内担任各种头衔和职位。截至 2021 年 12 月,具有 1 至 3 年经验的统计师的平均总薪酬为 84,958 美元,截至 2022 年 5 月。这一数字增加到具有 15 年经验的 111,846 美元。
测量的统计水平
分析变量和结果后,会产生几个测量级别。统计数据可以通过四种方式量化结果。
标称电平测量
没有数字或数量价值,质量也没有排名。相反,名义水平测量只是分配给其他变量的标签或类别。最容易将名义水平测量视为有关变量的非数字事实。
示例: 2020 年当选的总统的名字是小约瑟夫·罗比内特·拜登 (Joseph Robinette Dead)。
序数级测量
结果可以按顺序排列,但所有数据值都具有相同的值或权重。尽管数字,序数级别的测量在统计中不能相互相减,因为只有数据点的位置很重要。序数水平通常被纳入非参数统计并与总变量组进行比较。
示例:美国人 Fred Kerley 是 2020 年东京奥运会上 100 米冲刺成绩第二快的男子。
间隔电平测量
结果可以按顺序排列,但数据值之间的差异现在可能有意义。两个数据点通常用于比较数据集中时间的流逝或条件的变化。数据值范围通常没有“起点”,并且日历日期或温度可能没有有意义的固有零值。
示例: 2022 年 5 月,通货膨胀率达到 8.6%。上次通货膨胀率达到如此高水平是在 1981 年 12 月。
比率水平测量
结果可以按顺序排列,数据值之间的差异现在有意义。但有一个起点或“零值”可用于进一步为统计值提供价值。数据值之间的比率具有意义,包括其距零的距离。
示例:南极洲记录的最低气象温度为 -128.6 华氏度。
统计抽样技术
通常不可能从总体中的每个数据点收集数据来收集统计信息。相反,统计数据依赖于不同的抽样技术来创建更易于分析的具有代表性的总体子集。在统计学中,统计抽样有几种主要类型。
简单随机抽样
简单随机抽样要求总体中的每个成员都有平等的机会被选择进行分析。将整个总体作为抽样的基础,任何基于机会的随机生成器都可以选择样本项。例如,排列 100 个人,然后随机选择 10 个人。
系统抽样
系统抽样也需要随机抽样,但其技术稍作修改,使其更容易进行。生成一个随机数,然后以指定的规则间隔选择个体,直到样本大小完成。例如,100 个人排成一排并编号。选择第 7 个个体作为样本,随后选择第 9 个个体,直到选择了 10 个样本项目。
分层抽样
分层抽样要求对样本进行更多控制。根据相似的特征将人口分为亚组。然后计算每个子组中有多少人代表整个人口。例如,100 个人按性别和种族分组。然后,根据该子组在总体中的代表性程度,按比例从每个子组中抽取样本。
整群抽样
整群抽样也需要分组,但每个分组都应该代表总体。整个子组是随机选择的,而不是随机选择子组内的个体。
不确定哪位美国职业棒球大联盟球员应该赢得去年的最有价值球员奖?统计数据通常用于确定价值,在颁发最佳球员奖时经常会引用统计数据。统计数据可以包括安打率、本垒打数和盗垒数。
统计的用途
统计学在金融、投资、商业以及世界范围内都很突出。您看到的大部分信息和提供的数据都来自统计数据,这些统计数据用于企业的各个方面。
- 投资统计数据包括平均交易量、52 周低点、52 周高点、贝塔值以及资产类别或证券之间的相关性。
- 经济学统计数据包括国内生产总值、失业率、消费者价格、通货膨胀和其他经济增长指标。
- 营销中的统计数据包括转化率、点击率、搜索量和社交媒体指标。
- 会计统计包括不同时间段的流动性、偿付能力和盈利能力指标。
- 信息技术中的统计数据包括带宽、网络能力和硬件物流。
- 人力资源统计数据包括员工流动率、员工满意度以及相对于市场的平均薪酬。
为什么统计很重要?
统计数据提供信息来指导事物如何运作。它们用于进行研究、评估结果、培养批判性思维并做出明智的决策。统计数据可用于查询几乎所有研究领域,以调查事情发生的原因、何时发生以及重复发生是否可以预测。
描述性统计和推论性统计有什么区别?
描述性统计用于描述或总结样本或数据集的特征,例如变量的平均值、标准差或频率。推论统计采用多种技术将数据集中的变量相互关联。一个例子是使用相关性或回归分析。然后可以使用这些来估计预测或推断因果关系。
谁使用统计数据?
统计数据广泛应用于各种应用和专业领域。每当收集和分析数据时就会进行统计。范围包括从政府机构到学术研究再到投资分析。
统计学如何应用于经济和金融?
经济学家收集并研究各种数据,从消费者支出、住房开工、通货膨胀到国内生产总值增长。在金融领域,分析师和投资者收集有关公司、行业、情绪以及价格和交易量的市场数据。推论统计在这些领域的使用被称为计量经济学。一些重要的金融模型,从CAPM到现代投资组合理论 (MPT) 和Black-Scholes期权定价模型,都依赖于统计推断。
归纳总结
统计学是对乍一看和表面上看起来相互矛盾或不相关的信息进行分析的实践。它可以为统计学家带来稳定的职业生涯,但它也可以成为日常生活中的一个方便的衡量标准,也许当你在下注之前分析你最喜欢的球队赢得超级碗的可能性时,衡量一项投资,或确定您的产品或服务是否被收取相对过高的费用。