请教关于离群值的处理问题

Mr.Right? 2024-05-28 12:43:41
最佳回答
我们在分析数据的时候,经常会碰到某些数据远远大于或小于其他数据,这些明显偏离的数据就是离群值,也叫奇异值、极端值。离群值产生的原因大致有两点:1.总体固有变异的极端表现,这是真实而正常的数据,只是在这次实验中表现的有些极端,这类离群值与其余观测值属于同一总体。2.由于试验条件和实验方法的偶然性,或观测、记录、计算时的失误所产生的结果,是一种非正常的、错误的数据,这些数据与其余观测值不属于同一总体。由于数据的分布不同,判断离群值的方法也有所差别,在此只介绍国标gb/t4883-2008对于正态分布情况下的离群值判断方法,其他分布情况下,我还没有找到相关资料。对于离群值,国标也有一些概念定义:1.检出水平为检验出离群值而指定的统计检验的显著性水平,和大多数检验一样,α一般为0.052.剔除水平为检验出离群值是否为高度离群值而指定的统计检验的显著性水平,剔除水平α*不应超过检出水平α,通常为0.01,个人认为这个剔除水平就是判断该离群值是否需要实际剔除,也就是说该离群值有可能是第二类原因产生的非正常样本数据。3.统计离群值在剔除水平下统计检验为显著的离群值4.歧离值在检出水平下显著,而在剔除水平下不显著的离群值。================================================正态分布情况下的离群值判断方法,大致可分为两类:可以检验剔除水平和不可检验剔除水平一、可检验剔除水平1.总体标准差已知时,奈尔检验法对样本数据按从小到大顺序排序,如怀疑最大值x(n)为最大值,则计算统计量rn确定检出水平α,查奈尔系数表(见国标gb/t4883-2008),得出临界值当rn>r1-α(n)时,判定x(n)为离群值,否则不能判定确定剔除水平α*,查奈尔系数表(见国标gb/t4883-2008),得出临界值当rn>r1-α*(n)时,判定x(n)为统计离群值,否则不能判定如怀疑最小值x(1)为最大值,则计算统计量rn'确定检出水平α,查奈尔系数表(见国标gb/t4883-2008),得出临界值当rn'>r1-α(n)时,判定x(1)为离群值,否则不能判定确定剔除水平α*,查奈尔系数表(见国标gb/t4883-2008),得出临界值当rn'>r1-α*(n)时,判定x(1)为统计离群值,否则不能判定2.总体标准差未知时,格拉布斯检验法对样本数据按从小到大顺序排序,然后计算样本均值和样本标准差s如怀疑最大值x(n)为最大值,计算统计量gn确定检出水平α,查出格拉布斯系数表(见国标gb/t4883-2008),得出临界值当gn>g1-α(n)时,判定x(n)为离群值,否则不能判定确定剔除水平α*,查出格拉布斯系数表(见国标gb/t4883-2008),得出临界值当gn>g1-α*(n)时,判定x(n)为统计离群值,否则不能判定如怀疑最小值x(1)为最大值,则计算统计量gn'确定检出水平α,查出格拉布斯系数表(见国标gb/t4883-2008),得出临界值当gn'>g1-α(n)时,判定x(1)为离群值,否则不能判定确定剔除水平α*,查出格拉布斯系数表(见国标gb/t4883-2008),得出临界值当gn'>g1-α*(n)时,判定x(1)为统计离群值,否则不能判定3.总体标准差未知时,狄克逊(dixon)检验法对样本数据按从小到大顺序排序样本量n在3-30时计算统计量样本量n在30-100时计算统计量确定检出水平α,查狄克逊系数表(见国标gb/t4883-2008),得出临界值当dn>d1-α(n)时,判定高端值x(n)为离群值,否则不能判定当dn'>d1-α*(n)时,判定低端值x(1)为离群值,否则不能判定4.总体标准差未知时,偏度-峰度检验法我们知道峰度和偏度是判断数据是否为正态分布的指标,而离群值则明显偏离样本主体,因此我们也可以使用偏度-峰度检验法来判断离群值<1>单侧情形——偏度检验法当离群值处于高端或低端一侧时,可使用偏度检验法判断,首先构造偏度统计量bs确定检出水平α,查偏度检验系数表(见国标gb/t4883-2008),得出临界值当bs>b1-α(n)时,判定高端值x(n)为离群值,否则不能判定当bs'>b1-α(n)时,判定低端值x(1)为离群值,否则不能判定确定剔除水平α*,查偏度系数表(见国标gb/t4883-2008),得出临界值当bs>b1-α*(n)时,判定高端值x(n)为统计离群值,否则不能判定当bs'>b1-α*(n)时,判定低端值x(1)为统计离群值,否则不能判定<2>双侧情形——峰度检验法当高端、低端两侧都可能出现离群值时,可使用峰度检验法判断,首先构造峰度统计量bk确定检出水平α,查峰度检验系数表(见国标gb/t4883-2008),得出临界值当bk>b'1-α(n)时,判定离均值最远的观测值为离群值,否则判定未发现离群值确定剔除水平α*,查峰度系数表(见国标gb/t4883-2008),得出临界值当bk>b'1-α*(n)时,判定离均值最远的观测值为统计离群值,否则未发现统计离群值。二、不可检验剔除水平1.观察法根据直方图或四分位图进行判断,现在很多统计软件在绘制这两种图时,都会将离群值特殊标记,一般认为在均值±3倍标准差以外都属于离群值,高出四分位距两倍以上也属于离群值。2.莱伊达法又称为3σ准则,在已知总体标准差的情况下使用σ进行判断,但是实际上总体标准差往往未知,因此常使用样本标准差s替代σ,以样本均值替代真值,具体为xd是疑似离群值,x为均值如果疑似离群值与均值的差值大于三倍标准差,则可认为该值为离群值。3.肖维特法统计量如果计算出的ω值大于肖维特系数表中相应测定次数n时的值,则可认为该值为异常值3.罗曼诺夫斯基检验法又称t检验,首先将疑似离群值剔除,然后计算剔除后的均值和标准差根据测量次数n和显著性水平α,进行t检验,得出系数k,如果则认为xj为离群值4.4d检验法5.中位数与算数平均值比较判断法我们知道中位数居于一组数据中间的数,而均值则可认为是一组数字的“重心”或“平衡点”,当二者相等的时候,可认为这组数字是绝对平衡、没有离群值的,我们可以据此进行判断,当二者相差较大时,表面该组数据可能存在离群值,将疑似离群值剔除之后,再计算均值和中位数,如果二者相差变小,则可认为被剔除值是离群值。======================================判断离群值方法的选择与应注意的问题1.合理选择离群值的判断方法离群值的判断方法很多,实际中到底选用哪一个,需根据对测量要求的精准度和测量次数多少来综合确定,一般情况下,测量次数多于30,或大于10次且只做粗略判断时,使用莱伊达法即可;判断精度要求不高,但要求快捷方便时,可以选用4d和中位数与算数平均数比较法。实际上,对于不用查表的方法大都比较便捷,但是代价是精度不够,且无法检验剔除水平,相反一些需要借助查表的方法精度较高但是计算复杂,各有利弊。2.准确找出离群值一般情况下,测量列中残差较大者就是疑似离群值,它也就是样本数据中的最大值或最小值3.查找产生离群值的原因已经判断为离群值的,即使是统计离群值,也不要简单剔除了之,应进一步分析产生离群值的原因。 20210311
汇率兑换计算器

类似问答
  • 请教关于基金问题
    • 2024-05-28 05:45:44
    • 提问者: 未知
    基金投资是理财的一种方式,可以向储蓄一样,也可以像投资一样。基金定投和零存整取差不多,一般每月扣一次钱,最低起点100元就可以了。多者不限,理财没有多少金额是合适的,只要是自己剩余的...
  • 请教关于股票的问题?
    • 2024-05-28 15:29:27
    • 提问者: 未知
    两个问题:1.现在最好不抛了,大盘和个股都有接近底部的迹象,可持有等待解套.2.提问最好给点分,不然没多少人感兴趣.
  • 请教关于分红问题?
    • 2024-05-28 05:30:04
    • 提问者: 未知
    分红有派发现金和送股两种方式,有时单独使用其中一种,有时两种同时采用 无论是那支方式,都在股权登记后,在派息日自动划入你的帐户
  • 关于墓地,请教个问题
    • 2024-05-28 04:53:04
    • 提问者: 未知
    相对大兴天堂公墓较便宜,也离城相对较近,刚刚出六环,最差的大概要15000左右,好一点的带亭子的大概70000可以买到。使用期20年。
  • 请教一个关于资金升值的问题
    • 2024-05-28 03:55:09
    • 提问者: 未知
    晕,怎么可能呢.你看看华尔街的大佬,成天就在想这些事情啊.不想赔钱很容易,只要现在不做股票基金就可以拉虽然银行的利率小,但是远比放在股票里面亏好啊.
  • 请教关于基金的问题?
    • 2024-05-28 04:15:32
    • 提问者: 未知
    晕~这么快就赎阿连手续费还没挣够呢,你想往里倒贴钱啊?我也买了定投,刚买完就跌,不过一个月下来赚了27快多。玩小额定投基金就是一个零存整取,我参加的是361计划,3年期的,一共算下来也就投入7200。有的基金满期赎回不收手续费,或者在申购的时候选择前后端,选后端的满期的话,有的基金也是不收手续费的。所以金额也不大,就当存钱呗。而且象你买的这种指数性质的基金,2008大形势肯定看好!200块就算是赔...
  • 请教一下关于水处理中膜处理的问题
    • 2024-05-28 05:15:09
    • 提问者: 未知
    1、关于预处理: 不同的膜处理工艺,对预处理的要求不同,膜的过滤精度越高,对预处理要求越高,水质越差,对预处理要求越高。如果是污水,在传统污水处理基础上,可以采用活性污泥法+超滤+反渗透(纳滤),前段工艺为后段工艺的预处理;如果是地下水可采用多介质过滤器+超滤+反渗透(纳滤),前段工艺...
  • 我们准备协议离婚,关于房屋过户的问题,请教!
    • 2024-05-28 20:00:17
    • 提问者: 未知
    第一个问题。这种民政局的证明在法律上是没有任何问题的,过户同样没有问题 第二个问题。如果是经过**的,那么肯定要等判决之后才能做,因为房地局要看结果的。所以必须要先离婚后过户
  • 请教关于股票的问题,关于成交量和股价的问题
    • 2024-05-28 08:37:17
    • 提问者: 未知
    放很小的量就能拉出长阳或者封死涨停?答覆楼主:『长阳』和『纯阳』?两者在定义、分析上有很大的差异性。一般纯阳k线,较有利往后走多。若是长阳k线尚须注意上影线。其次谈到『微量涨停』,一般是出现在末升段。其系数为3、6。股市传说:『万般拉抬总为出』。长阳是什么?答覆楼主:长阳的认知,可因股本的不同,可差异满大。若是大型蓝筹股,只要上涨3%,就可算是长阳。而一般小型股波动率较大,通常5%的红k才算长阳。...
  • 关于股票的问题请教,感谢。
    • 2024-05-28 16:55:22
    • 提问者: 未知
    重庆国泰君安高级理财经理:哥们,成交规则是“时间优先,价格优先”的原则 1,如果你的10元挂盘在时间上是先挂出来,那就以你的价格成交, 2,如果9.99元的先卖出来而你的买单后进去就以9.99元成交,如果数量不够你的买盘,那剩余部分以9.98成交 3,涨停板封单越大,第二天继续拉的可能性越大,但不是绝对的,只是概率更大一些
汇率兑换计算器

热门推荐
热门问答
最新问答
推荐问答
新手帮助
常见问题
房贷计算器-九子财经 | 备案号: 桂ICP备19010581号-1 商务联系 企鹅:2790-680461

特别声明:本网为公益网站,人人都可发布,所有内容为会员自行上传发布",本站不承担任何法律责任,如内容有该作者著作权或违规内容,请联系我们清空删除。