国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
SAS:SAS 常用過程之 統(tǒng)計(jì)描述過程proc univariate

from:http://blog.sina.com.cn/s/blog_5f049388010170ab.html

FROM :http://blog.163.com/qiaozhanwen@126/blog/static/12955392520128225952558/


-proc univariate統(tǒng)計(jì)量:----------------------------------------------------------------------------------------------------------------------------------


默認(rèn):

[plain] view plain copy
  1. 1.觀測值(未缺失的)  
  2. 2.平均值  
  3. 3.方差  
  4. 4.標(biāo)準(zhǔn)差  
  5. 5.偏系數(shù)  
  6. 6.峭度系數(shù)  
  7. 7.未校正和校正后的平方和  
  8. 8.差異系數(shù)(相對標(biāo)準(zhǔn)差)  
  9. 9.平均數(shù)的標(biāo)準(zhǔn)誤  
  10. 10.比較變量值是否等于0 的t檢驗(yàn)  
  11. 11.最大值  
  12. 12.最小值  
  13. 13.全距范圍  
  14. 14.中數(shù),第3和第2四分位數(shù)  
  15. 15.四分位差  
  16. 16.眾數(shù)  
  17. 17.第1、2、10、90、95和99的百分位數(shù)  
  18. 18.5個(gè)最大值和5個(gè)最小值  


需指定的(加上選項(xiàng)normal和plot):

[plain] view plain copy
  1. 19.W或D統(tǒng)計(jì)量,檢驗(yàn)數(shù)據(jù)是否正太分布  
  2. 20.莖葉圖  
  3. 21.箱式圖  
  4. 22.正太概率圖,將累加頻數(shù)分布和理想正太分布相比較  


-proc univariate統(tǒng)計(jì)結(jié)果的一些說明:----------------------------------------------------------------------------------------------------------------------------------


1、極值觀測:

極端觀測列出了數(shù)據(jù)中最大和最小的5個(gè)值,每個(gè)極端數(shù)據(jù)旁邊還有數(shù)據(jù)的編號(hào)。

如果proc univarite中使用了ID語句,則極端數(shù)據(jù)旁顯示的是ID變量。本例中我們可以將subject作為ID,可以用如下語句:
proc univariate data=htwt normal plot;
var height weight;
title "more descriptive statistics";
ID subject;
run;
 
在極端值這一部分,還有個(gè)常用的選項(xiàng):nextobs=n,用于指定呈現(xiàn)幾個(gè)最大值最小值。例如要呈現(xiàn)10個(gè),則寫成:proc univariate data=htwt  nextobs=10;

當(dāng)加了ID語句和nextobs選項(xiàng)后(值:大?。籹ubject:指定的ID;觀測:數(shù)據(jù)所處的位置):



2、正態(tài)概率圖:


它是將真實(shí)的數(shù)據(jù)與理想的正太分布數(shù)據(jù)比較。Y軸呈現(xiàn)數(shù)據(jù)值,X軸與反向標(biāo)準(zhǔn)正太函數(shù)有關(guān)。

*表示真實(shí)數(shù)據(jù),+表示由樣本均值和標(biāo)準(zhǔn)差得到的基線。如果樣本分布越偏離正太,則*越偏離+。


-----------------------------------------------------------------------------------------------------------------------------------

在proc univariate語句下加入histgram語句,可以生成直方圖,加上normal選項(xiàng)可以在直方圖上進(jìn)一步生成一條正態(tài)曲線,以便將自己的數(shù)據(jù)分布與標(biāo)準(zhǔn)正態(tài)分布相比較。并嵌入標(biāo)示:5.2格式的均值,6.3格式的標(biāo)準(zhǔn)差,字體為Arial,高度為3放于西北角。

[plain] view plain copy
  1. histogram height/midpoints=60 to 75 by 5 normal;    

在proc univariate語句下加入qqplot語句,可以生成QQ圖(分位數(shù)圖),如果變量為正態(tài)分布,則QQ圖就是一條直線。另外也可生成其他分布,例如對數(shù)正態(tài)分布(lognormal選項(xiàng)),beta分布(beta選項(xiàng)),Weibull分布(weibull選項(xiàng))等。


在proc univariate語句下加入probplot語句,可以生成概率圖,橫軸表示真實(shí)數(shù)據(jù),縱軸表示標(biāo)準(zhǔn)正態(tài)分布中期望的百分比,如果呈一直線,則可以認(rèn)為數(shù)據(jù)來自正態(tài)分布。

PROC UNIVARIATE 含七道指令它們的格式如下(每道指令結(jié)束后才用逗號(hào)分開):

PROC UNIVARIATE 選項(xiàng)串;

VAR 變量名稱串;

BY 變量名稱串;

FREQ 變量名稱;

WEIGHT 變量名稱;

ID 變量名稱串;

OUTPUT OUT=統(tǒng)計(jì)值輸出文件名稱    統(tǒng)計(jì)值關(guān)鍵字符串=統(tǒng)計(jì)值變量;

備注:在一個(gè) UNIVARIATE 程序中,可以多次使用 OUTPUT 指令但其他六道指令只能出現(xiàn)一次,此外PROC UNIVARIATE 指令后的六道指令可以按任何順序出現(xiàn)。


指令 #1: PROC UNIVARIATE 語句的選項(xiàng)串有下列七個(gè)選項(xiàng)可供選擇:

常用選項(xiàng):

(1) DATA=輸入資料文件名稱

       指明到底對那一個(gè)資料文件進(jìn)行分析,若省略此選項(xiàng)則 SAS 會(huì)自動(dòng)找出在本程序之前最后形成的資料文件并對它進(jìn)行分析。

(2) NOPRINT

       使用此選項(xiàng)分析結(jié)果將不在result里輸出。

(3) PLOT

       使用此選項(xiàng)UNIVARIATE 過程將產(chǎn)生三種圖形:莖葉圖 (Stem-And-Leaf Plot) 、平行條狀圖 (Horizontal Bar Chart)、盒狀圖          (Box Plot)、正態(tài)分布擬合圖 (Normal Probability Plot)(參閱 Tukey 1977)。

(4) FREQ

       使用此選項(xiàng) UNIVARIATE 過程將對變量各個(gè)取值的頻數(shù)及百分比進(jìn)行分析

(5) NORMAL

      此選項(xiàng)可用來要求 UNIVARIATE 過程檢定分析的變量是否呈現(xiàn)正態(tài)分布并且輸出其檢驗(yàn)結(jié)果。

不常用選項(xiàng):

(6) PCDLDEF={1/2/3/4/5}此選項(xiàng)是用來決定計(jì)算百分位數(shù) (Percentiles)的方法

PCDLDEF=1 表示用第一種計(jì)算方法以此類推 ,若省略此選項(xiàng)則UNIVARIATE程序會(huì)自動(dòng)采用用第四種計(jì)算方法。

(7) VARDEF={N/DF/WEIGHT (或 WGT) / WDF} 此選項(xiàng)決定計(jì)算變異數(shù)所用的分母

N 觀察體總數(shù)

        DF 觀察體總數(shù)減去 1 這是本選項(xiàng)的內(nèi)設(shè)值

        WEIGHT (或 WGT) 加權(quán)后的觀察體總數(shù)

        WDF 上述 WEIGHT 值減去 1

指令 #2 VAR 變量名稱串

 此指令列舉需要進(jìn)行描述性統(tǒng)計(jì)分析的數(shù)值變量名稱,若省略將對輸入資料文件中所有數(shù)值變量進(jìn)行分析,若選用 OUTPUT 指令

 則不可省略 VAR 指令

指令 #3 BY 變量名稱串

程序依據(jù)此指令所列舉的變量將觀測進(jìn)行分組,然后對每組觀測分別執(zhí)行分析,選用此指令時(shí)資料文件內(nèi)的數(shù)據(jù)必須先按照 BY           變量的值做由小到大的重新排列,這個(gè)步驟可由 PROC SORT 過程完成。

指令 #4 FREQ 變量名稱

這個(gè)變量必須是一個(gè)數(shù)值變量,其值代表觀察測重復(fù)出現(xiàn)的次數(shù),若此變量的值含小數(shù)則取其整數(shù)部分若其值小于 1 則此觀測將        被剔除在計(jì)算過程之外。

指令 #5 WEIGHT 變量名稱

這個(gè)變量稱為加權(quán)變量,用以說明所要分析的變量的權(quán)重是多大,其主要功用在于計(jì)算加權(quán)平均數(shù)、加權(quán)標(biāo)準(zhǔn)差、及加權(quán)變異            數(shù)。

注意:若選用了 WEIGHT 指令則 UNIVARIATE 程序?qū)⒉挥?jì)算偏度與峰度這兩個(gè)統(tǒng)計(jì)值,這兩個(gè)統(tǒng)計(jì)值將以缺失(.)表示,此外WEIGHT 指令對四分位數(shù)極端分?jǐn)?shù)及觀察體總數(shù)的計(jì)算并不發(fā)生任何作用(freq選項(xiàng)會(huì)對其有影響)。

指令 #6 ID 變量名稱串

用來標(biāo)示輸出的變量。

指令 #7 OUTPUT OUT=統(tǒng)計(jì)值輸出文件名稱      統(tǒng)計(jì)值關(guān)鍵字符串=關(guān)鍵值變量

保存計(jì)算的N mean std等關(guān)鍵統(tǒng)計(jì)量

(1) OUT=統(tǒng)計(jì)值輸出文件名稱

存儲(chǔ)要輸出的關(guān)鍵統(tǒng)計(jì)的表名,省略此選項(xiàng)則 SAS 將以內(nèi)設(shè)的命名方式自動(dòng)給予 DATAn 的文件名 (如 DATA1 DATA2...) n 按輸出文件產(chǎn)生的先后順序由 1 逐次累加而成

(2) 統(tǒng)計(jì)值關(guān)鍵字符串

這些關(guān)鍵字代表要輸出的統(tǒng)計(jì)值,首先說明要保存哪些統(tǒng)計(jì)值,然后對要存儲(chǔ)的統(tǒng)計(jì)值給予變量名。

UNIVARIATE 程序內(nèi)有二十六個(gè)統(tǒng)計(jì)值:

統(tǒng)計(jì)值及對應(yīng)含義N 非缺失值個(gè)數(shù)NMISS 缺失值個(gè)數(shù)NOBS 觀察體總數(shù)MEAN 平均數(shù)SUM 變量值的總和STD 標(biāo)準(zhǔn)差VAR 變異系數(shù)(標(biāo)準(zhǔn)誤)SKEWNESS 偏度KURTOSIS 峰度SUMWT 所有觀察體在 WEIGHT 變量上的總和MAX 變量的最大值MIN 變量的最小值RANGE 最大值減去最小值所得的差Q3 第三個(gè)四分位數(shù)MEDIAN 中位數(shù) (第 50 的百分位數(shù))Q1 第一個(gè)四分位數(shù)QRANGE Q3 減去 Q1 之差P1 1 的百分位數(shù)P5 5 的百分位數(shù)P10 10 的百分位數(shù)P90 90 的百分位數(shù)P95 95 的百分位數(shù)P99 99 的百分位數(shù)MODE 眾數(shù)如果有不只一個(gè)眾數(shù)取最小值的那一個(gè)SIGNRANK 等級符號(hào)檢定法 (The Signed Rank Statistic Lehmann 1975)NORMAL 常態(tài)分配的檢定 (Test Statistic for Normality)若觀察體個(gè)數(shù)少于 51 則采用Shapiro-Wilk W Statistic 的方法檢定否則采用用 Kolomogorov

備注:這些關(guān)鍵字的表達(dá)方式是統(tǒng)計(jì)值關(guān)鍵字 = 變量名

些代表統(tǒng)計(jì)值的變量名稱必須根據(jù) VAR 指令內(nèi)所列舉的變量順序?qū)?yīng)地一 一列舉未列舉者不予輸出請看下面這個(gè)例子

PROC UNIVARIATE;

VAR X Y;

BY SEX;

OUTPUT OUT=MSD MEAN=MX MY STD=SDX;

假如分組變量 SEX 的值是 1 或 2 則 UNIVARIATE 程序所產(chǎn)生的報(bào)表輸出文件將是兩個(gè) SEX 組在變量 X 與 Y 上的描述性統(tǒng)計(jì)值,OUTPUT 指令的界定這個(gè)輸出數(shù)據(jù)集WORK.MSD (暫時(shí)的文件), MSD數(shù)據(jù)集包括四個(gè)變量即SEXMX MY 及 SDX, 其中 SEX 是分組變量、MX 與 MY 分別是變量 X 與 Y 的平均數(shù)、DX 是變量 X 的標(biāo)準(zhǔn)差,由于關(guān)鍵字 STD 后只界定一個(gè)變量名稱 (SDX) 故此變

量自動(dòng)指 VAR 指令內(nèi)所列舉的第一個(gè)變量,變量 Y 的標(biāo)準(zhǔn)差因未界定其相對應(yīng)的變量名稱因此不輸出。


注 意 事 項(xiàng):

1.缺失數(shù)據(jù)的處理,處理的方法依遺漏數(shù)據(jù)的性質(zhì)而異

(1) VAR 指令中的變量

若觀察體在 VAR 指令之某個(gè)變量上含遺漏數(shù)據(jù)則該觀察體將被排除在這個(gè)變量的計(jì)算過程之外,然而若在其他變量上無遺漏數(shù)據(jù)仍會(huì)被納入其他 VAR 變量的計(jì)算過程內(nèi),這些含遺漏數(shù)據(jù)的觀察體個(gè)數(shù)及它們占總觀察體數(shù)的百分比將被納入報(bào)表輸出文件

(2) WEIGHT 指令中的變量

若在 WEIGHT 的加權(quán)變量上含遺漏數(shù)據(jù)則觀察體的加權(quán)變量值就是 0 這些觀察體仍然而會(huì)被納入百分位數(shù)的計(jì)算以及極端分?jǐn)?shù)的挑選

(3) FREQ 指令中的變量

若在 FREQ 指令的次數(shù)變量上含遺漏數(shù)據(jù)則觀察體將被剔除在所有計(jì)算過程之外

(4) BY 指令中的變量

若在BY 的分組變量上含遺漏數(shù)據(jù)則這些觀察體在分析的過程中自成一個(gè)分組

(5) ID 指令中的變量

若在 ID 的識(shí)別變量上有遺漏數(shù)據(jù)則在需要識(shí)別觀察體的地方仍以遺漏值 (.)呈現(xiàn)



本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
SAS系列09:SAS 基礎(chǔ)統(tǒng)計(jì)計(jì)算過程
SAS:將proc步的輸出導(dǎo)出為數(shù)據(jù)集
SAS學(xué)習(xí)筆記
隨機(jī)對照試驗(yàn)中缺失數(shù)據(jù)的填補(bǔ)
pearson, kendall 和spearman三種相關(guān)分析方法的區(qū)別
SAS信用評分九步曲之第一步數(shù)據(jù)清洗
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服