緒論:寫作既是個人情感的抒發,也是對學術真理的探索,歡迎閱讀由發表云整理的11篇數據分析的方法范文,希望它們能為您的寫作提供參考和啟發。
最簡單的拆分方法就是不看平均值,看數據分布。因為凡 是“總和”或者“平均”類的統計數據都會丟失掉很多重要的信息。例如李嘉誠來我們公司參觀,這一時間我們公司辦公室里的“平均資產”就會因為李嘉誠一個人 被抬高到人均幾億身家。如果有人根據這個“平均資產”數據來判定說我們辦公室的人都是豪華游艇的潛在顧客,這自然是荒謬的。
可實際上,我們每天都在做著類似的判斷,比如當我們聽到說顧客“平均在線時間”是3分34秒,就可能根據這個時間來進行業務決策,例如設置“停留時間超過3分34秒為高價值流量”,或者設置系統,在用戶停留了3分34秒還沒有下單的話就彈出在線客服服務窗口。我們設置這些時間點的根據是“平均停留時間”,在我們的想象里,我們的每個顧客都有著“平均的”表現,停留時間大致都是3分34秒,可實際上真正的顧客訪問時間有長有短,差別巨大:
在一些數據中我們可以看得出來,訪客平均停留在頁面的時間非常的短暫,具體的也就是說,問需要在淘寶數據分析上面下工夫的,那么,究竟該怎么弄才能比較好的呢?這個就看個人是怎么想的了,這里也就不多說了。
再舉一個例子,比如我們看到上個月平均訂單金額500元/單,這個月也是500元/單,可能會覺得數字沒有變化。可是實際上有可能上個月5萬單都是400~600元,而這個月5萬單則是2萬單300元,2萬單400元,5千單500元,5000單超過2500元 ——客戶購買習慣已經發生了巨大變化,一方面可能是客戶訂單在變小(可能是因為產品單價下降,采購數量減少,或者客戶選擇了比較便宜的替代品),另一方面 出現了一些相對較大的訂單(可能是中小企業采購,或者是網站擴充產品線見效了)?!磾祿植伎梢宰屛覀兏菀装l現這些潛在的變化,及時的做出應對。
二、拆因子
很多時候我們很難直接從數據變化中分析出具體的原因,這時可以考慮拆分因子,將問題一步步細化找尋原因。
例如網站轉化率下降,我們要找原因。因為“轉化率”=“訂單”/“流 量”,所以“轉化率”下降的原因很可能是“訂單量下降”,“流量上升”,或者兩者皆是。按照這個思路我們可能發現主要的原因是“流量上升”和“訂單量升幅 不明顯”,那么
下面我們就可以來拆解“流量”的構成,例如拆成“直接訪問流量”、“廣告訪問流量”和“搜索引擎訪問流量”再看具體是哪部分的流量發生了變 化,接下來再找原因。這時我們可能看到說是搜索引擎訪問流量上升,那就可以再進一步分析是付費關鍵詞部分上升,還是自然搜索流量上升,如果是自然流量,是 品牌(或者網站名相關)關鍵詞流量上升,還是其他詞帶來的流
量上升——假如最后發現是非品牌類關鍵詞帶來的流量上升,那么繼續尋找原因——市場變化(淡季旺季之類),競爭對手行動,還是自身改變。假如剛好在最近把產品頁面改版過,就可以查一下是不是因為改版讓搜索引擎收錄變多,權重變高。接下來再分析自己到底哪里做對了幫助網站SEO了(比如把頁面導航欄從圖片換成了文字),把經驗記下來為以后改版提供參考;另
一方面還要分析哪里沒做好(因為新增流量但是并沒有相應增加太多銷售),研究怎樣讓“產品頁面”更具吸引力——因為對很多搜索引擎流量來說,他們對網站的第一印象是產品頁面,而不是首頁。
三、拆步驟
還有些時候,我們通過拆分步驟來獲取更多信息。
舉兩個例子:
第一個例子:兩個營銷活動,帶來一樣多的流量,一樣多的銷售,是不是說明兩個營銷活動效率差不多?
如果我們把每個營銷活動的流量拆細去看每一步,就會發現不一樣的地方。營銷活動B雖然和營銷活動A帶來了等量的流量,可是這部分流量對產品更感興趣,看完著陸頁之后更多的人去看了產品頁面??上У氖请m然看產品的人很多,最后轉化率不高,訂單數和營銷活動 A一樣。
這里面還可以再深入分析(結合之前提到的分析方法,和下一章要說的細分方法),但是光憑直覺,也可以簡單的得出一些猜測來,例如兩個營銷活動的顧客習慣不太一樣,營銷活動 B的著陸頁設計更好,營銷活動 B的顧客更符合我們的目標客戶描述、更懂產品——但是我們的價格沒有優勢等等這些猜想是我們深入進行分析,得出行動方案的起點。至少,它可以幫助我們
更快的累計經驗,下次設計營銷活動的時候會更有的放矢,而不是僅僅寫一個簡單report說這兩個營銷活動效果一樣就結案了。(注:這是個簡化的例子,實際上還可以分更多層)
第二個例子可能更常見一些,比如網站轉化率下降,我們可以拆成這樣的漏斗:
這樣拆好之后,更能清楚地看到到底是哪一步的轉化率發生了變化。有可能是訪客質量下降,都在著陸頁流失了,也可能是“購物車–>登錄”流失了(如果你把運費放到購物車中計算,很可能就看到這一步流失率飆升),這樣拆細之后更方便我們分析。
曾經有一個例子就是轉化率下降,市場部查流量質量發現沒問題,產品經理查價格競爭力也沒問題——最后發現是技術部為了防止惡意注冊,在登錄頁面加了驗證碼(而且那個驗證碼極度復雜),降低了“登錄頁面–>填寫訂單信息“這一步的轉化率。
四、細分用戶族群
分析網站流量這是首要工作,如果是網站建設初期,那么此時的流量分析就只要記住網站登陸搜索引擎后的流量基數即可。如果是網站建設中期的話,就要記錄網站流量一周的平均值,如果是網站建設后期的話,就要記錄網站流量的階段性波動值!記錄好了流量值之后,就可以很好的計劃出下一步優化推廣的流量值了。
網站優化數據分析方法二:關鍵詞分析
網站關鍵詞分析也是網站優化的重要工作之一!分析現在網站關鍵詞的布局,分析網站有流量的關鍵詞,分析網站還沒有覆蓋的與網站業務相關的關鍵詞,分析出網站主關鍵詞的排名情況,分析關鍵詞的設計是否合理。分析頂級關鍵詞是否占據了搜索引擎首頁的排名,分析搜索關鍵詞的質量高不高,與網站業務的相關度如何?!分析關鍵詞轉化率如何等等。
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2017)03-0104-02
1 綜述
1.1 簡介
在數字化時代,需要新一代系統架構提升業務創新能力。在新一代系統架構中,大數據是核心要素。業務應用能否自主發現與自助獲得高質量的大數據,就成為業務創新成敗的關鍵。這就要在搭建大數據平臺時,就著手大數據治理相關建設。
1.2 需求和意義
從某種意義上說大數據治理架構需要以元數據為核心、提高大數據質量、透明化大數據資產、自助化數據開發、自動化數據、智能化數據安全,提升大數據平臺服務能力,讓大數據平臺變得易使用、易獲得、高質量。
但是,目前很多技術解決方案存在諸多安全和效率隱患:業務系統多,監管力度大;數據量龐大且呈碎片化分布,急需提升大數據質量;數據格式不規范、難以在短時間內找到所需數據;數據在各階段的應用角度不同,需要降低系統間的集成復雜度。
2 功能設計
2.1 總體架構
本文講述的數據分析方法及實現技術是建立在Hadoop/Spark技術生態圈的基礎之上,以實現用戶集成處理、、清理、分析的一個統一的數據處理平臺;按數據類別分為線數據、歸檔數據;按數據格式分為非結構化數據、結構化數據;按數據模型分類為范式化模型數據、維度模型數據;按數據采集頻度分為非實時數據、準實時數據處理架構;并提供數據中心平臺與安全管理方案,為企業級用戶建立一個通用數據處理和分析中心。如圖1所示。
2.2 在線數據
在線數據在線通過接口去獲得的數據,一般要求為秒級或速度更快。首先應當將數據進行區分:在線數據、或歸檔數據。本平臺中采用:Storm或Spark Streaming框架進行實現。Spark Streaming將數據切分成片段,變成小批量時間間隔處理,Spark抽象一個持續的數據流稱為DStream(離散流),一個DStream是RDD彈性分布式數據集的micro-batch微批次,RDD是分布式集合能夠并行地被任何函數操作,也可以通過一個滑動窗口的數據進行變換。
2.3 歸檔數據
歸檔數據是在線存儲周期超過數據生命周期規劃的數據,處理的要求一般在分鐘級或速度更慢。通常歸檔數據的計算量、數據量、數據復雜度均超過試試數據處理。本平臺中采用:Hadoop、Spark技術生態體系內的框架進行計算,這里不詳細闡述。
2.4 非結構化數據
通常非結構化的數據不一定具備字段,即使具備字段其長度也不固定,并且字段的又可是由可不可重復和重復的子字段組成,不僅可以包含結構化數據,更適合處理非結構化數據。常見的非結構化數據包括XML、文本、圖象、聲音、影音、各類應用軟件產生的文件。
針對包含文字、數據的為結構化數據應當先利用數據清洗、數據治理工具進行提取,這項工作目前仍依賴技術員進行操作,由于格式的復雜性所以難以使用自動化方式進行較為高效的批處理。在治理數據的過程中,需要根據情況對數據本身額外建立描述數據結構的元數據、以及檢索數據的索引服務,以便后續更佳深度利用數據。
2.5 結構化數據
結構化數據具備特定的數據結構,通??梢赞D換后最終用二維的結構的數據,并且其字段的含義明確,是挖掘數據價值的主要對象。
本平臺中主要使用Hadoop Impala和Spark SQL來進行結構化數據的處理。Impale底層采用C++實現,而非Hadoop的基于Java的Map-Reduce機制,將性能提高了1-2個數量級。而Spark SQL提供很好的性能并且與Shark、Hive兼容。提供了對結構化數據的簡便的narrow-waist操作,為高級的數據分析統一了SQL結構化查詢語言與命令式語言的混合使用。
結構化數據根據采集頻度可以繼續分類為:非實時數據、準實時數據。
2.6 準實時數據
通常準實時數據是指數據存儲在平臺本身,但更新頻率接近于接口調用數據源的數據。適合用于支持數據和信息的查詢,但數據的再處理度不高,具有計算并發度高、數據規模大、結果可靠性較高的特點。通常使用分布式數據處理提高數據規模、使用內存數據進行計算過程緩沖和優化。本平臺主要采用Spark SQL結合高速緩存Redis的技術來實現。Spark SQL作為大數據的基本查詢框架,Redis作為高速緩存去緩存數據熱區,減小高并發下的系統負載。
2.7 非實時數據
非實時數據主要應用于支持分析型應用,時效性較低。通常用于數據的深度利用和挖掘,例如:因素分析、信息分類、語義網絡、圖計算、數值擬合等。
非實時數據根據數據模型可繼續分類為:范式化模型數據、維度模型數據。
2.8 范式化模型
范式化模型主要是針對關系型數據庫設計范式,通常稻菔遣捎玫諶范式3NF或更高范式。面向近源數據查詢、數據主題的整合。范式化模型數據的數據存儲區,建議使用并行MPP數據庫集群,既具備關系型數據庫的優點,又兼顧了大數據下的處理。
2.9 基于維度模型
維度模型數據主要應用于業務系統的數據挖掘和分析。過去多維度數據處理主要依賴OLAP、BI等中間件技術,而在大數據和開源框架的時代下,本技術平臺采用Hadoop Impala來進行實現。Impala并沒有使用MapReduce這種不太適合做SQL查詢的范式,而是參考了MPP并行數據庫的思想另起爐灶,省掉不必要的shuffle、sort等開銷,使運算得到優化。
3 應用效果
本系統在不同的業務領域上都可以應用,以2016年在某銀行的應用案例為例:該銀行已完成數據倉庫建設,但眾多數據質量問題嚴重影響了數據應用的效果,以不同的數據存儲方式,以更高的要求去進行數據的統一管理。通過組織、制度、流程三個方面的實施,以元數據、數據標準、數據質量平臺為支撐,實現了數據管控在50多個分支,60個局,1000余處的全面推廣,實現了全行的覆蓋;管理了120個系統和數據倉庫,顯著提升了新系統的快速接入能力;通過14個數據規范和流程明確了數據管控的分工;數據考核機制的實施,使其在數據質量評比中名列前茅。
4 結語
本文介紹了大數據下數據分析方法及實現技術的大體設計和思路,從需求分析、總體架構和數據處理以及數據分析這幾個方面來介紹。文章在最后介紹出了這種平臺的應用效果。筆者相信這些思路和技術能夠在業務中能得到很好的應用。
Key Words:Social survey data;Three-dimension matrix;Hypergraph
社會調查是了解各方面信息的重要途徑之一,社會調查數據主要是通過調查問卷的方法得到的。由于社會調查數據的維數較高,加上人為主觀因素,數據類型主要為二元變量、離散變量、序數變量等為主,所以對于社會調查數據的分析和處理大都基于統計學,只對單一題目進行統計學分析,其分析方法主要是基于題型進行處理的,對于題目和題目之間的關系很少關心[1]。許多數據挖掘算法因為種種限制無法在社會調查的數據分析中得到應用。因為方法的限制,所以現在很多社會調查只能驗證事先想好的內容和假設,很少可以對高維數據進行相對復雜的回歸分析處理。
根據以上存在的問題,該文建立了基于三維矩陣的數學模型,將單選題、多選題和排序題用向量形式進行表示,每一題定義為空間中的一個維度,從而所有的題目就可以構成一個N維空間。每份問卷的信息用一個M×N矩陣表示。這樣表示可以將所有問卷內容當作一個整體,作為后續算法的基礎。
1 社會調查數據的特點
通常情況下,社會調查數據特點如下。
(1)相關性。對于一個樣本個體而言,它具有本身的多個特征,這些特征之間就具有一定的相關性。對于多個樣本而言,個體與個體的特征之間具有相關性。如果樣本隨時間而變化,那么該樣本在不同時刻的特征之間又具有相關性。因此,由于上述多個原因使得社會調查數據具有了復雜的相關性,傳統的統計學調查難以解決這樣的問題。
(2)離散性。因為社會調查數據是通過自填式問卷、網絡調查數據庫等方法得到,所以社會調查數據一般以離散變量為主,且這些數據之間只有標示作用,并沒有嚴格的邏輯關系。
(3)模糊性。社會調查數據當中不可避免的會接觸到各種表達方式和概念,因此,它具有模糊性。
因為由自填式問卷或結構式訪問的方法得到的社會調查數據具有以上特點,所以在實際應用中基于統計學的處理方法只能籠統的顯示數據的部分特性,如頻數、離散程度等[2]。對于數據之間的關系只能分析出維數極少的大致的關系。
而且利用軟件進行數據挖掘時,因為現有的軟件中的數據挖掘算法對于數據類型和格式要求較高,所以能應用到的數據挖掘算法很少。就算是數據要求較低的關聯分析,其結果也存在大量的冗余。因此,我們需要建立一個合適的社會調查數據的數學模型來完善原先的方法并使跟多的數據挖掘方法可以運用到其中,使得結果更準確。
2 社會調查數據的建模
研究中我們發現,三維矩陣可適用于社會調查數據的建模。
2.1 三維矩陣的定義
三維矩陣的定義:由n個p×q階的矩陣組成的n×p×q階的矩陣A稱為三維矩陣,又稱立體陣。Ak,i,j表示三維矩陣A的第k層,第i行,第j列上的元素。其中n,p,q分別表示三維矩陣的高度,厚度和寬度。
2.2 三維矩陣模型的建立
調查問卷的題目一般有三種類型:單選題、多選題和排序題。這三類題目都可以表示成向量的形式,其中每一道單選題、多選題可以表示成一個向量,排序題可以表示成多個向量組成的矩陣。對于單選題和多選題,可以按選項的順序可以表示成一個向量,其中選中的項用“1”表示,未選中的項用“0”表示。對于排序題,可以表示成一個n×n的方陣,其中n表示該排序題的選項個數,。這樣,每一題就可以定義為空間中的一個維度,從而所有的題目就可以構成一個N維空間。每份調查問卷的信息用一個M×N矩陣表示(M為題目的最大選項數),其在每一維上的選擇稱之為一個元素,這樣每份問卷的信息就包括了N個元素。以第1,2,3題數據為例,其中第1題為單選題選擇“B”,用向量表示為一個元素,第2題為多選題選擇“ACE”,用向量表示為一個元素,第3題為排序題順序為CBADEFIHG,用矩陣表示,每一個列向量是一個元素,如圖1所示。
那么,假設有一問卷信息用一個大小為M×N的矩陣表示。K份的問卷信息就可以用K個大小為M×N的矩陣表示。將這K個矩陣疊加,形成一個三維矩陣。這個三維矩陣就是我們建立的三維矩陣數學模型,如圖2所示。
在圖2中我們看到,該三維矩陣數學模型有三個坐標軸,它們分別是題目,人數,選項。題目軸以每一道題為一個單位;人數軸以每一份問卷為一個單位;選項軸的刻度為A,B,C,D,E,F等題目選項,其個數為該調查問卷中選項最多的題目的選項個數。
在此基礎之上,這樣的三維矩陣具有以下性質。
(1)在題目軸中選取對應的題目,將三維矩陣面向豎切得到截面1(如圖2中01所示),截面2表示每一道題所有人選擇的信息。
(2)在人數軸中選取對應的人,將三維矩陣橫切得到橫截面1(如圖2中02所示),橫截面1表示對應的人選擇所有題目的信息。
在得到三維矩陣后,可對它進行像素化處理,置1的元素用黑點代替,置0元素的則空白,在得到像素化三維矩陣后我們可以將三維矩陣沿著人數維度上向下投影,這樣就可以得到一個具有濃黑不一的點的平面。通過這些點的濃度,可以知道每一選項選擇的人數。接下來我們可用灰度級表示點的濃度,篩選出濃度大于一定程度的點,在此基礎上進行后續算法處理。
上述三維矩陣數學模型具有數學三維矩陣的所有性質,可依據調查問卷的需求進行轉置,加權、相乘、篩選等數學處理,另外在數學處理的基礎上,采用超圖理論可以大大豐富了調查問卷的處理方法。
3 基于超圖算法的調查問卷分析技術
超圖是離散數學中重要的內容,是對圖論的推廣[3]。超圖是有限集合的子系統,它是一個由頂點的集合V和超邊集合E組成的二元對,超圖的一條邊可以有多個頂點的特性,這與一般的圖有很大不同。超圖分為有向超圖與無向超圖兩類,在無向超圖的每條超邊上添加方向后得到的有向二元對就是有向超圖。超圖在許多領域有廣泛的應用。
大家可以利用無向超圖表示每一道題的選擇情況,先將這每一題的每一個選項設成一個節點,然后將三維矩陣從上向下投影,如果某一題的若干個選項同時被一個人選擇,就用一條超邊包圍這些節點,那么選這些選項的人越多,投影得到的超邊就越濃。這樣就用超圖表示了問卷中每道題的信息,可以進行聚類處理。
利用有向超圖,可以將關聯規則表示成有向超圖的形式,在得到了關聯規則后,設實際中得到的關聯規則的形式為:,前項和后項都是由多個項組成的集合。該文定義一條關聯規則由一條有向超邊表示,有向超邊的頭節點表示關聯規則的前項,有向超邊的尾節點表示關聯規則的后項。每條有向超邊的頭節點和尾節點均可以為多個,如此便成功表示了復合規則,從而可以使用相關算法進行冗余規則檢測。
通過基于有向超圖的冗余規則檢測就可以將關聯規則之間存在著的大量冗余檢測出,減少挖掘資源的浪費,從而增加了挖掘結果的有效性。
傳統的聚類方法都對原始數據計算它們之間的距離來得到相似度,然后通過相似度進行聚類,這樣的方法對于低維數據有良好的效果,但是對于高維數據卻不能產生很好的聚類效果,因為高維數據的分布有其特殊性。通過超圖模型的分割實現對高維數據的聚類卻能產生較好的效果。它先將原始數據之間關系轉化成超圖,數據點表示成超圖的節點,數據點間的關系用超邊的權重來表示。然后對超圖進行分割,除去相應的超邊使得權重大的超邊中的點聚于一個類中,同時使被除去的超邊權重之和最小。這樣就通過對超圖的分割實現了對數據的聚類。具體的算法流程如下。
首先,將數據點之間的關系轉化為超圖,數據點表示為超圖節點。如果某幾個數據點的支持度大于一定閾值,則它們能構成一個頻繁集,就將它們用一條超邊連接,超邊的權重就是這一頻繁集的置信度,重復同樣的方法就可以得超邊和權重。
然后,在基礎此上,通過超圖分割實現數據的聚類。若設將數據分成k類,則就是對超圖的k類分割,不斷除去相應的超邊,直到將數據分為k類,且每個分割中數據都密切相關為止,同時保持每次被除去的超邊權重和最小,最終得到的分割就是聚類的結果。
一、數據統計分析的內涵
數據分析是指運用一定的分析方法對數據進行處理,從而獲得解決管理決策或營銷研究問題所需信息的過程。所謂的數據統計分析就是運用統計學的方法對數據進行處理。在實際的市場調研工作中,數據統計分析能使我們挖掘出數據中隱藏的信息,并以恰當的形式表現出來,并最終指導決策的制定。
二、數據統計分析的原則
(1)科學性??茖W方法的顯著特征是數據的收集、分析和解釋的客觀性,數據統計分析作為市場調研的重要組成部分也要具有同其他科學方法一樣的客觀標準。(2)系統性。市場調研是一個周密策劃、精心組織、科學實施,并由一系列工作環節、步驟、活動和成果組成的過程,而不是單個資料的記錄、整理或分析活動。(3)針對性。就不同的數據統計分析方法而言,無論是基礎的分析方法還是高級的分析方法,都會有它的適用領域和局限性。(4)趨勢性。市場所處的環境是在不斷的變化過程中的,我們要以一種發展的眼光看待問題。(5)實用性。市場調研說到底是為企業決策服務的,而數據統計分析也同樣服務于此,在保證其專業性和科學性的同時也不能忽略其現實意義。
三、推論性統計分析方法
(1)方差分析。方差分析是檢驗多個總體均值是否相等的一種統計方法,它可以看作是t檢驗的一種擴展。它所研究的是分類型自變量對數值型因變量的影響,比如它們之間有沒有關聯性、關聯性的程度等,所采用的方法就是通過檢驗各個總體的均值是否相等來判斷分類型自變量對數值型因變量是否有顯著影響。(2)回歸分析。在數據統計分析中,存在著大量的一種變量隨著另一種變量的變化而變化的情況,這種對應的因果變化往往無法用精確的數學公式來描述,只有通過大量觀察數據的統計工作才能找到他們之間的關系和規律,解決這一問題的常用方法是回歸分析。回歸分析是從定量的角度對觀察數據進行分析、計算和歸納。
四、多元統計分析方法
(1)相關分析。相關分析是描述兩組變量間的相關程度和方向的一種常用的統計方法。值得注意的是,事物之間有相關關系,不一定是因果關系,也可能僅僅是伴隨關系;但如果事物之間有因果關系,則兩者必然存在相關關系。(2)主成分分析。在大部分數據統計分析中,變量之間是有一定的相關性的,人們自然希望找到較少的幾個彼此不相關的綜合指標盡可能多地反映原來眾多變量的信息。所謂的主成分分析就是利用降維的思想,把多指標轉化為幾個綜合指標的多元統計分析方法,很顯然在一個低維空間識別系統要比在一個高維空間容易的多。(3)因子分析。因子分析的目的是使數據簡單化,它是將具有錯綜復雜關系的變量綜合為數量較少的幾個因子,以再現原始變量與因子之間的相互關系,同時根據不同因子,對變量進行分類。這些因子是不可觀測的潛在變量,而原先的變量是可觀測的顯在變量。(4)聚類分析。在市場調研中,市場細分是最常見的營銷術語之一,它按照一定的標準將市場分割為不同的族群,并使族群之間具有某種特征的顯著差異,而族群內部在這種特征上具有相似性。聚類分析就是實現分類的一種多元統計分析方法,它根據聚類變量將樣本分成相對同質的族群。聚類分析的主要優點是,對所研究的對象進行了全面的綜合分析,歸類比較客觀,有利于分類指導。(5)判別分析。判別分析是判別樣品所屬類型的一種多元統計方法。若在已知的分類下,遇到新的樣本,則可利用此法選定一種判別標準,以判定將該新樣品放置于哪個類中。由定義我們可以知道判別分析區別于聚類分析的地方,而在判別分析中,至少要有一個已經明確知道類別的“訓練樣本”,從而利用這個數據建立判別準則,并通過預測變量來為未知類別的觀測值進行判別。與聚類分析相同的地方是,判別分析也是利用距離的遠近來把對象歸類的。
參考文獻
學生每一個學習行為的背后,都是有目的、有價值、有意義的。簡言之,學生自己要真正認識到這種學習是有用的,哪怕僅僅是因為有趣、好玩,才能激發學生進行相關學習的愿望和興趣。對于數據分析觀念的培養,教師有必要替學生問一個“為什么”,問題不必明確提出,但一定要把相關信息告訴學生,引發學生強烈的認知沖突,才會產生進行數據收集、整理與分析的欲望,才會使他們認識到學習數據分析的必要性,產生興趣,從而建立與培養其初步的數據分析觀念。
以二年級上冊“統計”一課的學習為例,學生首次接觸“統計”的相關內容。在學生尚不真正知道與理解該詞的確切含義的情況下,教材提供的課例是“統計最喜歡的動物”,以統計圖形式呈現出喜歡四種動物(小貓、小狗、小兔、烏龜)的學生的人數,并提供了3道題目,但教材始終沒有告訴學生,“為什么我要學習這個知識”、“為什么我要進行數據分析”。此時,對這一問題的提出與引導學生思考,只能由教師在不動聲色中完成。所以,教學時,利用學生愛吃零食的特點,我調整了教學思路,首先,我征得學生同意,打算用班上賣廢品的錢給學生買糖吃。此舉得到學生們的一致歡迎;其次,我要求5個小組長提前去學校門口的超市,了解糖塊的種類與價格,并告知其他同學;再次,我要求班委成員負責了解班上每一名同學的需求并進行分類、計算總量。每人限一塊,以便于合理安排買糖的數量與花費;再次,將買來的糖帶入教室,上課,進行相關的數據整理與分析;最后,完成全部教學任務后,吃糖。
當我將此想法與實際的授課過程講給其他老師聽時,有老師笑談“孩子們學習的動力就是吃糖”。我不否認這是學生們積極參與教學活動的動力之一,因為事先我有告訴學生全部的活動過程與“完不成就不會有糖吃”的話。但不可否認的是,對于二年級的學生來說,為了達成“每個同學都能吃到自己想吃的糖”這一目標,要在活動的每一個步驟都進行相關數據的收集、整理與分析,才能正確且順利地完成任務。簡言之,等于我們告訴學生,“為什么要進行數據分析”、“只因為我們需要達成一定的目的”,并且,活動的每一步驟的數據分析都有學生親自進行,并明確知曉這樣做的原因——當然不是教師的程式化的要求,這就使得學生的數據分析工作是主動的,各成員之間是相互合作的,既使學生愉快地接受了數據分析的內容與過程,也在增強學生數據分析觀念的同時,培養了學生主動學習與合作的精神。
二、挖掘數據中蘊藏的深層信息,體驗數據分析的應用價值
[中圖分類號]G819[文獻標識碼]A[文章編號]1005-6432(2013)46-0099-02
1引言
探索性數據分析方法是一種新型的統計分析手段,近年來在許多行業得到了廣泛的應用,并取得了明顯成效。其強調了數據本身的價值,可以更加客觀地發現數據的規律,找到數據的穩健耐抗模式,從而發掘出數據的隱藏信息。本文從職工平均工資的實際數據出發,利用探索性數據分析中的工具,直觀地探索華東六省職工平均工資的規律,挖掘數據特征和有價值的信息。
2華東六省職工平均工資的描述性分析
職工平均工資指企業、事業、機關單位的職工在一定時期內平均每人所得的貨幣工資額。它表明一定時期職工工資收入的高低程度,是反映職工工資水平的主要指標。由于中國城市眾多,各地經濟發展水平有較大的差異,生活水平和生活質量也各有不同,為了縮小地理差異對研究數據的影響,得到較為準確和有意義的結果,這里只選用了2010年華東地區六個省的職工平均工資運用探索性數據分析方法做初步的描述性分析和研究,每個省選取了9個大城市。
為了更加簡單直觀地對比各個省市的數據,我們繪制了箱線圖,如圖1所示。對華東六省進行對比中,可以看到只有江西省和福建省是有離群值的,說明了這兩省中存在著個別城市職工平均工資與同省其他城市相比特別大,其他幾省的數據就不存在離群值。對于四分展布,可以得到大小關系,安徽>江蘇>浙江>山東>福建>江西,可知安徽和江蘇中城市的職工平均工資差異較大,福建和江西相比起來,則分布得更加集中。
圖1華東六省2010年職工平均工資水平箱線圖
綜合對比各個省的中位數,可以發現江蘇省平均職工工資水平最大,江西省最小,從經濟上反映了地區經濟發展差異,江蘇緊靠上海,處在華東的中心,交通系統發達,同時,長三角江蘇占了大部分,其靠海的地理優勢給它帶來了更多的經濟發展機會,導致了職工工資水平中位數相差如此大。
同時可以直觀地看出安徽省數據對稱性最好,除了福建省數據呈現左偏趨勢外,其他省都呈現右偏的趨勢,其中江西省的數據最為嚴重,主要是受到了兩個離群值的影響,為了使其更對稱,我們運用探索性數據分析方法中的對稱變換方法,在經過R軟件的計算后,得到職工平均工資的對稱性變換圖,如圖2所示。
圖2江西省2010年職工平均工資水平對稱性變換圖
進行對稱性變換后,運用R軟件擬合曲線,得到:
由圖3可以看出,在進行對稱匹配變換之后,江西省的兩個離群值消失了,數據變得更加集中,趨勢也更加易于分析和研究。這樣的數據會給分析帶來便利,更加清晰和直觀地表現出數據的本質特征。
圖3江西省2010年職工平均工資水平匹配
3結論
使用探索性數據分析技術具有耐抗性和穩健性的特點,通過箱線圖可以簡單直觀地看出數據間的差異,華東六省中浙江、江蘇省職工平均工資較高,安徽、山東、福建省處于中間,江西省最低。安徽省的數據較為分散,同時數據比較對稱,而江西省的數據有著極大的右偏性,在經過了對稱、匹配變換后,仍然與華東地區其他省的數據有較大的差異,可能是由離群值太大造成的。
參考文獻:
所謂的交通事故預測是根據已發生交通事故的數據進行統計,在對事故原因進行分析的基礎上,探尋事故規律,以針對交通事故做出更為合理的推測和判斷。當前,交通事故預測方法相對較為多樣,如回歸分析、時間序列等,雖然都能對交通事故做出科學合理的決策性指導,但各具優缺點和適用條件,因而有關人員應在遵循交通事故預測思想的基礎上,對幾種主要預測方法進行分析,確保交通部門人員能夠根據實際情況而合理選擇交通事故預測方法。
1 交通事故預測思想
交通事故對人類造成的危害相對較大,對人類產生嚴重的威脅。從我國發展實踐中可知,交通事故在一定程度上制約我國經濟的發展進程,尤其對人類社會福利、醫療保險等方面的影響較大。據不完全統計,2015年全年間,我國交通事故約為10597358起,死亡人數約為68432人,財產損失高達10億元以上??梢姡煌ㄊ鹿释{隱患相對較大。交通事故預測能夠根據已發生交通事故進行統計、分析、處理,在遵循規律的基礎上,對未來可能發生的交通事故作出科學合理的預測,該預測結果以科學邏輯推斷為基礎。就交通事故原因而言,道路環境、交通條件、車輛、駕駛員等都是影響因素。通過交通事故預測,我國交通部門人員能夠對交通事故作出科學合理的判斷和制定有效的預防策略,以最大限度降低和消除交通事故隱患。
2 交通事故主要預測方法
2.1 回歸分析預測法
回歸分析預測法在交通事故預測中的有效應用,主要分為線性回歸和非線性回歸兩種方法。首先,背景交通工程研究所人員提出線性回歸分析預測法,通過對自變量和因變量之間關系問題的探討,對因變量趨勢加以預測,其模型為:
Y=3577.79+93.3028lgX1+824.921lgX3+326.777lgX4+800.454lgX5-1149.051lgX6-224.902lgX8-45.0499lgX9-152.6081lgX10-287.191lgX11。
其中X1-X11分別表示臨時人口、常住人口、機動車輛、自行車、道路長度、道路面積、燈控路口、交通標志、交通標線、失控部位、交警人數。
其次,英國倫敦大學SemeedR.J教授對歐洲國家十余載的交通事故資料進行研究,提出非線性回歸分析預測法。對此,他建立冪函數曲線事故模型,
即:D=0.0003。其中D為交通事故死亡人數;N是機動車保有量;P為人口數量。
回歸分析預測法能夠對交通事故影響因素間的因果關系加以反應,以達到預測結果的目的,但對變化趨勢的反應可能較為遲鈍。該預測方法適用于樣本量較大、數據波動小和極具規律性的預測實踐中。
2.2 時間序列預測法
時間序列預測法主要有兩種類型,分別為移動平均預測法和指數平滑預測法。首先,移動平均預測法是比較簡單的平滑預測技術,通過計算項數時序平均值,對長期發展趨勢變化做出科學合理的預測。內蒙古科技大學韋麗琴、徐勇勇利用時間序列ARIMA模型做出科學合理的預測分析,對交通事故加以預測。其次,指數平滑預測法的通式為:
Ft+1=αxt+(1-α)Ft
時間序列預測法屬于定量預測方法,擬合效果良好,但在短期預測中,受諸多因素干擾影響較大,使預測結果具有不確定性。該方法適用于國內縣區等區域范圍較小的預測實踐中。
2.3 灰色馬爾科夫鏈預測法
道路交通系統屬于動態時變系統,但影響交通安全的因素多且復雜。在灰色馬爾科夫鏈預測法的指導下,相關人員能夠通過灰色預測模型,做出短期預測,以縮小預測區間,提高預測效率。云南交通職業技術學院王剛對灰色馬爾科夫鏈預測法而建立模型,對交通事故進行預測,根據實踐可知,基于該模型的預測精確度十分高,取得良好的預測成效。
灰色預測以短期預測為主,馬爾科夫鏈預測以長期預測為主,通過二者結合,可提高預測精度,但如若數據變化大,則灰色模型的吻合度和精度下降。借助該預測方法,能夠對狀態下的轉移規律加以預測,并揭示交通事故時序變化總趨勢。
2.4 貝葉斯預測法
貝葉斯預測法主要相對于交通事故中的車速問題而言。在交通事故中,車速是重要影響因素,如若車輛速度過快,則駕駛員反應的時間較少,其應急策略不足,造成重大交通安全隱患。貝葉斯預測法能夠對未來交通事故發生的可能性進行預測。該預測方法應用中,必須建立在交通事故和車速有關聯的基礎之上,有助于交通部門人員更好開展數據統計和交通流進行觀測。
2.5 灰關聯分析及神經網絡預測法
就灰關聯分析及神經網絡預測法而言,哈爾濱工業大學交通研究所和中國城市規劃設計研究院的裴玉龍與張宇提出該方法,旨在通過交通事故影響因素分析,對事故進行進一步解析,并建立合理的模型理論和確定預測指標,對未來交通事故發展趨勢加以預測。該預測方法的適應性較強,在我國交通事故預測工作實踐中有著較為有效的運用,可解決傳統預測方法難以解決的問題,建立在BP網絡基礎之上,并利用計算機開展輔計算活動。
2.6 多層遞階預測方法
多層遞階預測方法能夠規避傳統統計預測方法的缺陷,以現代控制理論“系統辨識”為重要基礎,對對象的未來狀態做科學的預測。動態系統數學模型為:y(k)=。在交通事故預測中,多層遞階預測方法是大數據時代背景下的重要處理方式,有利于增強預測效果。
3 結論
交通部門對交通事故進行合理的預測,有利于提高道路交通系統的安全系數。所以,相關人員合理選擇交通事故預測方法具有必要性,為規避交通事故而做出科學合理的決策。目前,使用較多的交通事故預測方法主要有:回歸分析預測法、時間序列預測法、灰色馬爾科夫鏈預測法、貝葉斯預測法、灰關聯分析及神經網絡預測法等,因其各具優缺點和適用條件,因而要求相關人員必須對系列問題進行深入探究,確保公路交通事故預測的有效性。
參考文獻
[1]李景文,高桂清.交通事故預測分析[J].中國安全科學學報,2015,6(01):20-23.
[2]劉志強.道路交通事故預測方法比較研究[J].交通與計算機,2013,19(05):7-10.
一、分壓電路特性研究及參數的變化
首先,用1000Ω滑線變阻作分壓器,負載電阻用1000Ω(K=1),測出滑線電阻滑動端的位置參數X和U/Umax分壓比,并作出U/Umax的關系曲線。其次,同上,用1000Ω滑線電阻和500Ω的負載電阻(K=0.1),測出X和U/Umax,記錄不同的K值。在Matlab軟件中編寫下列程序實現分壓電路實驗數據的處理和圖像的擬合:
x0=0:0.1:1.0;
y1=[0 0.24 0.48 0.58 0.72 0.92 1.12 1.58 2.18 3.42 4.46];
z1=max(y1);
y2=[0 0.38 0.72 0.98 1.32 1.72 2.02 2.48 3.26 4.18 4.64];
z2=max(y2);
y3=[0 0.40 0.82 1.18 1.58 2.02 2.40 2.98 3.62 4.32 4.52];
z3=max(y3);
y4=[0 0.18 0.28 0.34 0.48 0.58 0.78 1.02 1.66 2.98 4.48];
z4=max(y4);
n=3;
p1=polyfit(x0,y1,n)
p2=polyfit(x0,y2,n)
p3=polyfit(x0,y3,n)
p4=polyfit(x0,y4,n)
xx=0:0.01:1.0;
yy1=polyval(p1,xx);
yy2=polyval(p2,xx);
yy3=polyval(p3,xx);
yy4=polyval(p4,xx);
plot(xx,yy1/z1,'r',x0,y1/z1,'.r')
hold on;
plot(xx,yy2/z2,'k',x0,y2/z2,'.k')
hold on;
plot(xx,yy3/z3,'b',x0,y2/z2,'.b')
hold on;
plot(xx,yy4/z4,'g',x0,y4/z4,'.g')
hold off;
由實驗可得不同K值的分壓特性曲線,如圖1所示。從曲線可以清楚看出分壓電路有如下幾個特點:第一,不論R0的大小,負載RZ的電壓調節范圍均可從0■E;第二,K越小電壓調節越不均勻,曲線線性程度越差,細調程度較差;第三,K越大電壓調節越均勻,因此要電壓U在0到Umax整個范圍內均勻變化,則取K>1比較合適。
■
圖1 不同K值的分壓特性曲線
二、制流電路特性研究及參數的變化
首先,用1000Ω滑線變阻作制流器,負載電阻用100Ω(K=0.1),測出滑線電阻滑動端的位置參數X和分壓比I/Imax,并作出I/Imax-x的關系曲線。其次,同上,用10000Ω滑線電阻和20Ω的負載電阻(K=0.02),測出X和I/Imax,記錄不同的K值,并作出關系曲線,在Matlab軟件中編寫下列程序實現制流電路實驗數據的處理和圖像的擬合:
x0=0:0.1:1.0;
y1=[0.04 0.04 0.08 0.12 0.18 0.22 0.30 0.52 1.02 3.58 4.18];
z1=max(y1);
y2=[0.04 0.04 0.08 0.12 0.18 0.24 0.30 0.52 0.92 2.38 4.98];
z2=max(y2);
y3=[0.02 0.02 0.02 0.04 0.12 0.18 0.28 0.40 0.70 2.98 3.52];
z3=max(y3);
y4=[0.01 0.01 0.01 0.01 0.02 0.08 0.20 0.30 0.60 1.20 2.0];
z4=max(y4);
n=3;
p1=polyfit(x0,y1,n)
p2=polyfit(x0,y2,n)
p3=polyfit(x0,y3,n)
p4=polyfit(x0,y4,n)
xx=0:0.01:1.0;
yy1=polyval(p1,xx);
yy2=polyval(p2,xx);
yy3=polyval(p3,xx);
yy4=polyval(p4,xx);
plot(xx,yy1/z1,'r',x0,y1/z1,'.r')
hold on;
plot(xx,yy2/z2,'k',x0,y2/z2,'.k')
hold on;
plot(xx,yy3/z3,'b',x0,y2/z2,'.b')
hold on;
plot(xx,yy4/z4,'g',x0,y4/z4,'.g')
hold off;
(上接第47頁)
■
圖2 不同值的制流特性曲線
圖2表示不同K值的制流特性曲線,從曲線可以清楚地看到制流電路有以下幾個特點:第一,K越大電流調節范圍越??;電流調節越均勻,曲線線性程度較好;第二,K(K≥1)時調節的線性較好;第三,K較小時(即R0>RZ),電流調節范圍大,電流調節越不均勻,曲線線性程度越差,細調程度較差;第四,不論R0大小如何,負載RZ上通過的電流都不可能為零。第五,制流電路適用于負載電阻較小,功耗較大,電壓調節范圍較小的場合。
綜上所述,當負載電阻較大時,要求調節范圍較寬時宜采用分壓電路。相反,在負載電阻較小,功耗較大且調節范圍不太大時,選用制流電路較好。
參考文獻:
[1]陳玉林,李傳起.大學物理實驗[M].北京:科學出版社,2007:186-190.
統計應用作為數學的重要領域,在大多數情況下,數據被收集并且通過一定方法在系統中存儲,重要策略被記錄,并應用于其他領域。隨著數據恢復方法和統計分析方法的逐步集成,大數據的統計數據分析方法在財務管理中變得越來越重要。面對當今全球化的壓力和經濟市場的激烈競爭,使用財務管理的統計整合是提高有效管理效率,優化資源分配和科學行為的有效步驟。通過市場經濟的發展和經濟水平的不斷提高,數據集成和財務管理水平運用了大數據的統計分析。在建立大規模數據的經濟增長政策時,技術在宏觀經濟研究中起著重要作用。大數據統計分析的作用正在增加,其在管理中的用途正在進一步擴大。顯然,加強對經濟發展大數據統計分析技術的使用對促進經濟增長和提高管理效率非常重要。
一、大數據統計分析方法在經濟管理領域運用的意義
為響應市場環境和公司治理內容的變化而促進使用公司治理統計數據的需求主要體現在兩個方面:
(一)宏觀經濟方面發展有若干規律。為了尋找有關經濟發展的規律,強大的數據分析技術在宏觀經濟學中的應用非常重要。一方面,大數據分析統計數據用于從宏觀經濟發展行業收集數據,對相關行業信息進行實證分析,并調查行業發展和行業問題。使用SPS,Stata和其他數據分析軟件,中國擁有最重要的發展法;同時,發現工業發展規律,規范工業發展,開辟新的經濟發展方式也很重要[1]。
(二)企業經營管理方面1.提升企業競爭力的必然要求當前,業務發展的競爭越來越激烈。競爭壓力主要歸因于國內市場經濟帶來的經濟化以及國內市場競爭激烈加入的外國公司的影響。公司必須面對激烈的市場競爭。大眾市場信息的統計分析將調整生產和管理策略,并為業務發展的戰略調整作出有效的決策。2.提升企業管理水平的必然要求一方面,諸如運營管理、財務管理、風險管理和企業資源管理等相關任務變得越來越復雜。需要統計分析方法來對豐富的業務操作信息進行分類和匯總,為業務管理決策提供有效的信息。同時,企業需要不斷滿足產品和服務生產方向的政治要求。由于需要與相關部門合作,例如運營財務管理、規避財務風險,因此需要建立相關部門的統計數據,以提高決策效率[2]。
二、大數據統計分析方法在經濟管理領域的運用
利用大數據的統計數據分析技術研究宏觀經濟發展政策,對促進行業發展至關重要。另一方面,如何獲取有關復雜數據管理的重要信息,在業務流程和管理方面為公司制定有效的決策是重中之重。關鍵在于掌握財務管理的大數據分析方法,并使用大數據統計分析技術來分類和提供業務流程管理,隱藏的規則以及來自異常數據點的大量信息。為了應對突況,管理人員需要制訂正確的決策計劃。本文主要討論宏觀經濟應用管理領域的統計數據分析方法,以及業務管理、財務管理、風險管理和管理的六個方面。如:
(一)宏觀經濟方面關于宏觀經濟產業的運作和發展有若干規律。為了找到宏觀經濟發展方法,統計分析技術對于穩定經濟增長和調查潛在的經濟危機很重要。當前,不僅學者,業務經理也開始了解計算機技術的使用,并開始通過統計分析來發現工業發展中的若干問題,學習工業發展的原理。為了找出答案,我們選擇了相關的影響因素并采取了相應的行動,采取措施提高工業發展效率。
(二)企業運營管理方面通常,在日常工作程序和工作相關領域中存在某些特定的業務管理和操作規則。另一方面,通過將統計信息應用于業務的運營和管理,公司可以通過分析大數據的統計信息來獲得規律。這將幫助公司節省一些資源,避免重復的任務并節省公司的業務資源。如果該政策是從科學的統計評估階段得出的,則情況與正常情況不同的企業高管應仔細考慮潛在的風險。
(三)企業營銷管理方面企業需要建立大型數據管理系統來收集有關企業提供的產品或服務的市場交易信息。因此,消費者的熱點必須與受管理的信息系統對齊,以使其隱藏在協同交易信息中。確定消費者對需求的偏好并確定消費者需求。公司的主要產品和服務根據消費者的喜好運作,可以滿足消費者的需求,替代市場上的非反應性產品和服務。同時,開發新產品和服務企業領導者可以提供有效的決策信息,并為消費者創建新的熱點[3]。
(四)企業財務管理方面應用管理統計信息。它通過審查有關生產過程和運營的統計數據(尤其是財務數據),進行定性和定量分析,幫助評估相關活動,例如商業投資。財務管理是開展業務必不可少的部分,這對于減輕公司的財務風險和提高公司資源分配的效率至關重要。通過統計分析對商業經濟數據進行分類和分析,可以為高管、投資者和其他相關利益相關者提供有效的決策信息。
(五)企業人力資源管理方面將統計應用于公司的人力資源管理,并使用統計分析技術結合公司業務管理部門的特征,選擇適當的方法來提高效率。人力資源管理很重要,人才基本上是企業的無形資產,在部門保留相關的人力資源是業務發展的關鍵?;貧w站評估法用于預測企業發展的人力資源需求,動態分析法用于根據狀態預測人力資源的變化。將這兩個方面結合起來可以大大提高業務資源的效率。
(六)企業風險管理方面使用統計分析技術對業務流程中的大量業務信息進行分類和分析,發現隱藏的規則和數據差異。重要的是,業務主管需要進行預測,做出正確的決定,解決事件并發現潛在危險。意思是如果統計數據分析有些奇怪,則需要找出業務流程中具有的某些規則,因此業務主管需要尋找更多異常條件,尤其是財務管理,要注意關注狀態的變化。另一方面,對公司財務信息進行統計分析是公司規避財務風險的有效手段之一。
三、完善大數據統計分析方法在經濟
管理領域運用的措施在本文中,我們將了解如何從六個方面分析大數據的統計數據:宏觀經濟活動、業務管理、風險管理、財務管理、資源管理和財務管理人員。這被認為是財務管理數據大規模統計方法的一種改進。必須在三個方面進行現場應用:
(一)社會宏觀經濟層面盡管存在宏觀經濟法則,但根據過去的經驗,由于缺乏安全可靠的數據和分析方法,宏觀經濟法則的分析則一直被認為是偽科學。大數據分析技術提供了探索宏觀經濟法則的機會,大數據技術使用數據創建系統,而使用許多信息技術的科學分析是宏觀經濟法研究中的重要一步。特別是,某些行業使用行業信息和對經濟趨勢預測的全面分析來幫助識別和克服復雜的工業發展挑戰,可以提高宏觀經濟發展效率。
(二)企業經營管理層面在公司上載和數據受限的情況下,企業很難優化管理功能以提高性能[2]。由于業務經理的管理理念和管理水平受到限制,因此很難斷定業務開發操作和管理流程是否存在問題。統計分析技術可用于計算和評估每個關鍵決策或業務戰略適合性的有效性。如果由于大數據分析技術而導致預期的數據銷量存在矛盾,該公司可以調整其總體戰略并進行業務變更以優化管理理念。
(三)行業與行業之間存在著一定的鴻溝無論是快速消費品行業、食品行業還是大型公司,其經營理念和經濟結構在公司治理方面都存在根本差異。統計數據分析技術使公司能夠了解整個行業的消費者需求的性質,分析社會經濟狀況,能夠了解共同的業務條件和業務發展情況,并優化或區分劣質產品。在某些情況下,此更改是提高產品價格的高級更改,如果消耗量和消耗品減少,則可以降低產品價格。產品必須能夠升級以滿足顧客需求。產品行業、食品行業或大型行業具有不同的經營理念和財務結構,還在進行公司管理。但是,各個行業的業務方向取決于消費者的需求。換句話說,公司開發了產品的功能并使產品的功能適應消費者的需求。對于公司而言,通過優化生產結構并提供更多定價和功能來說服更多消費者也很重要。
(四)企業財務管理層面財務管理貫穿公司治理的整個過程。公司財務管理非常有效,但是存在諸如財務管理的巨大風險之類的問題。對公司財務信息進行統計分析是防范財務風險的有效手段之一。公司需要管理其日常收入和支出,并進行大規模會計處理。企業可以使用大數據分析技術來監測財務管理功能并確保標準化業務的財務安全。利用統計分析技術和大數據,公司可以預測潛在的市場和行業風險,以提供最佳解決方案,還可以提供分析大數據的方法,可以跟蹤異常并快速發現異常。
四、結語
本文首先從宏觀經濟方面、企業經營管理方面等兩個方面對大數據統計分析方法在經濟管理領域運用的意義進行了分析,然后從宏觀經濟方面、企業運營管理方面、企業營銷管理方面、企業財務管理方面、企業人力資源管理方面以及企業風險管理方面等方面對大數據統計分析方法在經濟管理領域的運用進行了分析,最后從社會宏觀經濟層面、企業經營管理層面、行業與行業之間存在著一定的鴻溝以及企業財務管理層面等方面提出了完善大數據統計分析方法在經濟管理領域運用的措施。大數據分析技術被廣泛用于宏觀經濟預測、業務管理和公司風險管理,它在優化公司治理和運營結構,有效改善公司治理以及提高公司統一性和核心競爭力等方面發揮著重要作用,可以使公司在激烈的市場競爭中有一席之地。
【參考文獻】
[1]張琳.大數據統計分析方法在經濟管理領域中的運用淺析[J].營銷界,2019(38):291-292.
[2]杜珉.大數據統計分析方法在經濟管理領域中的運用探析[J].山西農經,2019(12):27.
[3]陳雪琴.大數據統計分析方法在經濟管理領域中的應用[J].山西農經,2019(5):37.
一、數據缺失的程度與機制
數據缺失的程度、機制均影響處理方法的選擇。方法不適當也會帶來有偏的參數估計M1、方差估計與統計檢驗,甚至影響數據分析效用。
(一)數據缺失的程度
借助某一變量上數據缺失的比率X描述數據缺失的程度。缺失比率X如何應用方面,當X<10%時應當保留這些賊并對其哳搬的艦曾建議,當X>15%時可以考慮刪除采用刪除法;MRaymond與Roberts則認為X>40%時才考慮刪除這些數據。
(二)缺失機制
缺失數據與諸多變量等相關,處理方法的性質依賴這些相依關系的特征。為論述方便,記全部變量Y觀測值中那些完整的變量為Yobs、不完整的為Ymis。如果缺失值與Y相互獨立無關,則缺失數據為完全隨機缺失(MACR,missingcompletelyatrandom)的,是特殊情形。此時缺失值是總體的一個簡單隨機抽樣。如果缺失值僅與Yobs相關聯、與Ymis相互獨立,則是隨機缺失(MAR,missingatrandom)。如果Yobs與Ymis之間存在著依賴關系,則稱非隨機缺失(NMAR,notmissingatrandom),是不可忽略的。
二、單一借補
單一借補用一個借補值替代全部缺失值,后用完全數據方法分析數據。單一借補是缺失數據處理中最通用方法之一,有多種方法。
(一)推理借補與最近鄰借補
根據已有信息推斷缺失數值,該方法簡單易行,可提供準確借補值,或者近似準確借補值,同等情況下可優先進行推理借補。例,信息收集時已提供有姐弟信息的某被試“獨生子女”一項空著,可推斷為“否”。最近鄰借補選用與缺失數據提供者相類似的被試數據替代該缺失值。按照匹配變量找到一個以缺失數據提供者類似的被試時,可還用例如歐式距離等來度量類似程度。
(二)均值借法
均值借補用已得數據的均值替代全部缺失值。借補值易均值形成尖峰,嚴重扭曲數據分布。當數 據缺失非MACR時,將低估統計量方差,導致參數估計偏差,且不適用需方差的復雜分析。
(三)回歸借補
回歸借補可分為線性回歸借補,非參數回歸借補等。本文主要關注線性回歸借補,用Yk關于數據完全的變量回歸模型,回歸值替代缺失值。建立回歸方程時有一次或多次迭代之分。多次迭代中,預測變量以逐步進人模型,獲得預測力最佳、最精簡的變量組合;回歸值替代缺失值,后建立新模型;如此,至回歸系數變化不顯著。是類別變量時,則考慮進行變換,進行線性回歸。同時,我們還應注意到利用嚴格的回歸方程進行預測,易人為增大變量之間的關系。多數情況下,教育學、心理學討論的變量大多都不是相互獨立的。選擇該方法時,須考慮當預測變量與變量Y是否存在高度的相關關系。其構造借補值的邏輯清晰,相對客觀。該方法能得到合乎邏輯的結果,尤其滿足正態分布時。數據模擬實驗表明,方法加精確。
三、多重借補
多重借補(multipleimputation,MI)基于缺失值的預測分布或統計模型的方法:提供多個借補值依次替代各個缺失值、構造個“完全數據”,121,191211后運用完全數據統計方法分別分析多個數據集;分別得到數個分析結果,擬合這多個結果,獲得對缺失值的估計等,甚至是置信區間、P值。MI具備例如連續性的優良統計性質。
(一)回歸預測法與傾向得分法
回歸借補基于已有數據建立回歸模型、嵌入借補值。先確定觀察協變量,傾向得分法賦予一個條件概率。即對各Y產生一個觀測值缺失概率,并以傾向得分表示。依據傾向得分對數據分組,組內進行近似貝葉斯Bootstrap(ABB)借補。
(二)似然的方法
1.極大似然估計
從理論上來看,極大似然法(MaximumLikelihood,ML)至今仍是參數點估計中的重要方法。既定模型下缺失值的諸多估計均可基于似然函數進行。ML利用總體數量特征的分布函數等,建立未知參數的估計量。將Y作為未知變量0,構造關于e的似然函數,后求的參數的極大似然估計量,甚至在參數空間內的置信區間,或者置信區域。
參數極大似然估計量(MLE)具有不變性,推廣至多元變量時該優良性質亦成立。這恰能滿足實際研究需要。基于其漸進最優性質等,ML成為參數估計的常用方法,諸如SPSS10.0、LISREL8.7等軟件包均收人該方法。
2.期望極大化算法
期望極大化算法(Expectation-Maximizationalgorithm,EM)是ML有效方法,主要用來計算基于不完全數據的MLE15。當由于觀測過程局限帶來數據部分缺失時,或似然估計因似然函數不是解析函數而無效時可選用該方法。EM是一種迭代算法,每次迭代似然函數值都將有所增加,進而保證參數估計值收斂到一個局部極大值。此外,EM可自動實現參數約束。基于軟件數據模擬表明X<30%時EM算法可得到比較好的結果。
3.MCMC方法
當缺失值分散在多個變量時,回歸法基于對回歸系數的估計獲得借補值。復雜缺失模型中,回歸系數的估算又依賴于借補值。這里似乎存在某種循環論證痕跡。此時,可考慮迭代法中馬爾科夫蒙特卡洛方法(MarkovChainMonteCarloAlgorithm,MCMC)。MCMC利用馬爾可夫鏈進行蒙特卡洛積分,可基于無后效性隨機過程探討數量關系、預測變量,還可有包括0出1?抽樣等多種具體算法。基于多元抽樣MCMC有諸多優點,足夠長的時間使得雅過程驗時,MCMC可得卿常麵的結果。171MCMC是與具體的模型結合的,自身有不少擴展方法,且不同MCMC方法對缺失數據的參數估計之間存在差異。不過,X<30%時MCMC方法得到結果與完全數據時擬和較好。這些研究支持MCMC是處理缺失數據的有效方法,軟件包SPSS17.0等均收人該方法。
四、不處理
借補值是缺失數據的主觀估計值。引人的主觀值可能改變原信息系統,甚至帶進新噪音、導致分析錯誤。不處理確保了原有信息不變,并進行分析,其主要包含貝葉斯網與人工神經網絡。不過,后者的具體應用仍有限、待進一步探索與實證。研究開始關注神經網絡在心理學中的具體應用。
(一)貝葉斯網
貝葉斯網絡(BayesianNetworks)是一個有向無圈圖,W能描述不確定性因果關聯的模型。該有向無圈圖帶有概率注解,能夠表示隨機變量的因果關系與概率關系,網絡的拓撲結構能夠表明如何從局部的概率分布獲得完全的聯合概率分布。分析缺失數據時,貝葉斯網將結合先驗知識與樣本數據對數值計算進行推理,得到最佳值。其最大程度利用數據蘊含的信息,是具有魯棒性的方法。
缺失數據下學習貝葉斯網有各類算法,不少算法是通過對含缺失數據的信息系統完備化得到所需統計因子,最終將問題轉化為完全數據下學習貝葉斯的網的問題。例如,結構EM(StructureEMAlgorithm)通過EM算法獲得期望統計因子。數據非隨機缺失可以通過引人隱藏變量轉化為隨機缺失問題,m似乎可以僅討論隨機缺失情況下算法。隨著研究的推進,新的、優良的算法相繼涌現,并得到模擬實驗的支持。例如,數據缺失下貝葉斯網絡增量學習算法IBN-M。甚至穩健的貝葉斯方法能夠適用于含缺失數據的結構方程分析中,此時的結構方程模型選擇固定方差。
建構貝葉斯網可由專家人工建構。其中,因果關系、網絡結構是不可或缺的。這需對分析領域有相應了解,至少對變量間關系較清楚。在心理學等領域中應用尚待深入研究,該方法運用前景令人期待。
(二)貝葉斯網適用軟件能夠實現貝葉斯網的軟件包不少。Netica是最重要軟件之一,可免費下載功能有限的版本。專門進行數值計算的語言Matlab,其編程量較少、調試程序方便、呈現學習所得結構也不繁瑣,國內文獻也更多地涉及Matlab。BNTtolkit是基于Matlab開發的,提供不少基礎函數庫,能夠進行參數學習與結構學習,且完全免費。缺乏圖形用戶界面、無法將基本函數集成相應系統是其“硬傷”。
五、結論與討論
實際應用中,刪法“浪費”不少數據,統計力低下,盡量選用其它方法。當滿足MAR缺失機制且人在10%時,對刪法可運用對有多個項目的量表的數據處理。當滿足MAR、變量相關聯,可考慮均值借補。當變量之間高相關且X>20%Ht,可考慮回歸借補。