大數據分析論文大全11篇

時間:2022-08-23 02:22:39

緒論:寫作既是個人情感的抒發,也是對學術真理的探索,歡迎閱讀由發表云整理的11篇大數據分析論文范文,希望它們能為您的寫作提供參考和啟發。

大數據分析論文

篇(1)

1.1反射率分析模塊

反射率的大小體現了氣象目標的降水粒子的密度分布及體積大小,在實際氣象技術中長期用于表示氣象目標的強度,在工作上采用dBZ單位表示。對于空管氣象雷達圖,數據顯示采用PPI(PlanPositionImage)顯示方式。該方式決定了一張氣象雷達圖由圓錐俯視平面上分析空間的回波構成。在設計上簡單介紹其設計流程,首先必須讀取原始數據,并判斷是否首次讀取,若為首次讀取則對其進行預處理,否則進行坐標轉換;其次進行圖像繪制并判斷是否需要改變仰角。此處需要關注的關鍵是如何進行數據的預處理。在實現上,對接收的數據進行反射率信息結構體賦值。當然該結構體包括了記錄實際仰角角度、數據文件路徑存儲、雷達波段判斷以及相關數據的偏移。通過掃描上述結構體可以實現對雷達數據的預處理。

1.2速度分析模塊

多普勒雷達采用了速度退化模糊技術以擴大其對徑向風速測量不模糊的區間。結構設計主要考慮數據顯示的徑向方式,流程設計則與反射模塊類似。當然在界面設計上,系統將提供對顏色配置的定義,使其人機交互更為快捷。

1.3天線穩定性分析模塊

天線是雷達數據采集的關鍵部位,長期以來是影響雷達運行的主要關鍵點之一。其依賴于底下的電機進行旋轉,目前大多數進口電機可以保證24小時安全運行。而運行時仰角提升和轉速的平穩性直接影響雷達數據的采集。為此,我們通過在徑向數據上采用方位角及仰角進行掃描實現曲線圖監控。通過選擇基數據再進行預處理后繪制相關曲線實現對天線運行狀態的評估。其中,曲線圖的繪制需要的參數為:縱坐標為氣象雷達實際運行的每層仰角均值;橫坐標為范圍角:0-360°。

1.4雷達組網分析模塊

按照民航局的總體規劃,未來空管將實現多氣象雷達覆蓋,在這過程,多個氣象雷達的組網將成為氣象雷達數據的主要來源。這種模式將使得數據覆蓋面更大、數據安全性更高、數據準確性更強。而與此同時帶來了雷達數據融合組網的技術難點。設計上,首先模塊將定義雷達站點配置信息,并與此同時提供組網雷達可選數據;其次對選擇雷達數據進行數據預處理;再之則對雷達數據進行統計平均并做坐標轉換;最后進行拼圖處理。在這過程中,需要對雷達數據的強度進行自適應調整、顯示范圍自適應調整。與上述同理,系統核心在于預處理。在C#中定義List數據列表,并在定義其結構為[站點標示][距離][方位角],對于數據讀取時,需要進行插值算法處理,此時的單時數據拼接分析可以實現不同仰角和方位角的篩選。為了控制系統數據的準確性可以在前端定義雷達數據方位角表,根據表進行映射處理。通常如若出現非連續數據可以在預處理上對其進行差值補償。在C#上可以采用反差圓補償方法。

篇(2)

關鍵詞:高校 圖書館 大數據研究 熱點可視化

中圖分類號:G250 文獻標識碼:A 文章編號:1672-3791(2016)07(a)-0019-02

大數據是繼Web2.0和云計算之后的又一個熱門詞匯,作為高校的文獻信息資源服務機構,高校圖書館擁有大量數據,而大數據在高校圖書館服務的各個方面都有廣泛應用[1]。維克托?邁爾?舍恩伯格和肯尼斯?克耶在其編寫的《大數據時代》中提出:“大數據”具有4V特點:Volume(數據量大)、Velocity(輸入和處理速度快)、Variety(數據多樣性)、Value(價值密度低),大數據的這4個特點得到了學者們的普遍認可。大數據背景下,數據量的急劇增長、信息技術的飛速變革都為高校圖書館的發展帶來了新的契機,推動了信息服務的升級,也為高校圖書館的研究帶來新的視角。數字時代,高校圖書館對數據的處理主要是將紙質文獻資料數字化、網絡化,信息服務的目的是實現師生對學術數據的充分利用,進入大數據時代,對海量文獻數據的分析、處理將成為高校圖書館發展的新趨勢,高校圖書館的信息服務重心也會逐步由傳統的業務向深層次的數據挖掘服務轉移[2]。在這一大趨勢下,對大數據背景下高校圖書館研究熱點的可視化分析,有助于學者們把握高校圖書館當前的研究熱點和發展趨勢。

1 數據來源

以中知網及萬方數據平臺為主要數據庫檢索對象,檢索時間截至2016年7月15日。檢索方法一:以“高校圖書館”和“大數據”作為并列主題檢索詞進行精確檢索,不限發表時間及文獻類型,共得到488篇相關文獻。其中,期刊402篇、會議論文17篇、學位論文9篇,以“高校圖書館”作為檢索關鍵詞的文獻有303篇。檢索方法二:以“高校圖書館”和“大數據”作為并列題名檢索詞進行精確檢索,不限發表時間及文獻類型,共得到263篇相關文獻,其中,期刊224篇,以“高校圖書館”作為檢索關鍵詞的文獻189篇。綜合以上兩種方法對檢索結果進行可視化分析,提高查全率和查準率。

2 研究熱點及趨勢分析

大數據時代,數據將成為圖書館最重要的資產之一[3],高校圖書館的服務不再局限于提供簡單的文獻和信息服務,而是更加注重運用大數據技術挖掘文獻和信息中所包含的數據和知識內容,挖掘隱形知識,為教學和科學研究創新服務。對于大數據背景下高校圖書館研究熱點的分析,可以從研究熱點領域、研究熱點期刊分布和研究基金分布三大方面進行。

2.1 研究熱點領域分析

統計結果表明:學者們對于大數據背景下高校圖書館的相關研究在2013年開始呈現逐年增長的趨勢,相關知識點如圖1所示,圓形大小表示相關研究領域的研究熱度高低。

自2013年至今,學者們對于大數據背景下高校圖書館的研究熱點領域主要集中在信息服務、知識服務、服務創新、學科服務、數據挖掘方面,對于云計算、信息資源、數字圖書館、數據分析等方面也有涉及。在近兩年的研究中,除了一直熱度不減的信息服務、知識服務、學科服務問題之外,更加側重對個性化服務、數據分析的研究。在系統構建方面的研究在近兩年興起,高校圖書館更加關注其自身生態系統的運行問題,學者們也在嘗試運用生態學、系統學等多學科方法來進行大數據背景下的高校圖書館研究。研究領域的變化說明了學者們對這一研究主題從理論研究向更加深入的技術性研究靠近。

2.2 研究熱點期刊分布

2.2.1 刊種統計

對于大數據背景下高校圖書館的研究,發文最多的期刊前六名依次是農業圖書情報學刊、圖書館學刊、科技情報開發與經濟、河南圖書館學刊、內蒙古科技與經濟、現代情報,其總計刊文量占全部刊種的53.52%。各個期刊對此主題的刊文,反應出大數據背景下高校圖書館問題研究受到學者們的普遍重視。

2.2.2 核心期刊統計

刊文在核心期刊的數量統計分別為:(1)中文核心期刊55篇(59.1%)。(2)CSSCI中文社科引文索引(南大)32篇(34.41%)。(3)統計源期刊(中信所)4篇(4.3%)。(4)CSCD中國科學引文庫(中科院)2篇(2.15%)。核心期刊的刊文反應出該主題成為學者們的重點關注領域,在大數據背景下高校圖書館方面的研究成果較深入。

2.3 研究基金統計

近年來大數據背景下的高校圖書館的相關研究基金項目共計38項,其中32項是2015年至今的基金項目。包含省市基金項目21項,占總基金項目的55.2%,國家社科基金項目8項,國家教育基金項目5項,國家自然科學基金項目1項,其他基金項目3項。基金項目立項的數量反映了該主題的研究熱度和深度都在不斷增加。

3 結語

目前,學者們對于大數據背景下高校圖書館的相關研究正處于高速發展的探索階段,對于如何利用大數據技術來提升高校圖書館信息服務的研究越來越深入。研究熱點不僅局限于信息服務、知識服務和學科服務方面,還涉及數字圖書館、學科館員、系統構建等多領域,研究更加側重對個性化服務、數據分析的研究,高校圖書館作為服務教學、服務科研的文獻信息資源服務機構,深化基于大數據的相關服務是其未來發展的方向。

由于該文對大數據背景下高校圖書館的熱點分析主要是基于“大數據”和“高校圖書館”兩個關鍵詞構成的檢索式,在文獻的查全率方面,漏查了只是應用具體的方法進行高校圖書館數據分析的個別文獻,在相關文獻檢索中,有個別文獻是應用具體的數據分析工具進行高校圖書館數據分析挖掘。這類數據分析工具的應用,更加印證了數據分析方面的研究呈現增長的趨勢。

參考文獻

篇(3)

基金項目:華北理工大學研究生教育教學改革項目資助(項目編號:K1503)

基金項目:華北理工大學教育教學改革研究與實踐重點項目資助(項目編號:Z1514-05;J 1509-09)

G643;O21-4

谷歌公司的經濟學家兼加州大學的教授哈爾?范里安先生過去說過統計學家將會成為像電腦工程師一樣受歡迎的工作。在未來10年里,人們獲得數據、處理數據、分析數據、判斷數據、提取信息的能力將變得非常重要,不僅僅在教育領域,各行各業都需要數據專家,“大數據”時代的到來使得數據處理與分析技術日新月異,深刻的影響著各個行業、領域及學科的發展,尤其是與數據關系密切的行業及學科,而作為工科各專業碩士研究生重要的公共基礎課數理統計學是天生與數據打交道的學科。

怎樣在“大數據”時代背景下培養出適應面向企業自主創新需求的數據分析人員或掌握現代數據處理技術的工程師,如何把當下流行的“大數據”處理技術與相關數理統計學課程教學有機的結合,以激發學生對數據處理與分析技術發展的興趣,這些都是我們在與數理統計學相關的課程教學中不得不思考的問題。然而,當前高校工科各專業碩士研究生數理統計教學的現狀卻與其重要程度相去甚遠,整個教學過程的諸多環節都存在較大的不足,主要表現為:1.教學內容偏重理論,學生學習興趣不高;2. 輕統計實驗;忽略對統計相關軟件的教學;3.沒有注重數理統計的學習與研究生專業相結合,實用性強調不夠。4. 輕能力培養;輕案例分析等。

這些現象導致的直接后果就是學生動手能力上的缺陷和創新能力的缺乏, 不能夠自覺利用數理統計知識解決實際問題, 尤其缺乏對統計數據的分析能力。因此,需要數理統計學隨著環境的變化不斷創新新的數理統計思維和教學內容。避免教學內容與大數據時代脫節。為此筆者在該課程的教學過程中,有意識地進行了一些教學改革嘗試。提出了幾點工科研究生數理統計教學的改革措施。

(1)調整教學內容,將與數理統計相關的大數據處理案例引進課堂。有很多有普遍性的應用統計實際案例,可以在本課程的教學過程中有選擇的引入介紹給學生,讓學生們了解利用所學統計方法進行實際數據分析的操作過程和得出結論的思維方法。以期解決工科研究生對確定性思維到隨機性思維方式的轉變的不適應性。

(2)適應大數據時代數理統計學課程的教學環境。實現教學方式的多樣性。大數據時代背景下,互聯網十分發達,學生根據自己的興趣去收集、整理和分析數據,既可以改變他們對統計方法的進一步認識,也可以增加他們的學習興趣。甚至可以以專業QQ群,郵件的方式和同學、老師之間相互交流,交流者處于相互平等的地位,可以暢所欲言,隨時隨地都可以交流,起到事半功倍的效果。這種交流使得教師不再是知識的權威,而是把教師上課作為一種更好自主學習的引導,這種交流使得他們的思想變得更加成熟。同時參與各種網絡論壇,貼吧回答問題等使得他們更能體現自己的價值,這種交流也使得學生的學習熱情和學習精神得到更好的激發。

(3)引導工科研究生開展與本專業相結合的課題研究,強調實用性,注重統計思維能力培養。適應大數據時代數理統計學課程教學環境,實現教學方式的多樣性。以期彌補學生缺少數據分析實例的訓練,解決學以致用的不足。在目前的數理統計教學安排下,受學時所限,如果相當一部分時間用來學習公式、定理的推導及證明,勢必沒有時間進行實際的數據分析練習。在大數據時代背景下,隨著海量數據、復雜形式數據的出現,使得統計方法的發展和以前有了很大的不同,沒有實際的數據分析訓練,學生們就無法對統計的廣泛應用性及重要性有深刻的體會,也不利于保持和提高他們的學習興趣。這要求具體工作者提出新的統計思想和方法,加深對已有統計思想的理解,以解決實際問題。

(4)改革成績評定方式。現有的考試模式為通過有限的一到兩個小時的期末考試,進行概念的辨析和理論及方法的推導計算,由此來判斷研究生關于數理統計課程的學習情況有很大的不足,特別是對可以利用軟件進行的某些實際數據分析的考察沒有辦法實現。因此,有必要通過日常課堂“論文選題―提交―討論”與期末理論考試相結合的形式對學生數理統計學習進行考核。加大對學生平時考察的力度,相應地減少期末考試成績的比重。讓學生選擇一些與自己專業有關的數據進行嘗試性的數據分析、一些統計科普著作的讀書報告等并寫成論文的形式提交,做為對學生成績的評定方式,更能綜合、客觀地評價學生的學習情況。

數據分析在現代生活中發揮的作用越來越大,而道磽臣品椒可以與數據分析有機的結合,從而在提高數據分析效率的同時,保持分析結果的有效性,為生產和實踐活動提供準確的參考。以上的思考和建議僅是我們在教學研究和教學過程中的一點體會,還有許多工作亟待深入,比如適合工科研究生數理統計課程的大數據案例選取,與課程內容的有效銜接;案例教學法如何實施;教學方式多樣化問題;課堂教學與網絡交流結合;理論介紹與軟件應用訓練結合問題等。教學改革與實踐是一項艱巨的任務,以培養學生的實際運用能力和正確解釋數據分析結果的能力為目的,強調統計思想和方法應用的培養,讓學生們了解利用所學統計方法進行實際數據分析的操作過程和得出結論的思維方法將是一項長期的工作。

參考文獻

篇(4)

中圖分類號:G64 文獻標識碼:A 文章編號:1009-3044(2016)33-0123-01

Abstract : With the theme of declare big data and applied technology major, this thesis was written by author from telecommunications engineering academy. It has researched and analysed the composition of big data, related technologies, application requirement about the data mining and the problems has been solved by big data technology; Also it described what kind of related knowledge and skills need to be master by higher vocation education students in school, analysed the teaching qualities contrast with the needs of modern enterprises in details, by all means this thesis will focus on practically personnel training and explore the thinking of vocational colleges’ big data application technology major.

Key words : big data background, professional technology, skills exploration

隨著網絡和數據信息科學的發展,數據在量和復雜度上的爆炸式增長讓人類進入了大數據時代。根據IDC監測,人類產生的數據量正在成指數及增長,大約每兩年翻一番,以此速度在2020年之前會持續保持下去。大量數據源的出現則導致了非結構化、半結構化數據爆發式的增長即數據結構日趨復雜。大數據分析意味著企業能夠從這些新的數據中獲取新的洞察力,并將其與已知I務細節相融合。大數據對各種行業似乎產生了前所未有的巨大影響,從制造商到旅游業,從產品設計到消費者行為分析,大數據能提供前所未有的信息,幫助公商行業做出最好的決策。公商行業對合格的數據分析師或者數據工程師的需求很大。

人才市場需要會分數據并以有用的方式呈現信息的雇員。根據市場需求,高職院校需要培養學生成為具有數據應用技能的人才以滿足市場需求。我們研究方向是調查公司企業所需要的技能和大學教的數據分析技能,對比兩方面的技能的差別。人才需求調研裼昧宋示矸絞講杉專家的意,專家分為相關專業學科教授和企業內本行業專家。

大數據應用技術專業的課程設置應跟隨新技術的應用,跟隨社會及企業需求,在新專業中重視培養專業技能和項目經驗人才,課程設置應貼合社會需求培養相應的就業技能。需要研究關于合格的數據分析師或者數據工程師應該具有什么資格及知識技能。調研的結果可以幫助學院開設有關大數據學科的學校及大數據有關的課程教材。

調研內容如下表格:

綜上所述,十報告傳達的是要重視高等職業教育,強調“要全面實施素質教育,深化教育領域綜合改革,著力提高教育質量,培養學生創新精神。”中國的職教體系也在深入發展改革的過程中。本調研是針對高等職業院校的大數據應用技術專業的課程設置的進行探究,通過對大數據應用技術專業在市場人才需求的研究,對全面實施素質教育,重視學生的創新能力的培養具有重要意義。

參考文獻:

[1] 王星.大數據分析:方法與應用[M].清華大學出版社,2013.9.

[2] 曹正鳳.數據分析統計基礎[M].電子工業出版社,2015.2.

[3] 屈澤中.大數據時代數據分析[M].復旦大學出版社,電子工業出版社,2015.7.

篇(5)

對于研究人員來講,方法論是開展一切研究的基礎,也是進行研究的主要工具,能夠對于嚴格設計支持下的統計方法論的掌握,能夠幫助研究人員更加深刻的理解學術研究及學術規范。

一般來說,經典的統計方法論也可以叫做嚴格設計支持下的統計方法論,之所以強調“設計”,是由于一切的環境、變量都具備一定的可控制性。無論是在自然科學領域還是社會科學領域,任何開展實驗研究的設計人員在實驗設計的過程中都會涉及經典的統計方法論。

對于傳統的學術研究來講,可以分為七大步驟,分別來說是試驗設計、數據收集、數據獲取、數據準備、數據分析、結果報告以及模型。各部分的介紹及重要性介紹如下:

一、試驗設計

對于沒有自然科學背景的人來講,在理解試驗設計環節上是具有一定的難度的,當然心理學和教育學研究者是除外的。因為,大部分的社會科學領域學者和學生除了在高中進行過化學課、物理課、生物課做過試驗外,進入大學后,就已經將大腦中的試驗想法和思維統統扔到了腦后,有的甚至是埋葬了,其實,這樣恰恰是不正確的,試驗思維對于社會科學領域人員來講也是至關重要的。對于自然科學背景的學生和老師來講就容易理解的多,然而受到很多國內學術造假及數據造假的原因,原本熱情極高的碩士、博士也不得已加入了數據造假的大軍。就自然科學領域的學生和老師而言,數據是論文的主要支持部分,而這一點恰恰是國內的所謂的文管類老師缺少的,而缺少的這一點,就是因為不懂得嚴格設計支持下的統計方法論造成的。

二、數據收集、獲取、準備

在數據收集、獲取上,不同專業的人采用的方法也是不同的,對于所謂的數據的理解也是不同的。但是對于學術研究來講,數據的收集也是要經過設計,以社會科學領域來說,大多的數據來源是文獻以及通過調查問卷而獲得的數據;自然科學可以通過文獻法、實驗分析法來獲得就可以了。

這里要強調的一點是任何數據收集、獲取過程,都是在一個嚴謹的設計過程下產生的,往往很多碩士因為在實驗設計過程中考慮不全,造成了數據收集過程不嚴謹而帶來了很多誤差,這些如果在早期的試驗設計階段或者預測試階段就能夠調整的話,會減少很多很多的麻煩。

在數據的準備階段,也就是分析階段的前一步驟,需要對全體的數據進行審核和清洗工作,也就是說,盡量把誤差降到最低,刪除異常數據或者可能帶來極大誤差的數據,對于自然科學領域人員來講,異常的數據可以通過平行試驗來進行處理,而社會科學領域則可以通過問卷審核的方法進行處理,但是對于兩種科學領域來講,經驗豐富的研究者憑借研究經驗,可以很容易發現異常數據。

值得注意的是,異常數據往往也能給研究帶來許多新的思考方向和研究方向,例如一些心理行為異常的結論、偏僻地區的高消費行為、數據統計中的異常節點都能夠幫助研究人員發現新的事物,對異常數據的歸納和總結也可以幫助研究人員鍛煉對于數據理解的思維能力,因此,對于異常數據的把握也是非常重要的,研究人員要深入分析才能發現其背后的本質。

三、數據分析

對于數據分析來說,成為更多研究人員的羈絆,因為往往對于同一個學術研究,為達到一個相同的目的,可以采用不同的試驗設計以及不同的數據分析方法,而不同的分析方法也可以選擇自己擅長的數據分析軟件來進行。作為一名學術研究人員來講,要充分掌握自己所屬領域中常用數據分析方法。目前對于大部分的社會科學工作者來說,很多人并沒有很好的接受過相關的系統培訓,多以求助統計專業朋友或相近專業擅長統計的朋友來幫忙,或者課題組增加統計分析人員來達到目的。其實進行數據分析的過程是一種享受的過程,好比剝洋蔥,皮要一層一層的剝開。

現在的數據分析方向受到國際趨勢的影響,趨向大數據分析流,未來的市場調研領域也將跟隨著大數據分析進行發展,值得注意的是,雖然大數據分析在目前的國際社會和國內社會研究中比較流行,但個體的數據行為也不容忽視,即小數據在一定程度上往往比大數據更具有競爭優勢,也是研究機構或企業對于被研究者或客戶充分細化掌握的重要方法。

四、結果報告與模型

結果的報告大多以學術報告或者學術論文的形式進行提交。在模型上,需要一定的邏輯辨識能力,這里強調的是,任何模型都是限制在假說之下的,這也是為什么大多數的學者的模型在應用出來的時候,往往經濟指數或者消費行為、組織行為都并沒有按照既定方式出現的原因。“模型就是模型而已”。

國外已有行為經濟學專家開展被試群體的行為模型同被試群體受環境影響與模型之間的差異情況,杜克大學行為經濟學教授Dan Ariely在一項研究表明,人們在冷靜情況下對于性偏好同性興奮后對于性偏好程度大為不同,也就是說性偏好模型如果是在被試冷靜情況下作答將與性興奮后作答完全不一樣,也恰恰說明了在一定的研究范圍內,模型就僅僅是模型而已。

總的來說,對于一名學術研究人員來講,嚴謹的按照每一步進行學習和體會都會得到很好的訓練,更多的學術體會和研究體會也需要不斷地開展各種研究,增加理解。

參考文獻:

篇(6)

大數據技術是一種新型技術,其應用領域比價廣泛,并且取得一定的成績。大數據技術在實際的應用過程中,根據各個領域的需要,大數據技術也不斷在更新,以適合現代社會發展的需要。大數據技術主要用數據挖掘、數據分析領域中,能對數據進行科學整理、處理、提高數據的利用效率,互聯網+時代,各個領域工作基本都離不開網絡,網絡時代數據量增多,如何科學有效的進行數據處理,提高數據的利用效率,這是需要解決的問題,大數據技術的產生,對數據的處理起到重要作用。

二、大數據技術應用前景

大數據技術是一種新型技術,具有廣泛的應用前景,尤其在數據分析領域中,對提高數據的利用效率起到重要作用。大數據技術的進一步發展應用,對科技的交叉融合發展也有著促進意義。科技交叉融合是現代科技發展的需要,現在很多問題利用一種技術不能實現,需要多種技術結合使用,促進科技水平進一步提升,符合現代科技發展的需要。科技人才是企業發展的重要因素,尤其企業發展需要應用型高級技術人才,在互聯網+時代,大數據技術方面的人才尤其缺乏,這也是大數據技術具有廣泛的應用前景重要因素。

現在各個行業在發展的過程中都需要復合型的高級技術人才,大數據技術的實際應用對促進其它行業的發展起到重要作用,大數據技術具有良好的應用前景,對現代實際的應用型思想起到重要作用。大數據技術在其它行業中的應用提供了技術支持作用,大數據技術對促進其它行業的技術更新與改革起到重要作用,大數據技術在實際應用過程中根據其它行業發展的需要,需要在技術上不斷更新,優化環境,完善其職能,為企業行業發展提供技術保障。大數據技術在實際的應用過程提升,符合大數據技術的發展需要。大數據技術在具體的應用過程中,根據各個領域的需要,大數據技術需要不斷完善技術,以適合現代各個行業發展的需要,大數據技術能為其發展提供技術支持。

三、大數據技術在高校非計算機專業中的應用進行

(一)大數據技術在電子商務中的應用

電子商務在互聯網+背景下得到快速發展,為高校電子商務專業的發展提供了機遇和挑戰,電子商務專業在大數據技術作用下需要積極進行教學改革,以適合現代電子商務專業發展的需要,電子商務專業課程體系構建需要符合現代電子商務產業發展的需要。在電子商務體系內發揮大數據的優勢,能有效建立完整的商務監督體系,企業決策機制以及運作模式也要依托大數據技術的信息處理功能。電子商務產業的職業崗位能力涉及到大數據知識,電子商務專業在課程構建的過程中需要把大數據相關知識納入課程體系中,能為學生職業崗位能力提升起到保障作用。大數據技術的實際應用對提升電子商務專業建設,教學模式改革,教學內容整合,教學手段提升等都起到重要保障作用。

(二)大數據技術在會計領域中的應用

大數據技術在會計領域中的應用,對促進會計行業改革,高校會計專業教學改革都起到重要作用,同時完善會計專業人才培養方案,對提升學生職業技能起到重要作用。會計的職業崗位能力涉及到海量數據,會計信息化時代大數據技術的應用對提高會計的工作職能起到重要作用,符合現代大數據技術的應用需要。大數據技術在會計領域中的應用,尤其在會計信息系統建設中的應用,對提高數據挖掘、數據分析、數據處理能力的提升起到重要作用,會計行業涉及到數據很多,數據的種類、數據的形式都是多樣化,利用大數據技術處理數據比傳統的方式大大提高了工作效率,為會計行業的改革起到重要的技術支持作用,符合現代會計領域中的應用需求。總之,大數據技術在非計算機專業中的應用對促進其教學改革起到技術支持作用,大數據技術是一種新型技術,其具有廣泛的應用,大數據技術在高校非計算機專業中的應用是專業發展的需要,也是社會發展對高校專業改革提出了新要求。大數據技術尤其在數據挖掘、數據分析、數據處理等方面起到重要作用,適合互聯網+時代,高校非計算機專業發展的需要。

【計算機碩士論文參考文獻】

[1]我國大數據應用現狀與發展趨勢分析[J].李亭亭,趙英豪.電子商務.2016(06).

[2]探討大數據技術在疾病防控上的應用[J].黃文莉.電子技術與軟件工程.2016(06).

篇(7)

中圖分類號:G642 文獻標識碼:B

文章編號:1671-489X(2016)18-0069-03

Abstract The advent of the era of big data has brought new vitality

and challenges for educational research. This paper uses bibliometric visualization software Cite Space to analyze thesis with key words data and education from CNKI based on Co-occurrence analysis of keywords, explore the hot issues in the field of educational research, summarize the research status and trends.

Key words big data; CiteSpace; education

1 引言

近年來,教育領域研究者開始關注大數據背景下的教育管理模式轉變、教育決策研究等內容,大量基于大數據背景的教育領域研究論文逐年增加。以“大數據”“教育”為主題關鍵詞在CNKI中國知網進行搜索,僅選擇SCI、EI、中文核心、CSSCI四類來源期刊截止到2015年12月出版的文獻,共檢索到417條數據,從2010年開始呈現出逐年上升的趨勢。對這些文章進行瀏覽和篩選,選擇與本研究主題相關的論文,共247篇。對這247篇文章的關鍵詞信息進行研究,分析大數據的出現對教育領域研究熱點及發展趨勢的影響。

2 教育領域熱點問題研究知識圖譜

CiteSpace軟件是一款引文可視化分析軟件,著眼于分析科學知識中蘊含的潛在信息,通過可視化的手段呈現科學知識的結構、規律和分布情況[1],能對文獻進行作者分析、關鍵詞共現分析、機構分析、作者共被引分析、文獻共被引分析等。關鍵詞共現分析是一種內容分析技術,通過分析在同一個文本主題中的款目對(單詞或名詞短語對)共同出現的形式,確認文本所代表的學科領域中相關主題的關系,進而探索分析學科領域的發展,發現學科的研究熱點和研究趨勢[2]。

使用CiteSpace軟件對下載的文獻進行關鍵詞共現分析,生成圖1所示關鍵詞共現知識圖譜,分析大數據的出現對教育領域研究熱點和趨勢的影響。關鍵詞出現的頻次由圓圈代表的節點反映,圓圈越大,表明關鍵詞出現次數越多,最大圓圈代表的關鍵詞是“大數據”。

根據圖1得到表1所示文獻關鍵詞、被引頻次、中心性等指標數據。中心性代表共現程度的高低,中心性越強,表明該關鍵詞與其他關鍵詞共同出現的幾率就越大,也就表示該關鍵詞在共現網絡中的影響力越大。從知識理論角度分析,頻次和中心性高的關鍵詞一般是某一段時期內研究者共同關注的問題,也就是研究的熱點和前沿。表1中,“大數據”是頻次最高也是中心性最高的關鍵詞;“學習分析”頻次為23,中心性為0.22;“數據挖掘”頻次為13,中心性為0.15,等等這些都是熱門的研究主題。

3 大數據背景下教育領域的熱點研究

依據圖1和表1所示結果,將大數據背景下教育領域的熱點研究總結為以下幾個方面。

學習分析和數據挖掘 教育數據挖掘是數據挖掘在教育領域的新型應用,主要目標為知識發現、決策支持和推薦等。學習分析是測量、搜集、分析和報告學生及其相關的學習環境的數據,用以理解和優化學習過程和學習環境[3]。

教育數據挖掘專注于技術層面,側重教育數據模型和模式的抽取,強調挖掘結果的自動化反饋;學習分析更注重研究有利于改善學習的干預措施。

2012年,美國教育部了報告《通過教育數據挖掘和學習分析促進教與學》[4],提出“數據驅動學校,分析變革教育”的大數據時代已經來臨,要綜合運用教育數據挖掘和學習分析,構建教育模型,探索教育變量,為教育教學提供有效支持。

在CNKI中以“學習分析”和“教育數據挖掘”為關鍵詞進行檢索,得到圖2所示的文獻數量趨勢圖。如圖2所示,2010年以前的文獻數量很少,但2010年之后開始呈指數式增長;2016年1―2月份刊登的相關主題期刊論文已有5篇,可以預計本年度,學習分析和數據挖掘仍將是大數據背景下教育領域的研究重點和熱點之一。

在線教育――興起與變革 以“在線教育”和“大數據”為關鍵詞進行搜索,得到圖3所示文獻數量趨勢圖。目前在線學習的發展趨勢主要有如下表現。

1)移動學習是大方向:隨著無線網絡的覆蓋,移動終端特別是手機用戶的增多,移動學習逐漸發展起來。

2)免費是大趨勢:目前在線學習存在各式各樣的免費現象,如免費試用、前期付費后期免費等形式。

3)細化管理是要求:任何一種在線學習方式,都離不開資源開發、管理和優化等工作,需要設定管理要求,細化規則。

4)實現互動是必然:交互功能是在線學習軟件必然要設計的功能,大多數在線學習使用者表示學習過程中希望能有更多的互動交流。

5)個性化學習是亮點:學習分析和教育數據挖掘的出現,使得在線學習存儲的大量數據能夠被更快速分析和使用,學習者可以隨時掌握學習狀況,開發商也可以掌握學習者的興趣點、學習特征等,為學習者推薦或制訂個性化的學習方案。

教育信息化 我國的教育信息化主要包含兩層含義:一是把提高信息素養納入教育目標,培養適應信息社會的人才;二是把信息技術手段有效應用于教育,注重教育信息資源的開發與利用。教育信息化的核心是教學信息化,要求在教育過程中較全面地運用現代信息技術,促進教育改革,適應信息化社會提出的新要求,深化教育改革,實施素質教育。隨著大數據時代的來臨,教育信息化也在不斷進步,未來的教育信息化將在教育云平臺上進行展現,現有的教育網、校園網將全面升級,實現互聯網、電信網、廣電網等跨平臺使用并支持移動設備。

在CNKI中以“教育信息化”和“大數據”為關鍵詞進行檢索,2013年共有3篇學術論文,2015年共有10篇,研究主題包括大數據時代的信息化教學、教師培訓、課程資源建設、教育輿情監控等。

教育決策 以“教育決策”為關鍵詞搜索到上千篇學術論文,以“教育決策”和“大數據”為關鍵詞,2013年以來共有8篇論文。大數據將在教育決策中發揮越來越重要的作用已成為共識,但如何利用大數據進行決策是目前面臨的難題,如何解決這個難題也是研究者重點關注的領域。教育決策離不開數據,大數據背景下的數據更加復雜、凌亂,呈現碎片化的特征,并且摻雜一些虛假數據,如何收集、選擇數據,是第一步需要做的事情。大數據對于教育決策的價值在于為教育服務,將數據轉化為支持決策的信息,需要數據分析者具備綜合、全面的數據分析素質和能力。大數據的核心是預測,隨著教育信息化和在線學習的持續發展,數據呈爆炸式增長,需要對數據進行整合、分析,發現新知識,為教育優化服務。

4 數據推動決策

傳統決策過程主要依靠決策者的經驗,主觀性較強,或多或少存在一些不足,難以充分發現教育過程中的潛在問題,無法真正有效地優化教學、提高學生表現。信息化推動了人類發展,逐漸成為人類生活必不可少的重要部分;信息化技術普及的同時,也產生前所未有的海量數據。大數據時代的來臨,顛覆了傳統數據分析方法;大數據背景

下,利用數據挖掘方法發現問題、支持決策具有多方面的意義。

1)優化教學、提高教育質量。教師若能充分利用學生學習數據,分析學生學習過程,可以更加快速、便捷、有效地了解學生,發現不足之處并及時反饋,提供改進意見等[5]。

2)為學校管理者制訂更加合理的教學計劃和方案提供決策支持。基于數據的教育決策能夠為管理者提供更加準確、合理的決策支持。基于數據的教育決策能夠提供從數據到決策,實施決策后產生的數據再到決策的一種良性循環過程[6]。

3)幫助地區甚至是國家級決策者進行科學判斷。數據推動決策具有相當明顯的優勢,能為決策者提供全方位的視角。大數據分析得到的結果具有全面性、多視角性、參考性強等特點,能夠更好地為決策者提供決策支持。

5 結語

上文所分析出的教育領域熱點研究問題,都緊緊圍繞“數據推動決策”這一主題,學習分析和教育挖掘是分析方法和技術;在線教育是數據來源;教育信息化是信息化大數據環境;教育決策則是根據數據制定決策并運用于教育教學。可見,利用數據推動決策已成為教育領域在大數據背景下最為重要的研究問題之一。

參考文獻

[1]陳悅,陳超美,胡志剛.引文空間分析原理與應用:Cite Space實用指南[M].北京:科學出版社,2014.

[2]潘黎,王素.近十年來教育研究的熱點領域和前沿主題:基于八種教育學期刊2000-2009年刊載文獻關鍵詞共現知識圖譜的計量分析[J].教育研究,2011(2):47-53.

[3]Siemens G. Learning and Knowledge Analytics-Knewton-the future of education?[EB/OL].[2011-04-17].http:///?p=126.

篇(8)

與Kaggle合作的公司或機構,提交一些相關數據到Kaggle平臺,進而提出一個問題,Kaggle網站上來自世界各地的計算機科學家和數學家,也就是現在所說的數據科學家,將領取任務,通過競賽產生最好的模型并獲得大獎(獎金由那些需要情報的公司提供),而且有機會提供咨詢服務,而與Kaggle合作的公司或機構將最終擁有數據分析的結果、模型等知識產權。

換句話說,Kaggle在數據問題和數據解決方案架起了一座橋梁。Kaggle對于參賽的數據科學家是免費的,它在組織這些競賽時會向企業收取費用。

到目前為止Kaggle已經做出了許多突破性成功,包括幫助改進了微軟Kinect體感產品。

在Anthony Goldbloom看來,Kaggle上舉行的競賽,就像是職業高爾夫球巡回賽,他們試圖借此找到數據科學世界里面的伍茲(Tiger Woods)。今年29歲的Anthony是Kaggle的聯合創始人兼CEO。

Kaggle成功的關鍵就是它的社區:近11萬名在線的數據科學家。這也是目前世界上最大的數據科學家社區。它是怎樣吸引到第一批用戶的?在Anthony看來,數據科學競賽是“吸引最聰明的,最奇怪和最有創意的數據科學家的非常有效的方式”。Kaggle早期是通過機器學習競賽來吸引用戶。早期的比賽項目比如基于悉尼的歷史交通數據來建立一個算法,來預測在悉尼的旅行時間等。

Kaggle目前的用戶主要分布在北美,澳大利亞和東歐。“我們通過與騰訊的合作,得到了一個來自中國的‘招生大戶’。” Anthony說。Kaggle與騰訊的合作,幫助后者解決了兩個問題,幫助騰訊建立了一套預測騰訊不同廣告的點擊率效果的算法,以及給騰訊微博建立了一種“關注”算法。

在Kaggle的客戶名單上,GE、微軟、Facebook、Tesco、福特等赫然在列,甚至包括NASA(美國宇航局),當然它也服務規模較小的企業,幫助客戶解決所有的數據科學問題,例如提高銷售預測,客戶細分,留住客戶,優化定價等等。

Kaggle并不是以眾包方式專注于大數據分析領域的唯一一家創業公司,類似的還有CrowdAnalytix,TunedIT等。Kaggle的優勢是什么?

“超過10萬名的數據科學家在線,而且極其活躍,Kaggle已經形成具有流動性的數據科學人才的市場。 TunedIT和CrowdAnaltix沒有太多的數據科學家,也不是一個活躍的社區。”Anthony這樣回答。

Kaggle還投資于基礎設施建設,藉此能夠向企業或機構客戶提供安全的數據托管服務,據Anthony介紹,這種服務也是大部分客戶所要求的。

事實上,Kaggle還有一個創新之處,即該公司的新服務Kaggle Connect。通過該服務,Kaggle可以對接這樣的“供需”:有特殊要求的企業或機構客戶,可以聘請到最適合解決這個問題、具有特殊技能的數據科學家。Anthony稱他們是數據科學家里的“精英”,在Kaggle網站上排名前1%的一半,相當于大約500名數據科學家。

Kaggle是如何發現這些大數據分析領域的精英的?Anthony說,通過他們在科學競賽中的表現,以及通過“競賽”積累積分在Kaggle上獲得的排名。據悉,Kaggle的排名榜,在專業人士圈內有很大影響力,也成為該領域人員技術水平高低的公認標桿。

如此看來,Kaggle不僅僅是一個大數據分析的眾包平臺,而是創造了一個全新的勞動力市場和評價體系。對于那些希望利用大數據分析改進業務的企業來說,Kaggle的大數據分析的眾包模式,正好解決了兩大難題:人才和想法。

篇(9)

中圖分類號:TS941 文獻標志碼:A

The Influence of Industry Big Data Analysis on New Models of Design Thinking

Abstract: Based on discussing big data analyzing technology as well as enterprise case studies and tracking surveys, the paper states that such data analyzing technology will facilitate the generation of new models of design thinking, which will more rely on Internet technology, and systematically reorganize complicated resources and information into data that can be further used as an important guidance for new product design. These data will help enterprises realize cooperation of various participants, information sharing and tier management in the process of product design and R&D and improve the efficiency and benefits of their design and R&D system.

Key words: data analysis; design thinking; market positioning; precision marketing

在全球服裝紡織業格局中,中國還處于起步探索階段,缺少真正有市場競爭力的自主設計品牌。企業們普遍缺乏高效務實的設計創新能力,成為了我國服裝紡織行業的發展短板。面對國際品牌的激烈競爭,企業們需要建立自己的新型設計思維模式。更加適應市場需求的新設計思維將是一套有理有據、高效靈敏的產品設計與管理系統,這將有助于企業們更超前的把握市場發展動態,更精準的分析產品的優劣勢,更合理的籌劃銷售策略,更敏銳的找到未來商業機會從而打造企業及品牌的市場競爭實力。

目前在經濟發達國家的服裝產業中,類似的研究已經進行到了比較成熟的階段,如法國的Lectra(力克)公司,通過將其CAD/CAM 、三維技術與互聯網技術的結合,進行最優化的數據傳輸,可以滿足企業在整個生產過程中從服裝系列設計到視覺化銷售的所有環節的需求。力克公司的發展資料為本文的研究提供了非常有價值的可參考實例。

1 針對服裝紡織產業大數據分析技術的研究

服裝紡織產業大數據分析技術是基于互聯網大數據分析的專業服裝設計和生產管理輔助工具。該分析技術采用的是個性化分布式數據挖掘技術,通過對互聯網海量真實的服裝銷售數據的分析,監控并分析網站,采用JAVA語言對網站中各種內容信息進行智能化的分析和挖掘,多維度、全方位對服裝屬性數據進行篩選,可甄別出不同時間段、不同地域、不同年齡層次、不同性別甚至不同消費習慣的服裝購買者對服裝顏色、款式、面料、尺寸等屬性的偏好,并形成直觀易懂的可視化報表,從而對設計和生產管理者形成指導,更加方便直接的形成“設計指導書”或者“生產指導書”。能夠使產品更加符合品牌特征和市場需求,極大地提高設計生產效率,減少成本與避免試錯風險。

在數據分析技術的層面上,它是基于html的個性化分布式數據挖掘系統。核心內容是監控并分析網站,生成Excel表格形式的報表,報表包含關鍵詞和網站的鏈接地址。這種分析為采用Java語言對網站中的各種內容信息進行智能化的分析與挖掘。相當于目標網站名單讀取模塊,采用Excel表格存儲目標網站列表和關鍵詞,并且用Java語言讀取信息,并利用web界面即時呈現監控結果。

2 服裝紡織產業大數據分析技術對設計思維影響的實例研究

參與本次研究項目的北京相與文化發展有限公司,是一家由中法意等多國設計師和業內人士組成的專業服裝紡織品品牌孵化和設計營銷整合機構。

2014年公司開始進行自主開發和使用基于互聯網的服裝設計大數據分析系統,如圖 1 所示,針對某款產品的數據分析結果,將對設計工作產生重要的引導作用。設計師們會根據數據分析結果來判斷設計思路是否合理,改變了傳統設計流程中過于強調設計師主觀感受的不穩定性,將基于互聯網的海量數據經過精準的篩選和整理,生成直觀可視化的數據報表,并且形成多點共享和分級管理的平臺化工具,將設計研發流程模塊化,迅速找到針對市場切實有效的產品設計賣點和營銷方式,可以極大地提高服裝設計師和生產管理者的工作效率,降低了設計研發成本并有效減少了企業在新品設計研發方面的試錯風險。

為了調研資料的充分性和客觀性,本論文還調研了參與10家生產銷售與男士T恤相關的服裝企業。在男士T恤這個產品品類的設計開發之前,這些企業想去了解該產品的設計研發方向的需求集中體現在以下幾個方面,如基礎風格、花型圖案、面料材質、款式細節和服飾工藝等;并且在這幾個需求里面,關于花型圖案的調研量最大,這個環節也就成為了企業們最為關注的問題所在,另外占比量22%位居其次的款式細節,也成了男士T恤的另一個設計重點。以上調研的數據比例圖示(圖2),充分證明了企業對產品的設計研發方向的設定,是有著比較明晰準確的需要點的,占比29%的企業都認為要將花型圖案作為男士T恤的設計重點。如果通過產業數據分析技術,能比較清楚地告知這些企業,在服裝設計研發的時候,是否要優先關注哪些方面以及如何把握這些方面的設計工作,這無疑對企業把控產品與市場需求的貼合度方面是有重要幫助的。

3 產業大數據分析技術對新型設計思維模式的影響

“積累、效率、協作、降本”―― 代表著新型設計思維模式核心要素的,將給產品的設計研發思維帶來全新突破,將有力地幫助中國數以萬家企業將設計真正轉化為生產力并最終打造核心競爭能力,完善品牌體系并全面提升品牌價值。

將與產品相關的市場數據進行搜集整理和分析,在互聯網大數據分析技術的幫助下,找到對企業的產品設計研發最具有參考價值的類比信息,不同于傳統設計模式的主觀化和分散化,新一代的設計思維模式需要將資源和信息模塊化,形成支持系統;從而在企業的整體產品設計研發流程中實現多點協作、信息共享和分級管理,極大地提高了流程的效率,降低了錯誤判斷市場導向帶來的經營風險,節省了設計開發的時間和成本,同時新型設計思維模式又會強化對于流程中每個環節的工作指標的評估,從而達成有效良性的管理機制。

篇(10)

中圖分類號:G25 文獻標識碼:A 文章編號:1672-3791(2016)10(b)-0150-02

在科學技術的影響下,學術資源建設速度越來越快。例如:中國最大的學術資源建設商――中國知網,已經從期刊論文向國內外期刊論文發展,在圖書資源收藏方面收集了大量資源,可以給行業機構、學術等提供大量文獻。在此種發展形式下,數字圖書館承受了較大壓力,如何在未來發展中更好生存,已經成為人員研究的主要問題,必須及時對其進行分析。

1 國內外研究與啟示

1.1 國內外相關論述對我國的影響

隨著大數據時代的到來,人們對數據的需求量不斷增大。目前國外相關研究已經從理念、技術和數據等方面進行了很多研究。美國加州大學伯克利分校圖書館的Huwe在《構建數字D書館》一書中明確指出,大數據與數字化圖書館的發展方向吻合,可以借助數字圖書館進行信息采集和收集,進而挖掘用戶行為,幫助人們了解閱讀行為與信息的聯系。Borgman等人將嵌入式技術成功安裝于數字圖書館系統中,增加了數字圖書館功能,可以實現圖書分類、收集處理和關聯等各項操作,促進了數字圖書館與網絡技術的融合,發揮了大數據的作用。

國內研究人員曾建勛曾在《數字圖書館論壇》中明確指出,大數據時代將數據數字圖書館數據管理、收集等服務的深層次發展,對數字圖書館人員提出了較高要求。另外武漢大學生陳傳夫等也從理念、發展知識和財政投入機制等,分析了圖書館素質等問題,并提出了相關應對措施。

從上述研究均可看出大數據對數字圖書館帶來的發展機遇和挑戰,促進了數字圖書館和大數據的融合。為了促進高校圖書館和我國公共圖書館在大數據時代的發展,發揮數字圖書館在人們的生活或科學研究中的作用,必須深入思考,及時轉變觀念,提高數字圖書館的競爭力。

1.2 啟示與思考

從當前的發展狀況來看,學術資源建設商已經在大數據時代取得了很大進展,不僅包含網絡資源與期刊,還涉及各種文獻資源,可以查找作者、文獻關系與學者等關系,給數字圖書館的發展帶來了很大壓力。所以圖書館相關人員必須提高思想認識,將資源建設商帶來的威脅作為新的機遇。在實際工作中,必須積極吸取圖書館建設資源,擴展圖書館資源范疇,進行各種資源的有機結合,同時還要充分發揮資源價值,促使各種資源的整合,深入挖掘數據規律,認真分析數據規律,發現數據潛在價值。從服務角度上分析,圖書館還要向眾多資源建設商學習,從用戶角度探索問題,給用戶提供人性化服務,滿足用戶對資源的需求。

經過分析發現,大數據時代,必須要改變傳統的思維模式,形成適合數字圖書館發展的模式,適應大數據時代的發展,充分利用大數據促進數字圖書館的發展,讓數字圖書館在人們的生活、學習和工作中發揮更大作用。

2 淺析數字圖書館的大數據思維

數字圖書館的大數據思維主要表示從大數據角度思考并分析數字圖書館發展中存在的問題,實現數字圖書館和大數據時代的有機融合,增加數字圖書館產品種類,提高數字圖書館服務水平。

2.1 建設數字圖書館資源

第一,擴大數字圖書館資源范圍。資源是數字圖書館發展的基礎,也是提高數字圖書館服務質量的主要方法。在長期發展中,圖書館非常重視資源建設,主要是圖書、期刊及學位論文等資源。為了在大數據時代下發展,必須創新思維,引入一些數據庫資源或一些社會熱點信息等內容,以用戶的搜索習慣作為數字圖書采集參考,深入挖掘各種數據之間的聯系,實現可再生資源的生產、收集和儲存,擴大數字圖書資源范圍。第二,提高數字圖書館資源整合度。大數據時代的主要特點是數據類型較復雜,單純的文本信息已經不能被大數據時展用戶吸取,可以實現資源整合向綜合信息服務轉變。為了滿足不同用戶的需求,還可以實現文獻和政府等信息的整合,擴大社會資源和數字圖書館的聯系,將公眾最關注的問題引入到社會資源整合中。第三,加強數字圖書館資源加工深度。在大數據時代,雖然數字圖書館結構信息具有較強的表現形式,但主要體現在資源庫內部。在大數據時代下,必須及時擴展數字資源和外界的聯系,構建全社會數字圖書館資源架構。同時進行圖書館資源深度加工時,必須從知識結構向知識建構加工方向發展。例如:從圖書館文獻資源中分析知識結構,利用知識單位和文獻建立知識建構,形成新知識。

2.2 靈活應用數字圖書館技術

大數據時代,數字圖書館技術已經開始從處理局部數據向更廣的區域發展。從圖書館技術體系分析主要進行信息處理、組織架構、分析預測、服務技術等操作。

第一,應用語義技術。大數據環境中可以采用語義實現復雜數據的聯系。當前數字圖書面臨的主要問題是將語義加入數字文獻信息中。所以必須將本體技術、人工智能等先進技術應用到實際工作中,讓數據間形成語義關系,促進收錄資源和知識挖掘等各項操作。目前語義技術已經廣泛應用到圖書領域中,如:漢語主題詞表、圖書分類法等均是依靠語義發展起來的。知識相互間的語義關系,不僅可以幫助用戶及時獲取知識,還可以獲得有用知識途徑。第二, 數據聚類技術。數據聚類是實現信息相互聚集的過程。在繁雜的數據中,只有靈活應用聚類技術,才能發揮信息服務、處理等各種功能。在大數據背景下,利用數據聚類可將不同數據劃分成相互聯系、主體相近的小數據,給用戶信息檢索、選擇和分析提供很大方便,給用戶個性化服務提供了數據支持。第三,信息分析技術。大數據時代可以充分利用信息分析技術。可以將大數據技術融入到書籍圖書館中,拓展了數據分析工作,給用戶提供了高端服務。例如:聯機分析技術可給在線用戶提供數據支持;定量定性分析技術可以在數字圖書館中得到充分應用。

2.3 數字圖書館的定位

第一,打破傳統資源框架束縛。大數據給圖書館提供了較廣闊的發展空間,滿足了用戶對不同信息的需求,在信息采集、收集和服務等方面均發生了變化。數字圖書館進行定位時,必須打破傳統資源框架,將數據理念融于到數字圖書館建設中,所以不僅要采用傳統的方法進行信息采集,還要進行網絡信息自動獲取,構建語義關系、數據聯系等信息組織框架。

第二,建立全方位服務信息。傳統圖書館主要進行文獻服務。數字化圖書館服務資源發生了變化,服務形式開始從被動化向主動化發展。一方面向全社會提供服務;另一方面,提供全新資源服務;最后不斷擴展服務與傳播方式,全面擴展數字圖書館服務。

第三,定位數字圖書館員。大數據時代對圖書館員提出了更高要求,每館員都要有敏銳的數據分析能力;及時了解學術變化;掌握大數據分析技術;熟練使用各種數據分析工具和軟件,準確定位網絡資源,促進數字圖書館的發展。

3 結語

大數據時代給數字圖書館帶來了挑戰,是數字圖書館的一種巨大轉型,可以擴展數字圖書館數據資源,提高數字圖書館服務功能;同時,還要不斷思考資源框架、技術應用模式和服務功能,與廣大學術資源建設商共同發展。

篇(11)

中圖分類號: G250.2 文獻標識碼: A 文章編號: 1003-6938(2014)05-0013-07

Preliminary Study on the Big Data Analytics and Its Adaptability in Intelligence Studies

Abstract Big data analytics has brought new opportunities for data-oriented or information-oriented intelligence studies' development. Based on existing research, the author makes a review of three viewpoints of big data analytics based on data, process and information technology, and then summarizes five levels of analytics which including statistics, mining, discovery, predict and integrate, and its 17 kinds of relevant research methods. The adaptability of big data analytics in the intelligence studiesis discussed and it is found that 10 research methods can be directly transplanted to intelligence studies, 2 research methods should be adjusted for transplantation, 2 research methods are inapplicable, and 3 research methods needfurther study.

Key words big data; big data analytics; intelligence studies; adaptability

大數據分析(Big Data Analytics,BDA)是以“深度的發現分析、引領行動”作為目標的工作[1-2],它包括由多個任務組成的高度重復執行的步驟[3-4]。BDA通常要集成多種分析技術與軟件工具,以便讓海量數據的處理及分析變得更加容易,從數據中提取有用信息并形成結論,用來驗證、指導及規范組織或個人的決策行動;BDA的執行過程一般包括問題需求及假設提出、數據獲取及記錄、信息抽取及清洗、數據整合及表示、選擇建模及分析方法、結果詮釋、評測結果有效性及監控等幾個階段。從以上BDA的定義及過程來看,BDA與情報學領域中的情報研究(也稱情報分析)在本質上是一致的,兩者至少在方法與技術(以下簡稱方法)上可以相互借鑒或補充。本文基于情報學的視角,關注哪些BDA方法可以為情報研究提供借鑒,并解決情報研究的相關問題。因此,本文首先概略總結BDA的方法體系,然后探討BDA方法在情報研究中的適用性。

1 大數據分析的方法分類

到目前為止,尚沒有公認的BDA方法的分類體系,甚至對BDA包括哪些方法,也有不同的認識。本文首先綜述現有的相關研究,并以此為基礎提出我們的分類體系。

1.1 相關研究

不同學者對BDA方法的看法各有差異,概括起來,主要有三種分類體系,分別是面向數據視角的分類、面向流程視角的分類以及面向信息技術視角的分類。

(1)面向數據視角的BDA方法分類。這類研究主要是以BDA處理的對象“數據”作為分類依據,從數據的類型、數據量、數據能夠解決的問題、處理數據的方式等角度對BDA方法進行分類。

Power[5]依據分析需求將數值型數據的分析方法劃分為三類:①若是模式理解及對未來做出推論,可采取歷史數據及定量工具進行“回顧性數據分析”;②若要進行前瞻及預測分析,可采取歷史數據及仿真模型進行“預測性數據分析”;③若要觸發事件,可采取實時數據及定量工具進行“規范性數據分析”。美國國家研究委員會在2013年公布的《海量數據分析前沿》研究報告中提出了七種基本統計數據分析方法[6],包括:①基本統計(如一般統計及多維數分析等);②N體問題(N-body Problems)(如最鄰近算法、Kernel算法、PCA算法等);③圖論算法(Graph-Theoretic Algorithm);④線性代數計算(Linear Algebraic Computations);⑤優化算法(Optimizations);⑥功能整合(如貝葉斯推理模型、Markov Chain Monte Carlo方法等);⑦數據匹配(如隱馬爾可夫模型等)。

針對非純粹的數值型數據,Li、Han[7]梳理了面向“時空數據”(Spatiotemporal Data)的BDA方法,通過對動態數據挖掘出主體的預測性,如運用物理工程領域的傅立葉變換(Fourier Transform)及自相關匹配(Autocorrelation)偵查某一時間區段的信號、發生的事件或生物基因中的周期性節律,也可運用時間序列方法預測地點位置的變化;魏順平[8]以教育領域為例,梳理了面向學生與學習環境的“學習分析方法”(Learning Analytics),此方法集成了內容分析、話語分析、社會網絡分析、統計分析、數據挖掘等多種方法,從中挖掘學習的各種語義關系,并回答“誰在學、學什么、怎么學、學的結果如何”等問題,為教學與優化學習提供參考。

Mohanty等人[3]從數據獲取(Data Ingestion)角度,依照處理的數據量從小至大的順序,區分出八種分析方法:①流分析(Streaming Analytics),以預定模式及時處理數據流;②高速的數據采集(High Velocity Data Ingestion),不轉換任何格式,可稍晚處理; ③鏈結分析(Linkage Analysis),構建不同數據源的關系與鏈接;④罕見事件偵查(Rare-Event Detection),從龐大數據集中尋找特定模式;⑤數據聚合(Data Mash-Ups),需要對數據屬性發展故事線或鏈接關系進行分析;⑥文本分析(Text Analytics),如觀點挖掘或社會網絡分析等;⑦時間序列分析(Time-Series Analysis),通過模式偵測及事件發生概率來處理時空數據;⑧數據辯論(Data Forensic),用于數據科學家探索大規模數據集。

Chen等人[9]認為,在商業智能分析發展的過程中,商業智能分析經歷了從處理結構化程度較高的數據、到處理網絡上半結構化數據、再到處理移動數據的發展,涵蓋了五類核心的分析方法:①數據分析,涉及數據倉儲、ETL、聯機分析及數據挖掘等分析技術,可應用在時間序列挖掘、網站挖掘、空間數據挖掘等;②文本分析,涉及信息檢索、查詢處理、相關反饋等分析技術,可應用在QA系統、觀點挖掘、多語義分析、可視化分析等;③網站分析,涉及信息檢索、網絡爬蟲、日志分析等分析技術,可應用在云計算、社會網絡分析、網站可視化等;④網絡分析,涉及信息計量、引用網絡、數學網絡模式等分析技術,可應用在鏈結分析、社區發現、社會影響力及擴散模式等;⑤移動分析,可應用在移動通訊服務、個性化分析、游戲營銷分析等。

(2)面向流程視角的BDA方法分類。這類研究主要是依據BDA的步驟和階段對BDA方法進行分類。

美國計算社區協會出版的《大數據的機會與挑戰》白皮書指出BDA是一個多階段任務循環執行過程[4],從整體看,其分析的過程包括了五個階段,每一個階段都包含該階段需要使用的方法:①數據獲取及記錄,從各種感知工具中獲取的數據通常與空間時空相關,需要及時分析技術處理數據并過濾無用數據;②信息抽取及清洗,從異構數據源抽取有用信息,并轉換為結構化的格式;③數據整合及表示,將數據結構與語義關系轉換為機器可讀取、自動解析的格式;④數據建模及分析,從數據中挖掘出潛在規律及知識,涉及可擴展的挖掘算法或知識發現等方法;⑤詮釋,為了讓用戶容易解讀分析結果,可視化分析技術變得十分重要。此外,嚴霄鳳、張德馨[10]依照搜集、分析到可視化的流程,梳理了適用于大數據的關鍵技術,包括:遺傳算法、神經網絡、數據挖掘、回歸分析、分類、聚類、關聯規則、數據融合、機器學習、自然語言處理、情感分析、網絡分析、空間分析、時間序列分析等多種方法。

(3)面向信息技術視角的BDA方法分類。這類研究強調大數據技術本身涉及到的新型信息技術,將大數據處理架構、大數據計算模式、大數據系統等作為BDA方法分類的依據。

孟小峰、慈祥[11]著眼于大數據處理框架,梳理了數據抽取與集成、數據分析及數據解釋所使用的分析方法,在數據抽取與集成方面,可區分為基于物化(Materialization)或ETL的方法、基于聯邦數據庫或中間件的方法、基于數據流的方法以及基于搜索引擎的方法等四類;在數據分析方面,傳統的數據挖掘、機器學習或統計分析面臨數據規模、算法調整等困難,需進一步發展;在數據解釋方面,引入可視化技術或交互式的數據分析過程,有助于用戶理解分析結果。覃雄派等人[12]認為,非關系數據管理(如MapReduce)擴展了數據分析的多維視角,使數據分析的生態系統從“大量數據的移動”轉向“直接對數據進行分析”。

2012~2013年在印度召開了兩次BDA國際研討會[13-14],會上分別就BDA中的機器學習面臨數據規模與多維度問題、可擴展的機器學習算法(如隨機映射、隨機梯度下降等)、機器學習在MapReduce的應用、社交媒體數據挖掘(如話題檢測與跟蹤、地點推理、語義連接等)、高維數據降維分析(如主成分分析、因子分析、經典相關分析等)、圖像挖掘(如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach)及圖像比對分析(如特征提取、Iterative Methods)等進行了探討。2013年IEEE計算機協會在美國召開大數據國際研討會,BDA結合MapReduce、Hadoop等模型的分析方法仍是主流,研究的內容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。

1.2 BDA方法的分類――面向層次的BDA方法框架

上述三種視角的BDA分類各有特點,都有一定的道理。從面向數據的視角來看,BDA方法正從統計(Statistics)轉向挖掘(Mining),并提升到發現(Discovery)和預測(Prediction)。基于流程的BDA分類則更能反映BDA過程的集成性(Integration),也就是說,在完成一項分析任務時,需要綜合使用多種方法。從面向信息技術的BDA分類中可以看出,這種分類方式強調使用新技術對傳統數據處理方法進行改進和創新,同時更重視新型系統架構與分析方法的集成,例如,各種數據挖掘算法的MapReduce化,就是這方面的典型實例。

本文認為,如果綜合上述三種分類體系中體現的層次性,將可以更準確描述BDA方法。在此,本文提出一個面向層次的BDA分類框架,將BDA方法分為統計、挖掘、發現、預測及集成五個層次,并初步歸納出17種BDA相關方法(見表1)。

2 BDA方法在情報研究中的適用性探討

如前所述,BDA與情報研究在本質上有共同之處,BDA方法可為情報研究提供借鑒,因此,探討BDA方法對情報研究的適用性就很有必要性。以下綜合考慮方法本身的完善性及可操作性、情報研究的分析對象特征、方法的可移植性[15]等因素,對本文所列舉的17種面向層次的BDA方法在情報研究中的適用性進行分析。

2.1 可直接移植的方法

可直接移植方法是指這些方法的原理、流程、算法等可以直接應用于情報研究,用來對情報研究的數據源(如科技文獻、網絡資源等)進行處理,解決情報研究過程中的一個或幾個步驟中要解決的問題。在本文所列舉的17種面向層次的BDA方法中,數據挖掘、文本挖掘、知識發現、觀點挖掘、話題演化分析、多元統計分析、時間序列分析、海量數據的基本統計方法、高維數據降維分析方法、多源數據融合方法等10種方法均屬于可直接移植方法,其中有些方法在情報研究中已經有多年的應用歷史。

(1)數據挖掘與文本挖掘。數據挖掘與文本挖掘是不同概念,兩種方法分別使用不同的發現技術,文本挖掘屬于基于計算機語言學及統計方法的發現技術,用來揭示文本中的詞與句法特征;數據挖掘以數據庫中的大量結構化的數據挖掘為基礎,用來揭示數據中潛在的、可能的數據模式及關聯規律[16]。在情報學領域的實踐應用中,數據挖掘多應用在圖書館自動化技術與服務方面,例如,館藏采購決策、個性化服務、信息檢索、讀者管理、館藏布局等。文本挖掘在情報研究的價值在于彌補了情報學專門分析方法對科技文獻內在知識挖掘不足的缺欠,例如,祝清松、冷伏海[17]為了解決引文分析方法無法揭示論文的研究內容這個問題,提出引文內容分析,先建立基于規則的引文內容抽取來識別引用句,再通過基于C-value多詞術語識別算法找出高被引論文主題,相比于引文分析,這種方法較能提供客觀的語義信息與文獻之間的語義關系。

(2)知識發現。情報研究中所說的知識發現,主要是指基于文獻的知識發現,例如,張樹良、冷伏海[18]在共詞、共引、文本挖掘等方法基礎上,提出了“基于文獻的知識發現”,包括:基于相關文獻、基于非相關文獻及基于全文獻三種條件下的知識發現,完整揭示文獻的知識結構與演化情況。在網絡環境下,李楠、張學福[19]認為關聯數據的RDF數據模型、數據訪問機制、URIs及自描述數據等規范所形成的數據共享環境,為知識發現提供了新的研究潛力,包括知識發現的范圍被擴展成全球數據空間、高效率理解及處理數據間的語義關系等。簡言之,知識發現從不同數據源之間的復雜關系中獲得隱含的知識或規律,甚至可對未來進行預測。

(3)觀點挖掘與話題演化分析。觀點挖掘與話題演化分析兩種方法實際上是數據挖掘及文本挖掘的具體及深化應用。觀點挖掘主要有三種挖掘任務:情感分類、基于特征的觀點挖掘、比較語句和關系挖掘[20],例如,黃曉斌、趙超[21]通過對網絡輿情信息的文本挖掘,找出不同民眾對某一社會事件的情緒、態度及觀點,再通過關聯分析找出網絡輿情信息的各種關聯性。趙潔、溫潤[22]認為微博情感分析的關鍵是觀點句識別,并根據文本特征的差異性,提出了基于新詞擴充和特征選擇的觀點句識別方法,即先擴充情感詞典來提高分詞準確率,再結合微博特征進行句子選取。話題演化分析方法是近年文本挖掘的研究熱點,借助不同的話題模型,包括基于LSI模型、基于pLSI模型、基于LDA模型等,獲取文本中的一組詞語,表示為某一話題的集合,再引入時間信息模擬該話題隨著時間推移所表現的受關注程度及關注點的變化[23]。又例如,賀亮、李芳[24]利用LDA模型抽取科技文獻中的話題(即主題詞),再計算話題的強度與內容演化,從而區分熱門與冷門話題及其歷年特征詞的演化趨勢。

(4)多元統計分析與時間序列分析。多元統計分析與時間序列分析兩種方法也是情報研究常見的定量分析方法[25],前者研究客觀事物中多個變量(或多個因素)之間相互依賴的統計規律,后者則是基于隨機過程理論和數理統計學方法,研究動態數據序列的規律性。這兩種分析方法的一個重要特點在于能基于歷史數據的變化,評價事物現狀或預測事物未來的發展。

(5)海量數據的基本統計分析方法。海量數據的七種基本統計分析方法適用于情報研究的原因是,專家們普遍認為,在現有硬件技術條件下要開發一個海量數據分析系統的難度過高,且高性能計算領域也面臨許多困難,因而轉向尋找共通的基礎性計算方法來幫助運算[6],同時這些統計方法也經常應用于數據挖掘或文本挖掘。對情報研究來說,處理的數據量不及高性能計算領域的海量數據,因此可以容易地應用這些基本統計分析方法。盡管如此,隨著情報研究處理的文本量增加,包括文獻計量或信息計量方法在內的定量分析方法,仍然要經常借鑒基礎性的計算方法,并進行公式改進。

(6)高維數據降維分析方法。高維數據降維分析方法反映了海量的數值型數據在數據縮減的重要性,常見的降維(Dimensionality Reduction)方法包括主成分分析、因子分析、典型相關分析、獨立成分分析、投影尋蹤等[26]。高維數據經常存在大量的弱相關內容或噪音,通過線性(如主成分分析、典型相關分析等)或非線性(如投影尋蹤、核方法等)映射可以將數據樣本從高維空間映射到低維空間,從而提高機器學習的效率[27-28]。情報研究在處理文本語料時,廣泛使用基于向量空間模型來表示文本,形成的高維特征集會對文本分類或機器學習的效果產生很大影響,通過特征選擇(如特征頻率、互信息等)進行特征抽取(如PCA、LSI、NMF等),轉換成一個低維的特征集來提高訓練效果,是非常必要的[29]。

(7)多源數據融合方法。多源數據融合方法是解決大數據環境下異構數據整合而提出的方法,例如,為了解決不同研究階段產生的各類科學數據集成問題,白如江、冷伏海[30]認為解決關鍵在于中間件構建,例如,通過基于XML模型將異構數據源的元數據映射到全局視圖,解決了不同數據源的關系描述問題,并提供用戶可靈活訂制查詢規則;但基于XML模型只能提供語法層次的整合,為了提供數據在語義層次的整合,可通過基于語義模型對XML的對象進行分類,在對象模型的基礎上生成邏輯規則,揭示隱含在科學數據中的語義信息。此外,也可以通過基于物化或ETL方法、基于數據流方法或其他方法對異構數據源中的數據抽取出實體與關系,再進行數據集成或數據清洗[11]。多源數據融合方法是進入數據分析之前的重要任務,對情報研究來說,需要多種來源支持情報分析工作,包括同型異源信息、異質異構信息、多語種信息等,都需要通過異源信息字段的映射、拆分、濾重、加權等進行融合分析[31]。

2.2 調整后移植的方法

調整后移植的方法是指其在原本的領域已經成功應用,但由于該方法最早或成功應用的領域在任務需求、數據處理、分析過程有自身的特點,若移植到情報研究時,需要根據情報研究自身的特征進行調整。數據可用處理及分析方法、時空數據分析等兩種分析方法就屬于這類情況。

(1)數據可用處理及分析方法。大數據環境中容易產生許多劣質數據來降低數據可用性,為了提高數據可用性及數據質量,李建中及劉顯敏[32]梳理了數種數據可用性的相關方法,包括高質量數據獲取與整合、數據錯誤自動檢測與修復、弱可用數據處理與分析等,分別解決了大規模數據集預處理階段常見的一致性、精確性、完整性、時效性及實體同一性等問題。對情報研究來說,情報素材、產品形式及工作任務分解的質量控制是情報工作的核心[33],其中,情報素材的質量對后續的情報分析成敗存在著至關重要的作用,當數據或信息是錯誤或不完整時,提煉出來的情報勢必會存在缺陷或錯誤。過去對情報研究的質量控制取決于人,如果能引入數據可用處理及分析方法解決數據或信息源可能存在的不一致、不精確、遺漏、滯后或重復等問題,有助于提高情報分析素材的可用性與正確性。

(2)時空數據分析。時空數據分析是地球信息科學相關領域的研究熱點,其中最常使用“周期”(Periodic Behavior)分析,例如天氣預報、環境監控、地理信息系統、城市交通網絡管理等都是常見的應用實例[7]。現有研究的多數做法是采取基于時間序列的方法進行周期建模,但建模過程容易出現對象可能沒有周期、時間點分布不一定呈現周期性等問題,為了解決這些問題,王閱等人[34]提出基于ERP的周期檢測方法解決周期長度定義問題,孟志青等人[35]提出多粒度時間文本下的周期模式挖掘算法解決時態文本數據挖掘問題。對情報研究來說,時間是文本中一個重要的屬性,如文獻發表規律、輿情監控、科研人員的研究主題周期等。在原有數據基礎上增加時間維度進行長時段分析是多數研究的常見做法,但并沒有呈現出其中的周期性規律,特別是文本中的規律特征較難發現,如果能引入此類方法,將有助于找出情報演化的周期模式。

2.3 不適用的方法

考慮學科領域差異,本文認為 “翻譯生物信息學分析”及“學習分析方法”兩種專門研究方法不適合情報研究。

(1)翻譯生物信息學分析。翻譯生物信息學分析是生物信息學的專門分析方法,這種方法是依據特定目的整合多數據源及促進領域知識的有效利用,其結果可應用在生物醫學研究、產生支持醫療人員在治療點中的“可操作的決策”(Actionable Decision),同時能對人類與疾病的關聯關系提供更好的理解。生物信息學為了找出更多基因與疾病的關系,通過翻譯生物信息學分析,可以將分析方法與工具開發從系統層面橫跨到分子、個人或全人類層面,分析視角從單一基因或多肽(Polymorphic)挖掘的研究轉向新基因或遺傳性狀組合與預測研究[36]。從分析方法的操作過程來說,考慮到數據源的特殊性(如DNA編碼數據、蛋白質結構等)、分析視角、工具構建及使用等因素,并不符合情報學的學科研究特色。

(2)學習分析方法。學習分析方法是搜集、分析及評測學習者及其學習語境的分析方法,目的在于理解與優化學習及其學習環境[8]。從UNESCO IITE機構在2012年11月出版的學習分析方法政策簡報可知,學習分析方法的數據分析功能是基于數據挖掘從而開展相關分析內容,包括行為分析、學習資源瀏覽分析、各種關聯分析與影響因素分析等。雖然數據挖掘是情報研究的常見方法,但學習分析方法的結果意義在于解釋學習者的學習語境,為教師或管理者提供決策支持,從而改善學習者的學習習慣及促進學習效果。由于這種方法有其特定的含義和應用環境,離開了學習語境,方法的內涵和外延可能就會產生變化,因此,難以移植到情報研究。

2.4 需要繼續關注的方法

基于MapReduce或Hadoop的衍生分析方法、圖模型分析與挖掘以及商務智能分析,是近年研究探討較多的方法,但目前尚未形成一個成熟且完善的方法體系,例如,MapReduce或Hadoop等之類的工具還在持續發展中,本身也存在不斷的改進空間,它們與各種分析方法的集成缺乏公認的標準和規范,同樣地,對于關注圖像與事物之間關聯的圖模型分析與挖掘也尚沒有發展出固定的技術,又例如,商務智能分析被定義為由數據倉庫、ETL、聯機分析、數據挖掘、客戶關系管理、知識管理等多種技術融合的一組系統,通過BI系統管理組織內部及個人相關的商業數據、專家信息及知識,涉及數據的融合、取用及分析等方法與工具[37-38],目前也沒有標準化的體系架構。

因此,本文還無法明確回答上述三種方法將如何應用于情報研究、在應用過程中需要做哪些調整、這些方法與現有的情報研究方法的關系如何等相關問題,但可以肯定的是,這些方法對未來的情報研究具有借鑒價值,例如,一旦情報研究的處理對象(即數據)積累到了一定程度,成為傳統關系數據庫處理不了的大數據,那么,使用基于MapReduce或Hadoop的衍生分析方法就成為了必然。又如,圖模型分析與挖掘可補充情報研究在圖像分析的不足,而商務智能分析可理解為一套集成系統,可應用在情報機構的知識庫或機構典藏,找出組織的知識缺口等方面。

3 結語

大數據時代就是一個數據分析的時代,學界和業界提出了很多大數據分析的方法與技術,這些方法與技術對情報研究產生了積極的借鑒作用,本文總結了大數據分析的方法,提出面向層次的BDA方法框架,歸納總結了其中的17種BDA方法,并從可直接移植、將調整后移植、不適用于情報研究以及需要繼續關注等四個方面對這些方法在情報研究中的適用性進行了分析,以期為情報研究借鑒或移植BDA相關方法提供參考,促進情報研究的理論與實踐發展。

參考文獻:

[1]Lavalle S, Lesser E, Shockley R, et al. Big Data, Analytics and the Path From Insights to Value[J].MIT Sloan Management Review,2011,52(2):21-32.

[2]Russom P. BIG DATA ANALYTICS[R].The Data Warehousing Institute,2011.

[3]Mohanty S, Jagadeesh M, Srivatsa H. Big Data Imperatives - Enterprise Big Data Warehouse, BI Implementations and Analytics[M]. New York: Apress, 2013.

[4]Computing community consortium. Challenges and Opportunities with Big Data[R]. Washington, DC:Computing Research Association,2012.

[5]Power D J. Using "Big Data" for analytics and decision support[J].Journal of Decision Systems,2014,23(2): 222-228.

[6]Nationalresearchcouncil.Frontiers in Massive Data Analysis[R].Washington,DC:The National Academies Press, 2013.

[7]Li Z H, Han J W. Mining Periodicity from Dynamic and Incomplete Spatiotemporal Data[A]. Chu W W,Data Mining and Knowledge Discovery for Big Data[M].Germany:Springer Berlin Heidelberg, 2014:41-81.

[8]魏順平. 學習分析技術:挖掘大數據時代下教育數據的價值[J]. 現代教育技術,2013, 23(2): 5-11.

[9]Chen H C, Chiang R H L, Storey V C. Business Intelligence and Analytics: From Big Data to Big Impact[J]. MIS Quarterly,2012, 36(4): 1165-1188.

[10]嚴霄鳳,張德馨. 大數據研究[J].計算機技術與發展, 2013, 23(4): 168-172.

[11]孟小峰,慈祥. 大數據管理:概念、技術與挑戰[J]. 計算機研究與發展,2013, 50(1): 146-169.

[12]覃雄派,王會舉,杜小勇,等. 大數據分析――RDBMS與MapReduce的競爭與共生[J].軟件學報,2012, 23(1): 32-45.

[13]Sengamedu S. Scalable Analytics-Algorithms and Systems[A].Srinivasa S, Bhatnagar V.Big Data Analytics[M].India:Springer Berlin Heidelberg, 2012:1-7.

[14]Mehta S, Subramaniam L V. Tutorial : Social Media Analytics[M].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013:1-21.

[15]王煉,武夷山. 方法移植對科學計量學研究的方法論啟示[J]. 科學學研究,2006, 24(4): 503-507.

[16]Kroeze J H, Matthee M C, Bothma T J D. Differentiating Data-and Text-Mining Terminology: The 2003 annual research conference of the South African institute of computer scientists and information technologists on Enablement through technology[Z]. South Africa:2003:93-101.

[17]祝清松,冷伏海. 基于引文內容分析的高被引論文主題識別研究[J]. 中國圖書館學報,2014,(1):39-49.

[18]張樹良,冷伏海. 基于文獻的知識發現的應用進展研究[J]. 情報學報,2006, 25(6): 700-712.

[19]李楠,張學福. 基于關聯數據的知識發現應用體系研究[J]. 圖書情報工作,2013,(6):127-133.

[20]王輝,王暉昱,左萬利. 觀點挖掘綜述[J]. 計算機應用研究,2009,26(1):25-29.

[21]黃曉斌,趙超. 文本挖掘在網絡輿情信息分析中的應用[J]. 情報科學,2009:(1): 94-99.

[22]趙潔,溫潤. 基于新詞擴充和特征選擇的微博觀點句識別方法[J]. 情報學報,2013,32(9): 945-951.

[23]單斌,李芳.基于LDA話題演化研究方法綜述[J]. 中文信息學報,2010, 24(6): 43-49.

[24]賀亮,李芳. 科技文獻話題演化研究[J]. 現代圖書情報技術,2012,(4): 61-67.

[25]查先進.信息分析[M].武漢:武漢大學出版社,2011.

[26]Lakshminarayan C. High Dimensional Big Data and Pattern Analysis: A Tutorial[A].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013: 8302, 68-85.

[27]胡潔. 高維數據特征降維研究綜述[J]. 計算機應用研究,2008,(9): 2601-2606.

[28]吳曉婷,閆德勤. 數據降維方法分析與研究[J]. 計算機應用研究,2009,(8):2832-2835.

[29]陳濤,謝陽群. 文本分類中的特征降維方法綜述[J]. 情報學報,2005,24(6): 690-695.

[30]白如江,冷伏海. “大數據”時代科學數據整合研究[J]. 情報理論與實踐,2014, 37(1): 94-99.

[31]化柏林. 多源信息融合方法研究[J]. 情報理論與實踐,2013,(11): 16-19.

[32]李建中,劉顯敏. 大數據的一個重要方面:數據可用性[J].計算機研究與發展,2013,50(6):1147-1162.

[33]王延飛,王林蘭. 論情報研究質量[J].圖書情報工作,2010,54(10):35-39.

[34]王閱,高學東,武森,等. 時間序列周期模式挖掘的周期檢測方法[J]. 計算機工程,2009, 35(22): 32-34.

[35]孟志青,樓婷淵,胡強.多粒度時間文本數據的周期模式挖掘算法[J]. 計算機科學,2013,(S2): 251-254.

[36]Bellazzi R, Diomidous M, Sarkar I, et al. Data analysis and data mining current issues in biomedical informatics[J]. Methods of Information in Medicine,2011,50(6):536-544.

主站蜘蛛池模板: 日本肉体裸交xxxxbbbb | 黄色网址大全免费| 国产精品美女网站在线看| sss在线观看免费高清| 收集最新中文国产中文字幕| 国产成人av一区二区三区在线观看 | 欧美zoozzooz性欧美| 国产伦理一区二区三区| 亚洲综合色7777情网站777| 国产裸模视频免费区无码| m.jizz4.com| 成人毛片免费观看| 久久久久久久人妻无码中文字幕爆| 欧美xxxx做受性欧美88| 亚洲日韩欧美综合| 波多野结衣无内裤护士| 人妻无码一区二区视频| 疯狂做受xxxx高潮欧美日本 | 一二三四免费观看在线电影中文| 日本深夜福利19禁在线播放| 九色视频最新网址| 欧美丰满白嫩bbw激情| 亚洲宅男精品一区在线观看| 欧美色欧美亚洲另类二区| 亚洲精品视频在线观看视频| 男人桶女人视频30分钟看看吧| 十七岁日本高清电影免费完整版| 在线观看永久免费| 国产精选午睡沙发系列999| 99久久免费国产精精品| 日日摸夜夜搂人人要| 久久夜色精品国产亚洲| 欧美黑人巨大3dvideo| 亚洲色偷偷色噜噜狠狠99| 狍和女人一级毛片免费的| 制服美女视频一区| 精品无码国产自产拍在线观看| 国产成视频在线观看| 97色精品视频在线观看| 在线观看日韩一区| 99国产精品99久久久久久|