本站小編為你精心準備了數據挖掘在招生數據平臺的應用參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
近年來,我國大力發展職業教育,并投入了大量的人力和物力,高職教育也得到了前所未有的發展。但是隨著目前各大高職院校的招生規模不斷擴大,招生方式也在不斷地改革與創新,各高校的生源競爭也日趨激烈,各高校都在努力地去對招生的數據進行研究,使用數據倉庫、數據挖掘等技術,將招生過程中收集到的生源信息進行提取,采用分類、聚類、關聯分析等方法,通過對大量的報考學生信息進行清洗、分析和統計。獲取學生學習的需求、專業需求、就業需求等信息,找出科學與規律,從而更好的制定招生政策,招生計劃,提高入學報告率和生源質量,促進學校的發展。
1數據挖掘的定義
數據挖掘(DataMining)是指人們從大量的、模糊的、零碎的、隨機的、不完整、含有噪聲的應用數據中,提取出一些有潛在價值的信息和知識的一系列管理與分析過程。主要的工作流程主要包括:首先對原始數據的整理,選擇數據并對數據進行預處理,然后對預數據的進行轉換,最后抽取出有用的信息并獲取知識。數據挖掘基于數據庫對模式進行發現,可將模式劃分預測型模式與描述型模式兩種。
2數據挖掘的常用方法
2.1聚類分析方法聚類分析的方法是目前數據挖掘技術中一個很常用的方法,主要源用于統計學、生物學及機器學習等學科。它是使用簇的集合,通過使用一個簇內的任意兩個對象之間的相似性,找出對象間的相異性的過程。
2.2決策樹決策樹分為分類樹和回歸樹兩種,其中分類樹是對離散型數據變量進行決策,而回歸樹主要應用于連接的數據變量進行決策。它的主要工作過程就類似于數據流程圖中的樹型結構,把整個結構分為根結點、中間結點和葉結點,在進行數據分析的過程就是把數據進行切分,每個問題對應一個結點。
2.3關聯規則關聯規則主要的思想是根據數據的出現的頻率找到出現之間的相互關系,主要的目的是根據他們的關聯信息找出其中的規律,并為之所利用。最核心的方法就是基本頻集理論的遞推方法。
2.4統計分析的方法常用的統計分析立法有回歸分析方法、判別分析方法和探索性分析方法三種,它主要是要從大量的數據中,使用科學的統計方法,推斷出事物之間存在可能的規律。3招生數據倉庫的建模本文在創建數據倉庫的過程中,主要通過數據驅動的方法,從不同的數據源中獲得的數據存儲到數據倉庫中,根據決策的主題,實現招生數據的更科學決策分析,本文主要選用SQLServer數據庫,從概念建模、邏輯建模及物理建模的三級模式來構建數據倉庫。
4數據挖掘流程
我校是國家級示范性高職院校,招生類型多,招生管理工作復雜繁瑣,把數據挖掘技術應用于招生數據的管理中,有利于對考生志愿的合理選擇,同時也讓更多的學生及家長了解當前的專業模式,以及對錄取的新生報到率的預測,為下一年的設定招生人數和專業設置提供有價值的參考資料。數據挖掘技術在本校的招生數據管理的主要工作流程如圖1所示。我們從最原始的學生填寫的高考志愿信息表中,獲取基礎數據,從考生的高考成績、學業水平成績、高中畢業考試成績、考生類別、生源地、家族信息等信息中,通過前端處理工具,主要使用Clementin工具,設置字段選項、選擇記錄點、對數據進行抽樣,匯總等建立數據倉庫,基于數據挖掘所要實現的目標以及數據所具有的特點,確定合適模型,通過聚類模型實現挖掘分析。最后評價數據挖掘結果,確定最佳模型,將其應用到具體實際問題中,與招生工作進行結合從而解釋數據挖掘結果。
建設招生數據管理平臺主要是為了對所有的招生數據進行科學的分析,解決招生過程中專業的設置,冷熱門專業分析,錄取分數線分析,考生第一志愿的分析以及招生計劃的設置等。
5.1專業設置招生平臺中,可以以專業類別當成維度,采用關聯分析,對各專業進行分析,與及對某一專業和其相關聯的或相近專業,使用多維數據集與EXCEL的數據透視表工具結合,能方便地進行OLAP操作及結果的報表、圖形等多種方式的可視化展現。
5.2冷熱門專業分析以生源所在地的考生為基礎,運用聚類算法進行分析,以發掘考生填寫志愿的相關規律,確定哪些專業是熱門,哪些專業是冷門專業,根據畢業生的就業情況以及對當前的市場變化趨勢深入了解,持續地對熱門專業進行支持與挖掘,對冷門專業進行控制。
5.3考生第一志愿分析第一志愿是志愿填報中最重要的一環,目前我校在錄取規則上優先錄取第一志愿考生,這樣可以有相應專業人才的穩定生源,這批生源在最大程度上有志于自己所填報的志愿,而且在錄取第一志愿考生時,學校熱門專業通過第一志愿錄取即可招滿相應的新生。本文通過關聯分析的方法,結合統計分析和聚類分析,根據考生的專業興趣,高考成績,以及興趣愛好等,分析考生第一志愿的情況。
5.4招生計劃安排以考生的專業類別為基礎數據,對某一類考生的信息進行分析,主要包括對考生的填寫志愿的行為分析,有針對性地對考生性質,考生的志愿愛好,以及考生的高考成績中的單科成績情況進行分類分析及關聯分析,采用決策樹法,合理地安排專業招生計劃。在系統平臺的運用中,挖掘出隱含的規則與特征,把相關數據信息傳遞到各二級學院,讓二級學院根據挖掘的結果做出合理的招生計劃安排。
5.5挖掘結果展現為了更好的展現考生的各種屬性之間的聯系,以“專業”、“成績等級”、“生源地等級”作為前項,“報到狀態”為后項,進行關聯規則挖掘。
6結束語
目前,很多高校都使用了各自的招生數據管理系統,也深入地掌握了數據挖掘技術對招生數據進行分析與干預,本文主要是使用關聯規則法、決策樹、統計分析等數據挖掘技術方法進行計算、分析、研究,構建了以考生類別、考生生源地、高考成績、專業志愿等關系模型,結合MicrosoftSQLServer2005中的數據挖掘功能,通過這個模型找出了各個因素與考生專業選擇、考生報到率以及對學校招生政策等的關聯關系,提高學校的生源質量,促進學校的發展。
作者:黃有福 單位:廣州番禺職業技術學院