国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)教育學(xué)習(xí)成績(jī)預(yù)測(cè)的研究與實(shí)現(xiàn)——以本科公共課程統(tǒng)考英語為例

本文由《開放教育研究》雜志授權(quán)轉(zhuǎn)載

作者:孫力、程玉霞

摘要

合適的數(shù)據(jù)分析技術(shù)能使我們借助網(wǎng)絡(luò)學(xué)歷教育學(xué)生在學(xué)習(xí)和管理系統(tǒng)中產(chǎn)生的數(shù)據(jù)和信息,發(fā)現(xiàn)相關(guān)規(guī)律,進(jìn)而為網(wǎng)絡(luò)學(xué)歷教育教學(xué)和管理流程的優(yōu)化提供有益的決策依據(jù)。本文采用數(shù)據(jù)挖掘中數(shù)據(jù)分類C5.0決策樹方法,通過分析網(wǎng)絡(luò)學(xué)歷教育本科學(xué)生英語學(xué)習(xí)及相關(guān)信息,實(shí)現(xiàn)了對(duì)其英語統(tǒng)考成績(jī)的預(yù)測(cè)。在分析英語統(tǒng)考前景預(yù)測(cè)的目標(biāo)特性后,在SPSS的Clementine12.0數(shù)據(jù)挖掘環(huán)境中,歷經(jīng)數(shù)據(jù)提取、數(shù)據(jù)預(yù)處理、決策樹構(gòu)建和決策樹優(yōu)化等步驟,本研究構(gòu)建了網(wǎng)絡(luò)教育本科英語統(tǒng)考成績(jī)的預(yù)測(cè)模型,并提出了模型實(shí)現(xiàn)方法;同時(shí)對(duì)模型相關(guān)屬性的重要性進(jìn)行了分析,提出了提高網(wǎng)絡(luò)教育本科學(xué)生英語學(xué)習(xí)水平和統(tǒng)考通過率的相應(yīng)策略。

關(guān)鍵詞:網(wǎng)絡(luò)教育;數(shù)據(jù)挖掘;決策樹方法;英語統(tǒng)考;預(yù)測(cè)模型


一、引言


近年來,大數(shù)據(jù)的概念逐漸興起,人們用它來描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù)及與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新(黃荷,2012)。大數(shù)據(jù)帶來的機(jī)遇是可以利用數(shù)據(jù)分析技術(shù)預(yù)測(cè)未來。數(shù)據(jù)挖掘是從大量不完全、有噪聲、模糊、隨機(jī)的數(shù)據(jù)中,提取隱含在其中、人們事先不知道但又潛在有用的信息和知識(shí)的過程(洪建峰,2013)。它是一種深層次的數(shù)據(jù)分析方法,主要依靠人工智能、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)技術(shù),對(duì)數(shù)據(jù)進(jìn)行歸納推理,從中挖掘出潛在的模式,預(yù)測(cè)未來趨勢(shì),為決策提供支持。


我國(guó)網(wǎng)絡(luò)高等學(xué)歷教育經(jīng)過十五年的發(fā)展,各試點(diǎn)高校對(duì)網(wǎng)絡(luò)學(xué)習(xí)相關(guān)系統(tǒng)進(jìn)行了完善,尤其是管理、學(xué)習(xí)、評(píng)價(jià)和監(jiān)控系統(tǒng)的運(yùn)用,產(chǎn)生了大量學(xué)生學(xué)習(xí)過程的相關(guān)數(shù)據(jù)。例如,學(xué)生個(gè)人信息,課程考試成績(jī),在線學(xué)習(xí)次數(shù)、時(shí)間點(diǎn)、學(xué)習(xí)興趣點(diǎn)和學(xué)習(xí)時(shí)長(zhǎng),作業(yè)完成情況,參與討論情況,過程性評(píng)價(jià)等。目前這些數(shù)據(jù)僅存在于各類網(wǎng)絡(luò)學(xué)習(xí)和管理系統(tǒng)中,未真正發(fā)揮應(yīng)有的作用。如能運(yùn)用數(shù)據(jù)挖掘技術(shù)和學(xué)習(xí)分析技術(shù),建立相關(guān)系統(tǒng)對(duì)其進(jìn)行提取和標(biāo)準(zhǔn)化處理,可以為網(wǎng)絡(luò)學(xué)習(xí)流程和管理流程的優(yōu)化設(shè)計(jì),提供相關(guān)決策依據(jù)(魏順平,2013);同時(shí),可以了解學(xué)生學(xué)習(xí)的效率、意愿、耐心度和專心度、相關(guān)興趣點(diǎn)等個(gè)性化信息,為學(xué)生提供網(wǎng)絡(luò)學(xué)習(xí)的個(gè)性化提醒和指導(dǎo),以及學(xué)習(xí)資源的個(gè)性化推送服務(wù)等(傅鋼善等,2014;陳益均等,2013);最終通過建立以學(xué)習(xí)者數(shù)據(jù)為核心的學(xué)習(xí)支持系統(tǒng),構(gòu)建智能化網(wǎng)絡(luò)學(xué)習(xí)環(huán)境。


網(wǎng)絡(luò)教育的部分公共課程統(tǒng)考是本科層次學(xué)生畢業(yè)電子注冊(cè)的必要條件。其中英語是網(wǎng)絡(luò)教育學(xué)生的難點(diǎn)。各試點(diǎn)高校都在嘗試采用各種方式提高英語統(tǒng)考的通過率。本文運(yùn)用數(shù)據(jù)挖掘技術(shù),以江南大學(xué)網(wǎng)絡(luò)教育本科學(xué)生為研究對(duì)象,通過對(duì)學(xué)習(xí)平臺(tái)中學(xué)生個(gè)人相關(guān)信息、入學(xué)測(cè)試成績(jī)、入學(xué)后英語類課程及其他課程學(xué)習(xí)情況的數(shù)據(jù)進(jìn)行分析,預(yù)測(cè)其網(wǎng)絡(luò)統(tǒng)考英語課程的考試成績(jī)。


二、數(shù)據(jù)挖掘技術(shù)理論描述


數(shù)據(jù)挖掘是利用模式識(shí)別、統(tǒng)計(jì)和數(shù)學(xué)的技術(shù),從大量數(shù)據(jù)中篩選發(fā)現(xiàn)新的有意義的關(guān)系、模式、變化和主要結(jié)構(gòu)的方法(陳文偉等,2004)。隨著大數(shù)據(jù)時(shí)代的到來,它被越來越多地應(yīng)用到人工智能、機(jī)器學(xué)習(xí)、市場(chǎng)分析、商務(wù)管理和決策支持等領(lǐng)域。數(shù)據(jù)挖掘由三個(gè)步驟組成:數(shù)據(jù)預(yù)處理階段、模型設(shè)計(jì)階段和數(shù)據(jù)分析階段。分類和聚類技術(shù)是其中最有應(yīng)用價(jià)值的兩大技術(shù)。


(一)數(shù)據(jù)分類技術(shù)


數(shù)據(jù)分類指分析數(shù)據(jù)庫中的一組對(duì)象,找出其共同屬性,然后根據(jù)分類規(guī)則,把它們劃分為預(yù)先設(shè)定好的不同類別。數(shù)據(jù)分類過程一般分兩個(gè)部分:先是確定分類規(guī)則,也稱為學(xué)習(xí)或訓(xùn)練過程,即先將訓(xùn)練樣本數(shù)據(jù)集作為輸入,依據(jù)數(shù)據(jù)集特征為每一類別建立分類規(guī)則或描述;然后通過更大量的測(cè)試數(shù)據(jù)集測(cè)試這些分類規(guī)則,以生成更恰當(dāng)?shù)姆诸愐?guī)則,并依據(jù)最終的分類規(guī)則形成數(shù)據(jù)分類。目前分類方法包括基于決策樹的分類,如ID3算法和C4.5算法;基于統(tǒng)計(jì)的分類,如貝葉斯分類算法;基于神經(jīng)網(wǎng)絡(luò)的分類,如后向傳播算法;源自關(guān)聯(lián)規(guī)則挖掘概念的分類和遺傳算法等。


(二)數(shù)據(jù)聚類技術(shù)


數(shù)據(jù)聚類是根據(jù)在數(shù)據(jù)中發(fā)現(xiàn)的描述對(duì)象及其關(guān)系的信息,將數(shù)據(jù)對(duì)象分組而形成數(shù)據(jù)簇。最終目標(biāo)是:簇內(nèi)的對(duì)象相互之間相關(guān),不同簇的對(duì)象之間不相關(guān)。簇內(nèi)相似度越大,同時(shí)簇間差別越大,數(shù)據(jù)聚類效果越好。已有的分類方法包括劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法等。


總之,分類是按照某種標(biāo)準(zhǔn)給數(shù)據(jù)貼“標(biāo)簽”,再根據(jù)標(biāo)簽區(qū)分歸類。聚類是事先沒有“標(biāo)簽”而通過分析找出數(shù)據(jù)之間存在聚集性原因的過程(Kantardzic,2011)。分類適合類別或分類體系已經(jīng)確定的場(chǎng)合;聚類適合不存在分類體系、類別數(shù)不確定的場(chǎng)合,一般作為某些應(yīng)用的前端。


三、數(shù)據(jù)分析技術(shù)的選用


我們通過采集和分析本科生個(gè)人相關(guān)信息及在網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)留下的學(xué)習(xí)信息,預(yù)測(cè)學(xué)生在網(wǎng)絡(luò)統(tǒng)考英語課程的前景。由于統(tǒng)考合格是網(wǎng)絡(luò)教育本科生畢業(yè)電子注冊(cè)的必備條件,我們將預(yù)測(cè)的結(jié)果僅定義為“合格”與“不合格”。這屬于數(shù)據(jù)挖掘的數(shù)據(jù)分類問題,本研究將采用基于決策樹的分類方法。


決策樹方法起源于概念學(xué)習(xí)系統(tǒng),就是使用樹的結(jié)構(gòu)對(duì)數(shù)據(jù)進(jìn)行分類,每個(gè)條件下的記錄集就像一棵樹的葉節(jié)點(diǎn)。根據(jù)字段數(shù)據(jù)取值的不同,可以對(duì)決策樹進(jìn)行分支,在決策樹各個(gè)分支的子集中再重復(fù)建立分支和決策樹各下層節(jié)點(diǎn),形成一棵決策樹。目前最有影響的決策樹算法是ID3和C4.5。


ID3主要是選擇運(yùn)用信息最大屬性的增益值來進(jìn)行樣本訓(xùn)練劃分,其目的是能夠使熵在分裂系統(tǒng)時(shí)達(dá)到最小,以此提高決策樹算法的精確度和運(yùn)算速度。ID3算法的缺陷在于運(yùn)用信息增益作為分裂屬性的標(biāo)準(zhǔn),在取值時(shí)會(huì)不自然地偏向于取值較多的屬性,然而大部分情況下,這種屬性不能提供更多有價(jià)值的信息。C4.5是改進(jìn)ID3形成的新算法,它能夠同時(shí)處理連續(xù)值和離散值的屬性。C4.5選擇測(cè)試的標(biāo)準(zhǔn)主要采用信息增益比,這在很大程度上彌補(bǔ)了ID3的不足。


C5.0算法是C4.5算法的修訂版(商業(yè)版),適用于處理大數(shù)據(jù)集,計(jì)算速度快,占用內(nèi)存資源較少。C5.0算法根據(jù)能夠提供最大信息增益的字段劃分樣本,對(duì)第一次劃分出來的子樣本遞歸劃分,直到不能再分為止,最后重新檢查最底層的劃分,去掉貢獻(xiàn)不大的分支,得到最終模型。C5.0可以產(chǎn)生兩種模型:決策樹和規(guī)則集。決策樹由算法劃分樣本直接產(chǎn)生,每個(gè)葉子節(jié)點(diǎn)表示一個(gè)特定的訓(xùn)練數(shù)據(jù)子集,訓(xùn)練數(shù)據(jù)集中的每個(gè)樣本只屬一個(gè)葉子節(jié)點(diǎn)。也就是說,任何一個(gè)給定的樣本通過決策樹只能得到一個(gè)預(yù)測(cè)結(jié)果(Zhu et al.,2009)。


C5.0決策樹分類主要分為兩個(gè)過程。首先是學(xué)習(xí)過程,就是通過對(duì)大量的訓(xùn)練數(shù)據(jù)集學(xué)習(xí)來構(gòu)造決策樹。第二步是利用構(gòu)造的決策樹進(jìn)行分類,先利用測(cè)試數(shù)據(jù)集評(píng)估決策樹分類的準(zhǔn)確率,如果準(zhǔn)確率可以接受,則將生成的決策樹用于新的數(shù)據(jù)分類。本研究采用C5.0為數(shù)據(jù)挖掘的內(nèi)核算法。


四、英語統(tǒng)考成績(jī)預(yù)測(cè)的實(shí)現(xiàn)


依據(jù)上述討論,本研究運(yùn)用數(shù)據(jù)挖掘的數(shù)據(jù)分類技術(shù)實(shí)現(xiàn)網(wǎng)絡(luò)教育本科生英語統(tǒng)考成績(jī)的預(yù)測(cè),歷經(jīng)數(shù)據(jù)提取、數(shù)據(jù)預(yù)處理、決策樹構(gòu)建、決策樹優(yōu)化和預(yù)測(cè)實(shí)現(xiàn)等步驟(見圖1)。

(一)分類規(guī)則構(gòu)建環(huán)境


Clementine是ISL(Integral Solutions Limited)公司開發(fā)的數(shù)據(jù)挖掘工具平臺(tái),SPSS公司收購ISL后,對(duì)Clementine產(chǎn)品進(jìn)行了重新整合和開發(fā)。目前Clementine已經(jīng)成為世界上最常用的數(shù)據(jù)挖掘工具。SPSS和一個(gè)從事數(shù)據(jù)挖掘研究的全球性企業(yè)聯(lián)盟制定了關(guān)于數(shù)據(jù)挖掘技術(shù)的行業(yè)標(biāo)準(zhǔn):CRISP-DM(Cross-Industry Standard Process for Data Min-ing)。與以往僅僅局限在技術(shù)層面的數(shù)據(jù)挖掘方法論不同,CRISP-DM將數(shù)據(jù)挖掘技術(shù)與具體商業(yè)目標(biāo)相結(jié)合,使數(shù)據(jù)挖掘成為商業(yè)過程,并將具體的商業(yè)目標(biāo)映射為數(shù)據(jù)挖掘目標(biāo)(Zhu et al.,2009)。目前世界上50%以上的數(shù)據(jù)挖掘工具均采用CRISP-DM的數(shù)據(jù)挖掘流程。


CRISP-DM的數(shù)據(jù)挖掘流程包含商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建模、模型評(píng)估和結(jié)果部署六個(gè)步驟(SPSS White Paper,2004)。Clementine完全支持CRISP-DM標(biāo)準(zhǔn),其智能預(yù)測(cè)模型有助于快速解決出現(xiàn)的問題。由于其對(duì)商業(yè)目標(biāo)的深入理解,Clementine最后得到的數(shù)據(jù)挖掘結(jié)果的配置非常有效(劉世平等,2003)。本研究選用的分類規(guī)則,即分類決策樹的形成環(huán)境是SPSS的Clementine 12.0。


(二)分類規(guī)則的構(gòu)建及優(yōu)化


在Clementine 12.0中用C5.0算法構(gòu)建英語統(tǒng)考成績(jī)預(yù)測(cè)的分類規(guī)則(即決策樹的形成及優(yōu)化),可分以下七個(gè)步驟。


1.數(shù)據(jù)的提取和預(yù)處理


數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘前的數(shù)據(jù)準(zhǔn)備工作,目的是去除與挖掘目標(biāo)不相關(guān)的數(shù)據(jù)屬性和內(nèi)容,為數(shù)據(jù)挖掘提供干凈、準(zhǔn)確、更有針對(duì)性的數(shù)據(jù),減少挖掘算法的數(shù)據(jù)處理量,提高挖掘效率和最終結(jié)果的準(zhǔn)確度。數(shù)據(jù)預(yù)處理的方法包括數(shù)據(jù)選取、數(shù)據(jù)清理、數(shù)據(jù)屬性取值一致化、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)簡(jiǎn)化等。我們按學(xué)生基本數(shù)據(jù)、學(xué)習(xí)過程和成績(jī)數(shù)據(jù)從數(shù)據(jù)庫中提取已有英語統(tǒng)考成績(jī)學(xué)生的相關(guān)數(shù)據(jù)。由于英語統(tǒng)考學(xué)生在學(xué)習(xí)期間可多次參加考試,為準(zhǔn)確起見,本次只提取首次成績(jī),又考慮到與英語統(tǒng)考結(jié)果關(guān)聯(lián)度較大的相關(guān)數(shù)據(jù)屬性,我們制定了如下數(shù)據(jù)預(yù)處理規(guī)則:


1)由于學(xué)號(hào)和學(xué)生姓名一一對(duì)應(yīng),學(xué)生基本信息保留“學(xué)號(hào)”“性別”“入學(xué)年齡”“生源地”“所屬專業(yè)”5個(gè)屬性。40歲及以上入學(xué)者可免英語統(tǒng)考,故去除入學(xué)年齡>﹦40學(xué)生的所有記錄。


2)學(xué)生成績(jī)數(shù)據(jù)保留“入學(xué)測(cè)試英語”“入學(xué)測(cè)試計(jì)算機(jī)”“入學(xué)測(cè)試高等數(shù)學(xué)”“入學(xué)測(cè)試大學(xué)語文”“大學(xué)英語二”“大學(xué)英語三”“所學(xué)課程平均”“學(xué)位英語”八個(gè)屬性。由于入學(xué)測(cè)試時(shí)高等數(shù)學(xué)和大學(xué)語文分別是理工類和文史類專業(yè)的測(cè)試課程,除這兩個(gè)屬性外,去除其他成績(jī)數(shù)據(jù)空缺的記錄。


3)學(xué)生學(xué)習(xí)過程數(shù)據(jù)合并為“在線學(xué)習(xí)情況”屬性,并根據(jù)平臺(tái)的形成性評(píng)價(jià)系統(tǒng)給出的總成績(jī)按標(biāo)準(zhǔn)化規(guī)則,從高到低以150分制賦值。


4)“統(tǒng)考大學(xué)英語”僅分為“合格”和“不合格”兩個(gè)取值。


我們從江南大學(xué)網(wǎng)絡(luò)教育平臺(tái)數(shù)據(jù)庫中提取本科在籍學(xué)生的數(shù)據(jù)后,按前面所述的數(shù)據(jù)預(yù)處理規(guī)則進(jìn)行相應(yīng)處理,保留了7000條相關(guān)數(shù)據(jù),以Excel數(shù)據(jù)表格形式保存為“江大網(wǎng)絡(luò).xls”。


2.建立Clementine數(shù)據(jù)源


啟動(dòng)Clementine并新建流文件后,選擇界面下部“源”子菜單內(nèi)的“Excel”,將其拖入面板中。雙擊面板中的“Excel”圖標(biāo),在彈出編輯界面中選擇“導(dǎo)入文件”,選擇文件“江大網(wǎng)絡(luò).xls”并導(dǎo)入,面板中圖標(biāo)名稱變?yōu)椤敖缶W(wǎng)絡(luò).xls”。


3.關(guān)聯(lián)數(shù)據(jù)


選擇界面下部“字段選項(xiàng)”子菜單內(nèi)的“類型”,將其拖入面板中。選擇“江大網(wǎng)絡(luò).xls”圖標(biāo),單擊鼠標(biāo)右鍵,選擇“連接”,并連接到“類型”。雙擊“類型”圖標(biāo),在彈出“類型”對(duì)話框中點(diǎn)擊“清除所有值”后,點(diǎn)擊“讀取值”,并在“方向”列表中進(jìn)行屬性方向調(diào)整。其中,由于“學(xué)號(hào)”屬性對(duì)于分類無作用,方向?yàn)椤盁o”;“統(tǒng)考大學(xué)英語”為目標(biāo)分類屬性,方向?yàn)椤拜敵觥?;其他屬性方向均為“輸入”?/p>


4.選擇訓(xùn)練數(shù)據(jù)


1)選擇統(tǒng)考大學(xué)英語成績(jī)?yōu)椤昂细瘛钡臄?shù)據(jù):選擇界面下部“記錄選項(xiàng)”子菜單內(nèi)的“選擇”,將其拖入面板中,并與“類型”圖標(biāo)連接。雙擊“選擇”圖標(biāo),在彈出“選擇”對(duì)話框中,構(gòu)建模式為“包含”,條件為“統(tǒng)考大學(xué)英語=‘合格’”。為了平衡訓(xùn)練數(shù)據(jù)中“合格”比例過大的情況,選擇“記錄選項(xiàng)”子菜單的“樣本”,拖入面板中,并連接到“選擇”圖標(biāo)。雙擊“樣本”圖標(biāo),設(shè)置采樣方法為“簡(jiǎn)單”“樣本”“n中取1”為5(默認(rèn)為2),圖標(biāo)名稱變?yōu)椤叭?5”。


2)選擇統(tǒng)考大學(xué)英語成績(jī)?yōu)椤安缓细瘛钡臄?shù)據(jù):選擇界面下部“記錄選項(xiàng)”子菜單內(nèi)的“選擇”,將其標(biāo),在彈出的“選擇”對(duì)話框中,構(gòu)建模式為“包含”,件為“統(tǒng)考大學(xué)英語=‘不合格’”。


3)數(shù)據(jù)合并:選擇界面下部“記錄選項(xiàng)”子菜單內(nèi)的“合并”,將其拖入面板中,并與“取15”和統(tǒng)考成績(jī)不合格的“選擇”圖標(biāo)同時(shí)連接;雙擊“合并”圖標(biāo),在彈出的對(duì)話框中,設(shè)置“合并方法”為“關(guān)鍵字”,將所有屬性放入合并關(guān)鍵字中,并選擇“包含匹配和不匹配的記錄”。


5.選擇算法并建模


選擇界面下部“字段選項(xiàng)”子菜單內(nèi)的“類型”,將其拖入面板中,并與“合并”圖標(biāo)連接。同時(shí),參照“關(guān)聯(lián)數(shù)據(jù)”步驟,進(jìn)行數(shù)據(jù)清除、讀取和各屬性的方向調(diào)整。選擇界面下部“建?!弊硬藛蝺?nèi)的“C5.0”,將其拖入面板中,并連接到剛建立的“類型”圖標(biāo)。雙擊“C5.0”圖標(biāo),設(shè)置模型名稱為“統(tǒng)考英語預(yù)測(cè)1”,其余設(shè)置均為系統(tǒng)默認(rèn)值。鼠標(biāo)右擊“C5.0”圖標(biāo),選擇“執(zhí)行”,面板右側(cè)分欄出現(xiàn)“統(tǒng)考英語預(yù)測(cè)1”圖標(biāo),建模完成。將“統(tǒng)考英語預(yù)測(cè)1”圖標(biāo)拖入面板中,雙擊該圖標(biāo)可查看建模結(jié)果。


6.模型分析


將“統(tǒng)考英語預(yù)測(cè)1”圖標(biāo)與連接“江大網(wǎng)絡(luò).Xls”的“類型”圖標(biāo)連接,再選擇界面下部“輸出”子菜單內(nèi)的“分析”,將其拖入面板中,與“統(tǒng)考英語預(yù)測(cè)1”圖標(biāo)連接,右擊“分析”圖標(biāo),選擇“運(yùn)行”,可以看到模型輸出結(jié)果與實(shí)際數(shù)值的比較,即模型的準(zhǔn)確度。


7.模型優(yōu)化


通過前述步驟,得到的決策樹由于訓(xùn)練數(shù)據(jù)集包含14個(gè)屬性(學(xué)號(hào)和統(tǒng)考大學(xué)英語除外),顯得較為復(fù)雜,程序?qū)崿F(xiàn)較為困難。鑒于14個(gè)屬性與統(tǒng)考英語成績(jī)關(guān)聯(lián)度有大小之分,在不顯著影響模型準(zhǔn)確度的前提下,我們嘗試逐步去除一些關(guān)聯(lián)度較小的屬性,力求獲得決策樹復(fù)雜度和模型準(zhǔn)確度之間的一個(gè)最佳平衡點(diǎn)。做法為:每次減少屬性后,獲得新的Excel數(shù)據(jù)源,重復(fù)步驟(1)-(6),得到簡(jiǎn)化模型及其準(zhǔn)確度,并與前面的模型比較。歷次屬性去除情況及所得模型的決策樹復(fù)雜度和預(yù)測(cè)準(zhǔn)確度見表一。

從表一可以看出,減少訓(xùn)練數(shù)據(jù)集包含的屬性數(shù)量,所得到的決策樹子節(jié)點(diǎn)數(shù)量相應(yīng)減少,即決策樹子的復(fù)雜度相應(yīng)降低。從減少屬性數(shù)量對(duì)預(yù)測(cè)準(zhǔn)確度的影響看,高等數(shù)學(xué)和大學(xué)語文由于不是所有學(xué)生都參加,應(yīng)與統(tǒng)考英語成績(jī)無關(guān),屬于無關(guān)屬性,去除后預(yù)測(cè)準(zhǔn)確度反而上升。同樣,生源地和所屬專業(yè)也屬于無關(guān)屬性。性別和入學(xué)測(cè)試計(jì)算機(jī)屬相關(guān)屬性,去除后預(yù)測(cè)準(zhǔn)確度下降。從影響程度看,入學(xué)測(cè)試計(jì)算機(jī)屬性更大。因此,綜合考慮模型復(fù)雜度和預(yù)測(cè)準(zhǔn)確度,本研究選擇模型“統(tǒng)考英語預(yù)測(cè)5”為最終結(jié)果。該模型在Clementine中的分類模型流程和所形成的決策樹分別見圖2和圖3。

(三)英語統(tǒng)考成績(jī)預(yù)測(cè)的實(shí)現(xiàn)方法


圖3所示的統(tǒng)考英語預(yù)測(cè)模型,即是所形成決策樹的展開。本研究通過將Clementine 12.0構(gòu)建的基于C5.0算法的分類規(guī)則,即決策樹代碼,轉(zhuǎn)換成可執(zhí)行的程序代碼(其實(shí)就是if-else的嵌套組合),通過PHP中的類方法實(shí)現(xiàn)(Adhatrao et al.,2013)。


江南大學(xué)網(wǎng)絡(luò)教育的教學(xué)教務(wù)管理和學(xué)生學(xué)習(xí)平臺(tái)采用SQL Server為后臺(tái)數(shù)據(jù)庫,所有學(xué)生的相關(guān)信息均存儲(chǔ)在該數(shù)據(jù)庫中。對(duì)于學(xué)生而言,學(xué)號(hào)是其在管理系統(tǒng)中的唯一標(biāo)識(shí),可以通過讀取網(wǎng)頁輸入的學(xué)號(hào)作為查詢條件,通過SQL Query編寫的SQL查詢接口,從數(shù)據(jù)庫中讀出該學(xué)生“入學(xué)年齡”“入學(xué)測(cè)試英語”“入學(xué)測(cè)試計(jì)算機(jī)”“大學(xué)英語二”“大學(xué)英語三”和“學(xué)位英語”的成績(jī),并讀取其所有已學(xué)課程的成績(jī),作平均值處理后形成“所學(xué)課程平均”屬性的數(shù)據(jù);讀取其形成性評(píng)價(jià)系統(tǒng)形成的網(wǎng)上學(xué)習(xí)總成績(jī)并作150分制標(biāo)準(zhǔn)轉(zhuǎn)換后形成“在線學(xué)習(xí)情況”屬性的數(shù)據(jù)。通過在服務(wù)器端運(yùn)行PHP語言實(shí)現(xiàn)的分類規(guī)則腳本程序,我們可以得到該學(xué)生本科英語統(tǒng)考的預(yù)測(cè)結(jié)果。


五、結(jié)果及分析


本研究采用數(shù)據(jù)挖掘分類方法中的C5.0決策樹方法,以江南大學(xué)已參加網(wǎng)絡(luò)教育英語統(tǒng)考學(xué)生的相關(guān)數(shù)據(jù)為訓(xùn)練數(shù)據(jù),在SPSS的Clementine 12.0數(shù)據(jù)挖掘環(huán)境中,通過對(duì)相關(guān)屬性的不斷精簡(jiǎn),最終構(gòu)建了網(wǎng)絡(luò)教育本科英語統(tǒng)考成績(jī)的預(yù)測(cè)模型。該模型以“入學(xué)測(cè)試英語”“入學(xué)測(cè)試計(jì)算機(jī)”“大學(xué)英語二”“大學(xué)英語三”“已學(xué)課程平均”“在線學(xué)習(xí)情況”“學(xué)位英語”七個(gè)屬性為決策樹的形成因素,構(gòu)建的決策樹包含22個(gè)子節(jié)點(diǎn),深度為7,預(yù)測(cè)的準(zhǔn)確度為80.84%。


Clementine環(huán)境中形成決策樹時(shí)獲得各屬性的重要性可以通過雙擊圖2中的“統(tǒng)考英語預(yù)測(cè)5”圖標(biāo)得到(見圖4)?!皩W(xué)位英語”對(duì)統(tǒng)考英語成績(jī)預(yù)測(cè)的重要性最大。究其原因,主要是兩者的考試要求較為接近,考試的題型和題量基本相同。學(xué)士學(xué)位的獲得比畢業(yè)要求更高。單純從考試難度而言,學(xué)位英語的難度要略高于統(tǒng)考英語。而從考試的形式而論,英語統(tǒng)考是完全基于在線題庫的全機(jī)考模式,學(xué)位英語是傳統(tǒng)的試卷筆試模式,并且有一定的考試范圍。對(duì)于成人學(xué)生而言,更加適應(yīng)傳統(tǒng)的筆試模式。因此綜合相比,兩者的考試難度相當(dāng)。如果達(dá)到了學(xué)位英語考試的要求,說明學(xué)生的英語總體水平上了一個(gè)臺(tái)階,英語統(tǒng)考通過的可能性自然增加。

網(wǎng)絡(luò)教育學(xué)生主要通過在線學(xué)習(xí)的形式完成課程學(xué)習(xí),達(dá)到學(xué)習(xí)目標(biāo)。學(xué)生的在線學(xué)習(xí)情況直接反映了學(xué)生平時(shí)學(xué)習(xí)的狀態(tài)和態(tài)度,“在線學(xué)習(xí)情況”成績(jī)好,說明學(xué)生平時(shí)學(xué)習(xí)態(tài)度比較認(rèn)真,堅(jiān)持網(wǎng)絡(luò)學(xué)習(xí),各項(xiàng)學(xué)習(xí)任務(wù)能按時(shí)按要求完成,英語統(tǒng)考通過的可能性就高。因此,在線學(xué)習(xí)情況對(duì)英語統(tǒng)考成績(jī)預(yù)測(cè)的重要性占第二位是合理的。


“大學(xué)英語三”和“大學(xué)英語二”是網(wǎng)絡(luò)教育本科學(xué)生的兩門英語課程。其中,“大學(xué)英語三”的課程要求與英語統(tǒng)考的考試大綱要求更為接近,兩者對(duì)英語單詞、語法、聽力、翻譯和寫作等分項(xiàng)的具體要求類似;而“大學(xué)英語二”的課程要求要低于英語統(tǒng)考。英語課程的學(xué)習(xí)是學(xué)生提高英語水平和通過英語統(tǒng)考的先決基礎(chǔ)條件,因而“大學(xué)英語三”和“大學(xué)英語二”對(duì)英語統(tǒng)考成績(jī)預(yù)測(cè)的重要性排在第三位和第五位是可以理解的。通過一系列恰當(dāng)?shù)拇胧┯行岣摺按髮W(xué)英語三”和“大學(xué)英語二”的學(xué)習(xí)效率和效果,尤其是前者對(duì)學(xué)生提高英語水平和英語統(tǒng)考的通過率意義深遠(yuǎn)。


在所有關(guān)聯(lián)屬性中,“已學(xué)課程平均成績(jī)”的重要性排在第四位。該屬性反映了學(xué)生網(wǎng)絡(luò)學(xué)習(xí)的最終效果。學(xué)生平時(shí)學(xué)習(xí)堅(jiān)持得好,投入的時(shí)間和精力多,課程的平均成績(jī)自然就好。與其相對(duì)應(yīng),學(xué)生投入英語學(xué)習(xí)的時(shí)間也就相應(yīng)增多。這直接關(guān)系到英語的學(xué)習(xí)效果,最終影響英語統(tǒng)考的成績(jī)。


“入學(xué)測(cè)試大學(xué)英語”是試點(diǎn)高校針對(duì)就讀學(xué)歷教育學(xué)生入學(xué)組織的英語基礎(chǔ)水平測(cè)試,其成績(jī)反映了學(xué)生入學(xué)前的英語基礎(chǔ)水平,是后續(xù)英語學(xué)習(xí)的基礎(chǔ),對(duì)于預(yù)測(cè)學(xué)生入學(xué)后的英語學(xué)習(xí)成績(jī)有一定的重要性,但不是關(guān)鍵因素,因?yàn)樗c后續(xù)學(xué)習(xí)情況關(guān)聯(lián)度更高。


“入學(xué)測(cè)試計(jì)算機(jī)”的成績(jī)直接反應(yīng)了學(xué)生入學(xué)前的計(jì)算機(jī)應(yīng)用水平。因?yàn)榫W(wǎng)絡(luò)學(xué)習(xí)主要是通過計(jì)算機(jī)網(wǎng)絡(luò)進(jìn)行課件學(xué)習(xí)、完成各類學(xué)習(xí)任務(wù)、參與學(xué)習(xí)討論和疑難問題解決等學(xué)習(xí)主要環(huán)節(jié);英語統(tǒng)考的完成也需具備一定的計(jì)算機(jī)應(yīng)用能力。因此,計(jì)算機(jī)應(yīng)用水平對(duì)日常學(xué)習(xí)和英語統(tǒng)考的通過率具有一定影響,這是該屬性對(duì)英語統(tǒng)考預(yù)測(cè)具有一定關(guān)聯(lián)度的原因所在。


綜上所述,英語統(tǒng)考成績(jī)是對(duì)網(wǎng)絡(luò)教育本科學(xué)生英語學(xué)習(xí)效果的最終考核。我們所選取用于生成預(yù)測(cè)結(jié)果的七個(gè)屬性中,“入學(xué)測(cè)試英語”和“入學(xué)測(cè)試計(jì)算機(jī)”分別代表了學(xué)生的學(xué)習(xí)基礎(chǔ);“在線學(xué)習(xí)情況”和“所學(xué)課程平均成績(jī)”分別代表了學(xué)生的學(xué)習(xí)狀態(tài)和整體學(xué)習(xí)效果;“大學(xué)英語二”和“大學(xué)英語三”是學(xué)生英語學(xué)習(xí)的階段性結(jié)果;“學(xué)位英語”是與英語統(tǒng)考同等重要的英語學(xué)習(xí)最終考核;將這七個(gè)屬性作為英語統(tǒng)考的預(yù)測(cè)依據(jù)是合理的。


除了兩個(gè)代表學(xué)生基礎(chǔ)的屬性外,另外五個(gè)屬性都是通過具體的學(xué)習(xí)過程形成的。通過最終的英語統(tǒng)考預(yù)測(cè)結(jié)果可以分析出學(xué)生在整個(gè)英語學(xué)習(xí)過程中的薄弱階段,從而進(jìn)一步分析決定學(xué)生英語學(xué)習(xí)各階段學(xué)習(xí)效果的學(xué)習(xí)行為,如網(wǎng)上學(xué)習(xí)的參與度、網(wǎng)絡(luò)學(xué)習(xí)次數(shù)、網(wǎng)絡(luò)學(xué)習(xí)時(shí)長(zhǎng)、網(wǎng)上提交作業(yè)情況、網(wǎng)上交互討論情況、學(xué)生前期考試行為等。通過對(duì)這些學(xué)習(xí)行為的統(tǒng)計(jì)、干預(yù)和預(yù)警提醒,同時(shí),采取一系列有效的措施,特別是提高和完善對(duì)學(xué)生的教學(xué)管理、學(xué)習(xí)指導(dǎo)和支持服務(wù),激發(fā)學(xué)生網(wǎng)絡(luò)學(xué)習(xí)的自覺性,可以提高在線學(xué)習(xí)效率和效果,提升學(xué)生各階段性結(jié)果的成績(jī),最終提高英語統(tǒng)考通過率。而這也正是我們后續(xù)研究的重點(diǎn)。


隨著我國(guó)網(wǎng)絡(luò)教育的深入發(fā)展,個(gè)性化學(xué)習(xí)支持服務(wù)正越來越被重視和研究,各類應(yīng)用系統(tǒng)也正在逐步進(jìn)入開發(fā)和應(yīng)用階段(顧小清等,2012;吳永和等,2013)。個(gè)性化學(xué)習(xí)支持服務(wù)即運(yùn)用數(shù)據(jù)挖掘和數(shù)據(jù)分析技術(shù),依據(jù)網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)已有的大量數(shù)據(jù),關(guān)注學(xué)習(xí)者的學(xué)習(xí)背景、學(xué)習(xí)習(xí)慣、學(xué)習(xí)興趣和學(xué)習(xí)關(guān)注度等個(gè)性化因素與其學(xué)習(xí)效果的關(guān)聯(lián)度,對(duì)學(xué)習(xí)者網(wǎng)絡(luò)學(xué)習(xí)過程的主要環(huán)節(jié)進(jìn)行個(gè)性化提醒、學(xué)習(xí)指導(dǎo)、學(xué)習(xí)資源和學(xué)習(xí)方法推薦等學(xué)習(xí)支持服務(wù)。本研究所形成的學(xué)生網(wǎng)絡(luò)教育英語統(tǒng)考成績(jī)的預(yù)測(cè)結(jié)果可以作為學(xué)生英語學(xué)習(xí)和統(tǒng)考輔導(dǎo)的個(gè)性化服務(wù)依據(jù)。


作者簡(jiǎn)介:孫力,博士,江南大學(xué)人文學(xué)院教授,繼續(xù)教育與網(wǎng)絡(luò)教育學(xué)院副院長(zhǎng),研究方向:網(wǎng)絡(luò)教育系統(tǒng)的構(gòu)建及開發(fā)(lisun@jiangnan.edu.cn);程玉霞,江南大學(xué)人文學(xué)院碩士研究生。

轉(zhuǎn)載自:《開放教育研究》雜志2015年6月第21卷第3期

 


本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
電信業(yè)如何應(yīng)用數(shù)據(jù)挖掘
教育數(shù)據(jù)挖掘相關(guān)分析初探 參考論文
SPSS Clementine 數(shù)據(jù)挖掘入門 (1)
空間數(shù)據(jù)挖掘簡(jiǎn)單介紹
合理選擇數(shù)據(jù)挖掘工具
網(wǎng)絡(luò)信息挖掘系統(tǒng)評(píng)價(jià)初探
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服