(一)研制背景
國內(nèi)外學(xué)術(shù)界存在的學(xué)術(shù)誠信危機(jī)現(xiàn)現(xiàn)象
近年來惡劣學(xué)術(shù)不端事件時有發(fā)生,給整個學(xué)術(shù)界的聲譽(yù)造成了極壞的影響。學(xué)術(shù)界長期形成的科學(xué)、誠實、追求真理的象牙之塔的形象受到社會大眾的質(zhì)疑。有人認(rèn)為學(xué)術(shù)界本來是社會道德的最后一道防線,可惜,現(xiàn)在這最后一道防線已經(jīng)被攻破,學(xué)術(shù)界面臨前所未有的學(xué)術(shù)誠信危機(jī)。
清華大學(xué)***教授偽造個人學(xué)術(shù)成果、北京大學(xué)***教授著作涉嫌抄襲他人作品、中國政法大學(xué)***教授涉嫌論文抄襲以及漢芯偽造研究成果等媒體曝光事件,無不撕扯著學(xué)人們的脆弱的心。這些事件不但發(fā)生在學(xué)界,而且涉及全國最著名的學(xué)術(shù)研究機(jī)構(gòu),有的甚至涉及科學(xué)院、工程院院士,經(jīng)媒體報道后,產(chǎn)生的殺傷力是可想而知的。同時,人們還一致認(rèn)可這樣的觀點(diǎn),即目前曝光的只是冰山的一角。
學(xué)術(shù)不端的問題不僅在中國,在世界范圍內(nèi),同樣是一個令學(xué)界頭痛不已的學(xué)界“腫瘤”。如2002年曝光的簡•亨德里克•舍恩造假事件[1], 簡•亨德里克•舍恩在世界著名的貝爾實驗室工作,他先后在《科學(xué)》和《自然》等世界第一流學(xué)術(shù)期刊上發(fā)表十幾篇論文,被認(rèn)為是未來的諾貝爾獎得主。然而同行們卻無法重復(fù)他的實驗結(jié)果,因為他實質(zhì)上是個造假天才。
還有大家都知道的“韓國黃禹錫造假事件”。韓國首爾大學(xué)教授黃禹錫及其合作者在“干細(xì)胞”研究中存在假造論文,編造實驗結(jié)果等問題,結(jié)果名譽(yù)掃地,最終被撤銷教授職務(wù)并辭退。
學(xué)術(shù)誠信引起各國政府及管理部門的高度關(guān)注
為了能有一個良好的學(xué)術(shù)環(huán)境,學(xué)術(shù)界已經(jīng)開始行動,同時也引起國際國內(nèi)有關(guān)政府部門的高度關(guān)注。世界主要學(xué)術(shù)大國或大的學(xué)術(shù)機(jī)構(gòu)大都成立了有關(guān)科研誠信的管理機(jī)構(gòu)。如美國的NSF。我國科技部于2006年發(fā)布11號部長令,2007年在科技部成立“科研誠信管理辦公室”??萍疾柯?lián)合教育部、中國科學(xué)院、中國工程院、國家自然科學(xué)基金委員會、中國科學(xué)技術(shù)協(xié)會等部門,成立科研誠信建設(shè)聯(lián)席會議及科研誠信咨詢委員會。
教育部發(fā)布了《關(guān)于加強(qiáng)高等學(xué)校學(xué)術(shù)道德建設(shè)的意見》、《關(guān)于樹立社會主義榮辱觀,進(jìn)一步加強(qiáng)學(xué)術(shù)道德建設(shè)若干意見》等一系列文件??茖W(xué)院與工程院分別發(fā)布了院士科研道德自律行為準(zhǔn)則。2005年3月,國家自然科學(xué)基金委監(jiān)督委員會發(fā)布了《對科學(xué)基金資助工作中不端行為的處理辦法(試行)》。
學(xué)術(shù)不端行為涉及到學(xué)術(shù)活動的全過程,包括學(xué)術(shù)研究、學(xué)術(shù)出版、項目申報、成果鑒定、職稱評定、研究生培養(yǎng)等諸多環(huán)節(jié)。目前,在世界范圍來看,發(fā)現(xiàn)與規(guī)范學(xué)術(shù)不端現(xiàn)象,主要還是靠教育與個人舉報,缺乏有效的技術(shù)輔助手段,同時由于涉及到各種復(fù)雜的經(jīng)濟(jì)利益,導(dǎo)致往往投入巨大,成果甚微,甚至于出現(xiàn)“愈演愈烈”的趨勢。無論是期刊出版界、大學(xué)、研究院所、還是出版主管部門、科研主管部門、教育主管部門都迫切需要一個高效的技術(shù)措施來幫助管理部門來檢查與懲治學(xué)術(shù)不端現(xiàn)象。
博士、碩士研究生教育是培養(yǎng)高層次科技人才的重要手段。研究生的教育質(zhì)量是關(guān)系到科教興國戰(zhàn)略能否得到實施的關(guān)鍵。十年樹木,百年樹人。要想從根本上遏制學(xué)術(shù)不端行為,還要從學(xué)生時代樹立正確的科學(xué)觀與誠信觀。目前,研究生培養(yǎng)過程中存在的學(xué)術(shù)不端行為異常嚴(yán)重,卻未能得到有關(guān)方面的高度重視。在”愛護(hù)與保護(hù)”的帽子下,使得研究生培養(yǎng)中的誠信問題越演越烈。千里之堤,潰于蟻穴。建筑科研誠信的萬里長城,必須從研究生乃至大學(xué)生教育開始。 研究生培養(yǎng)中涉及到學(xué)術(shù)不端行為的主要方面。如期刊論文發(fā)表、學(xué)術(shù)會議論文、參加科研項目,最后學(xué)位論文撰寫與答辯等過程。在這些環(huán)節(jié)中都涉及到各種誠信問題。
遏制學(xué)術(shù)不端行為的有效措施
學(xué)術(shù)文獻(xiàn)不端現(xiàn)象是重要的學(xué)術(shù)不端行為之一,文本復(fù)制(抄襲)是學(xué)術(shù)不端文獻(xiàn)的重要特征。在上世紀(jì)70年代,就已經(jīng)開始計算機(jī)程序復(fù)制的檢測研究工作。90年代后,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,信息內(nèi)容迅速增多,復(fù)制粘貼變得越來越容易與普遍。隨著內(nèi)容管理與版權(quán)保護(hù)的需要,文本復(fù)制的檢測研究也得到進(jìn)一步發(fā)展,陸續(xù)提出數(shù)字指紋、VSM等檢測方法[2]。目前國外已經(jīng)有一些系統(tǒng)在提供使用。如論文作業(yè)抄襲檢查平臺TurnItIn,由 iParadigms開發(fā),已經(jīng)應(yīng)用于多所高校及科研機(jī)構(gòu),包括美國加州大學(xué)伯克利分校、杜克大學(xué)、德國漢堡大學(xué)等。 由CrossRef與iParadigms共同開發(fā)的抄襲檢測平臺CrossCheck,于2008年6月19日正式啟動。 Thomson和Elsvier宣布將應(yīng)用CrossCheck進(jìn)行投稿論文檢測。加拿大Sciworth公司開發(fā)的MyDropBox,提供學(xué)生作業(yè)抄襲檢測服務(wù)。MyDropBox使用Microsoft搜索技術(shù),可以檢測互聯(lián)網(wǎng)資源、可公共存取的部分?jǐn)?shù)據(jù)庫資源(PubMed、FindArticles等)以及機(jī)構(gòu)內(nèi)部文檔[3]。
中國學(xué)術(shù)“學(xué)位論文學(xué)術(shù)不端行為檢測系統(tǒng)”
中國學(xué)術(shù)從2006年開始正式立項研發(fā)學(xué)術(shù)不端文獻(xiàn)檢測系統(tǒng)。在三年的工作中,歷經(jīng)算法研究、原型系統(tǒng)開發(fā)、大規(guī)模數(shù)據(jù)測試、性能測試、系統(tǒng)集成測試等多個階段的艱苦工作,目前已經(jīng)達(dá)到大規(guī)模實用化的成熟程度。
(二)研發(fā)目標(biāo)與要求
定義
“學(xué)位論文學(xué)術(shù)不端行為檢測系統(tǒng)”(簡稱“TMLC”)主要為檢測研究生培養(yǎng)過程中,研究生學(xué)術(shù)論文發(fā)表及學(xué)位論文中出現(xiàn)的不端行為提供輔助工具。
研發(fā)目標(biāo)
研究生培養(yǎng)階段是學(xué)術(shù)不端行為的第一次誘發(fā)期與躁動期。在這一時期,一方面要對其加強(qiáng)科研誠信教育,同時采取技術(shù)措施對非誠信行為進(jìn)行監(jiān)督,將不良的學(xué)術(shù)風(fēng)氣扼殺在搖籃之中,不僅對于提高研究生培養(yǎng)質(zhì)量,而且對于整過學(xué)術(shù)環(huán)境的凈化都會起到根本性的作用。如果不能從研究生培養(yǎng)環(huán)節(jié)遏制學(xué)術(shù)不端行為,大批帶有不端治學(xué)態(tài)度的研究生畢業(yè)后,不斷涌入各級研究機(jī)構(gòu),不端行為就將形成“長江之水,滔滔不絕”,就不能從根本上扭轉(zhuǎn)不端行為不斷惡化的事態(tài)。
TMLC系統(tǒng)要能夠達(dá)到實用化要求,還必須要滿足以下條件:
1、比對庫及資源范圍廣
TMLC系統(tǒng)的檢測范圍要能夠基本完整覆蓋中文科技學(xué)術(shù)文獻(xiàn)。TMLC系統(tǒng)比對庫的完整性是其能夠?qū)嵱没幕颈U稀M暾圆粌H表現(xiàn)在僅僅收錄學(xué)位論文的全面,并且還要盡可能涉及學(xué)術(shù)文獻(xiàn)其他領(lǐng)域,比如科技期刊、會議、報紙、、專利、標(biāo)準(zhǔn)等文獻(xiàn)資源,并且還要求有較長時間階段的回溯。否則,無法對檢測結(jié)果做出正確有效的判斷與決策。
2、檢測識別精準(zhǔn)快捷
TMLC系統(tǒng)要有較高的不端文獻(xiàn)識別能力。對于各種不端文獻(xiàn)類型均有較好的分辨能力。檢測能力與水平是TMLC實用的關(guān)鍵。存在不端問題的文獻(xiàn)一定要能夠檢測出來,同時不能誤檢出大量沒有問題的文獻(xiàn)。即要有較高的檢測正確率與較低的誤檢率。
3、實現(xiàn)全文比對
TMLC必須能夠支持全文比對。幾乎所有國外有關(guān)檢測系統(tǒng)只進(jìn)行題錄摘要層次的檢測,但科技成果最終的體現(xiàn)表現(xiàn)在文獻(xiàn)的文字闡述當(dāng)中,如果實現(xiàn)全文比對,則能更加精準(zhǔn)判斷學(xué)術(shù)不端現(xiàn)象,才能達(dá)到大規(guī)模實用的要求。
4、支持線上實時檢測
TMLC系統(tǒng)要能夠進(jìn)行在線實時檢測。即系統(tǒng)要有較好的技術(shù)性能。鑒于檢測需要進(jìn)行大量的運(yùn)算,國際上已有檢測系統(tǒng)一般對實時檢測大都支持的不好,尤其在文章較長時更是如此。TMLC系統(tǒng)要能夠同時支持待檢超長文獻(xiàn)檢測與超長文獻(xiàn)進(jìn)入比對數(shù)據(jù)庫。
(三)學(xué)術(shù)不端文獻(xiàn)分類
學(xué)術(shù)不端行為的劃分是一個政策性極強(qiáng)的工作,同時也涉及許多法律問題。迄今位置,國內(nèi)外還沒有一個被廣泛接受的標(biāo)準(zhǔn)。
我國學(xué)術(shù)不端行為的表現(xiàn)形式(此處列出中國科協(xié)科技工作者道德與權(quán)益工作委員會提出的我國學(xué)術(shù)不端行為的七種表現(xiàn)形式,以供參考)
*抄襲剽竊他人成果。
*偽造篡改實驗數(shù)據(jù)。
*隨意侵占他人科研成果。
*重復(fù)發(fā)表論文。
*學(xué)術(shù)論文質(zhì)量降低和育人的不負(fù)責(zé)任。
*學(xué)術(shù)評審和項目申報中突出個人利益。
*過分追求名利和助長浮躁之風(fēng)。
學(xué)術(shù)文獻(xiàn)不端行為具體表現(xiàn)形式
實際上,學(xué)術(shù)不端行為存在于學(xué)術(shù)活動的全過程。學(xué)術(shù)文獻(xiàn)出版中的不端學(xué)術(shù)文獻(xiàn)由于其公開性,被廣泛傳播,以及發(fā)表后可能會引展出的一系列問題,使其與其他不端類型相比,更尤其嚴(yán)重。學(xué)術(shù)不端文獻(xiàn)的特征分析是其計算機(jī)自動檢測的基礎(chǔ)。學(xué)術(shù)期刊論文發(fā)表中學(xué)術(shù)不端文獻(xiàn)可以大致分為以下五種:
*抄襲
*一稿多投
*一個學(xué)術(shù)成果多篇發(fā)表
*不當(dāng)署名
*偽造、篡改。
1. 抄襲
《辭?!逢P(guān)于抄襲解釋:“竊取別人的文章以為己作”。關(guān)于剽竊的解釋為:“抄襲,竊取他人的文字以為己作”??梢?,抄襲與剽竊為同義語。通常認(rèn)為學(xué)術(shù)抄襲就是:使用他人作品的內(nèi)容而“不注明來源”,即不承認(rèn)該內(nèi)容來源于他人的作品,而把他人作品的內(nèi)容據(jù)為已有??梢钥闯觯u是一種復(fù)制行為,然而復(fù)制不都構(gòu)成抄襲。如合法的轉(zhuǎn)載不能認(rèn)為是抄襲。
是否注明來源就不構(gòu)成抄襲呢?世界各國著作權(quán)法中都規(guī)定了合理引用的權(quán)利。如為評論而引用有版權(quán)的作品視為合理引用。我國著作權(quán)法規(guī)定:“為介紹、評論某一作品或者說明某一問題,在作品中適當(dāng)引用他人已經(jīng)發(fā)表的作品”視為合理使用。王毅在《論抄襲的認(rèn)定》[4]一文中指出“合理性”的三個重要特征:“新作必須區(qū)別于原作”;“新作必須獨(dú)立于原作”;“原作的引用必須適宜于新作”。
有的文獻(xiàn)大段大段的復(fù)制別人的內(nèi)容,雖注明了出處,是否不構(gòu)成抄襲?然而目前未有關(guān)于引用數(shù)量的一致意見。據(jù)國外專家介紹,對于期刊論文,認(rèn)為有超過10%的內(nèi)容相同,即構(gòu)成抄襲。還有專家要求更嚴(yán),甚至不能有完全相同的句子。根據(jù)我國的實際情況以及中文的特點(diǎn),我們認(rèn)為以期刊論文為例,如有30%以上的文字復(fù)制可以認(rèn)定為抄襲。
為便于識別抄襲,我們從抄襲的形式上可以將其進(jìn)一步分類。如可以分為文字抄襲與非文字抄襲。文字抄襲,就是拷貝粘貼別人作品的文字內(nèi)容。非文字抄襲又可分為思想性抄襲與數(shù)據(jù)圖表抄襲。抄襲別人的論點(diǎn)、概念、原理、方案等都屬于思想性抄襲。根據(jù)抄襲來源可以分為只抄襲一篇文章的單源抄襲與從多篇文章中拼湊的多源抄襲。根據(jù)抄襲段落的特點(diǎn)可以分為抄襲同一段落的單段抄襲與抄襲多個段落的多段抄襲。
抄襲有一個很有趣的現(xiàn)象,就是被抄襲源有時也是抄來的,因此有時需要追根溯源,才能查到抄襲源頭。有時會發(fā)現(xiàn)正常引用的文獻(xiàn)卻是抄襲來的。 還有一種情況是自我抄襲。在學(xué)術(shù)文獻(xiàn)中,存在大量學(xué)者在自己的文章中大量復(fù)制自己其他文章中的內(nèi)容。自我抄襲應(yīng)引起足夠的重視。
2. 一稿多投
同一作者將同一篇論文投給兩家或兩家以上學(xué)術(shù)刊物同時發(fā)表或先后發(fā)表稱為一稿多投。一稿多投浪費(fèi)了有限的出版資源、編輯與審稿專家的寶貴時間,違反了學(xué)術(shù)傳統(tǒng),侵害了期刊社的專有出版權(quán)。同時也損害了期刊的聲譽(yù)與讀者的利益。
由于作者與編輯部之間的溝通問題,導(dǎo)致完全相同的文章,幾乎相同時間在不同的媒體上重復(fù)發(fā)表是一種客觀的一稿多投??陀^的一稿多投雖然其主觀惡意較少,但不容忽視。
作者由于追求發(fā)表量而故意一稿多投是一種主觀的一稿多投行為。其特點(diǎn)為:內(nèi)容大部分相同,只有局部不同,如行文次序調(diào)整,或文章名稱略有不同,在不同媒體上重復(fù)發(fā)表。
判斷一稿多投的基礎(chǔ)是能夠確定作者是相同或是不同的。只有相同的作者才有一稿多投問題,否則就是抄襲。
3. 一個學(xué)術(shù)成果多篇發(fā)表
一個學(xué)術(shù)成果多篇發(fā)表是指將一篇論文拆成幾篇發(fā)表、一次性成果多次反復(fù)使用、同一成果被拆分成多篇文章發(fā)表、同一實驗被分成多種角度闡發(fā)。其主要特點(diǎn)是作者相同,多篇文章主題完全相同,內(nèi)容大部分重復(fù),只有少部分不同。 一個學(xué)術(shù)成果多篇發(fā)表是作者過度追求發(fā)文量的必然結(jié)果。其結(jié)果是既降低了學(xué)術(shù)質(zhì)量,也損害了讀者的利益。
4. 不當(dāng)署名
在他人作品上署名。包括故意署名與被動署名兩種情況。前者是署名者未參加有關(guān)研究工作卻為了某種目的故意在別人作品上署名,或侵占他人成果,使應(yīng)該署名者不能署名或署名靠后,或提高署名者的成果數(shù)量。后者是指原作者為了提高作品的評價或發(fā)表機(jī)會擅自在作品上署上知名作者的姓名。
不當(dāng)署名情況相當(dāng)嚴(yán)重,然而目前卻缺少很好的技術(shù)手段精確檢測。目前TMLC系統(tǒng)對前三種情況均可以較好的處理,但對于不當(dāng)署名還只能提供一些線索供參考。
不當(dāng)署名的存在有其復(fù)雜的社會因素。如導(dǎo)師在學(xué)生的成果上署名,領(lǐng)導(dǎo)在下屬的成果上署名,集體成果的署名等,有時就連專家也難以判定。
5. 偽造、篡改
偽造就是不以實際觀察和試驗中取得的真實數(shù)據(jù)為依據(jù),偽造虛假的觀察與實驗結(jié)果。包括偽造研究數(shù)據(jù),研究結(jié)果。比如虛構(gòu)發(fā)表作品、專利、成果。為了提高文章發(fā)表機(jī)會甚至有人偽造論文獲得國家重點(diǎn)基金資助。
篡改指科研人員在取得試驗數(shù)據(jù)后,按照期望值隨意篡改或取舍數(shù)據(jù),以符合自己的研究結(jié)論,一般有主觀取舍數(shù)據(jù)和篡改原始數(shù)據(jù)等形式。
偽造與篡改目前還難以用計算機(jī)來自動檢測。
學(xué)位論文學(xué)術(shù)不端行為具體表現(xiàn)形式
學(xué)位論文本身主要的問題在抄襲、偽造與篡改,沒有一稿多投、一個學(xué)術(shù)成果多篇發(fā)表、不當(dāng)署名等問題。但通常,作為學(xué)位論文工作的一部分,許多學(xué)生還被要求發(fā)表若干期刊文章,才能獲得學(xué)位。因此,一個全面的學(xué)位論文的檢測工作還必須包括有關(guān)的期刊文獻(xiàn)的檢測。
(四)TMLC系統(tǒng)主要建設(shè)任務(wù)
TMLC系統(tǒng)建設(shè)是一個系統(tǒng)工程,涉及檢測方法設(shè)計、比對數(shù)據(jù)庫建設(shè)、規(guī)范數(shù)據(jù)庫建設(shè)、大規(guī)模數(shù)據(jù)測試、系統(tǒng)性能測試等多個環(huán)節(jié)。
檢測系統(tǒng)框架建設(shè)
系統(tǒng)主要包括比對數(shù)據(jù)庫、事實數(shù)據(jù)庫庫、復(fù)制檢測器、事實分析器四個部分。一篇待檢測文章提交到系統(tǒng)后,首先由復(fù)制檢測器分析,并將分析結(jié)果與比對數(shù)據(jù)庫中的已有文檔進(jìn)行文字比對,對于文字復(fù)制比例大的可疑文章,再利用事實分析器進(jìn)行作者、機(jī)構(gòu)、基金、參考文獻(xiàn)等事實的核查分析。最后由專家對機(jī)器檢測的情況進(jìn)行審核并給出最終檢測報告。
比對數(shù)據(jù)庫建設(shè)
比對數(shù)據(jù)庫是TMLC系統(tǒng)的基礎(chǔ)與核心。一個完善的比對數(shù)據(jù)庫有如下要求:
首先,元數(shù)據(jù)必須全面完整。文獻(xiàn)數(shù)據(jù)收錄的文獻(xiàn)要盡可能的全,著錄信息完整,如準(zhǔn)確的作者、機(jī)構(gòu)、出版時間等。
其次,比對數(shù)據(jù)庫必須是全文數(shù)據(jù)(文本數(shù)字化),否則無法做到全文抄襲比對檢測。
第三,更新必須及時。如果新文獻(xiàn)更新滯后時間過長,就無法保證檢測結(jié)果的正確性。
規(guī)范文檔事實數(shù)據(jù)庫建設(shè)
無論是抄襲、一稿多投,還是不當(dāng)署名、一個成果多次發(fā)表都需要嚴(yán)格界定作者的身份,因此,學(xué)者規(guī)范事實數(shù)據(jù)庫就成為不端文獻(xiàn)檢測系統(tǒng)的不可或缺的重要資源。它用于確認(rèn)作者唯一性,甄別自抄、抄襲等。
由于存在機(jī)構(gòu)改名、更名、合并等多種復(fù)雜的機(jī)構(gòu)變更情況,因此必須要有機(jī)構(gòu)規(guī)范數(shù)據(jù)庫用于確認(rèn)成果歸屬,確認(rèn)作者。同樣,出版物規(guī)范數(shù)據(jù)庫可以很好的處理期刊更名、改名、合并等情況,確認(rèn)引用關(guān)系。通過引文數(shù)據(jù)的規(guī)范,進(jìn)而可以用于區(qū)分引用性復(fù)制與抄襲。
規(guī)范文檔事實數(shù)據(jù)庫可以廣泛應(yīng)用于評獎、評價、鑒定、項目驗收、項目申報、論文發(fā)表等各個方面的相關(guān)審核工作。
中國學(xué)術(shù)的工作基礎(chǔ)
中國學(xué)術(shù)經(jīng)過多年的努力工作,完成了中國學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)出版總庫建設(shè)。建成《中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫》(從1915-今,7000種期刊),《中國優(yōu)秀博碩士學(xué)位論文數(shù)據(jù)庫》,《中國重要會議論文數(shù)據(jù)庫》,《中國重要報紙數(shù)據(jù)庫》,《中國專利數(shù)據(jù)庫》,《中國標(biāo)準(zhǔn)數(shù)據(jù)庫》,《中國科技成果數(shù)據(jù)庫》,《中國工具書數(shù)據(jù)庫》等。超過5000萬數(shù)據(jù)。
同時,已初步建成事實規(guī)范數(shù)據(jù)庫。完成中國科研機(jī)構(gòu)名稱規(guī)范數(shù)據(jù)庫(70萬),作者名稱規(guī)范數(shù)據(jù)庫(300多萬),期刊信息規(guī)范數(shù)據(jù)庫(9000)。
(五)TMLC系統(tǒng)主要檢測指標(biāo)
學(xué)位論文一般文獻(xiàn)篇幅較大,字?jǐn)?shù)多,碩士論文一般為4~5萬字,博士論文則多達(dá)十幾萬字。為了便于快速準(zhǔn)確的分析待檢文獻(xiàn)與比對文獻(xiàn)的復(fù)制關(guān)系。系統(tǒng)設(shè)計了多個檢測指標(biāo),這些指標(biāo)從多個角度反映文字復(fù)制的特征,供專家審核參考。
總檢測指標(biāo)
總重合字?jǐn)?shù)(CCA)
總文字復(fù)制比(TTR)
總文字?jǐn)?shù)(TCA)
疑似章節(jié)數(shù)(QCA)
總章節(jié)數(shù)(TCA)
首部重合文字?jǐn)?shù)(HCCA)
尾部重合文字?jǐn)?shù)(ECCA)
子檢測指標(biāo)
對于學(xué)位論文的每一章節(jié),又制定了如下檢測指標(biāo)來反映該章節(jié)的檢測情況,對于一篇學(xué)位論文來說,每一章的內(nèi)容各異,重點(diǎn)也不一樣,其核心工作內(nèi)容一般主要存在某幾章中,子檢測指標(biāo)可以讓用戶迅速了解每一章節(jié)的檢測情況。子檢測指標(biāo)包括:
文字復(fù)制比(TR)
重合字?jǐn)?shù)(CNW)
最大段長(LPL)
平均段長(APL)
段落數(shù)(PN)
段文字比(PR)
首部復(fù)制比(HR)
尾部復(fù)制比(ER)
引用復(fù)制比(RR)
上述指標(biāo)從多個角度反映了檢測文獻(xiàn)的檢測情況,便于用戶進(jìn)行針對性審核。下面對各項指標(biāo)分別進(jìn)行說明。
系統(tǒng)檢測比對數(shù)據(jù)
目前系統(tǒng)支持在《中國學(xué)術(shù)網(wǎng)絡(luò)出版總庫》與用戶自建數(shù)據(jù)庫檢測?!吨袊鴮W(xué)術(shù)網(wǎng)絡(luò)出版總庫》包括:
《中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫》
《中國博士論文網(wǎng)絡(luò)出版總庫》
《中國優(yōu)秀碩士論文網(wǎng)絡(luò)出版總庫》
《中國報紙全文數(shù)據(jù)庫》
《中國專利全文數(shù)據(jù)庫》(學(xué)術(shù)版)
《中國科技成果數(shù)據(jù)庫》(學(xué)術(shù)版)
《中國年鑒網(wǎng)絡(luò)出版總庫》
《中國工具書數(shù)據(jù)庫》
《中國標(biāo)準(zhǔn)數(shù)據(jù)庫》(學(xué)術(shù)版)
學(xué)位論文不端行為檢測范圍
通常,研究生除去完成學(xué)位論文外,還要完成發(fā)表一定數(shù)量的期刊論文或會議論文,才能得到學(xué)位授予。一般研究生會獨(dú)立發(fā)表或與導(dǎo)師一起發(fā)表期刊論文,這些論文有些是學(xué)位論文工作的一部分。
因此,對一個學(xué)位論文工作進(jìn)行檢測,可能涉及到幾個方面并且不端行為的檢測是一項政策性非常強(qiáng)的工作,必須采取技術(shù)檢測加專家審核的辦法。
*學(xué)位論文的檢測。
學(xué)位論文檢測是最核心的檢測工作。由于學(xué)位論文篇幅較長,通常在5-10萬字之間,為便于工作,我們將一篇學(xué)位論文按章節(jié)分開比對。給出每一章節(jié)的檢測結(jié)果,再給出總體指標(biāo)。
由于學(xué)位論文體例的要求,論文含有大量的綜述性內(nèi)容。這些內(nèi)容的抄襲認(rèn)定,必須慎重。尤其是要和參考文獻(xiàn)核對。一般認(rèn)為,凡在文章注明出處的,在一定數(shù)量之內(nèi)的文字可以視為合理引用。最后要以專家審核的結(jié)果為準(zhǔn)。
由于學(xué)位論文中的部分工作通常會在期刊上發(fā)表,一定注意要排除其本人的期刊論文。
*培養(yǎng)期間發(fā)表的期刊論文的檢測
許多學(xué)位培養(yǎng)單位要求研究生發(fā)表一定數(shù)量的期刊文章,這些文章應(yīng)視為學(xué)位工作的一部分。顯然,應(yīng)對這些文章進(jìn)行檢測。
*學(xué)習(xí)開始前的論文工作的檢測
現(xiàn)在,部分研究生培養(yǎng)單位,在招生簡章中要求參加考試的研究生有一定的論文發(fā)表,或是報考博士的原來已經(jīng)取得過碩士學(xué)位。因此,還應(yīng)對之前發(fā)表的期刊論文、碩士論文進(jìn)行一定的檢測。這部分工作可以對入學(xué)的研究生起到一個篩選的最用。
結(jié)語
TMLC系統(tǒng)經(jīng)過大規(guī)模數(shù)據(jù)測試后,針對中文學(xué)位論文中的不端文獻(xiàn)已經(jīng)具有較好的檢測能力,達(dá)到了大規(guī)模實用的成熟程度。鑒于我國學(xué)術(shù)不端文獻(xiàn)的實際情況,還需繼續(xù)開發(fā)能夠檢測英文學(xué)術(shù)不端文獻(xiàn)以及從英文翻譯為中文的不端文獻(xiàn),同時比對數(shù)據(jù)庫應(yīng)同時擴(kuò)展到英文數(shù)據(jù)庫與互聯(lián)網(wǎng)文獻(xiàn),事實數(shù)據(jù)庫也應(yīng)同步擴(kuò)展,并建立中英文對照的規(guī)范數(shù)據(jù)庫。因此,進(jìn)一步的研發(fā)工作還很多,希望TMLC系統(tǒng)能夠在實際應(yīng)用中不斷得到完善。
以上就是關(guān)于“詳細(xì)介紹學(xué)位論文學(xué)術(shù)不端行為檢測系統(tǒng)”了,想了解更多怎樣查重論文的知識,請持續(xù)關(guān)注學(xué)術(shù)不端論文查重網(wǎng),學(xué)術(shù)小編會為大家收集更多的學(xué)術(shù)論文知識哦。