前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇檢測方法論文范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關(guān)鍵字:入侵檢測;協(xié)議分析;模式匹配;智能關(guān)聯(lián)a
1引言
入侵檢測技術(shù)是繼“防火墻”、“數(shù)據(jù)加密”等傳統(tǒng)安全保護措施后新一代的安全保障技術(shù),它對計算機和
網(wǎng)絡(luò)資源上的惡意使用行為進行識別和響應(yīng),不僅檢測來自外部的入侵行為,同時也監(jiān)督內(nèi)部用戶的未授權(quán)活動。但是隨著網(wǎng)絡(luò)入侵技術(shù)的發(fā)展和變化以及網(wǎng)絡(luò)運用的不斷深入,現(xiàn)有入侵檢測系統(tǒng)暴露出了諸多的問題。特別是由于網(wǎng)絡(luò)流量增加、新安全漏洞未更新規(guī)則庫和特殊隧道及后門等原因造成的漏報問題和IDS攻擊以及網(wǎng)絡(luò)數(shù)據(jù)特征匹配的不合理特性等原因造成的誤報問題,導(dǎo)致IDS對攻擊行為反應(yīng)遲緩,增加安全管理人員的工作負擔(dān),嚴重影響了IDS發(fā)揮實際的作用。
本文針對現(xiàn)有入侵監(jiān)測系統(tǒng)誤報率和漏報率較高的問題,對幾種降低IDS誤報率和漏報率的方法進行研究。通過將這幾種方法相互結(jié)合,能有效提高入侵檢測系統(tǒng)的運行效率并能大大簡化安全管理員的工作,從而保證網(wǎng)絡(luò)
安全的運行。
2入侵檢測系統(tǒng)
入侵是對信息系統(tǒng)的非授權(quán)訪問及(或)未經(jīng)許可在信息系統(tǒng)中進行操作,威脅計算機或網(wǎng)絡(luò)的安全機制(包括機密性、完整性、可用性)的行為。入侵可能是來自外界對攻擊者對系統(tǒng)的非法訪問,也可能是系統(tǒng)的授權(quán)用戶對未授權(quán)的內(nèi)容進行非法訪問,入侵檢測就是對企圖入侵、正在進行的入侵或已經(jīng)發(fā)生的入侵進行識別的過程。入侵檢測系統(tǒng)IDS(IntrusionDetectionSystem)是從多種計算機系統(tǒng)機及網(wǎng)絡(luò)中收集信息,再通過這些信息分析入侵特征的網(wǎng)絡(luò)安全系統(tǒng)。
現(xiàn)在的IDS產(chǎn)品使用的檢測方法主要是誤用檢測和異常檢測。誤用檢測是對不正常的行為進行建模,這些行為就是以前記錄下來的確認了的誤用或攻擊。目前誤用檢測的方法主要是模式匹配,即將每一個已知的攻擊事件定義為一個獨立的特征,這樣對入侵行為的檢測就成為對特征的匹配搜索,如果和已知的入侵特征匹配,就認為是攻擊。異常檢測是對正常的行為建模,所有不符合這個模型的事件就被懷疑為攻擊。現(xiàn)在異常檢測的主要方法是統(tǒng)計模型,它通過設(shè)置極限閾值等方法,將檢測數(shù)據(jù)與已有的正常行為比較,如果超出極限閾值,就認為是入侵行為。
入侵檢測性能的關(guān)鍵參數(shù)包括:(1)誤報:實際無害的事件卻被IDS檢測為攻擊事件。(2)漏報:攻擊事件未被IDS檢測到或被分析人員認為是無害的。
3降低IDS誤報率方法研究
3.1智能關(guān)聯(lián)
智能關(guān)聯(lián)是將企業(yè)相關(guān)系統(tǒng)的信息(如主機特征信息)與網(wǎng)絡(luò)IDS檢測結(jié)構(gòu)相融合,從而減少誤報。如系統(tǒng)的脆弱性信息需要包括特定的操作系統(tǒng)(OS)以及主機上運行的服務(wù)。當(dāng)IDS使用智能關(guān)聯(lián)時,它可以參考目標主機上存在的、與脆弱性相關(guān)的所有告警信息。如果目標主機不存在某個攻擊可以利用的漏洞,IDS將抑制告警的產(chǎn)生。
智能關(guān)聯(lián)包括主動和被動關(guān)聯(lián)。主動關(guān)聯(lián)是通過掃描確定主機漏洞;被動關(guān)聯(lián)是借助操作系統(tǒng)的指紋識別技術(shù),即通過分析IP、TCP報頭信息識別主機上的操作系統(tǒng)。
3.1.1被動指紋識別技術(shù)的工作原理
被動指紋識別技術(shù)的實質(zhì)是匹配分析法。匹配雙方一個是來自源主機數(shù)據(jù)流中的TCP、IP報頭信息,另一個是特征數(shù)據(jù)庫中的目標主機信息,通過將兩者做匹配來識別源主機發(fā)送的數(shù)據(jù)流中是否含有惡意信息。通常比較的報頭信息包括窗口(WINDOWSIZE)、數(shù)據(jù)報存活期(TTL)、DF(dontfragment)標志以及數(shù)據(jù)報長(Totallength)。
窗口大小(wsize)指輸入數(shù)據(jù)緩沖區(qū)大小,它在TCP會話的初始階段由OS設(shè)定。數(shù)據(jù)報存活期指數(shù)據(jù)報在被丟棄前經(jīng)過的跳數(shù)(hop);不同的TTL值可以代表不同的操作系統(tǒng)(OS),TTL=64,OS=UNIX;TTL=12,OS=Windows。DF字段通常設(shè)為默認值,而OpenBSD不對它進行設(shè)置。數(shù)據(jù)報長是IP報頭和負載(Payload)長度之和。在SYN和SYNACK數(shù)據(jù)報中,不同的數(shù)據(jù)報長代表不同的操作系統(tǒng),60代表Linux、44代表Solaris、48代表Windows2000。
IDS將上述參數(shù)合理組合作為主機特征庫中的特征(稱為指紋)來識別不同的操作系統(tǒng)。如TTL=64,初步判斷OS=Linux/OpenBSD;如果再給定wsize的值就可以區(qū)分是Linux還是OpenBSD。因此,(TTL,wsize)就可以作為特征庫中的一個特征信息。3.1.2被動指紋識別技術(shù)工作流程
具有指紋識別技術(shù)的IDS系統(tǒng)通過收集目標主機信息,判斷主機是否易受到針對某種漏洞的攻擊,從而降低誤報率。
因此當(dāng)IDS檢測到攻擊數(shù)據(jù)包時,首先查看主機信息表,判斷目標主機是否存在該攻擊可利用的漏洞;如果不存在該漏洞,IDS將抑制告警的產(chǎn)生,但要記錄關(guān)于該漏洞的告警信息作為追究法律責(zé)任的依據(jù)。這種做法能夠使安全管理員專心處理由于系統(tǒng)漏洞產(chǎn)生的告警。
3.2告警泛濫抑制
IDS產(chǎn)品使用告警泛濫抑制技術(shù)可以降低誤報率。在利用漏洞的攻擊勢頭逐漸變強之時,IDS短時間內(nèi)會產(chǎn)生大量的告警信息;而IDS傳感器卻要對同一攻擊重復(fù)記錄,尤其是蠕蟲在網(wǎng)絡(luò)中自我繁殖的過程中,這種現(xiàn)象最為重要。
所謂“告警泛濫”是指短時間內(nèi)產(chǎn)生的關(guān)于同一攻擊的告警。IDS可根據(jù)用戶需求減少或抑制短時間內(nèi)同一傳感器針對某個流量產(chǎn)生的重復(fù)告警。這樣。網(wǎng)管人員可以專注于公司網(wǎng)絡(luò)的安全狀況,不至于為泛濫的告警信息大傷腦筋。告警泛濫抑制技術(shù)是將一些規(guī)則或參數(shù)(包括警告類型、源IP、目的IP以及時間窗大小)融入到IDS傳感器中,使傳感器能夠識別告警飽和現(xiàn)象并實施抵制操作。有了這種技術(shù),傳感器可以在告警前對警報進行預(yù)處理,抑制重復(fù)告警。例如,可以對傳感器進行適當(dāng)配置,使它忽略在30秒內(nèi)產(chǎn)生的針對同一主機的告警信息;IDS在抑制告警的同時可以記錄這些重復(fù)警告用于事后的統(tǒng)計分析。
3.3告警融合
該技術(shù)是將不同傳感器產(chǎn)生的、具有相關(guān)性的低級別告警融合成更高級別的警告信息,這有助于解決誤報和漏報問題。當(dāng)與低級別警告有關(guān)的條件或規(guī)則滿足時,安全管理員在IDS上定義的元告警相關(guān)性規(guī)則就會促使高級別警告產(chǎn)生。如掃描主機事件,如果單獨考慮每次掃描,可能認為每次掃描都是獨立的事件,而且對系統(tǒng)的影響可以忽略不計;但是,如果把在短時間內(nèi)產(chǎn)生的一系列事件整合考慮,會有不同的結(jié)論。IDS在10min內(nèi)檢測到來自于同一IP的掃描事件,而且掃描強度在不斷升級,安全管理人員可以認為是攻擊前的滲透操作,應(yīng)該作為高級別告警對待。例子告訴我們告警融合技術(shù)可以發(fā)出早期攻擊警告,如果沒有這種技術(shù),需要安全管理員來判斷一系列低級別告警是否是隨后更高級別攻擊的先兆;而通過設(shè)置元警告相關(guān)性規(guī)則,安全管理員可以把精力都集中在高級別警告的處理上。元警告相關(guān)性規(guī)則中定義參數(shù)包括時間窗、事件數(shù)量、事件類型IP地址、端口號、事件順序。
4降低IDS漏報率方法研究
4.1特征模式匹配方法分析
模式匹配是入侵檢測系統(tǒng)中常用的分析方法,許多入侵檢測系統(tǒng)如大家熟知的snort等都采用了模式匹配方法。
單一的模式匹配方法使得IDS檢測慢、不準確、消耗系統(tǒng)資源,并存在以下嚴重問題:
(1)計算的負載過大,持續(xù)該運算法則所需的計算量極其巨大。
(2)模式匹配特征搜索技術(shù)使用固定的特征模式來探測攻擊,只能探測明確的、唯一的攻擊特征,即便是基于最輕微變換的攻擊串都會被忽略。
(3)一個基于模式匹配的IDS系統(tǒng)不能智能地判斷看似不同字符串/命令串的真實含義和最終效果。在模式匹配系統(tǒng)中,每一個這樣的變化都要求攻擊特征數(shù)據(jù)庫增加一個特征記錄。這種技術(shù)攻擊運算規(guī)則的內(nèi)在缺陷使得所謂的龐大特征庫實際上是徒勞的,最后的結(jié)果往往是付出更高的計算負載,而導(dǎo)致更多的丟包率,也就產(chǎn)生遺漏更多攻擊的可能,特別是在高速網(wǎng)絡(luò)下,導(dǎo)致大量丟包,漏報率明顯增大。
可見傳統(tǒng)的模式匹配方法已不能適應(yīng)新的要求。在網(wǎng)絡(luò)通信中,網(wǎng)絡(luò)協(xié)議定義了標準的、層次化、格式化的網(wǎng)絡(luò)數(shù)據(jù)包。在攻擊檢測中,利用這種層次性對網(wǎng)絡(luò)協(xié)議逐層分析,可以提高檢測效率。因此,在數(shù)據(jù)分析時將協(xié)議分析方法和模式匹配方法結(jié)合使用,可以大幅度減少匹配算法的計算量,提高分析效率,得到更準確的檢測結(jié)果。超級秘書網(wǎng)
4.2協(xié)議分析方法分析
在以網(wǎng)絡(luò)為主的入侵檢測系統(tǒng)中,由于把通過網(wǎng)絡(luò)獲得的數(shù)據(jù)包作為偵測的資料來源,所以數(shù)據(jù)包在網(wǎng)絡(luò)傳輸中必須遵循固定的協(xié)議才能在電腦之間相互溝通,因此能夠按照協(xié)議類別對規(guī)則集進行分類。協(xié)議分析的原理就是根據(jù)現(xiàn)有的協(xié)議模式,到固定的位置取值(而不式逐一的去比較),然后根據(jù)取得的值判斷其協(xié)議連同實施下一步分析動作。其作用是非類似于郵局的郵件自動分撿設(shè)備,有效的提高了分析效率,同時還能夠避免單純模式匹配帶來的誤報。
根據(jù)以上特點,能夠?qū)f(xié)議分析算法用一棵協(xié)議分類樹來表示,如圖2所示。這樣,當(dāng)IDS進行模式匹配時,利用協(xié)議分析過濾許多規(guī)則,能夠節(jié)省大量的時間。在任何規(guī)則中關(guān)于TCP的規(guī)則最多,大約占了50%以上,因此在初步分類后,能夠按照端口進行第二次分類。在兩次分類完成后,能夠快速比較特征庫中的規(guī)則,減少大量不必要的時間消耗。如有必要,還可進行多次分類,盡量在規(guī)則樹上分叉,盡可能的縮減模式匹配的范圍。
每個分析機的數(shù)據(jù)結(jié)構(gòu)中包含以下信息:協(xié)議名稱、協(xié)議代號以及該協(xié)議對應(yīng)的攻擊檢測函數(shù)。協(xié)議名稱是該協(xié)議的唯一標志,協(xié)議代號是為了提高分析速度用的編號。為了提高檢測的精確度,可以在樹中加入自定義的協(xié)議結(jié)點,以此來細化分析數(shù)據(jù),例如在HTTP協(xié)議中可以把請求URL列入該樹中作為一個結(jié)點,再將URL中不同的方法作為子節(jié)點。
分析機的功能是分析某一特定協(xié)議的數(shù)據(jù),得出是否具有攻擊的可能性存在。一般情況下,分析機盡可能的放到樹結(jié)構(gòu)的葉子結(jié)點上或盡可能的靠近葉子結(jié)點,因為越靠近樹根部分的分析機,調(diào)用的次數(shù)越多。過多的分析機聚集在根部附近會嚴重影響系統(tǒng)的性能。同時葉子結(jié)點上的協(xié)議類型劃分越細,分析機的效率越高。
因此,協(xié)議分析技術(shù)有檢測快、準確、資源消耗少的特點,它利用網(wǎng)絡(luò)協(xié)議的高度規(guī)則性快速探測攻擊的存在。
5結(jié)束語
本文對幾種降低IDS誤報率和漏報率的方法進行分析研究,通過將這幾種方法相互結(jié)合,能有效提高入侵檢測系統(tǒng)的運行效率并能大大簡化安全管理員的工作,從而保證網(wǎng)絡(luò)安全的運行。由于方法論的問題,目前IDS的誤報和漏報是不可能徹底解決的。因此,IDS需要走強化安全管理功能的道路,需要強化對多種安全信息的收集功能,需要提高IDS的智能化分析和報告能力,并需要與多種安全產(chǎn)品形成配合。只有這樣,IDS才能成為網(wǎng)絡(luò)安全的重要基礎(chǔ)設(shè)施。
參考文獻:
[1]張杰,戴英俠.入侵檢測系統(tǒng)技術(shù)現(xiàn)狀及其發(fā)展趨勢[J].計算機與通信,2002(6):28-32.
[2]唐洪英,付國瑜.入侵檢測的原理與方法[J].重慶工學(xué)院學(xué)報,2002(4):71-73.
[3]戴連英,連一峰,王航.系統(tǒng)安全與入侵檢測技術(shù)[M].北京:清華大學(xué)出版社,2002(3).
[4]鄭成興.網(wǎng)絡(luò)入侵防范的理論與實踐[M].北京:機械工業(yè)出版社,2006:48-56.
[關(guān)鍵詞]學(xué)術(shù)論文 復(fù)制檢測 抄襲剽竊檢測 統(tǒng)計語言模型 文本相似度算法
[分類號]TP391.1
自從方舟子的“新語絲”使原本長期存在于學(xué)術(shù)界的學(xué)術(shù)不端暴露出來之后,學(xué)術(shù)論文抄襲剽竊引起社會的廣泛關(guān)注。抄襲剽竊的表現(xiàn)形式多種多樣:有些只是在語言文字的表達形式上做手腳,換成同義詞或顛倒語句的表達順序,在文章框架、主要觀點和主要論據(jù)上卻沒有大的變化;有些直接大段地“引用”別人的內(nèi)容;有些綜合運用多種手段,將多篇別人的文章拼湊而成自己的;有些“學(xué)術(shù)高手”直接拿國外的論文翻譯成中文發(fā)表,等等。抄襲和剽竊“手段”的越來越“高明”,給抄襲剽竊檢測帶來很大困難。抄襲檢測又叫復(fù)制檢測、剽竊檢測或副本檢測,根據(jù)檢測對象性質(zhì)不同可分為圖像、聲音和文本復(fù)制檢測。學(xué)術(shù)論文抄襲檢測是文本復(fù)制檢測的一種,歸根到底是判斷兩篇學(xué)術(shù)論文的相似程度。“召回率”和“精準率”是判斷檢測算法好壞的兩個重要指標。為了進一步提高學(xué)術(shù)論文復(fù)制檢測判斷的準確率,針對學(xué)術(shù)論文的文檔相似度算法的改進和創(chuàng)新研究變得尤為重要。
1 國內(nèi)外研究現(xiàn)狀及存在的問題
1.1 國外研究現(xiàn)狀
國外具有代表性的文檔相似度算法主要有以下幾種:①Manber提出一個sif工具,其“近似指紋”是用基于字符串匹配的方法來度量文件之間的相似性;②Brin等在“數(shù)字圖書館”工程中首次提出文本復(fù)制檢測機制COPS(copy protection system)系統(tǒng)與相應(yīng)算法,奠定了論文抄襲檢測系統(tǒng)的基礎(chǔ);③Garcia-Molin提出SCAM(Stanford copy analysis method)原型,改進了COPS系統(tǒng),用于發(fā)現(xiàn)知識產(chǎn)權(quán)沖突。他使用基于詞頻統(tǒng)計的方法來度量文本相似性,后來把檢測范圍從單個注冊數(shù)據(jù)庫擴展到分布式數(shù)據(jù)庫上以及在Web上探測文本復(fù)制的方法;④貝爾實驗室的Heintze開發(fā)了KOALA系統(tǒng)用于剽竊檢測,采用與sif基本相同的算法;⑤si和Leong等人建立的CHEC系統(tǒng)首次把文檔結(jié)構(gòu)信息引入到文本相似性度量中;⑥Stein提出一種方法,這種方法能產(chǎn)生一種“指紋”,在某種程度上能有效防止修改;⑦MeyerzuEissen等提出通過根據(jù)寫作風(fēng)格上的變化來分析單篇文檔,從而決定是否有潛在抄襲;⑧美國學(xué)校首先引入Tumitin偵探剽竊數(shù)據(jù)庫,用于防止論文抄襲,此外還有其他類似軟件系統(tǒng)用于進行文檔相似度分析。當(dāng)然不同的檢測系統(tǒng)其相似度算法的精度也不盡相同。
1.2 國內(nèi)研究現(xiàn)狀
國內(nèi)關(guān)于論文抄襲剽竊檢測方面已有一些研究:①張斯通過對中文文本進行自動分詞,然后計算它們的相似度,從而判別文本是否抄襲,其對應(yīng)裝置包括:樣本輸入裝置、樣本數(shù)據(jù)庫、自動分句分詞裝置、分詞數(shù)據(jù)庫、預(yù)處理裝置、特征詞數(shù)據(jù)庫、相似判別裝置、判別結(jié)果輸出裝置和控制處理裝置等。②鮑軍鵬通過文本的結(jié)構(gòu)信息和語義信息提取文本特征,是通過運用文本剽竊判定模塊中設(shè)定的探針法,估計待檢測文本特征和特征庫中的文本特征的最大共同語義,并給出文本雷同度量,從而判別文本是否抄襲。③沈陽是通過先找到存儲空間內(nèi)的格式遺留,再將這些遺留格式附近文檔的關(guān)鍵詞或/和句子或/和段落與文獻庫中的文獻內(nèi)容進行比較,從而減少被檢測文檔的數(shù)據(jù)量,加快了反剽竊或轉(zhuǎn)載文檔檢測速度。④張履平通過對已植入水印的文章進行特征擷取,根據(jù)所取得的詞匯輸入搜尋引擎以搜尋相關(guān)可疑文章;根據(jù)與原文比對結(jié)果取得的句子進行水印解析;將所取得的水印信息與原來的水印比對,從而判斷是否為剽竊。⑤金博等則對基于篇章結(jié)構(gòu)相似度的復(fù)制檢測算法有一些研究。
1.3 存在的問題
事實上,由于剽竊形式的多樣性和隱蔽性、語法和句法的復(fù)雜性等,目前主要采用的“數(shù)字指紋”和詞頻統(tǒng)計兩大類抄襲識別技術(shù)已經(jīng)不能滿足實際的剽竊檢測需求,會造成很多漏檢和誤檢,其“召回率”和“精準率”都有待提高。歸根到底是因為其檢索模型有待突破,算法亟待改進或需創(chuàng)造全新的算法來針對學(xué)術(shù)論文抄襲剽竊檢測的實際。如何把握并充分利用學(xué)術(shù)論文的結(jié)構(gòu)和語言特征,提供具有針對性的檢索模型和相似度算法及其實現(xiàn)系統(tǒng),對能否在異構(gòu)的分布式學(xué)術(shù)論文資源系統(tǒng)中,對抄襲剽竊檢測進行更精確的判斷至關(guān)重要。
2 學(xué)術(shù)論文復(fù)制檢測研究的新思路
針對以上問題,筆者提出以下學(xué)術(shù)論文復(fù)制檢測研究的新思路:①建立有針對性的學(xué)術(shù)論文語料庫;②通過對語料庫的深層加工、統(tǒng)計和學(xué)習(xí),建立統(tǒng)計語言模型;③充分利用學(xué)術(shù)論文著錄項目自身的特點,通過將文檔結(jié)構(gòu)化,賦予元數(shù)據(jù)項加權(quán)系數(shù),運用卷積計算學(xué)術(shù)論文的相似度;④利用支持網(wǎng)絡(luò)語言的JAVA編程實現(xiàn)相似度算法;⑤通過將待檢測論文與數(shù)據(jù)庫中已有文獻對比,計算其相似度,當(dāng)相似度超過某一閾值時,則判斷該論文有抄襲的可能,如圖1所示:
3 具體方法及步驟
3.1 建立某一學(xué)科專業(yè)的學(xué)術(shù)論文語料庫
新一代的兆億級的大規(guī)模語料庫可以作為語言模型的訓(xùn)練和測試手段,用以評價一個語言模型的質(zhì)量。本文建立的語料庫中存放的是在學(xué)術(shù)論文語言的實際使用中真實出現(xiàn)過的學(xué)術(shù)論文語言材料;是以電子計算機為載體,承載學(xué)術(shù)資源語言知識的基礎(chǔ)資源;通過對真實語料進行分析和處理等加工,使之成為本文的學(xué)術(shù)論文抄襲檢測模型和算法的訓(xùn)練與測試手段。
利用豐富的學(xué)術(shù)資源數(shù)據(jù)庫,如Dialog、SCI、EI、INSPE、IEEE、Science Direct、EBSCO、PQDD、SPRINGERLINK、KLUWER、Science online、Medline、CNKI、中文科技期刊全文數(shù)據(jù)庫、萬方數(shù)據(jù)科技信息子系統(tǒng)、萬方數(shù)據(jù)商業(yè)信息子系統(tǒng)、七國兩組織的專利數(shù)據(jù)庫、國內(nèi)外專利數(shù)據(jù)庫等異構(gòu)的分布資源,通過信息檢索,從某一學(xué)科專業(yè)著手,構(gòu)建某一學(xué)科專業(yè)領(lǐng)域的學(xué)術(shù)論文語料庫。
3.2 以信息論為工具,創(chuàng)建統(tǒng)計語言模型用于學(xué)術(shù)論文檢索
數(shù)學(xué)是解決信息檢索和自然語言處理的最好工具。其實早在幾十年前,數(shù)學(xué)家兼信息論專家香農(nóng)(Claude Shannon)就提出了用數(shù)學(xué)方法處理自然語言的想法。語音和語言處理大師賈里尼克(Fred Je-
linek)首先成功利用數(shù)學(xué)方法解決了自然語言處理問題。統(tǒng)計語言模型(即基于統(tǒng)計的語言模型)通常是概率模型,計算機借助于統(tǒng)計語言模型的概率參數(shù),可以估計出自然語言中每個句子出現(xiàn)的可能性,而不是簡單地判斷該句子是否符合文法。統(tǒng)計語言模型以概率頒布的形式描述了任意語句(字符串)s屬于某種語言集合的可能性,需要對任意的語句s都給出一個概率值,例如:P(他/認真/學(xué)習(xí))=0.02。本文充分利用學(xué)術(shù)論文不同于報紙新聞?wù)撐幕蚱渌愋臀臋n的語言特點,以建立的學(xué)術(shù)論文語料為訓(xùn)練和測試基礎(chǔ),提出新的基于學(xué)術(shù)論文的統(tǒng)計語言模型作為針對學(xué)術(shù)論文抄襲剽竊檢測算法的檢索語言模型。具體做法為:以信息論為工具,把握學(xué)術(shù)論文的語言特點,通過對以上所建立的學(xué)科專業(yè)語料庫進行深層加工、統(tǒng)計和學(xué)習(xí),獲取大規(guī)模真實學(xué)術(shù)論文語料中的語言知識,建立基于學(xué)術(shù)論文語料庫的統(tǒng)計語言模型;通過實驗,與其他文本信息檢索模型進行比較,論證其有效性。
3.3 利用學(xué)術(shù)論文中描述資源對象語義信息的元數(shù)據(jù)結(jié)構(gòu),計算文檔相似度
充分利用正式出版的學(xué)術(shù)論文的結(jié)構(gòu)特點,根據(jù)學(xué)術(shù)論文中標引出的K個描述資源對象語義信息的元數(shù)據(jù)(Di,i=1,2…k),將學(xué)術(shù)論文結(jié)構(gòu)化;然后利用已有的基于學(xué)術(shù)論文語料庫的統(tǒng)計語言模型,將待比較的論文的各相同元數(shù)據(jù)Di(i=1,2…k)部分進行比對得相似度si,再根據(jù)元數(shù)據(jù)對論文的重要程度給定第i個元數(shù)據(jù)項相似度權(quán)函數(shù)wi;則整篇學(xué)術(shù)論文總體的相似度為Sd=∑Wi*Si。
具體算法舉例如下:
將待檢測的學(xué)術(shù)論文的元數(shù)據(jù)如題名Til、關(guān)鍵詞Kyl、摘要Abl、正文.Tel、參考文獻Rel等元數(shù)據(jù)字段抽取出來,與語料庫中已有論文的相應(yīng)元數(shù)據(jù)字段內(nèi)容題名Ti2、關(guān)鍵詞Ky2、摘要Ab2、正文Tx2、參考文獻Re2進行相似度計算。計算時,在篇名字段前給以0.25,0.4,0.15,0.1和0.1的加權(quán)系數(shù)。建立的統(tǒng)計語言模型計算待測論文和語料庫中已出版的論文j同一元數(shù)據(jù)字段的內(nèi)容相似程度,記為:Sim_Tij,sim―Kyj,Sim_Abj,Sire Tej,Sim_Rej,卷積后得整篇論文與語料庫中某篇論文j的相似程度值計算公式為:Sinai―larity_paper_j=0.25×Sim_Tij+0.4×Sim_Kyj+0.15×Sim_Abj+0.1×Sim_Txj+0.1×Sim_Rej;再計算與待檢測論文最相似的那個最大相似度Max_Similarity=Max{Simflarity_paper_j};如果Max_Similarity大于設(shè)定的閥值1(如40%),則判斷為疑似抄襲,這樣的論文需要審稿專家仔細認真審理,如果Max_Similarity大于設(shè)定的閥值2(比設(shè)定的閥值1大,如80%),這樣的論文極有可能存在抄襲,需要審稿專家特別注意。在計算相似度值后,計算機系統(tǒng)記錄下相似度高于設(shè)定閥值的抄襲和被抄襲的學(xué)術(shù)論文來源、相似度值、及其各元數(shù)據(jù)項信息(包括作者信息)。以上各元數(shù)據(jù)項相似度計算過程中,加權(quán)系數(shù)可以根據(jù)需要做適當(dāng)調(diào)整為其他數(shù)值,但系數(shù)總和為1。
3.4 推廣使用
通過對某一學(xué)科專業(yè)的研究,進一步拓展到其他學(xué)科領(lǐng)域,從而最終實現(xiàn)在異構(gòu)的分布式學(xué)術(shù)論文資源系統(tǒng)中,對各個學(xué)科領(lǐng)域的學(xué)術(shù)論文抄襲剽竊進行跨平臺檢測。
4 研究展望及難點、解決辦法
相關(guān)熱搜:醫(yī)學(xué)檢驗 醫(yī)學(xué)檢驗論文范文 醫(yī)學(xué)檢驗論文題目
檢驗醫(yī)學(xué)是現(xiàn)代實驗室科學(xué)技術(shù)與臨床在高層次上的結(jié)合,是一門多學(xué)科交叉、相互滲透的新興學(xué)科。目前,正朝著高理論、高科技、高水平方向發(fā)展。由于檢驗科開展項目的增多、新技術(shù)的應(yīng)用及方法論上的革命性變革,使檢驗質(zhì)量和水平顯著提高,使越來越多的臨床醫(yī)生依靠檢驗信息綜合分析,然后進行診斷、治療和預(yù)后判斷,醫(yī)學(xué)檢驗的工作在臨床診療工作中發(fā)揮著重要作用。
1醫(yī)學(xué)檢驗到檢驗醫(yī)學(xué)帶來觀念的變化
“醫(yī)學(xué)檢驗”轉(zhuǎn)變?yōu)椤皺z驗醫(yī)學(xué)”,使檢驗學(xué)科建設(shè)的理念和內(nèi)涵發(fā)生了明顯的變化,現(xiàn)代化儀器的應(yīng)用和標準化進程的推進,特別是臨床醫(yī)學(xué)與基礎(chǔ)醫(yī)學(xué)的密切結(jié)合,多數(shù)人認為譯名為檢驗醫(yī)學(xué)較為合適,因為這名詞說明此學(xué)科和醫(yī)學(xué)活動緊緊連在一起。使檢驗科工作任務(wù)在保證實驗質(zhì)量的基礎(chǔ)上更應(yīng)結(jié)合臨床。
檢驗醫(yī)學(xué)在現(xiàn)代醫(yī)學(xué)中的角色已經(jīng)悄然發(fā)生了變化,已經(jīng)從醫(yī)療輔助角色轉(zhuǎn)變?yōu)楝F(xiàn)代醫(yī)療中的重要組成部分。檢驗醫(yī)學(xué)的地位與作用,說明它的任務(wù)絕不僅是被動地提供數(shù)據(jù)或結(jié)果。長期以來,檢驗科被定位于“輔助科室”。即檢驗科只能向臨床醫(yī)生提供所需求的檢驗結(jié)果,一旦檢驗科提供了未受指定的檢驗結(jié)果,就被認為“越位”,這種片面、消極、落后于時代的偏見應(yīng)予以糾正。
檢驗醫(yī)學(xué)的內(nèi)涵和外延更加廣泛。現(xiàn)在,醫(yī)院檢驗早已經(jīng)告別了手工操作時代。傳統(tǒng)醫(yī)學(xué)檢驗本身已經(jīng)不能完全涵蓋由此而帶來的巨大變化,這正是檢驗醫(yī)學(xué)產(chǎn)生并得以迅速發(fā)展的緣由。目前各種類型的自動化化學(xué)分析儀已經(jīng)取代了以前的手工操作,而醫(yī)院實驗室從原來手工作坊式的工作模式,逐步發(fā)展成為具有良好組織和工作條件的現(xiàn)代化實驗室,其技術(shù)含量得到大幅度的提升。
這個轉(zhuǎn)變使檢驗科的工作定位和觀念也發(fā)生了變化。基礎(chǔ)醫(yī)學(xué)的發(fā)展及與臨床醫(yī)學(xué)的密切結(jié)合,要求實驗室的工作不斷地與臨床醫(yī)護人員進行學(xué)術(shù)交流和信息溝通,把有限的實驗數(shù)據(jù)變?yōu)楦咝У脑\斷信息,更多地、更直接地參與臨床的診斷和治療。尤其是近年來,先進的實驗技術(shù)與儀器在國內(nèi)逐步普及,不僅提高了實驗結(jié)果的精確性和準確性,還為臨床提供了許多新的指標,如何將這些方法的原理、臨床意義介紹給醫(yī)護人員使之能合理的選擇實驗,正確的分析試驗結(jié)果,用于診斷和治療;如何恰當(dāng)?shù)氖占c運送標本,以保證分析前質(zhì)量控制;如何從臨床上獲得患者資料、病情變化、治療方案,保證分析后的質(zhì)量評估,并對臨床的診治工作提出建議等,都是檢驗醫(yī)學(xué)的重要內(nèi)容。不難看出,檢驗科的知識結(jié)構(gòu)、人才構(gòu)架[4]、學(xué)科發(fā)展方向也應(yīng)有相應(yīng)的變化與調(diào)整。在要求我們具有扎實的基本理論與基本技術(shù)的同時,具有更多的臨床知識,成為新世紀的“臨床型檢驗人才”。
2循證檢驗醫(yī)學(xué)的必要性
20世紀90年代以來,循證醫(yī)學(xué)的新概念逐漸引入醫(yī)學(xué)領(lǐng)域,不斷發(fā)展,日趨成熟,成為一種醫(yī)學(xué)實踐的新模式,是一門新興臨床學(xué)科,是醫(yī)學(xué)界關(guān)注的熱點[5]。循證檢驗醫(yī)學(xué)為臨床醫(yī)師提供真實可靠的診斷證據(jù),找到有效的臨床實驗方法,評價新的儀器、項目,使檢驗醫(yī)學(xué)的各種檢測經(jīng)驗上升到科學(xué)的高度,解決現(xiàn)代檢驗診斷面臨的挑戰(zhàn),循證檢驗醫(yī)學(xué)將推動現(xiàn)代檢驗醫(yī)學(xué)向前發(fā)展,循證檢驗醫(yī)學(xué)和循證醫(yī)學(xué)對于現(xiàn)代檢驗醫(yī)學(xué)的發(fā)展起著重要作用。
隨著人們對疾病認識的不斷深化,新的檢測技術(shù)不斷推廣應(yīng)用,檢測的項目越來越多,與臨床診療關(guān)系也越來越密切,這些實驗指標作為依據(jù),并指導(dǎo)臨床實踐,而這些實驗指標的敏感性、特異性、臨床應(yīng)用價值又需要通過循證醫(yī)學(xué)客觀的評價。循證檢驗醫(yī)學(xué)的主要目的是通過評估臨床檢驗技術(shù)是否準確、可靠、安全、經(jīng)濟、有效,以提供最佳的檢驗證據(jù),協(xié)助臨床醫(yī)師做出診斷、預(yù)防和治療的決策。循證檢驗醫(yī)學(xué)的核心思想仍然是盡量以客觀的研究結(jié)果為決策依據(jù)。大量的研究結(jié)果表明,其實踐意義表現(xiàn)為:①適應(yīng)衛(wèi)生經(jīng)濟學(xué)要求,采用循證醫(yī)學(xué)模式,對常見疾病的檢查項目采取科學(xué)合理組合,選取可靠診斷指標,剔除不合理或?qū)υ\斷、療效觀察和判斷預(yù)后無重要價值的檢驗項目。②根據(jù)大規(guī)模隨機臨床試驗的可靠結(jié)論,不斷制定或修改實驗室和臨床診斷標準,用于指導(dǎo)臨床實踐,提高實驗室檢驗效率。③米用循證醫(yī)學(xué)模式對目前使用的檢驗項目重新評價其臨床價值。
循證檢驗醫(yī)學(xué)為臨床醫(yī)師提供真實可靠的診斷證據(jù),找到有效的臨床實驗方法,評價新的儀器、項目,使檢驗醫(yī)學(xué)的各種檢測經(jīng)驗上升到科學(xué)的高度,解決現(xiàn)代檢驗診斷面臨的挑戰(zhàn),循證檢驗醫(yī)學(xué)將推動現(xiàn)代檢驗醫(yī)學(xué)向前發(fā)展。
3信息技術(shù)和現(xiàn)代化儀器應(yīng)用
現(xiàn)在全國醫(yī)院臨床檢驗水平的快速提高[7],在一■定程度上主要是依靠進口儀器和試劑的應(yīng)用。當(dāng)然,適當(dāng)?shù)匾M國外的先進技術(shù)和設(shè)備,會推動我國醫(yī)學(xué)檢驗的快速發(fā)展和進步。
隨著計算機技術(shù)和現(xiàn)代檢驗學(xué)的發(fā)展,臨床及科研部門對臨床實驗室的要求進一步提高,許多以往依靠人工進行檢驗的項目逐漸被自動化儀器代替,無論檢驗的速度或檢驗項目的數(shù)量均比以往大大提高,如果仍然采用人工方法進行檢驗結(jié)果的登錄、計算、報告,就不能適應(yīng)實驗室的正常運作,解決的途徑是采用電腦技術(shù)特別是電腦網(wǎng)絡(luò)技術(shù)。由于計算機的飛速發(fā)展也自然地帶動了生物信息的發(fā)展,從而促進了高通量檢測方法(highthroughputtesting)的誕生[8]。高速DNA測序技術(shù)和計算機的結(jié)合使得人類基因組的測序能夠盡早完成。基因芯片技術(shù)、單核苷酸多態(tài)性分析技術(shù)和蛋白組分析技術(shù)的發(fā)展,為臨床檢驗技術(shù)的發(fā)展提供了新的思路。
全實驗室自動化,這是提高工作效率的最有效辦法,進入這種實驗室的工作人員要求具有全面的檢驗操作技能和儀器維修、維護能力,掌握一定的管理理論和計算機應(yīng)用知識,檢驗醫(yī)學(xué)往往采用最新技術(shù)進行TLA,對實驗室進行重新改組,將原來檢驗科亞科室如將血液、免疫、臨床化學(xué)合并為一個包括多門亞學(xué)科的大型實驗室。這樣的實驗室要求工作者有比較廣泛的專業(yè)基礎(chǔ)和管理上的知識,例如如何安排好合理的工作流程,在短時間內(nèi)收集、處理、分析大量的標本以及能在最短時間將報告發(fā)到有關(guān)醫(yī)師和患者,總之,隨著全實驗室自動化的出現(xiàn),檢驗人員必需改變傳統(tǒng)的觀念,更新原有的知識結(jié)構(gòu),其素質(zhì)的高低,將決定著檢驗醫(yī)學(xué)今后的發(fā)展水平。