前言:本站為你精心整理了內容管理范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
摘要:信息化的不斷推進,使人們幾乎要淹沒于信息海洋中,如何有效利用這些信息,從中發掘有用的東西,使之最大限度發揮其應有的作用,是目前研究的熱點,內容管理因此應運而生。本文首先介紹了內容管理的概念及其和知識管理的區別,然后分析了內容管理系統的功能結構和支持內容管理許多重要技術,最后把Redhat的CMS作為內容管理系統的成功范例進行了介紹,為內容管理系統的研究開發提供了良好的參考和指導。
關鍵詞:內容管理知識管理信息檢索文本挖掘Web挖掘多媒體挖掘
Abstract:Thecontinuousadvanceofinformationtechnologysothatpeoplecanalmostdrownedintheseaofinformation,howtoeffectivelyusetheinformation,findsomethingusefultomakeittomaximizeitsroleiscurrentlyahotresearch,contentmanagement,thereforecameintobeing.Thisarticlefirstintroducedtheconceptofcontentmanagementandknowledgemanagementanditsdistinction,andthenanalyzesthecontentmanagementsystemtosupportthecontentmanagementstructureandanumberofimportanttechnologies,andfinallytoRedhatofCMScontentmanagementsystemasasuccessfulexampleintroducedforcontentmanagementsystemresearchanddevelopmentprovidesagoodreferenceandguidance.
Keywords:ContentManagementKnowledgeManagementInformationRetrievalTextMiningWebMiningMultimediaMining
1基本概念
1.1內容管理
隨著計算機技術和Internet技術的迅猛發展,當今世界正處在一個信息爆炸的時代,GartnerGroup的一個調查顯示:平均每個知識員工每個星期在不增值的相關文檔處理任務上需要花費8個小時,包括文檔的創建、尋找、整理等。ForresterResearch的一個調查顯示:企業的信息內容量在以每年200%的速度增長。
一方面是低下的內容處理效率,另一方面是不斷膨脹的內容量。簡單的事實對比體現了企業一個迫切的需求:需要有效地將內容管理起來。
內容管理由兩部分組成,“內容”強調對象,而“管理”則強調方法。內容是任何類型的數字信息的結合體,是一個比數據、文檔和信息更廣的概念;管理就是施加在“內容”對象上的一系列處理過程,包括收集、確認、批準、整理、定位、轉換、分發、更新、存檔等,目的是為了使“內容”能夠在正確的時間、以正確的形式傳遞到正確的地點和人。
內容管理就是協助組織和個人,借助信息技術,實現內容的創建、儲存、分享、應用、更新,并在企業個人、組織、業務、戰略等諸個方面產生價值的過程。內容管理系統就是能夠支撐內容管理的一種工具或一套工具的組合。
1.2內容管理與知識管理的比較
知識管理也是目前一個研究的熱點,內容管理和知識管理之間既有聯系也有區別,比較全面的講,主要有兩點不同、一個相同和一種聯系。
第一點不同,兩者的管理對象不同。前者是“內容”,后者是“知識”。
第二點不同是指兩者在管理功能上有所不同,知識管理不僅僅在于對靜態知識(知識庫)的管理,還包括對動態知識過程的管理,尤其是對知識創新過程的管理。內容管理某種程度上主要是對知識關聯化過程的管理,即將分散混亂的數據、信息轉化成有組織的內容和知識,基本上不具備對默會知識的管理功能。
內容管理和知識管理在管理機制上具有相同點,它們都是一種集成了人、過程以及技術的“技術—社會”系統,同樣需要強調共享的文化、規范清晰的管理過程以及良好的技術支撐。
內容管理和知識管理的一種聯系,主要表現在內容管理可以作為知識管理一個基本組成。
2內容管理系統的功能結構
為了真正發揮內容管理的作用,作為一個完整的內容管理系統應該包括以下幾個部分:內容倉庫、內容搜索引擎、內容管理功能模塊、用戶接口以及內容訪問設備等。
圖1內容管理系統的概念結構
(1)內容倉庫用以存儲各種形式的內容,如文檔、視頻、聲頻文件等。
(2)內容搜索引擎是內容管理系統的核心功能模塊,用以幫助使用者快速定位所需內容,按照搜索方法可分為全文搜索、上下文搜索等。現在更先進的檢索技術還包括智能化知識檢索技術,自然語言查詢等。
(3)內容管理模塊是內容管理系統的主要功能模塊,用以提供對內容管理過程的支持,包括:
內容創建和編輯,用以實現各種數據、信息、文檔和程序的獲取并提供創建內容的協作工具,如文檔和網頁制作工具,數據轉換(MetadataandXML)工具等。
內容個性化,內容的個性化是內容管理區別于傳統文檔管理的一個重要特征,包括根據用戶喜好的用戶控制個性化、根據內容相關性的數據控制個性化等。
存檔管理,用以實現安全存貯、管理各種形式的內容。
工作流,用以實現用戶自定義的流程和基于角色的流程控制、審批流程等。
安全控制,包括數據庫安全控制、加密,拷貝和傳播限制等。
生命周期管理,主要是指對內容版本的控制,如多版本控制、版本跟蹤等功能。
(4)用戶接口模塊包括傳統的非Web方式的圖形用戶界面GUI以及新近發展起來的企業信息門戶EIP等各種方式,EIP將成為未來用戶接口的主導方式。
(5)內容訪問設備包括客戶計算機以及PDA、移動電話等移動型設備。
一個內容管理系統的開發就應該以實現上述功能結構為目標。
3支持內容管理的技術
內容管理屬于智能信息處理的范疇,自從計算機出現開始,信息處理技術就始終在發展,在改進老技術的同時,新技術在探索,因此,內容管理有眾多技術可以作為支撐。
過去40多年來,處理結構化信息,如域和記錄、行和列的工具和技術不斷得到發展,從數據庫、數據倉庫到數據挖掘。近10年來還出現了一系列新技術,這些技術致力于處理文檔的非結構化信息。業界分析家報告說,有90%的可用信息是非結構化數據。
目前的內容管理解決方案具備了檢索、工作流、版本控制等基本功能,處理的智能性尚還不高。隨著內容管理中技術應用的深化,更多智能手段將被引入,如文檔自動分類技術、文本挖掘、Web挖掘、portal等技術。今后,必然還會發展出更智能化的內容處理技術,如語義分析、自然語言理解、智能等,它們會把內容管理推向深入。
以下介紹幾個典型的技術,它們將是未來內容管理技術的主流:
(1)Portal
Portal(門戶技術)是結合各種有用的信息資源成為單一的和應有盡有的網站的一個方法,以幫助用戶避免因信息泛濫而不知所措或產生網上迷失感,其根本思想就是只要從這扇門進入,就可以
知道任何你想要的東西,許多知名門戶網站就是以此為指導思想。Oracle9iASportal是這個技術應用的典型代表。
(2)文本挖掘與檢索
要在海量的非結構化文檔中又快、又準、又全地找到用戶所需的文檔,檢索是核心技術,從原理上,檢索可以采取兩種方案:其一是將文檔歸入一個有序的結構,再按結構規則提取文檔(檢索),這種方法也被稱為“文本挖掘(textmining)”;另一種方案是不建立結構,在檢索時,用戶自由地輸入檢索詞或短語,由系統進行匹配,并將匹配到的文檔按檢索詞出現頻率的統計規則提供給用戶,這就是全文檢索。
(3)Web挖掘
Web是一個龐大的、動態的、超媒體結構的包含媒體、文本和其他數據元素的信息集,。也是網絡時代內容的主體部分。Web挖掘就是從Web文檔、媒體、結構以及用戶交互行為中抽取感興趣的、有潛在價值的模式和隱含信息的過程,是數據挖掘(DataMining)在WWW上的延伸,包括Web內容挖掘、Web結構挖掘和Web使用挖掘。
(4)多媒體挖掘(MultimediaMining)
越來越多的多媒體數據,使得繼數據挖掘之后,多媒體挖掘成為新的研究方向。過去大量的研究都集中在基于內容的信息檢索方面,在某種程度上解決了信息搜索和信息資源發現的問題。但是,信息檢索只能獲取與用戶要求相關的“信息”,而不能從大量多媒體數據中發現和分析出其中蘊含的有價值的“知識”。多媒體挖掘是比多媒體信息檢索更高層次的新方法。一旦將多媒體挖掘技術用于內容管理,對于多媒體文檔的管理會產生質的飛躍。
(5)自然語言處理
自然語言處理研究如何能讓計算機理解并生成人們日常所使用的(如漢語、英語)語言,使得計算機懂得自然語言的含義,并對人給計算機提出的問題,通過對話的方式,用自然語言進行回答。自然語言理解系統可以用作專家系統、知識工程、情報檢索、辦公室自動化的自然語言人機接口,有很大的實用價值。
(6)智能
“智能”特別適用于分布計算或客戶/服務器環境,在半自動狀態下工作。智能可以使人們在搜尋和獲取信息領域和互聯網絡上開發增強服務,可以使人們在搜尋和獲取信息的過程中大大節省時間,從而提高工作效率。
隨著信息處理技術的不斷發展,會有更多的技術可以用于內容管理,提高內容管理系統的效率。
4內容管理系統實例介紹
目前,在內容管理系統的開發方面國外已經比較成熟,許多公司都推出了自己的相關產品,盡管還沒有達到智能化管理的程度。比如微軟公司就把它的CMServer(內容管理服務器)作為其Backoffice系列產品的一個組件,不過其功能還過于簡單,畢竟微軟不是做內容管理系統的專業廠商。國內雖然已經有一些公司在進行內容管理系統的研究開發,但與國外還存在較大的差距。
這一部分將簡要介紹Redhat公司的內容管理系統(CMS),Redhat不僅致力于Linux的開發,也始終關注內容管理系統的開發,因此它收購了一家做內容管理系統的專業公司,奠定了自己在內容管理系統開發上的地位。以下是RedhatCMS的一些基本概念,了解了這些基本概念就會對它的內容管理的思想有個比較全面的認識。
(1)Contentitem(內容條目):CMS系統管理內容的基本單元。
(2)Contenttype(內容類型):定義一個內容條目的特征。
(3)ContentElement(元素):內容條目的組成部分,元素有兩種基本類型:一種是簡單的數據,另一種就是條目(因為一個條目可以將其他條目作為自己的內容)。
(4)ContentSection(內容分區):內容分區就是內容的一個集合,包括若干內容條目,一個內容分區可以作為一個獨立的內容管理單元。
(5)ContentCategory(內容分類):用于對個內容分區中的條目進行非分類,這樣就可以方便用戶對內容進行瀏覽和搜索。
(6)Workflow(工作流):定義內容條目的生產制作過程,它有一組任務(Task)組成,每一組任務分配給不同的人員,從而實現了工作流的管理。
(7)Lifecycle(生存周期):定義內容條目的計劃,通常有若干個階段(Phase)組成。
(8)Template(模板):定義內容條目如何可視化的表現。
(9)Version(版本信息):及時反映出一個內容條目的當前狀態信息。
(10)ContentAuthoringKit(內容創作工具箱):內容創作工具箱就是用于對內容的創作,它是和內容類型相對應的,每種類型都有其相應的內容創作工具箱。
在CMS中是以內容分區為單位來組織內容的,每個內容分區若干內容條目組成,每條內容都屬于一種預定義好的類型,從而可以使用對應類型的工具箱進行內容的編輯修改,在一個內容分區內,可以對內容條目進行歸類,方便了內容的檢索。
每一個內容分區都包含了不同角色的成員,他們在一條內容的工作流中完成自己權限之內必須完成的任務,并使內容進入下一流程,如果在一個工作流控制中兩個任務之間前后存在倚賴關系,那么在前一個任務完成之前下一任務使無法開始的,在一條內容創作完畢并且通過審批,就可以根據實現定義好生命周期將其出去,實現版本控制。
在一個內容分區內,管理員可以根據需要定義各種角色并賦予權限,再為用戶賦予不同的角色使其在工作流中可以分配到任務。一個內容分區可以有一個缺省的工作流和生命周期可用于所有內容,也可以針對具體的一條內容利用模板定義自己的工作流和生命周期。
可見,Redhat的內容管理系統已經具備了自身的一套完整理論體系,在內容的工作流、生命周期、權限管理等方面做的非常好,為其進一步展開智能化內容管理的研究開發奠定了基礎,一旦引入前文提到的一些智能化的技術可以構建一個概念非常強大的內容管理系統。
5結束語
隨著信息化的不斷的推進,對內容管理提出了迫切需求,如何實現從內容中發掘價值,如何使正確的“內容”能夠在正確的時間、以正確的形式傳遞到正確的地點和正確的人,以便做出正確的決策,這是內容管理系統的根本任務。國內外在這一領域的研究方興未艾,但是還沒有形成統一成熟完備的理論體系,因為它涉及到太多的技術。本文從內容管理的概念出發,重點介紹了Portal、文本挖掘與檢索、Web挖掘、多媒體挖掘、自然語言處理和智能等一些可以把內容管理推向深層次的技術,并且以Redhat公司的內容管理系統為實例介紹了與內容管理系統開發的一種思路。伴隨Internet的進一步發展,內容管理越來越重要,內容管理技術研究也將成為重要的研究課題和方向。
參考文獻
1劉穎.計算語言學.清華大學出版社,2002
2技術文檔
3李國輝,張軍,湯義,挖掘技術直面多媒體——信息爆炸帶來新挑戰,計算機世界,2002年10月6日第27期