前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇搜索引擎研究范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。
關鍵詞:SEO;搜索引擎優化;網絡營銷
一、搜索引擎優化概述
SEO是Search Engine Optimization的縮寫,翻譯成中文就是搜索引擎優化,是通過研究搜索引擎的搜索規則來提高網站在搜索結果頁面排名的方法。SEO的主要工作分為內部優化和外部優化,內部優化指對網頁基本要素進行調整,外部優化指如何增加網站外部鏈接,總之優化的最終目的就是提高網站訪問量,提升網站宣傳能力。
二、搜索引擎工作原理
研究搜索引擎優化實際上就是對搜索引擎工作過程的逆向推理,因此,學習搜索引擎優化首先要了解搜索引擎的工作原理。搜索引擎主要包括全文搜索引擎(百度、Google),目錄搜索引擎,元搜索引擎三大類。這里主要介紹全文搜索引擎的工作原理。
搜索引擎的主要工作包括:頁面收錄、頁面分析、頁面排序及關鍵字查詢。頁面收錄就是指搜索引擎在互聯網中進行數據采集,然后將采集到的數據存放到自己的數據庫中,這是搜索引擎最基礎的工作。搜索引擎是根據頁面的URL地址找到網頁,然后利用蜘蛛程序抓取網頁。頁面分析指搜索引擎對收錄的頁面將進行一系列的分析、處理,主要包括:過濾標簽提取網頁正文信息,對正文信息進行切詞處理,建立關鍵字與頁面間的索引等,為用戶的查詢做好準備。用戶向搜索引擎提交關鍵字查詢信息后,通常會返回多個結果頁面,決定頁面排序的主要因素包括頁面相關性和鏈接權重,做優化工作的主要任務也就是想辦法提高頁面的相關性和鏈接權重,頁面相關項性主要由關鍵字匹配度、關鍵字密度、關鍵字分布及權重標簽等決定,鏈接權重包括內部鏈接權重和外部鏈接權重,其中外部鏈接權重影響較大。最后就是用戶進行關鍵字查詢。
三、網站優化實施
在說網站優化實施方案之前,先說一下搜索引擎優化的宗旨:SEO工作應該以用戶為中心,圍繞提高用戶體驗、完善網站功能而進行,不能為了優化而優化。也就是說在對網站優化時應該以滿足用戶需求為根本出發點,而不要采用一些欺騙搜索引擎的手段以達到提高網站排名的目的。
四、網站結構優化
網站結構包括物理結構及邏輯結構。物理結構是由頁面的真實存儲位置決定的結構,反映的是頁面的存儲層次。邏輯結構是指由頁面間的鏈接關系所決定的結構,它反映的是頁面間的鏈接層次關系。網站結構優化主要包括物理結構優化和邏輯結構優化。
網站物理結構優化主要是指規劃合理的站點結構,盡可能減小目錄深度,一般目錄深度一般不超過4層,目錄深度較小的頁面不管對于搜索引擎還是普通用戶都是有好處的,因而能得到更多的權重。也可以通過一些技術手段解決URL長度的問題,如URL重寫,但此時URL就不能反映頁面的真實存儲位置。
網站邏輯結構優化主要是建立合理的導航結構,減少頁面間的鏈接深度。只有具有清晰合理的網站導航結構,才能盡可能多地收錄網站的頁面和收錄更深層次的頁面。鏈接深度是指從源頁面到達目標頁面所經過的路徑數。鏈接深度越小被搜索引擎抓取的幾率就越大。減小鏈接深度可以采用以下方法:盡可能把重要頁面的鏈接和欄目放置到首頁;把第二、三層的欄目標題抽取到首頁;建立網站地圖頁面,并提交給搜索引擎。
鏈接優化。鏈接分為內部鏈接和外部鏈接,是決定頁面權重的重要因素。內部鏈接與外部鏈接相比外部鏈接對頁面權重的影響更大一些。鏈接優化首先是鏈接對象的選擇,鏈接對象會影響頁面的相關性,在這方面影響最大的是文本,其次是圖片,最小的是對媒體文件。也就是說超鏈接對象最好采用文本格式,且文本內容最好使用與頁面主題相關的關鍵字和權重標簽,如果使用圖片做超鏈接,必須設置圖片的alt屬性來表達主題。
內部鏈接優化主要是建立強大有序的內部鏈接,讓網站所有頁面互相連通,還有一點就是保證網站中重要頁面能得到更多的鏈接,只有這樣才能提高搜索引擎對網站的收錄。外部鏈接優化是搜索引擎優化的一項重要工作,主要指如何增加網站的外部鏈接數量。增加外部鏈接的主要方法有:登陸分類目錄、交換鏈接和使用鏈接誘餌等。登陸分類目錄時注意不要登陸一些低質量的分類目錄,網站因此可能會受到懲罰。交換鏈接時注意網站主題相關性、網站質量、導出鏈接的數量,主題越相關,網站質量越高,導出鏈接數量越少網站能得到更多的權重。鏈接誘餌主要包括軟文、廣告和共享軟件。
關鍵字優化。搜索引擎是以關鍵詞為搜索條件進行檢索的,關鍵字優化主要目的就是提高頁面和關鍵字的相關性。關鍵字優化首先就是要尋找與頁面主題相關的關鍵字,優先選擇那些符合大部分用戶搜索習慣的關鍵字,然后,就是對關鍵字的搜索量、商業價值、競爭程度進行評估,從中篩選出高搜索量、高相關性、低競爭的關鍵字。關鍵字在網頁中出現的位置可謂無處不在,主要包括:title標題、meta標簽、網頁正文、url路徑、alt屬性等,關鍵字的密度控制在2%-8%的范圍內比較合理。
五、總結
隨著互聯網的發展,搜索引擎優化會得到越來越廣泛的引用。學習SEO其實并不難,但也不是一時就能學會的,學習SEO首先要學會多思考,多角度、多層面的去思考,去分析自己的網站;其次就是多實踐,積累經驗;當然還有最重要,也是最基礎的一項內容,就是掌握SEO的基礎知識。
參考文獻:
1、吳澤欣.搜索引擎優化入門與進階[M].人民郵電出版社,2008.
關鍵詞:搜索引擎;信息檢索;互聯網;網絡信息量
中圖分類號:TP393
文獻標識碼:A
文章編號:1004―373X(2008)04―074―04
伴隨著互聯網的爆炸性發展,網絡用戶想找到所需的資料如同大海撈針,為了滿足人們信息檢索需求,專業搜索網站應運而生了。搜索引擎(search engine)是一個信息處理系統,他以一定的策略在互聯網中搜集信息,對信息進行理解、提取、組織和處理,并為用戶提供檢索服務,從而起到信息導航的目的,從用戶的角度來看,他就是一個幫助人們進行信息檢索的工具。搜索引擎以傳統信息檢索技術的索引模型、匹配策略等技術為基礎,涉及數據庫、信息檢索、人工智能、統計數據分析、數據挖掘、計算機網絡等諸多領域的理論和技術。
本文回顧了搜索引擎發展的簡史,介紹他的分類和關鍵技術,并對中文搜索引擎各組成部分進行分析,最后指出了中文搜索引擎的發展趨勢。
1 搜索引擎的發展、分類和性能指標
1.1發展簡史
1990年由蒙特利爾的大學生Alan Emtage等人發明的Archie是搜索引擎始祖,他依靠腳本程序自動搜索網上的文件,然后對有關信息進行索引,供使用者以一定的表達式查詢。后來,一些開發機器人(Robot)程序的編程者提出了設想:既然所有網頁都可能有指向其他網站的鏈接,那么從跟蹤一個網站的鏈接開始,就有可能檢索整個互聯網。最早現代意義上的搜索引擎出現于1994年7月,當時Michael Mauldin將John Leavitt的Robot程序接入到其索引程序中,創建了大家現在熟知的Lycos。同年4月,斯坦福大學的David Filo和楊致遠共同創辦了超級目錄索引Yahoo,并成功地使搜索引擎的概念深入人心,Yahoo也被稱為第一代搜索引擎,從此搜索引擎的發展進入了黃金時代。1998年9月,同樣是Stanford大學兩位博士生Larry Page和Sergey Brin成功開發了新一代搜索引擎一一Google,具有比Yahoo使用的技術更快、更準確的特點,被視為第二代搜索引擎的代表。隨著互聯網規模的急劇膨脹,搜索引擎之間也開始出現了分工協作,并有了專業的搜索引擎技術和搜索數據庫服務提供商。
1.2搜索引擎的類別
根據搜索引擎的系統結構、信息搜集方法、服務提供方式的區別,搜索引擎分為以下類別:
(1)機器人搜索引擎:機器人是指某個不斷重復執行某項任務的自動程序,基于機器人的搜索引擎多提供對全文的檢索,有時也叫作全文搜索引擎。機器人程序以某種策略對Internet進行定期搜索,對一定IP地址范圍內的互聯網站進行檢索,一旦發現新的網站,他會自動提取網站的信息和網址加入自己的數據庫,由索引器建立索引。對用戶查詢則由檢索器檢索索引庫,最后將查詢結果返回給用戶。該類搜索引擎的優點是信息量大、更新及時、不需人工干預;缺點是返回信息量大,且有很多無關信息,用戶必須從結果中進行篩選。Google、百度就是這類搜索引擎的代表。
(2)目錄式搜索引擎:以人工方式或半自動方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息按照主題分成若干個大類,每個大類再依次細分,使信息形成按主題分類和組織的樹型結構。信息大多面向網站,提供目錄瀏覽服務和直接檢索服務。由于目錄式搜索引擎的信息分類有人的參與,因此其搜索的準確度是相當高的,缺點是人工維護、信息量少、信息更新慢。典型代表是:Yahoo(現已采用Robot技術)、LookSmart等
(3)元搜索引擎:這類搜索引擎沒有自己的數據,而是將用戶的查詢請求向多個的獨立搜索引擎遞交,再對返回的結果進行重復排除、重新排序等處理后,作為自己的結果返回給用戶。優點是返回結果的信息量更大、更全,缺點是用戶需要做更多的篩選。元搜索引擎的搜索效果始終不理想,目前還沒有任何一個元搜索引擎取得強勢地位。
1.3搜索引擎的性能指標
搜索引擎性能評價既要參考傳統型文獻檢索工具的質量評價標準,如:信息組織加工及檢索服務提供方式等,又要立足于用戶的立場,即能滿足大多數網絡用戶要求的搜索引擎就是一個好的搜索引擎。
在通常情況下,我們可以從以下幾個方面來衡量一個搜索引擎的性能:
查全率 指搜索引擎提供的檢索結果中相關文檔數與網絡中存在的相關文檔數之比,他是搜索引擎對網絡信息覆蓋率的真實反映。
查準率 是搜索引擎提供的檢索結果與用戶信息需求的匹配程度,也是檢索結果中有效文檔數與搜索引擎提供的全部文檔數之比。
響應時間 一般而言取決于2個因素,即與帶寬有關的網絡速度和搜索引擎本身的速度,只有在二者均獲得可靠的技術支持的情況下,才能保證理想的檢索速度。對搜索引擎來講,查全率和查準率很難做到兩全其美,影響搜索引擎的性能的主要是信息檢索模型,包括文檔和查詢的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的排序方法和用戶進行相關度反饋的機制。
2 搜索引擎系統架構和關鍵技術
搜索引擎一般由搜索器、分析器、索引器、檢索器和用戶接口等5大部分組成,其工作原理如圖1所示:
2.1搜索器
搜索器是通過網頁的鏈接地址來尋找網頁的計算機程序,他從網站的某一個頁面開始,讀取網頁的內容,找到網頁中的其他鏈接地址,然后通過這些鏈接地址尋找下一個網頁。在搜索器實現時,系統中維護一個超鏈隊列,其中包含一些起始URL,搜索器從這些URL出發,下載相應的頁面,并從中抽取出新的超鏈加入隊列中,上述過程不斷重復直到隊列為空。為提高效率,搜索引擎還將Web空間按照域名、IP地址或國家域名進行劃分,使用多個搜索器并行工作,讓每個搜索器負責一個子空間的搜索。由于互聯網上的信息太多,因此搜索器必須采用一定的搜索策略對互聯網進行遍歷并下載文檔搜索器,目前一般采用以廣度優先搜索策略為主、線性搜索策略為輔的搜索策略。搜索器主要的搜索策略有:
線性搜索策略 線形搜索策略的基本思想是從一個起始的IP地址出發,按IP地址遞增的方式搜索后續的每一個IP地址中的信息,完全不考慮各站點的HTML文件中含有的超鏈地址。該策略只適用于小范圍的全面搜索,可以發現被引用較少的新HTML文件信息源。
廣度優先搜索策略廣度優先搜索策略是先抓取起始 網頁中鏈接的所有網頁,然后再選擇其中的一個鏈接網頁,繼續抓取在此網頁中鏈接的所有網頁。廣度優先搜索策略容易實現并被廣泛采用,但是需要花費較長時間才能到達深層的Web文件。
深度優先搜索策略 深度優先搜索策略是早期開發搜索器使用較多的一種方法,他順著HTML文件上的超鏈走到不能再深入為止,然后返回到上一個結點的HT―ML文件,再繼續選擇該HTML文件中的其他超鏈。深度優先搜索適宜遍歷一個指定的站點,但不適合于搜索相當深的Web結構。
2.2 分析器
分析器對搜索器找到的網頁信息進行分析,以便建立索引。其分析技術包括:分詞、過濾、轉換等。通常選用“詞”作為文本特征的元數據,在分詞時,大部分系統從全文中抽取詞條,也有部分系統只從文檔的某些部分(如標題等)抽取詞條。中文句子的詞語間沒有固定分隔符、漢語語義及結構的復雜性給中文分詞帶來極大困難。
2.3 索引器
索引器的功能是對搜索器所搜索的信息進行分析處理,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表。索引項有元數據索引項和內容索引項2種,元數據索引項與文檔的語意內容無關,如作者名、URL、更新時間、編碼、長度、鏈接流行度等。內容索引項可以分為單索引項和多索引項(或稱短語索引項)2種,用來反映文檔內容,如:關鍵詞及其權重、短語、單字等。為了快速查找到特定的信息,必須將文檔表示為一種便于檢索的方式并存儲在索引數據庫中。索引數據庫的格式是一種依賴于索引機制和算法的特殊數據存儲格式,一個好的索引模型應該易于實現和維護、檢索速度快、空間需求低。搜索引擎普遍借鑒了傳統信息檢索中的索引模型,包括倒排文檔、矢量空間模型、概率模型等。索引器的輸出是索引表,他記錄索引項在文檔中出現的位置,以便檢索器計算索引項之間的相鄰或接近關系,索引表一般使用倒排形式,即由索引項查找相應的文檔。索引器可以使用集中式索引算法或分布式索引算法。一個搜索引擎的有效性在很大程度上取決于索引的質量。
2.4檢索器
檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,并實現某種用戶相關性反饋機制。常用的檢索方法有以下幾種:基于關鍵詞的檢索;基于概念的檢索;基于內容的檢索。
如在矢量空間索引模型中,用戶查詢q首先被表示為一個范化矢量V(q)=(t1,w1(q);…;t,wi(q);…;tn,w。(q))。然后按照某種方法來計算用戶查詢與索引數據庫中每個文檔之間的相關度,而相關度可以表示為查詢矢量v(q)與文檔矢量v(d)之間的夾角余弦,最后將相關度大于閥值的所有文檔按照相關度遞減的順序排列并返還給用戶。
2.5 用戶接口
用戶接口的作用是為用戶提供可視化的查詢輸入和結果輸出界面,方便用戶輸入查詢條件、顯示查詢結果、提供用戶相關性反饋機制等。用戶接口的設計和實現必須基于人機交互的理論和方法,以適應人類的思維和使用習慣。在查詢界面中,用戶按照搜索引擎的查詢語法制定待檢索詞條及各種簡單或高級檢索條件。在查詢輸出界面中,搜索引擎將檢索結果展現為一個線性的文檔列表,其中包含了文檔的標題、摘要、快照和超鏈等信息,用戶需要逐個瀏覽以找出所需文檔。目前一些公司和機構正在考慮制定查詢選項的標準。
2.6檢索結果排序
對于某個檢索項,通常會返回大量的查詢結果列表,其中混雜著大量的不相關文檔,為了提高查詢效率,搜索引擎要對檢索結果進行相應排序。
(1)基于內容的相關度排序:考慮用戶所查詢的詞條在文檔中的出現情況,包括詞條頻率,逆文檔頻率,詞條位置等因素,根據文檔相關度決定其在檢索結果集中的位置。
(2)基于超鏈的相關度排序:考慮一個頁面被其他站點引用的次數,這基本上反映了該頁面的重要性,超鏈的標記:艾本也對鏈宿頁面起到概括作用。斯坦福大學研究開發的PageRank算法,不僅考慮Web頁上的標題或文本,還考慮與之相連接的其他網站,通過為Web頁面構造引用圖,綜合頁面的被引用次數,以及鏈源頁面的重要性來判斷鏈宿頁面的重要性,能夠查詢與用戶請求相關的“權威”頁面。
(3)檢索結果的聯機聚類:用戶查詢相關的文檔通常會聚類的比較近,而遠離與查詢無關的文檔。因此可利用聚類技術將結果文檔集合分成若干組,同一組的文檔內容相似度盡可能地大,組間相似度盡可能地小,用戶只需考慮他所選擇的文檔所在的組。
(4)推測用戶最終目的:通過各種技術推測用戶沒有在查詢語句中表達出來的查詢目的,如使用智能跟蹤用戶檢索行為,分析用戶模型,通過同類用戶的行為記錄推薦相關頁面;使用相關度反饋機制,通過對查詢請求的不斷修正以提高系統搜索結果的精確度等。
3 中文分詞技術
中文自動分詞是網頁分析的基礎。在網頁分析的過程中,中文與英文的處理方式不同,這是因為中文信息與英文信息有一個明顯的差別:英文單詞之間有空格,而中文文本中詞與詞之間沒有分割符。這就要求在對中文網頁進行分析之前,先要將網頁中的句子切割成一個個的詞的序列,這就是中文分詞。中文自動分詞涉及到許多自然語言處理技術和評價標準,在搜索引擎中,主要關心中文自動分詞的速度和準確度。現有的分詞算法可分為3大類:基于分詞詞典的機械分詞方法、基于理解的分詞方法和基于統計的分詞方法。
(1)基于分詞詞典的機械分詞方法:這種方法是按照一定的策略將要分析的漢字串與詞典中的詞條進行匹配,是比較成熟的技術,又叫做機械分詞方法。按照不同長度優先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。常用的幾種機械分詞方法如下:正向最大匹配法(由左到右的方向);逆向最大匹配法(由右到左的方向);最少切分(使每一句中切出的詞數最小)。實際使用的分詞工具,只是把機械分詞作為一種初分手段,此外還要利用各種其他的語言信息來提高切分的準確率。例如一種方法是特征掃描(或標志切分),首先在待分析字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進行機械分詞,從而減少匹配的錯誤率。
(2)基于理解的分詞方法:這種分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。他通常包括3個部分:分詞子系統、句法語義子系統、控制部分。在控制部分的協調 下,分詞子系統可以獲得有關詞句的句法和語義信息來對分詞歧義進行判斷,即他模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統、復雜性,目前基于理解的分詞系統還處在試驗階段。
(3)基于統計的分詞方法:這種方法是對語料中的字組頻度進行統計,不需要切分詞典,因此也稱為無詞典分詞方法。從形式上看,詞是穩定的字的組合,因此在上下文中,相鄰的字同時出現的次數越多,就越有可能構成一個詞。因此可以對語料中相鄰共現的各個字的組合的頻度進行統計,計算他們的互現信息。互現信息體現了漢字之間結合關系的緊密程度,當緊密程度高于某一個閾值時,便可認為這些字的組合可能構成了一個詞。但該方法時空開銷比較大,而且經常把不是詞的常用字組當成詞,例如“我的”、“之一”等。在搜索引擎領域的實際應用中,一般將機械分詞方法與統計分詞方法相結合,先進行串匹配分詞,然后使用統計方法識別一些未登錄的新詞,這樣既發揮了匹配分詞速度快、效率高的優勢,又利用了統計分詞中新詞自動識別和自動消除分詞歧義的特點。
分詞詞典是影響中文自動分詞的一個重要因素,其規模一般在6萬條詞左右,若辭典過大,則歧義現象將大大增加;而辭典過小,有些詞切分不出來,同樣影響分詞的精度。因此,分詞詞典中詞條的選擇是非常嚴格的。對于不斷出現新詞的網絡領域,僅使用6萬條詞左右的分詞詞典是不夠的,但隨意向分詞詞典中加入新詞將導致分詞精度下降,一般的解決方法是使用輔助詞典,其規模在50萬詞條左右。另外,中文自動分詞的難點在于未登錄詞的識別和分詞歧義的處理,如何處理這兩個問題一直是該領域研究的熱點。
4 搜索引擎的技術熱點與發展趨勢
隨著互聯網的發展,針對基于關鍵詞搜索引擎所存在的不足,各搜索引擎網站紛紛向智能化、個性化方面發展,出現了值得關注的技術熱點。
4.1 多媒體搜索技術
可用于網絡檢索的多媒體信息的內容特征大致包括:圖像的顏色、紋理、形狀等;聲音的音頻、響度、頻度和音色等;影像的視頻特征、運動特征等。這種類型的搜索引擎還不多見,并且主要用于圖像檢索,如QBIC、WeebSeek、ImageRover等。目前的多媒體搜索引擎覆蓋面小,檢索功能不夠完善,效果也不太理想,因此,多媒體搜索技術尤其是音頻、視頻數據的檢索仍是搜索引擎的一個研究重點。
4.2 用戶行為分析
現在的搜索引擎是以關鍵字作為表達查詢的主要手段的,以按相關度大小排列的文獻列表為展示方式,任何人搜索同一個詞都會得到同樣的結果。為了克服千人一面的不足,人們逐步引入了一些個性化的技術,包括對查詢輸入的修正,查詢結果的聚類等。但是,到目前為止,查詢輸入的主要方式還是關鍵字,查詢輸出的主要也還是文本列表。如何為用戶的學習和工作營造一個個性化的信息空間,是未來搜索引擎應該追求的方向。
4.3智能檢索技術
智能檢索主要包括自然語言處理、個性化搜索等技術。自然語言理解是計算機科學中的一個引人入勝的、富有挑戰性的課題。從計算機科學特別是從人工智能的觀點看,自然語言理解的任務是建立一種計算機模型,這種計算機模型能夠給出像人那樣理解、分析并回答自然語言。以自然語言理解技術為基礎的新一代搜索引擎,稱之為智能搜索引擎。由于他將信息檢索從目前基于關鍵詞層面提高到基于知識(或概念)層面,對知識有一定的理解與處理能力,能夠實現分詞技術、同義詞技術、概念搜索、短語識別以及機器翻譯技術等。因而這種搜索引擎具有信息服務的智能化、人性化特征,允許網民采用自然語言進行信息的檢索,為他們提供更方便、更確切的搜索服務。
4.4 P2P搜索技術
目前的互聯網是以服務器為中心的,人們向服務器發送請求,然后瀏覽服務器回應的信息,而對等搜索技術P2P(Peer to Peer)將以用戶為中心,所有的用戶都是平等的伙伴,用戶可以通過P2P共享硬盤上的文件、目錄甚至整個硬盤。把這一理念具體運用到搜索引擎技術上來,P2P將使用戶能夠深度搜索文檔,而且這種搜索無須通過Web服務器,也可以不受文檔格式和宿主設備的限制,具有傳統搜索引擎無可比擬優勢。P2P網絡的一個很大的問題在于搜索信息時所產生的網絡通信量非常巨大,在時間和網絡資源方面造成很大的浪費。為方便P2P網絡中的信息檢索,有關專家提出3種建立在特征文件基礎上的檢索機制:對語義路由進行詳細分析,提出了一個建立在此技術和RDF技術基礎上的新方法。
【關鍵詞】 Google GFS MapReduce BigTable
1 google要解決的問題
(1)WEB是非常巨大的,并且以指數級別在增長。
(2)Web中存在不同形式的資源:
Word,HTML,PDF,ASCII,Images
(3)檢索時間要極短不能讓用戶等待。
(4)各種民族各種語言不同,需要不同的分詞方法。
(5)系統能夠每天承受每天上億次的檢索。
(6)優化結果的排序規則,把用戶最需要的信息展現在最前面。
2 Google的分布式設計結構
Google的分布式設計是一項偉大的設計,它建立在上萬臺計算機上。面的上萬臺的復雜系統結構Google在設計系統的開始就有一個假設:“機器是會出問題的。”“容許機器出問題,但機器必需自動跳過或自動修復這些問題。”如圖1所示,是一張Google分布式設計的基本結構圖。
2.1 抓取部分
URL Server:存儲URL列表,這些URL都是將要被抓取的對象。
Crawler:一組進行并行檢索的爬蟲程序,每個爬蟲都有自己的DNS緩沖池,并且能夠在同一時間打開300個網絡連接。
Store Server:壓縮并且存儲爬蟲爬取來的網易。
Repository:包含每個網頁的全部信息,每個文檔都被標記為docID,length,URL。
Indexer:解壓縮文檔并且解析每個文檔,并把其中的連接存儲在Anchors中。
Anchors:專門存儲解析而來的新的連接。
URL Resolver:把相對路徑URL轉換為絕對路徑的URL。
其中,Repository是壓縮存儲的,壓縮率一般超過60%。
2.2 索引部分
URL Resover:將絕對路徑的URL映射為docID并且存儲在Doc Index中,將anchor text存儲到barrels。
Indexer:解析文檔,并且將倒排表分布到barrels中。
Barrels:存儲倒排表,并且對倒排表進行排序。
Lexicon:內存中的hash表,左項為wordID,右項為指向其應倒排表的指針。
Sorter:創建倒排索引。
2.3 檢索部分
Barrels:包含兩種不同的Barrels。短的barrel只包含標題和連接的倒排表,長得barrel存儲全部內容的倒排表。
Seacher:首先將用戶的搜索詞送入Lexicon,找到相應Barrel后,再在Barrel中進行檢索,如果檢索到,會返回docID,然后將這些docID送入Doc Index進行檢索,并得到最終的結果。
3 Google文件系統
每個操作系統都有自己的文件系統,例如Windows下常見的FAT32,NTFS。Linux下的EXT2,EXT3.然而GFS(Google File System)是一種非常特殊可擴展的分布式文件系統,適用于大型的,分布式的、對大量數據進行訪問的應用,它允許于普通硬件上,單提供不間斷監控、錯誤檢查、容錯技術和自動回復等功能。可以給用戶提供總體性能較高的服務。
在GFS中存有海量數據,一般一個文件會有幾個GB大,數據集一般能有幾個TB大。不能按照普通塊大小進行文件操作,否則會引發I/O阻塞,所以必須重新設定塊大小。GFS中每個塊得大小為64MB。
4 MapReduce
在搜索引擎進行索引的過程中,需要處理大量數據,并且產生更多的新數據,在分布式環境下,會有上千臺計算機工作,如何在這種大規模環境下工作,就是MapReduce需要具體解決的問題。
5 BigTable
因為Google體系結構中存在許多半結構化的數據,如URL,內容,Metadata,鏈接,anchors,pagerank,所以要設計一個能運行與分布式式環境下的數據庫存儲結構,這種特殊的數據庫就是BigTable。
除此之外還有用戶數據,用戶喜好設定數據,最近的查詢/檢索結果,并且還有一些地理位置信息,如商店、飯館、道路、衛星圖像、用戶的注釋等。這些數據規模是巨大的,有上十億的URL,并且每秒鐘要承受上千次的查詢,并且同樣要求提供100TB+的衛星圖像數據。
相對于商業數據庫而言數據規模還是太大了,而且花費太高,自己設計底層功能對幫助改善性能還是很大的。
關鍵詞:搜索引擎 發展 問題 對策
1 搜索引擎組成和分類
在互聯網中尋找信息要依賴搜索引擎,搜索引擎由搜索器(Robot)、索引器(Indexer)、檢索器(Searcher)和用戶接口等四個部分組成[2]。搜索引擎系統首先由搜索器收集網頁的內容,然后索引器分析收集內容并建立索引,再由檢索器響應用戶的檢索請示,用戶輸入關鍵字后,搜索器要用這個檢索詞與建立的索引器匹配,匹配后作相關性排序,最后通過用戶接口將排序結果送給用戶。
搜索引擎分為目錄索引類搜索引擎、全文搜索引擎和元搜索引擎。基于目錄的搜索引擎是按目錄分類的網站鏈接列表。數據庫由人工建立,編輯人員訪問某個Web站點后,根據站點的內容和性質歸類,并把站點的URL和描述放入該類別。目錄索引中最具代表性的是Yahoo,國內的新浪、網易屬于這一類。全文搜索引擎是名副其實的搜索引擎,它們從互聯網上提取各網站信息(以網頁文字為主)建立數據庫,通過數據庫檢索與用戶查詢條件匹配的相關記錄,按一定的排列順序將結果返回給用戶。國外具有代表性的有Google,國內著名的有百度。元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,并將結果返回給用戶。元搜索引擎沒有存放網頁信息的數據庫,當用戶查詢關鍵字,它把用戶的查詢請求轉換成其他搜索引擎能夠接受的命令格式,并行訪問數個搜索引擎來查詢這個關鍵字,并把這些搜索引擎返回的結果經過處理后返回給用戶。著名的元搜索引擎有InfoSpace,中文的元搜索引擎有搜星搜索。
2 搜索引擎行業盈利模式概述
目前搜索引擎的主要盈利模式是基于競價排名的廣告模式,具體廣告主在向垂直搜索引擎購買該項服務后,通過注冊一定數量的關鍵字,按照付費最高者排名靠前的原則,購買了同一關鍵字的網站按不同的順序進行排名,出現在網民相應的搜索結果中。之后根據點擊效果,搜索引擎企業向廣告主收取相應的費用。
3 搜索引擎行業發展面臨的問題分析
一是盈利模式單一。目前搜索引擎的主要盈利模式還是主要局限在廣告業務上,如此單一的盈利模式,導致其應對風險的能力薄弱。二是行業整合力度不大。搜索引擎行業擁有巨大的資源優勢,如客戶資源,并未將其進行有效的整合,以利用其優勢去發展其相關行業。三是專業人才偏少。搜索引擎行業是一個迅猛發展的行業,技術發展日新月異,對人才的需求非常大,一方面搜索引擎企業極其缺乏專業人才,一方面大量的求職者又無法滿足搜索引擎行業的要求。四是存在侵權現象。“網絡侵權”是搜索引擎服務商和營銷商隨時可能面臨的法律難題。例如,搜索引擎營銷借助互聯網實現信息海量鏈接,鏈接的頁面可能已經損害到用戶或第三人權利,鏈接的設置者是否真的侵權是司法認定中的難題。
4 搜索引擎行業發展對策研究
4.1加快發展垂直搜索引擎
垂直搜索引擎是繼通用搜索引擎之后的一項面向專業化,主題化的搜索技術,目前中國互聯網中不斷有面向新行業的垂直搜索引擎網站出現,如搜房網、面向求職的職業搜索等。
發展垂直搜索引擎,可以開拓出以下幾種盈利模式:一是成為行業交易中介平臺。通過和該行業的從業人員進行有效溝通,以及對該行業進行充分調研了解,對垂直搜索引擎進行不斷改造和更新,使其成為電子商務的中介平臺。二是為相關行業提供有效搜索數據。垂直搜索引擎可以在用戶查詢時對其所輸入的關鍵字進行記錄,之后在一個時間間隔內(3個月或半年)對這些關鍵字進行統計分析一次,就能夠獲取這個時間區間內用戶對這個行業的各方面關注情況,這些資料對于從事該行業的企業具有參考價值。三是對行業用戶提供相關廣告推薦。作為競價排名廣告的有益補充,數據挖掘技術在推薦廣告方面也可以發揮出它的作用。當獲得一系列用戶的興趣模型,即可對這些用戶進行相應的聚類分析,可以進行相應的廣告投放和產品推薦。
4.2發展移動搜索
移動搜索可以挖掘出更多的盈利模式[3]。移動搜索模式要充分發揮及時定位的特點,當用戶向移動搜索提交關鍵字查詢時,搜索引擎通過用戶所發送的關鍵字附帶的頭信息,判斷出用戶所在位置附近的基站。通過定位基站信息,查詢到用戶所在的大致位置信息,并將位置與關鍵字結對搜索結果重新組合,將相應結果返回給用戶。通過與位置相結合的相關反饋,可以使用戶獲得更需要的搜索結果,為用戶提供有價值的參考信息,并有效過濾很多無關信息。例如,通過當前用戶的位置,以用戶提交的某種商品名為關鍵字,返回給用戶該商品附近的銷售信息、打折排序等信息。
4.3積極發展搜索引擎上下游行業
一是向上游拓展,發展傳媒事業。通過發展傳媒事業,搜索引擎行業可以獲得話語權,獲得進入相關行業的通道。二是橫向延伸,發展搜索的企業級應用,為企業定制搜索服務。三是向下游拓展,發展電子商務。搜索引擎行業的用戶群中,有很大一部分是符合電子商務標準的,屬于電子商務的優良客戶。
4.4加強搜索引擎行業人才隊伍建設
目前搜索引擎行業最緊缺的是三類人才:搜索引擎營銷人才、投資管理人才和高技能專業軟件人才。解決這三類人才短缺瓶頸需要一個長期努力的過程,一方面要多途徑培養人才,借助政府、高校、搜索引擎企業、研究機構四方共同努力,加大力度培養本土高技能人才和營銷人才;另一方面要多渠道吸引人才,創新人才政策,集聚海內外優秀投資管理人才和資本運營人才。
4.5加大對搜索引擎行業扶持力度
搜索引擎行業是互聯網企業的排頭兵,中國應該對有技術潛力的搜索引擎企業加大扶持力度。在經營上給予政策優惠,提高他們盈利水平,增強融資功能,滿足開發新技術對資金的需求;政府應主動牽線,促進搜索引擎行業與高校和研究機構的技術交流,使搜索引擎行業可以分享高校和研究機構的研究成果,并為他們的研究提供實踐機會,促進研究成果商業化。
4.6加快搜索引擎行業立法
首先,為進一步推進搜索引擎發展提供法律保障,為搜索引擎行業的行為做出明確的規范,規避潛在的經營風險。其次,為搜索引擎在版權保護方面提供法律依據。通過法律明確界定搜索引擎可以收錄信息的范圍,既可保證版權人的合法權益,又保證搜索引擎加入盡可能多的信息。第三,對搜索引擎營銷做出行為規范。對搜索引擎營銷所涉及到的諸如點擊計數,虛假廣告等違規行為進行規范、監督和控制。
參考文獻
[1] 楊麗媼.百度的公信危機[J].東方企業文化,2009,(1):66-67.
[2] 張訊沫.搜索引擎的設計剖析[J].計算機工程與科學,2002,24(4):18-20.
《報告》顯示,截至2011年第三季度,搜索引擎用戶規模達到3.96億,用戶增長放緩。
網民網頁搜索使用慣性已經養成
百度憑借其豐富的產品線,仍舊占據極為領先的市場地位,2011年市場集中化趨勢更為明顯。百度對六大群體——少年用戶群、大學生用戶群、白領用戶群、藍領用戶群、老年用戶群、農村用戶群的滲透率都很高,沒有明顯的用戶滲透短板。與此同時,其他搜索引擎公司正在崛起,但是在傳統網頁搜索上,超過百度較為不易。
垂直搜索引擎正在興起
隨著中國網民的日益成熟,網民在仍舊是綜合搜索引擎用戶的同時,更多細分化的需求開始通過垂直搜索引擎滿足,2011年這一趨勢更為明顯。在爭奪垂直產品搜索用戶上,三股力量在角力:綜合搜索引擎、垂直搜索引擎、提品服務的網站站內搜索。目前綜合搜索引擎的用戶量非常大,但另外垂直搜索引擎以及網絡應用站內搜索用戶量增長迅速。
從產品搜索看,各有15%左右的用戶使用專業垂直搜索引擎和使用購物網站站內搜索;從視頻搜索看,則是視頻網站站內搜索較強,比例達到23.2%,使用專業垂直搜索引擎和視頻網站站內搜索的比例分別是9.9%和23.2%;音樂搜索亦是如此,在音樂網站站內搜索的比例達到28.3%,已超過通過綜合搜索引擎提供的音樂搜索功能搜索的21.7%。
新搜索入口正在形成
網民使用較多的仍舊是直接上專業搜索網站的首頁搜索,有81%的用戶有這一習慣。其次是在瀏覽器地址欄里輸入關鍵詞搜索,用戶比例達39.6%。網民進入搜索引擎的方式多種多樣,除了以上這兩種外,導航網站、瀏覽器搜索框、聊天工具等都是網民進入搜索引擎的重要入口,使用比例分別達到34.2%、31.4%、28.1%。
分用戶群看,老年用戶更習慣使用直接登錄首頁,使用網站首頁的比例在六大群體中最高,達到84.8%。活躍度較高的大學生用戶和少年用戶更喜歡瀏覽器搜索框和聊天工具提供的搜索引擎入口,大學生用戶使用瀏覽器搜索框的比例為42.4%,少年用戶使用聊天工具提供搜索框的比例是39.1%。這預示著搜索未來的發展方向。
新聞、視頻和音樂是用戶最常搜索的三大內容