1000部丰满熟女富婆视频,托着奶头喂男人吃奶,厨房挺进朋友人妻,成 人 免费 黄 色 网站无毒下载

首頁 > 文章中心 > 夜書所見

夜書所見

前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇夜書所見范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。

夜書所見范文第1篇

知識技能:1.掌握本詩的生字、詞語。2.有感情地朗讀并背誦古詩。3.學會借助注釋理解詩意,在此基礎上體會詩人所表達的思想情感,激發和培養學生學習古詩的興趣。

過程方法:1.反復朗讀詩歌,培養學生對詩歌學習的興趣。2.讓學生展開想象理解詩句并體會詩人的思想情感。3.注重學生語文素養的培養。

情感態度和價值觀:1.反復朗讀體會詩人所表達的思想感情。2.激發學生學習古詩的興趣。

教學重點:1.詞語積累。2.感情朗讀,理解詩意,背誦古詩。3.通過誦讀悟詩情。

教學難點:1讓學生借助注解.理解詩意。2.通過誦讀體會詩人在詩中所流露的思想情感。

教學準備:PPT

過程設計   

一.淡話導課。

孩子們,現在是什么季節?(秋季)在這個季節最容易激發文人墨客的詩興,古人給我們留下好多詩篇。你們知道哪些寫秋天的古詩?快打開記憶的閘門找一找。(《山行》,《贈劉景文》)這節課,我們一起來學習一首寫秋天的古詩,希望孩子們喜歡。板書課題《夜書所見

二.解詩題和作者

1.解詩題。

書:寫    所見:(詩人)所看見的

詩人把夜晚所看見的景物寫下來。

2.解作者。

你了解作者嗎?讓他穿越時空來給我們做一下自我介紹吧!

三.三讀詩歌。

(一)一讀解字詞

1.初讀古詩,用筆圈出詩中的生字、詞語,并畫出詩歌的節奏。

2.教師檢查學生完成情況。

生字:蕭、梧、促。   

詞語:書、見、蕭蕭、寒聲、動客情、知、挑促織、籬落。

節奏劃分:2/2/3

(二)二讀繪意境

1.孩子們,詩歌的文字高度凝練,一字、一詞、一句話就會呈現出一幅栩栩如生的畫面。請孩子們再讀詩歌,邊讀邊想,把自己讀到的畫面描述出來。試用“讀了這首詩,我仿佛看到了------------,聽到了----------,我是從詩中---------讀出來的”句式說話。讀完同桌之間交流。

2.抽學生班上交流,師生作評價。

(三)三讀悟情感

好詩我們要反復朗讀,理解詩意,才能更好地走進詩人的內心世界。

1.齊讀詩歌,借助注釋理解詩意。

2.抽生講述詩意。

3.男女生互讀,思考:這首詩寫了秋天的哪些景物?表達了詩人怎樣的思想情感?

四.指導背誦

1.讀一首好詩如聆聽一首美妙的樂曲,讀一首好詩如欣賞一幅優美的畫卷,讀一首好詩如與詩人促膝交談。好詩就讓我們把它背下來,珍藏在記憶深處。孩子們,快快背下來吧,看看誰是最強大腦!

2.教師巡視并檢查學生背誦情況。

夜書所見范文第2篇

36歲的李華杰就是這樣用拍賣槌指揮全場的人。

“通過我的拍賣,讓藝術品流動起來,并讓它們的價值得到最大的體現,這就是我最喜歡這個職業的地方”,李華杰說,“不過,拍賣并不僅僅是一場財和物的交易,更是一門主持的藝術。你要有親切但是權威口氣,用詞也要準確,還要讀懂每一個人的表情,知道如何用眼神與臺下的競買人交流。其實一場成功地拍賣會,并不需要在結束后去統計成交率有多少,你在臺上的感覺就能告訴你答案,拍賣師對全場一定要有一種掌控感。”

十多年前,國畫專業畢業后,李華杰懷著對藝術的強烈興趣,投身到藝術品拍賣這個行當。“藝術品的分類太多了,因為我本身學的就是國畫,自己對于水墨最懂也最感興趣,所以一開始就選擇了字畫這一類。” 十幾年職業生涯的歷練,讓李華杰從最初的藝術青年成長為一個穿梭在藝術和商業之間、尋找完美平衡的職業拍賣師。

和瓷器等大的物件不同,字畫需要具備更多地文化特質。很多人并不喜歡過于素凈的東西,畢竟它們掛起來顯得不是那么華麗。但是,偉大作品本身的藝術價值和文化內涵就足以吸引很多收藏家的目光。

在國畫領域,活躍于20世紀的現代大家的作品廣受喜愛,如傅抱石、張大千、齊白石、徐悲鴻、吳湖帆、林風眠、錢松巖等。這些大家的畫作本身價值不菲,而能夠參與拍賣的收藏家,自然也擁有雄厚的經濟實力。在多年的拍賣實務中,李華杰最常接觸的正是這群財富精英。

通常,每個拍賣行在每年春秋兩季都會各舉辦一場大型拍賣會,每場持續一周左右,拍賣按照品類依次進行。在拍賣會開始之前,拍品會進行三天左右的預展。除此之外,各個拍賣行還會不定期地舉辦小型拍賣會和通訊拍賣,這些通常安排在周末。在一些拍賣的預展中,李華杰還常常扮演這些收藏家的藝術顧問,為他們講解拍品,提供詳盡的咨詢。廣博的知識、精準的眼光和專業的態度,讓李華杰成為很多收藏家眼中的鑒賞專家。

在拍賣會之余,拍賣師還會負責藝術品的前期征集和鑒定工作――拍賣行并不會盲目地去收集藝術品,而是根據作品本身的藝術價值和收藏市場的需求來確定。與收藏家們的接觸,也為李華杰把握收藏市場提供了第一手的資料。

“我常常開車去藝術館、拍賣行,或者直接去拜訪一些收藏家和藝術家,了解一下最新的藝術品動態。然后,到了拍賣季,我就要去主持拍賣會,一場可能持續四、五個小時。”李華杰笑了笑,“現在我還有很多工作計劃,包括一些研究和考察,已經安排到了12月底。今年確實比較忙碌。”

終日與藝術品為伴的李華杰,對于選車也堅持自己的品位。“一般人買車的時候,可能考慮的因素都差不多,比如品牌、價位、實用性等,但是我更看重工藝的品質和細節上的設計,當然還會有一些審美方面的考慮。”李華杰說。

夜書所見范文第3篇

關鍵詞: 數控技術 實踐教學體系 探索

高職數控技術專業培養目標旨在培養懂工藝、精操作、會編程的高素質技能型數控人才。在數控技術專業人才培養過程中實踐教學體系的安排是影響人才培養質量的重中之重。

1.數控技術專業實踐教學體系總體思路

(1)實踐教學目標

數控技術專業實踐教學目標旨在通過實踐教學,學生熟練掌握數控機床編程操作,熟悉電加工機床編程操作,通過實踐教學體系的學習實現本專業人才培養目標。

(2)實踐教學總體思路

數控技術專業實踐教學包括試驗教學、校內實訓、校外實訓、頂崗實習四大部分。在實踐教學體系執行過程中采用三階段教學模式,第一階段基礎實踐教學,打基礎;第二階段專業核心技能實踐教學,強化核心技能培養;第三階段專業綜合實踐教學,注重數控專業綜合能力的鍛煉培養。

2.數控技術專業實踐教學體系實施

(1)基礎實踐教學階段

基礎實踐教學的目的是使學生掌握機械制造的基礎知識,掌握普通機床的操作方法,對機械材料熱處理、公差、自動控制等基礎知識有所了解,為數控專業核心技能培養打基礎。本階段的實踐教學內容包括:工程材料與熱加工實驗,機械設計實驗,公差實驗,液壓氣動實驗,PLC實驗,熱工實訓(2周),AutoCAD繪圖實訓(2周),車銑實訓(4周),鉗工實訓(2周)和數控機床認識實習(2周),本階段主要在一年級實施。

(2)專業核心技能培養實踐教學階段

專業核心技能培養實踐教學階段的教學目的是通過本階段的學習,熟練掌握數控編程、數控機床操作,掌握自動編程、自動加工,具備電加工機床編程操作能力,滿足數控加工崗位能力要求,實現核心能力培養目標。本階段實踐教學內容包括:數控編程設計(1周),數控工藝設計(1周),數控車床編程與加工(4周),數控銑床(加工中心)編程與加工(4周),線切割編程與加工(2周),CAD/CAM自動編程與加工(4周)和校企合作工作站進站學習(12周),本階段主要在二年級實施,校企合作工作站進站學習因企業條件限制,每學期選派30名學員。

(3)專業綜合實踐教學階段

專業綜合實踐教學階段的教學目的是通過本階段的學習,學生更好地進行理論與實踐教學的融通,可以用綜合知識解決實際加工問題,縮短學校學習與企業實際加工零件之間的距離,為學生盡快適應企業崗位打好基礎。本階段實踐教學內容包括:數控畢業設計與答辯(7周),數控專業綜合訓練(2周)和頂崗實習(20周),本階段主要在三年級實施。

3.數控技術專業實踐教學體系中校企對接實現

(1)實踐教學內容設計貼近企業產品

在專業核心能力培養階段的實踐教學,采用一體化項目教學方式。在項目設計上,負責教師邀請企業專家參與課程設計、項目設置,使項目設計更合理、更貼近企業實際,為培養符合企業需求的合格數控人才起到重要作用。

(2)利用校企合作工作站進行實踐教學

數控技術專業依托國防職教集團建立了西安嘉業航空校企合作工作站,專業依托工作站,每學期安排30名學生進站進行3個月的工學交替學習,進站期間半天學習理論,半天實踐學習,學校派1名教師參與教學組織,企業安排技術人員進行理論授課及相應崗位的實踐指導。

(3)企業參與人才培養全過程

為了保障數控技術專業培養的畢業生符合企業需求,專業指導委員會中委員一半來自企業,參與人才培養方案的制訂,確保培養方向不偏離。

課程建設過程邀請企業一線實踐經驗豐富的能工巧匠參與實驗、實訓課程項目設計,使實驗實訓內容更符合企業實際。

頂崗實習、工學交替過程中,企業提供設備、實際產品,企業員工參與學生培養過程。技能水平高、理論知識豐富的高級工程師對學生進行理論授課;實踐經驗豐富的操作人員對學生進行實踐操作的指導。

4.實踐教學保障體系

(1)條件保障

三階段的實踐教學要求較高的實踐教學條件,包括企業的參與配合、設備、師資等。本專業投入一千萬數控設備,并利用企業設備保障實踐教學的順利開展。在師資隊伍方面,數控技術專業擁有專業教師30余人,高級職稱10人,雙師教師25人,并聘請企業專家任教為實踐教學提供充足的師資條件。

(2)制度保障

學校實踐教學管理處發出了一系列關于實驗、實訓、頂崗實習、畢業設計和技能競賽等方面的實踐教學管理文件,以保障實踐教學的順利開展。

(3)運行保障

教務處組織各專業在制訂人才培養方案的過程中,明確實踐教學環節,并嚴格要求實踐教學占總課時的50%以上。在執行過程中,教務處、實踐教學處、督導處、數控學院在實踐教學的初期、中期、末期進行各項環節的多級檢查,確保實踐教學環節的落實。

夜書所見范文第4篇

數字化學習是指學習者在數字化的學習環境中,利用數字化學習資源,以數字化方式進行學習的過程。

數字化學習環境具有以下特征:

(1)數字化資源是數字化學習的基礎。在數字化學習環境中,豐富的數字化教學資源是學習的基礎。這些資源來自于教師和全體參與學習者,借助網絡、光盤等方式進行傳播。尤其是計算機網絡,可以提供極其豐富的學習資源,能夠向各種不同層次的學習者提供合適的學習材料,且往往還能提供很多實際應用的案例,從而滿足學習過程中的各種不同需求。

(2)學習者是數字化學習環境中的主體。數字化學習環境下的學習充分體現了學習者的主體性和學習過程的個性化。可以較好地做到教學進度與學習者的學習水平相適應,教學內容與學習者的學習需求相適應,教學模式與學習者的學習策略相適應。也就是說,整個學習過程以學習者為中心,能夠滿足學習者個人的學習興趣和要求。

(3)數字化學習環境中教學內容以模塊化的任務驅動作為組織形式。數字化學習的過程,是學習者對數字化信息進行加工的過程,往往利用“組塊”理論,把知識組織成有意義的模塊。采用情景化的教學設計,將教學內容根據實際的問題組合成一個個的模塊,讓學生單獨或小組形式進行的探索,從而學習到解決問題所需的基本知識和技能,綜合各方面的材料,最終提出解決問題的方案。通過任務驅動模式,知識的學習與實際情景聯系更為明確。相同的學習材料可以采用不同的組織方式,鍛煉學習者解決問題的能力。

(4)數字化學習環境中的教學評價體現開放性和智能化的特點。在數字化的學習環境中,對學習者的評價不僅包括教學內容的掌握,還包括學習素質、應用效果和協作以及溝通能力等方面的評價,其內容更具有開放性,是個人素質的綜合體現。同時,評價測試可以通過計算機網絡來協助完成,具有智能性、高效率的特點,有利于教師的教學測試和學習者的自我評估。

2.企業構建數字化學習環境的目的和意義

在企業的信息化服務平臺上構建數字化的學習環境,讓企業的員工借助數字化學習而不斷提升自己,對于企業的管理者、企業員工都有意義。

2.1 數字化的學習環境有利于企業員工自我知識結構的構建和更新

建構主義學習理論的觀點認為,知識不是通過教師傳授得到,而是學習者在一定的情境即社會文化背景下,借助其他人(包括教師和學習伙伴)的幫助,利用必要的學習資料,通過建構意義的方式而獲得。在傳統教學中,教師的主體地位過于突出,而學生的自我知識經驗容易被忽視,不利于對人才素質的培養。在數字化學習環境中,學習者的學習不是來自于教師的講授和對課本知識的學習,而是利用數字化平臺和數字化資源提供非線性的、網絡化的知識體系,通過在教師、同學之間開展協商討論、合作學習,學習者自主開展對資源的收集利用,以探究知識、發現知識、創造知識、展示知識的方式進行學習。因此,數字化學習方式有利于學生自我知識結構的構建,強調了學習者自主學習與探究的主動性地位,能夠培養學習者良好的學習素質和運用知識的能力。處于高新技術企業的員工對知識的更新學習更是有著迫切的要求,為他們創建數字化的學習環境,就可以極大地滿足企業發展和員工自身素質提高的需要。

2.2 構建數字化學習環境,有利于提高企業的信息化服務質量

在企業構建數字化學習環境是為了給企業提供全方位數字化教育培訓提供服務。通過該數字化學習環境的構建,為企業各類人才的培訓提供電子教學平臺、企業實訓平臺和企業自主大學等教育培訓服務,搭建直播教學系統、教學資源庫、教學支持系統,為企業提供支持到桌面的各種知識技能培訓服務,提高園區的信息化服務質量,極大地改善投資環境。

3 構建企業園區數字化學習環境的實踐

3.1 教育培訓平臺及其功能

在企業的電子信息綜合服務平臺上搭建“教育培訓平臺”,以此構建數字化學習環境。該平臺的主要功能為企業各類人才培訓提供電子教學平臺、企業實訓平臺和企業自助大學等教育培訓服務,搭建直播教學系統、教學資源庫、教學支持系統,為學習者提供優良的數字化學習環境,為企業提供全方位的教育培訓服務。構成如圖所示

3.2 主要建設內容

3.2.1 電子教學平臺(E-Learning)

提供E-Learning的應用服務,針對企業員工的管理知識、技術知識、能力素質等進行培訓;以學習方式來分,可分為:實時遠程教學、按需點播的遠程教學、基于WEB的遠程教學。線下可提供的教育資源是權威培訓機構、著名大學等。包括:

1.培訓管理

(1)主要針對培訓框架的規劃、課程的開設、報名流程管理。

(2)完善跟蹤、統計、分析、監控、評估功能,并且數據可以導入課程統計。

(3)學習時間統計、人員課程統計、課程時間統計、人員時間統計; 課程圖形分析、員工(學員)圖形分析、學習時間圖形分析。

(4)在線考試系統: 最規范的模擬考試設計,支持大規模的在線考試,支持主觀題和客觀題的考試,支持自動或手動判分的考試試卷生成管理、題庫管理、考試設定管理 、學員答卷管理、學員考試統計、統計結果導出。

2.個人管理

主要是教育培訓計劃管理,內容涉及總體計劃管理維護、部門計劃管理維護、課程計劃管理。

3.資源建設與管理

主要針對課件、題庫及教師補充資料進行管理。對培訓資源的維護,培訓教材包括視頻、音頻,文本和文檔等多種格式。包括:

(1)網絡課程自主制作支持任何格式和載體的知識內容,包括不同格式的錄像帶、錄音帶、VCD、DVD、CD、壓縮課件、各種三分屏課件、將紙質圖書掃描成電子書、PPT、flash、pdf、word、html、txt、excel等音視頻和文字、表格資源,并能夠很方便的導入E-Learning系統中使用,解決多種知識資源不能共享和知識資源來源多元化的難題。

(2)多媒體網絡課件制作系統 專門為網絡培訓系統配備的課件制作系統,可以讓用戶很方便的制作出企業所需要的標準音視頻課程,操作簡單,制作出來的課程,不僅可以制作成光盤,還能夠和培訓系統無縫集成,直接導入就可以使用,極大的節約用戶的成本。

3.2.2企業實訓平臺

1.實訓廣場

企業員工按照自己所需的培訓內容選擇課程或組織教師培訓。園區培訓中心通過了解企業個性化需求和培訓報名情況,針對企業員工的管理知識、技術知識、能力素質等提供的“按需定制”的培訓課程和教師;授課方式主要通過E-Learning模式進行。

2.培訓超市

企業員工按照自己所需的培訓內容選擇課程、學習資料等。園區培訓中心通過了解企業個性化需求和培訓報名情況,針對企業員工的管理知識、技術知識、能力素質等提供的“按需定制”的培訓課程;授課方式主要通過E-Learning模式進行。

3.專業技術培訓

提供各種職業技能的培訓班,針對企業員工技術、員工能力素質等進行培訓。

4.專題培訓

提供針對企業某一主題的短期培訓,如咨詢培訓、禮儀培訓、勵志培訓等。通常采取座談、互動、野營等靈活多樣的培訓方式。

5.認證培訓

提供針對企業或團體的專業認證的培訓(包括勞動技能的認證培訓,技術類認證培訓,企業管理類認證培訓);線上通過教育培訓平臺采用網絡接入等手段;線下通過培訓班等方式。可提供著名權威培訓機構如CSIP、微軟認證等機構。 如,技術類認證培訓、計算機等級考試、計算機資格考試、微軟認證等。企業管理類認證培訓:注冊會計師、項目管理認證、企業管理資格證書項目。

6.就業速成班

提供各種職業技能的就業培訓班,針對打工就業者的技術、能力素質等進行培訓;如職業規劃、計算機系統分析高級班、高級職業經理速成班、速寫班等。

3.2.3企業自助大學

1.企業定制培訓

一種根據企業需求調配出的培訓方案。如“企業與大學生的實訓平臺”建設,采取線上與線下的招聘預培訓制度,幫助企業提高人才招聘的準確性。

2.企業網絡學院

指由企業出資,以企業高級管理人員、一流的商學院教授及專業培訓師為師資,通過實戰模擬、案例研討、互動教學等實效性教育手段,以培養企業內部中、高級管理人才和企業供銷合作者為目的,滿足人們終身學習需要的一種新型教育、培訓體系。企業網絡學院主要采用E-Learning模式和傳統培訓方法相結合的教學方式。如“海爾大學”、“中興學院”

3.3 教育實訓平臺的管理和服務運營

教育培訓平臺按照以下三類模式開展服務運營

(1)項目驅動模式

把有關專業的專業課教學、課程綜合實訓都緊密地與市場需求結合起來,把企事業一線工程實例引入實訓教學中,采用項目教學法進行實訓。

(2)學練一體模式

把課堂教學與實訓基地及工作一線零距離接觸,結合實際邊看邊學,邊練邊學,學做合一。

(3)訂單模式

與各用人單位簽訂訂單教育協議,針對用人單位的需求制定人才培養方案。完全滿足訂單要求,為企、事業一線培養實用型人才。

教育培訓平臺通過登錄驗證機制進行用戶認證管理。通過后臺的計費系統完成計費信息的采集和處理。采用會員制。按次計費或按時計費、收取第三方教育資源提供商的租用費(如租用培訓超市、廣場以及網上接入服務等)、企業實訓基地共建費、資源下載費、接入費、廣告費、協議收費等收費模式。

計費系統主要由數據采集子系統、數據處理子系統和數據庫子系統三部分組成。數據采集子系統是計費系統的關鍵所在,所有數據源均通過適配器聯入總線,再按要求入數據庫,以便處理。數據庫子系統將采集來的原始的計費源數據存入數據庫,原始的計費源數據將由計費系統處理后生成計費和生成賬單。數據處理子系統按照GUI管理配置部分的計費配置要求,根據數據庫子系統的數據計算出對應的賬單。

夜書所見范文第5篇

關鍵詞: 藏文編碼; 搜索引擎; 倒排索引; 網頁爬蟲

中圖分類號:TP393.4 文獻標志碼:A 文章編號:1006-8228(2017)06-22-04

Research on key technologies of Tibetan web search

Zhang Yunyang

(Library of Tibet University, Lhasa, Tibet 850000, China)

Abstract: Through analyzing the characteristics of the Tibetan characters' coding in Tibetan website, and introducing the characteristics of the search engine, this paper studies the key technologies of Tibetan web search. The technologies of URL processing, the qualified crawler, inverted index, words' retrieval, sorting for results and the others for Tibetan web are discussed in detail. This paper proposes a relatively complete method for Tibetan web search, which has certain practical value for Tibetan web's information search and use.

Key words: Tibetan coding; search engine; inverted index; Web crawler

0 引言

藏族是我民族大家庭的重要成員,藏語言文字是藏族同胞在日常工作/生活中廣泛使用的文字。幾千年以來,藏文字作為信息文化的傳播載體,對于傳承藏民族傳統文化、傳播現代科技知識和促進地區經濟的發展都發揮著重要的作用。在計算機世界中,藏文字區別于漢字和英文的最主要特征是字符編碼,目前國內網站多數使用GBK編碼存儲信息,使用基于GBK的字體顯示文字。而目前的藏文網站,為了方便兼容和統一檢索,主要使用基于國際標準編碼的Microsoft Himalaya字體和珠穆朗瑪系列字體。

1 藏文網站字符編碼技術

藏文在計算機和國際互聯網的使用,在輸入法和字體方面采用基于Unicode字符集的方法較為合理,方便信息共享,方便藏文廣泛交流。互聯網世界的藏文網站和網頁,現在都傾向于使用基于Unicode的藏文字體。

通過對國內比較著名的藏文網站源碼分析發現,主要的藏文網站均采用utf-8編碼,即藏文字符采用國際標準編碼Unicode字符集,而藏文字體采用基于Unicode的珠穆朗瑪系列字體和 Microsoft Himalaya字體。國內部分藏文網站和網站的字符編碼及字體分析如下。

2 網頁URL處理

2.1 URL簡述

URI:Universal Resource Identifier,通用資源標志符。URI通常由三個部分組成:訪問資源的命名機制,存放資源的主機名,資源自身的名稱[1]。

URL是URI的一個子集,它是Uniform Resource Locator的縮寫,譯為“統一資源定位符”,即通常說的網址。URL是Internet上描述信息資源的字符串,主要用在各種WWW客戶程序和服務器程序上。采用URL可以用統一的格式來描述各種信息資源,包括文件、服務器地址和目錄等[2]。URL的格式由三部分組成:第一部分是協議(或稱為服務方式);第二部分是存有該資源的主機IP地址(有時也包括端口號);第三部分是主機資源的具體地址,如目錄和文件名等。

2.2 URL處理流程

網頁搜索并不是對實時的網站信息進行檢索,在用戶提交檢索提問詞后,實際上是轉入搜索引擎的索引數據庫檢索,這些索引數據庫通常是由網絡搜索引擎的爬蟲進行采集、更新從而建立起來的。爬蟲最主要的處理對象是URL,它根據URL地址取得所需要的文件內容,然后對它進一步處理,網頁爬蟲URL處理流程如圖2所示。

3 藏文網頁爬蟲

3.1 爬蟲“黑洞”

爬蟲在搜集藏文網頁的過程中,必須考慮可能出現的“黑洞”情況。爬蟲黑洞是指,在抓取一張網頁的鏈接時,鏈接本身是一個無限循環,導致爬蟲抓取時跟著循環,浪費資源。有時一些URL看起來不同,但實際指向同一張網頁,也會使爬蟲陷入重復抓取的境地。

為了避免爬蟲誤入黑洞,一般采取兩種策略。一是爬蟲回避動態網頁,因為動態網頁常常會把爬蟲帶入黑洞。識別動態網頁時,只需要判斷URL中是否出現問題,含問號的就是動態網頁。二是使用Visited表記錄已經訪問過的URL,凡是遇到新的URL存在于Visited表,就放棄對該URL的繼續處理。例如:當遇到abcdce這樣的環路鏈接,爬蟲就會掉進去,反復抓取c、d對應的頁面。使用Visited表,就能避免這個問題。

3.2 限定爬蟲

藏文網頁搜索使用的爬蟲,是一種限定爬蟲,在爬蟲的功能定位上只抓取藏文的網頁,本質是對網頁文本所用語言的限定。藏文網頁的限定爬蟲,表面上是限定語言,具體操作層面需要通過限定IP、限定URL、限定charset來實現。

限定爬蟲就是對爬蟲所爬取的主機的范圍做一些限制,通常,限定爬蟲包含以下幾個方面[3]:①限定域名的爬蟲。比如,只抓取結尾的域名;②限定爬取層數的爬蟲。比如,限定只抓取2層的數據;③限定IP的抓取。比如,只抓取自治區內的IP;④限定語言的抓取。比如,只抓取中文漢字頁面。

抓取藏文網頁一方面要設計限定爬蟲,另一方面建立動態更新的藏文網站域名庫、藏文網站主機IP庫,配合限定爬蟲工作。目前已有部分藏文網站在頁面中加入了標記,如中國藏學網采用的是,IT網采用的是,瓊邁藏族文學網采用的是。可以根據網頁代碼中的標記來識別判斷藏文網站。藏文網站域名庫和藏文網站主機IP庫,需要人工操作,人為添加一些地址,這方面參照現在互聯網廣泛使用的“純真IP數據庫”實現。

3.3 藏文網頁倒排索引

藏文網頁倒排索引的建立流程如下。

第一步:抽取網頁正文。網頁正文是相對網頁噪聲而言。當今的互聯網網頁上,頁面的很多篇幅用在廣告、搜索推薦和其他鏈接上。網頁搜索工具關注的是網頁本身要表達的信息,所以在通過爬蟲獲取到頁面源碼之后,要去除那些與本文無關的噪聲,抽取到網頁正文。

第二步:分字。藏文文字區別于漢文,漢文是一個字使用一個編碼,而藏文是對組成字的基字編碼,一個完整的藏文字可能存在多個編碼,這些編碼按組成藏文字的方法順序排列。藏文的分字通過藏文字分隔符 ‘ ’ 來實現,如這段藏文字,中間有四個分隔符,句末有一個斷句符。在分字過程中,需要去掉一些無實際意義的字和符號,只留下有明確表意的字進行網頁的檢索。

第三步:對全文以字建索引。以字建索引,雖然檢索過程的匹配計算量會更大,但考慮到目前藏文網頁總體數量不大,應該是一種可行的提高查全率的辦法。根據上一步得到的字,記錄每個字在文中出現的位置,計算每個字出現的次數,建立鏈表。位置用于檢索時的準確定位,次數用于計算字對文檔的重要性,也用于相關性排序計算。

第四步:對標題建索引。大部分的Web文檔有文檔標題TITLE,標題反映了文檔的主要內容,是搜索和導航的重要依據。標題索引以詞、短語或句子為索引單位,具體根據詞表匹配情況確定,如果標題匹配詞表中的規范詞則使用規范詞,如果沒有則直接以標題建索引。藏文規范詞表是動態更新的。檢索時以匹配標題索引為優先策略,先查詢標題索引庫,再查詢全文索引庫。

第五步:索引旄新。網站的頁面信息是動態更新的,由網絡爬蟲抓取得到的藏文網頁倒排索引庫也需要更新。搜索引擎的倒排索引更新有多種方式,包括修改更新、覆蓋更新和添加更新。鑒于目前上線的藏文網站數量少,網絡爬蟲工作周期短,藏文網頁的倒排索引庫更新可以采取添加更新加覆蓋更新的策略。每次爬蟲工作完成后,建立新的索引庫,將查詢引擎鏈接指向新的索引庫,同時保留近兩期的索引庫,將更早的索引庫刪除。每次添加新的索引庫后,先將之前近兩期的索引庫保留一段時間備用。

4 檢索

藏文網頁搜索工具為用戶提供檢索藏文網頁信息,先根據用戶提交的檢索提問標識,去匹配索引庫中的網頁信息標引標識[4],然后將匹配上的結果按相關系數降序排列,匹配出的每一項條目直接指向網頁源地址,同時在結果頁顯示每條結果的網頁快照,以高亮顯示匹配字符。

4.1 檢索詞審閱

我國于2004年和2008年先后通過的《藏文編碼字符集擴充集A》、《藏文編碼字符集擴充集B》兩套國家標準,收錄藏文字符7205個,包括現代藏文、古藏文和梵音轉寫的藏文字符,藏文覆蓋率達到99.99%[5]。在藏文網頁搜索過程中,有必要對用戶輸入的藏文字進行拼寫檢查,確認輸入的每個字是正確的藏文字。將這兩套國家標準收錄的藏文字逐一列出,查出對應的國際編碼,建立藏文國際編碼字表,在用戶輸入檢索詞時使用此表來進行文字審閱。

4.2 文字匹配

藏文網頁搜索,實質是將用戶輸入的檢索提問標識與索引庫中的網頁標引標識進行比對,找出匹配的條目。現有的字符編碼體系,對漢字是以整字編碼,如“漢”的GBK編碼是“BABA”,“漢”的unicode編碼是“6C49”;藏文字是對構成字的每個構件進行編碼,因此一個藏文字的編碼實際是由一個或多個構件的性,藏文字符匹配相對漢文和英文需要更大的計算量,比對一個字實際需要比對多個編碼。

文字匹配采取精確匹配和模糊匹配兩種策略。優先采用精確匹配,將理論上最相關的結果反饋給檢索用戶。如果精確匹配命中條目很少或者沒有命中條目,采取模糊匹配策略,將近似相關的結果反饋給檢索用戶。精確匹配是找出完全包含檢索詞的結果集,模糊匹配是找出語義上近似的相關結果集。應用檢索理論中的縮檢與擴檢,當命中結果很多時,篩選最相關結果集;當命中結果很少或完全沒有時,逐步減小相關系數閾值,或多或少地為用戶提供一些近似相關結果集,盡量滿足用戶的檢索需求。

4.3 結果排序

檢索結果排序是網頁搜索的重要一環,一般的全文檢索系統,是按更新時間和點擊率對結果集排序,如利用文獻管理系統查閱圖書時,查詢結果根據圖書出版時間降序排列,或者根據外借次數降序排列,突出顯示熱門圖書。但是,用戶的網頁搜索需求不完全是將時效性排在第一位,網頁爬蟲在抓取網頁更新索引時對每個網站的更新周期不一樣,等級高的網站被爬取的頻次高,等級低的小型網站被爬取的頻次低。因此,網頁搜索結果不能按網頁時間排序,用戶普遍更關注的是相關度[6]。

Google等大型搜索引擎使用復雜的PageRank算法進行鏈接分析,遞歸地計算網絡上的全部站點排名[7]。藏文網頁搜索的規模較小,可以采取簡單的策略。以檢索詞的匹配程度作為主列排序,以信息時間作為次列排序,按相關度從大到小排序,相關度相同的按更新日期從晚到早排序。

5 結論

互聯網世界的藏文字符已經趨向于使用基于Unicode的字符集和基于utf-8編碼的字體,這有利于人們更多地使用藏文進行交流。目前,Google搜索已經開發了針對藏文網頁的搜索功能,國內多家單位也正在研發本地化的藏文網頁搜索引擎。總體來講,藏文網頁搜索還處在探索階段,究其原因,主要有三個方面:一是多年來藏文字符編碼不統一,一些藏文軟件還沿用著基于國家標準的藏文字體,不兼容當前國際標準編碼;二是藏文網頁/網站數量較少,用藏文記述的文獻信息體量巨大,但目前“搬”上網的還很少;三是藏文與漢文的混排、混檢技術還處于發展中,最直接的解決辦法是平臺上的藏文和漢文都使用基于Unicode的字符編碼,但會額外增加大量的漢文字符存儲開銷和網絡流量開銷,這也是一些大型站點保持使用GBK的原因。目前針對藏文信息處理的研究有很多,我們期待將來藏文在互聯網世界更廣泛更靈活的應用。

參考文獻(References):

[1] 謝玉開.基于JAX-RS的面向資源架構應用研究[D].浙江理

工大學碩士學位論文,2011.

[2] 范劍波.網絡數據庫技術及應用[M].西安電子科技大學出版

社,2004.

[3] 王娟,吳金鵬.網絡爬蟲的設計與實現[J].軟件導刊,2012.4:

136-137

[4] 王灃.運用信息技術保護莽人語言文化的研究[J]. 科技情報

開發與經濟,2014.11:144-145

[5] 普頓.移動電話上實現藏文信息處理的方法研究[D].大

學碩士學位論文,2009.

[6] 呂月娥,李信利.基于信息類別的網頁過濾算法[J].福建電腦,

2007.2:99,122

相關期刊更多

出版發行研究

CSSCI南大期刊 審核時間1-3個月

國家新聞出版總署

北京農業職業學院學報

部級期刊 審核時間1個月內

中共北京市委農村工作委員會

百花洲

省級期刊 審核時間1個月內

中文天地出版傳媒集團股份有限公司

主站蜘蛛池模板: 峡江县| 桐梓县| 江口县| 巴里| 晋城| 崇信县| 衢州市| 沙河市| 霞浦县| 古丈县| 大埔区| 灵台县| 裕民县| 尖扎县| 观塘区| 三门峡市| 双峰县| 安阳市| 静海县| 吐鲁番市| 天等县| 遂溪县| 高青县| 曲沃县| 饶阳县| 扶余县| 乐陵市| 太原市| 道孚县| 亳州市| 孟村| 沂南县| 澄城县| 德州市| 富源县| 扬中市| 山丹县| 潞城市| 海林市| 水富县| 阿拉善左旗|