基于語義技術的搜索引擎平臺搭建的可行性研究論文

時間：2021-04-13 11:23:43 論文我要投稿

　　摘要：首先分析了目前主流搜索引擎存在的問題，然后對國內外將語義技術應用到搜索引擎中的現狀進行了分析，最后具體分析了將語義技術應用到存儲技術、檢索技術、數據庫技術和分詞算法的可行性。

基于語義技術的搜索引擎平臺搭建的可行性研究論文

　　關鍵詞：語義技術，搜索引擎，語義搜索引擎，搜索引擎技術

　　隨著Internet的飛速發展，各種各樣的信息資源在網絡上發布，用戶通過什么樣的技術策略或者手段才能在這個信息的海洋中找到自己需要的信息成為專家學者研究的對象，于是基于分類目錄和基于關鍵詞技術的搜索工具應運而生，它們的出現給用戶使用網絡信息資源帶來了很大的方便。但是由于計算機技術和知識的普及，致使網絡信息資源爆炸式的增加，目前的檢索工具出現了不能滿足人們需要的情形。針對Internet暴露出來的缺陷，1998年，Web的創始人TimBerners-Lee首次提出了“語義Web”（SemanticWeb）的概念及其技術路線，闡述了語義Web的基本思想，語義Web的目標是使得Web上的信息具有計算機可以理解的語義，滿足智能軟件代理（Agent）對www上異構和分布信息的有效訪問和檢索[1]。語義技術的核心就是：為萬維網上發布的信息進行語義的標注，使機器可以理解這些數據的含義，最后實現智能推理和信息自動化的處理。因此關于將語義技術和搜索引擎技術相結合的智能化搜索引擎的研究已經迫在眉睫。

　　1目前搜索引擎存在的問題

　　隨著社會經濟和計算機技術的發展，社會上的信息量劇增，為方便信息交流和獲取，隨之產生了搜索引擎，無論是目錄式搜索，還是關鍵詞搜索，都給用戶使用網絡來獲取信息提供了巨大的方便，使得網絡在人們的生活中顯得越來越重要，網絡信息也隨之劇增。近幾年，專家和企業都在研究搜索技術與搜索的策略，并且取得了很大的進步，但是這種進步在網絡信息量的劇增面前顯得很微小，這時，一些搜索引擎的弊端就逐漸地顯現出來。

　　從目前用戶的使用角度來看，搜索引擎有以下幾點不足：

　　1）隨著網絡技術的發展，一些網站建設的新技術應運而生，一些新的網站應用技術也在網絡上流行，Flash導航，視頻資源播放等新型技術的產生，直接對傳統的搜索引擎帶來挑戰。

　　2）網絡上頁面資源的更新速度大大加快，現在幾乎每個公司都有自己的網站，并且幾乎每天都有新的信息更新。同時，一些新型網絡社區的建設，給很多用戶提供了創建個人主頁的機會，信息量增加的速度變快，大量的信息給搜索引擎的Crawler系統帶來新的挑戰。

　　3）網絡信息的異構性更加突出。由于網絡技術的發展，可以發布網絡信息的用戶群發生了變化，以前都是以單位為主要的群體，轉變成以個人為目標用戶群的。這樣發布的信息從格式上更加難以控制，并且結構類型也有不小的變化，從而增加了信息的異構性，這樣對搜索引擎的標引技術提出了新的要求。

　　4）動態生成技術，數據庫技術的廣泛應用，使網絡上的很大一部分網站從靜態轉換成了動態。好多網站信息是由數據庫代碼自動生成了，這樣對網絡資源的真正URL以及資源的數據不好確認，給搜索程序帶來不小的困難。

　　5）由于信息量巨大以及部分網絡信息描述的不準確，給檢索帶來不小的誤差，這樣用戶輸入關鍵詞以后，搜索引擎檢索出來的數據量很龐大，一些用戶真正需要的數據不一定能夠排在顯示的前端，而用戶也不會一一的耐心看下去，這樣產生的檢索噪音給用戶的使用帶來很大的影響。

　　2基于語義技術的搜索引擎平臺研究現狀

　　2.1國外相關研究

　　相關理論主要有，NEC美國研究所的SteveLawrenee和C.LeeGiles從1998年和l999年起連續在《自然》和《科學》雜志上撰文對搜索引擎技術的研究進行評述。著名的信息檢索會議TREC也從1998年開始增加了WebTrack課題，以考察Web文檔與其他類型文檔在檢索性質上的不同之處，并將測試在大規模的Web庫（如100G字節）上進行信息檢索的算法性能[2]。由美國Information公司主辦的搜索引擎國際會議從l996年開始每年舉行一次，對搜索引擎技術進行總結、討論和展望，對搜索引擎技術起到了很好的推動作用。此外還有EIEE主辦的國際萬維網會議、人機交互會議等。然后就是在Berners-Lee提出了語義網的設想，相關專家和學者開始將語義網思想運用到搜索引擎中，提高和優化Boulos，MagedN.Kamel[3]的“AFirstLookatHealthCyberMapMedicalSemanticSubjectSearchEngine”，D-LibMagazine[4]的“ALVIS-SuperpeerSemanticSearchEngine”，2005年Schenkel，Ralf；Theobald，Anja；Weikum，Gerhard[5]的“SemanticSimilaritySearchonSemistructuredDatawiththeXXLSearchEngine”，2007年YufeiLi；YuanWang；XiaotaoHuang[6]的“A”等關于語義搜索的文章。

　　相關技術主要有：l990年蒙特利爾的McGill大學學生AlanEmtage、PeterDeutsch、BillWheelan開發了一個自動索引因特網上的匿名FTP網站文件的程序，它就是Archie（ArchieFAQ），搜索引擎的首例。然后到目錄式搜索引擎雅虎，關鍵字搜索引擎Google。現在國外已經在Mozilla瀏覽器的pre-Nglyauot版本和Netscpae瀏覽器的.407或.45+版本大量采用RDF技術，實現了智能瀏覽，幫助瀏覽網頁的用戶提供其他與其瀏覽內容有關的信息。美國FourthoughtInc公司是專為企業知識管理應用提供XML解決方案的軟件供應商和咨詢公司，開發了4Suite，它是XML、RDF和知識管理應用的一個開放源碼平臺，并在其知識管理解決方案中，實現從XML數據抽取RDF數據、并在RDF基礎上提出一種簡潔的語義搜索功能[7]。斯坦福大學、微軟和W3C共同開發的TAP也是基于SemanticWeb的語義搜索引擎。

　　2.2國內相關研究

　　在技術方面，國內先后有清華大學、北京大學、國家智能研究中心等高校和研究機構對搜索引擎技術開展研究，并開發出了幾個較好的系統。如由北京大學計算機系網絡研究室開發的“天網”中英文搜索引擎，在系統規模及系統性能方面達到了國外中型搜索引擎系統的技術水平。Google作為第二代智能全文式搜索工具，可以對網頁的全文進行檢索。百度是目前最大的中文搜索引擎，使用超鏈接分析技術，除了分析索引網頁本身的`內容，還分析索引所有指向該網頁的鏈接的URL、AnchorText、甚至鏈接周圍的文字。我國從2002年起在863計劃中把語義Web技術與Ontology，列為“十五”期間計算機技術的重大課題之一。國家自然科學基金項目《基于本體論和語義Web的產品信息基礎結構》，以本體論為指導，以XML形式化描述基于知識的產品信息模型數據，在語義Web上建立產品信息基礎結構[8]。宋峻峰[9]提出的基于本體的信息檢索模型采用描述邏輯構造本體，利用本體對文檔進行了語義標注，生成文檔的邏輯視圖和用戶信息需求的邏輯視圖，實現了檢索過程中真正的語義匹配，是真正的語義檢索。郭少友教授提出和設計的“以文檔為中心的上下文檢索研究”也屬于語義檢索的范疇。

　　3語義技術應用到搜索引擎的可行性分析

　　3.1語義技術與信息存儲技術的結合

　　目前，RDF數據的存儲基本上有兩種方案，XML/RDF文件的形式存儲是一種可行的方式，但是考慮到對于大量的事實數據，考慮到可擴展性，查詢方式，效率等諸多的因素，以RDF數據庫或者關系數據庫來存儲RDF事實數據庫是一種比較好的選擇。

　　3.2語義技術與檢索技術的結合

　　通過對用戶查詢關鍵詞的語義匹配和語義相關性擴展，最后形成符合特定知識本體語言的查詢語句實現語義檢索，例如：

　　SELECT？a，SELECT（http：//127.0.0.2/Milan#動物，松鼠）

　　但是這樣的形式比較復雜，因此可以在語義檢索中設計一個Agent，用來分析用戶輸入的關鍵詞，查詢Agent接收用戶輸入的關鍵詞，并將它傳遞給匹配Agent，根據知識本體和語

　　義詞典對這些關鍵詞進行比較分析，并構造出適合該檢索的新的檢索式或者查詢語句，并且將該檢索式返回，這個過程實現語義匹配過程。但是有的時候為了進一步獲得更多的信息，還需要根據知識本體或者語義詞典對輸入的查詢語句進行相關的推理，推理的過程有很高的智能化，例如在檢索的過程中，發現沒有松鼠這個關鍵字，但是松鼠是喜歡吃松子的，所以當檢索到松子的時候，這個頁面有可能也是關于“松鼠”這個關鍵詞的相關頁面，同時推理機制也會根據情況構造出新的檢索式：

　　SELECT？a，WHERE（http：//127.0.0.2/Milan#堅果，松子）

　　3.3語義技術在數據庫搭建中的應用

　　我們知道數據庫構建的過程中是有很多表或者集合組成，傳統的描述僅僅是描述其關鍵字字段或者其屬性值，利用相似度算法進行機械的匹配查詢，滿足一定的相似度就對該條記錄做讀取、刪除等操作。

　　王珊教授等研究了基于本體的關系數據庫語義檢索，分析和研究單個關系數據庫上基于本體的語義檢索問題，其中指出，關系數據庫主要有兩部分組成，一部分是元數據（Meta-data）也稱為模式（Schema）如數據類型名，表的屬性名，表名，主鍵及外鍵[10]。另外一部分是真正的數據，關鍵數據庫的元數據描述了其存儲數據之間的簡單語義關系，由于關系模型描述能力的限制，并不能完全的描述數據庫之問豐富的語義關系。關系數據庫的查詢語句使用的是結構化查詢語句SQL進行的，這是一種精確的查詢語句，查詢條件是精確的，同時查詢結果也是精確的，由于關系數據庫僅僅只能表現數據庫中有限的語義關系，所以其查詢的語義性也是有限的，而本體則能進一步的描述關系數據庫的語義。

　　隨著本體跟語義網的技術的不斷發展和應用，基于本體的關系數據庫也逐漸成為研究的熱點。關系數據庫的語義可以分為兩級語義，一級是元數據級別的語義，另外一級是數據級的語義，利用不同語義級別可以實現不同的語義檢索。文獻指出本體通過對數據庫進行兩種級別的語義描述，分別可以從元數據或者數據中抽取，識別出概念，然后對本體中已經存在的概念進行映射，或者根據本體的學習技術，構建出一個新的本體[10]。也可以直接使用已有的本體中的概念來描述元數據的數據，這兩種方法都稱為本體標注。本體標注也是關系數據庫語義檢索的基礎技術。本體標注就是把本體和數據聯系到一起，以便建立基于本體的語義索引[11]。

　　3.4元數據標引技術

　　利用元數據技術對網絡信息資源進行標引，有利于信息資源的描述，同時也可以縮小網絡信息資源的異構特點，根據元數據的標準對網絡信息資源進行統一的標引，這樣對信息的描述更詳盡，同時也可以體現各個相關數據之間的語義特點。目前比較通用的是DC，利用DC的著錄格式對網絡信息資源進行著錄與表示，其不但能詳盡的描述信息資源的特點，同時也可以體現出描述各項之間的語義關系。因此將元數據引入到網絡信息資源標引技術中，有利于改善網絡搜索引擎。

　　3.5語義技術在分詞算法中的應用

　　常用的分詞算法主要有正向最大匹配法、逆向最大匹配法、專家系統分析法、高頻優先法、全自動詞典切詞法、擴充轉移網絡分詞法、神經網絡等分詞方法。但是以上所有的分詞方法都會存在一定的錯誤率，所以我們要在分詞算法中引入語義技術，以便提高分詞的準確性。這種思維方式就是根據漢語的特點以及其自身的規律，可以考慮從漢語的構詞規則如筆畫來試圖解決這樣的問題，這是一種新的自動分詞研究方向。另外再對數據或者信息資源進行處理和標引時，在使用受控語言和自然語言的同時，還可以運用其他的人工構造語言，像程序設計語言，邏輯語言，數學公式等。這幾種人工語言跟自然語言一樣，他們都有一套自己的完整的語法規則與相當數量的符號組成，我們可以根據他們的特點，對其組成規律進行總結，并且并入到語義字典中，并利用本體對其相互關系進行描述。

　　為了便于計算機對漢語進行自動分詞處理，就需要對現在的分詞語法方法做以下三方面的改造：一是要在待分詞的漢語文本的詞與詞之間增加適當的間隔符，即設立分詞標志，這樣通過設立的分詞標志，可以方便地對文本進行分詞處理，大大提高效率；二是要對漢語的詞語進行明確界定，即規定什么是“詞”，這樣主要可以解決兩方面的問題，單字詞與字元素之間的區別以及短語或者成語與詞（詞組）之間的區別；三是要制定完整的漢語書寫規則。這些都是應該在漢語文本生成之前完成，并且從技術實現的條件來看是可行的，這樣就省去了很大一部分精力對預處理文本進行分詞[12]。

　　4結論

　　基于語義技術的搜索引擎平臺的搭建是一門新興的研究課題，它旨在解決如何讓信息用戶在海量的信息中，精準地找到自己需求的信息，在構建的過程中，可以將語義技術運用到信息的描述、信息的存儲、信息的檢索以及信息的輸出過程中。國內外也有了一定的研究成果，并且也構建了一些語義技術的搜索引擎平臺，但是大部分還是處于試驗階段，很多的關鍵技術難題還沒有攻克。筆者認為，數字資源的語義描述，中文的分詞技術，還有語義的檢索方式和輸出排序是目前需要進一步研究的重點。

　　參考文獻：

　　[1]Berners-LeeT.SemanticWebRoadMap[EB/OL].[2010-10-23].http：//www.w3.org/designissuee/semantic.

　　[2]Mikeusehold，Michalgruninger.TheWebSearchEngineReview[J].IGCA199，1999，93-96.

　　[3]Boulos，MagedN，Kamel.AFirstLookatHealthCyberMapMedicalSemanticSubjectSearchEngine[J].Technology&HealthCare，2004（11）：33-41.

　　[4]ALVIS.SuperpeerSemanticSearchEngine[J].PreviewD-LibMagazine，20O4（6）：10-12.

　　[5]SchenkelRalf，TheobaldAnja，WeikumGerhard.SemanticSimilaritySearchonSemistructuredDatawiththeXXLSearchEngine[J].InformationRetrieval，2005（12）：521-545.

　　[6]YufeiLi，YuanWang，XiaotaoHuang.ARelation-BasedSearchEngineinSemanticWeb[J].IEEETransactionsonKnowledge&DataEngineering，2007（2）：273-281.

　　[7]黃大鵬.基于語義Web的搜索引擎研究[D].西安：西安理工大學，2004.

　　[8]楊秋芬，陳躍新.ontology方法學綜述[J].計算機應用研究，2002（4）：24-25.

　　[9]宋俊峰，張維明，肖衛東，唐九陽.基于本體的信息檢索模型研究[J].南京大學學報（自然科學），2005，41（2）：189-197.

　　[10]王珊，張俊，彭朝輝等.基于本體的關系數據庫語義檢索[J].計算機科學與檢索，2007（1）：59-77.

【基于語義技術的搜索引擎平臺搭建的可行性研究論文】相關文章：

基于語義識別分析論文04-27

搭建實踐平臺,培養綜合能力論文02-17

基于Android平臺軟件開發技術研究論文11-07

教學中如何搭建情感體驗的平臺教育論文01-01

重視知識強化技能搭建學生就業平臺論文01-04

基于Android平臺的紋理映射分析與實現論文04-27

基于lucene的垂直搜索引擎的研究與設計論文11-02

淺析基于云計算的智能計量平臺研發的論文05-28

淺析基于Android 的個人記賬本平臺開發論文05-28