信息檢索技術論文
無論是身處學校還是步入社會,說到論文,大家肯定都不陌生吧,論文是對某些學術問題進行研究的手段。你知道論文怎樣才能寫的好嗎?以下是小編為大家整理的信息檢索技術論文,僅供參考,希望能夠幫助到大家。
信息檢索技術論文1
[摘要]通過對近年來計算機科學、人工智能、專利文獻加工等領域的發展進行總結,從多語言混合檢索、分類檢索、語義檢索、圖像檢索以及輔助技術五個方面介紹專利文獻計算機檢索技術的最新發展。機器翻譯技術和多邊共同分類體系的完善有助于提高計算機檢索效率、消除語言障礙,而語義檢索、圖像檢索和文獻自動處理技術的發展有望使面向不同層次用戶的計算機智能化檢索系統得以實現。
[關鍵詞]專利文獻,計算機檢索,語義檢索,圖像檢索
1、前言
近年來,計算機技術、語言學以及人工智能技術的發展促進了整個信息檢索技術領域的發展,專利文獻的計算機檢索技術正成為情報檢索領域研究的熱點。下文擬從多語言混合檢索、分類檢索、語義檢索、圖像檢索以及輔助技術五個方面介紹專利文獻計算機檢索技術的最新發展。
2、多語言混合檢索
專利文獻是由各國、各地區專利局或世界知識產權局出版的官方文獻,因此一般以各局官方語言出版。雖然大部分專利文獻是英語文獻,但是仍然存在大量日文、中文、德文、法文及其他語種的文獻。出版語言的多樣性給專利文獻的檢索和利用帶來了極大的障礙,要實現多語言混合檢索,機器翻譯是必不可少的技術。目前一些專利局在其上推出了機器翻譯系統,例如我國國家知識產權局提供有漢英機器翻譯,日本特許廳提供有日英機器翻譯,韓國知識產權局提供有韓英機器翻譯等,上述網絡機器翻譯系統對其他國家的用戶閱讀方便和使用本國專利文獻起到了幫助作用。
隨著計算機技術的發展,機器翻譯的技術也迅速發展,從傳統的基于規則的機器翻譯擴展到了基于實例或模版的機器翻譯、統計機器翻譯等。尤其是近年來語言學和人工智能技術的發展,以語義描述或以知識描述為特征的智能機器翻譯系統正逐步成為研究的熱點。專利文獻作為一種特殊的科技文獻,由于其具有特定的句法和語言結構,同時例如權利要求書等具有法律公示性文件的作用,這對翻譯的準確性提出了更高的要求,已有研究者通過在機器翻譯系統內集成多個翻譯引擎、對不同特點的內容使用不同引擎翻譯的方式來提高翻譯質量。
已有的機器翻譯系統基本局限于單篇文獻的機器翻譯,無法實現真正的多語言混合檢索。多語言混合檢索系統不僅可以允許混合語言的檢索式,而且同一個檢索式還可以對不同語言的專利文獻進行檢索,其實現方式主要有如下三種:翻譯檢索式、翻譯文獻或者兩者相結合的混合式。翻譯檢索式的工作量小,比較適合于因特網檢索,但由于檢索式通常缺乏語境,翻譯難度較大;翻譯文獻的方式雖然有利于提高翻譯質量,進而有利于文獻檢索,但存在的主要問題是翻譯量太大、翻譯時間長。
3、分類檢索
分類號一直是專利文獻檢索的重要手段。目前除了基本涵蓋各國專利文獻的國際專利分類(IPC)之外,美國專利商標局、日本特許廳和歐洲專利局各自都有自己的分類體系,分別是UC、FI/FT和ECLA。IPC雖然通用,但存在分類標準不統一、分類條目不夠完備、文獻分類更新不及時等缺陷,導致使用IPC檢索的效果欠佳。UC和FI/FT分別只能檢索美國和日本的專利文獻,ECLA雖然能夠檢索到多國的文獻,但仍然不能有效地檢索日本、韓國、中國等國的專利文獻。
為改善這種局面,美國、日本和歐洲自20xx年即開始了“三邊分類和諧計劃”,該計劃旨在推進ECLA、UC和FI三個分類體系的融合以增強分類號檢索的功能,同時對現有IPC分類體系提出改進建議。依據20xx年召開的第27次三邊會議,韓國知識產權局已經加入上述計劃,而中國國家知識產權局也以觀察國的身份參與這項工作。此外,近年來美國專利商標局、日本特許廳、歐洲專利局、韓國知識產權局和中國國家知識產權局五局積極開展合作,其中一個重要的合作項目是“共同的分類”。該項目的實施將有利于提高分類的一致性,擴展或細化部分技術領域的分類,進而提高檢索的效率和質量。
不管是美日歐三方開展的“三邊分類和諧計劃”,還是五局共同開展的“共同的分類”項目,都必將推進專利文獻分類體系的進一步發展,實現真正意義上的“基于檢索的分類”,進一步增強分類號在專利文獻計算機檢索中的作用。
4、語義檢索
當前專利文獻檢索的.主要手段為關鍵詞和分類號檢索,而由于一詞多義、一義多詞,專利文獻撰寫、加工和翻譯質量不一以及關鍵詞的機械匹配等問題,本質上決定了其查全率和查準率受限制。隨著計算技術、人工智能、自然語言處理等技術的發展,搜索引擎的智能化有望從根本上提高現有檢索系統的檢索質量。
搜索引擎的智能化具體表現為語義檢索,也稱為知識檢索或概念檢索。語義檢索是對檢索條件、信息組織及檢索結果顯示賦予一定語義成分的一種新的檢索方式。語義檢索的本質在于以語義為對象進行搜索,而不是對字符串進行簡單的機械匹配,因此可避免關鍵詞匹配檢索中由于詞和義不對應所導致的問題。
語義檢索過程一般包括對被檢索的文檔以及輸入的檢索式進行語義分析和匹配處理。這種語義分析處理依賴于詞匯的語義描述技術以及分別用于詞義鑒別和詞匯過濾的語義識別技術和詞匯鏈算法。可以通過諸如WordNet等語義詞典對詞匯實現較完備的語義描述,保證人和機器對詞匯的理解一致。
最新發展的潛在語義索引通過將文獻搜索過程中的向量空間模型和奇異值分解相結合,可以揭示文檔中的詞間關系,因而適于構建專利文獻搜索引擎”…。利用語義進行檢索還可以將專利文獻中的非技術性信息考慮在內,例如將特定的技術概念和申請人、發明人等信息進行語義聯系。此外,語義檢索還可以從用戶角度出發,考慮用戶的檢索需求,從而為諸如查新、侵權等不同目的的檢索提供相應的結果。
近年來國內一些開發商也紛紛提供具有語義檢索功能的專利文獻檢索系統,例如東方靈盾開發的專利檢索系統和Patenticst網站。Patentics網站除了可以實現傳統的關鍵詞檢索功能,還支持語義檢索,僅通過輸入檢索所針對的專利文獻號,即可自動對其進行語義分析、文獻檢索,并對結果進行相關度排序。當前專利文獻檢索領域還未廣泛應用語義檢索,但隨著研究的深入,相信未來的搜索引擎不僅能利用語義技術提高檢索的效率,還有望能對檢索結果進行分析、評價,甚至自動生成檢索報告。
5、圖像檢索
根據對圖像檢索所使用方法的特征可以分為基于文本的圖像檢索法(TBIR)和基于內容的圖像檢索法(cBIR)。專利文獻一般都帶有大量的附圖,包括機械結構或化學結構式附圖、電路圖、方框圖、流程圖或曲線圖等。與傳統的關鍵詞檢索和分類號檢索相比,CBIR更加直觀、快速,而且可以克服因文字表述差異而導致的漏檢,因此它正在成為專利文獻檢索領域的研究熱點。專利文獻的附圖都是黑白二元圖像(本文
所稱專利是指發明和實用新型專利,不包括外觀設計專利),不存在顏色和紋理等特征,因此專利文獻的圖像檢索主要是基于形狀和區域的圖像特征。
雖然目前還沒有成熟的專利文獻圖像檢索系統,但一些研究機構已經開發出若干可專門用于專利文獻的圖像檢索原型系統,例如IIT Kanpur的PATseek、Informatics and Telematics Institute的PatMediat以及LTUtechnologies公司的ImageSeeker等。PATseek專門針對美國專利文獻進行圖像檢索,而PatMedia網站上的試驗系統僅針對歐洲專利局的專利文獻,這兩個圖像檢索系統都可實現直接輸入待檢索的圖像,系統自動進行相似度匹配,直接提供專利附圖,同時還可以進行基于文本的圖像檢索。
典型的專利圖像檢索系統包括專利文獻處理部分和圖像檢索部分,如圖1所示:
文獻處理部分又進一步包括文獻預處理和視覺、文本元數據提取和索引兩部分。前者是找出文獻中的圖形和對應的文字描述;后者則是進一步進行圖像特征分析和文本分析,分別提取基本的圖像特征以及能夠表示圖形含義的高層語義特征的關鍵詞,由此分別形成索引后的圖形特征矢量庫、圖像庫、文本描述關鍵詞庫和知識庫。在圖像檢索部分,基于上述提取的元數據,進行圖像相似度匹配,同時還可以基于文本進行圖像檢索。與一般領域的圖形檢索相比,由于專利文獻中每幅圖形一般都對應有文字描述,即使不再進行人工標注或自動標注,都能提取到較好的高層語義特征,這對提高專利文獻圖形檢索的準確性非常有幫助。
目前,專利文獻圖像檢索系統僅處于試驗階段,只能對數量非常少的特定專利文獻進行檢索,且檢索結果相關度還不是很高,但由于圖像檢索具有其他任何檢索方式都不具備的優點,相信隨著人們對專利文獻圖像檢索技術的進一步研究以及語義檢索技術的進一步發展,實現高精度的圖像檢索必將成為現實。
6、輔助技術
高質量的專利文獻是提高檢索質量的基礎。專利文獻分類、標引和摘要改寫是專利文獻加工的主要內容。傳統的專利文獻加工方法主要依賴于人工,其成本高且速度受限制,質量不統一。隨著人工智能和計算機技術的發展,開始出現對專利文獻進行自動分類、自動標引、自動摘要和自動聚類。
專利文獻自動分類已經在歐洲、美國、日本得到了廣泛的研究和嘗試。例如歐洲專利局已經利用自然語言處理的相關技術實現了專利文獻的自動初分類;對日本專利文獻自動分類研究表明,對于使用K臨近算法進行自動分類的情況下,先將專利文獻按部分結構化為語義單元可以提高74%的效率。
PATExpert代表了目前較先進的專利文獻自動處理技術的發展,通過基于語義網的語義處理技術實現了面向內容的專利文獻自動處理,其中的一個主要技術是利用一定的語義表示結構實現專利文獻知識層面的表達。該系統可以執行的處理任務包括:專利文獻內容和元數據的自動抽取;全文、圖像、相關性搜索引擎;專利文獻的自動分類和聚類;面向多語言的輔助理解工具;專利價值自動評估等。
國內有一些研究機構開展了大量的基于IPC體系的專利文獻自動分類的研究,這些研究大部分集中在統計分類技術。近年來隨著人工智能技術的興起,基于人工智能或語義的專利文獻自動分類發展迅速,例如上文提到的Patentics試驗系統也開始嘗試對專利文獻進行自動分類。
中文專利文獻的自動處理仍處于研究階段,雖然國外專利文獻自動處理已經積累了許多寶貴經驗,但由于中文表述的特殊性,許多技術還待消化和開發,例如漢語詞匯之間的分詞技術是制約自動標引質量的一個障礙。隨著信息處理自動化相關技術的發展,專利文獻的自動分類、自動標引、自動聚類和自動摘要正在逐步由半自動走向全自動化,這給搜索引擎的發展帶來了極大的便利。同時,利用語義技術實現基于內容的自動處理將是未來的發展主流,也是提高專利文獻自動處理質量的主要手段。
7、結語
專利文獻計算機檢索是一個涉及了多學科的研究領域,其中以語義檢索為核心的技術推動了搜索引擎、機器翻譯、圖像檢索等相關技術的發展,而由于專利文獻的特殊性,分類體系和文獻自動處理技術也在其中占據了重要地位。隨著研究的進一步深入,現存的語言障礙和檢索效率低下等缺陷在不久的將來必將逐漸被克服,不同層次的用戶有望借助于智能化的自動檢索系統便利地實現專業化檢索。
信息檢索技術論文2
摘 要:隨著計算機技術的改革和信息爆炸時代的到來,我們每個人都在面對大量的信息選擇問題。如何對有用信息進行檢索、評價和利用,這是需要研究的問題。主要對計算機信息檢索技術的發展及相關問題進行了研究。
關鍵詞:計算機;信息檢索;智能化;信息資源
在現代社會中,在世界的許多地方都有信息化的影子。當計算機技術和網絡技術被大量應用于信息領域的時候,電子化和數字化文獻信息的數量劇增,隨之而來的是信息管理方面的問題。信息檢索技術在多個領域均有應用,尤其是在教育領域,其應用非常廣泛。
1.計算機信息檢索技術的發展研究
通過對計算機信息檢索系統發展歷程進行分析,發現其發展過程可分為3個時期:
①1971年之前的信息檢索系統。
在這個時期,信息檢索主要采用的是一些傳統的批處理檢索方式,這種方式數據存儲和數據通信能力不高。
②這個時期的標志性事件是1971年之后的聯機情報檢索系統。這個時期,信息檢索的主要特征是可以通過聯機對數據庫進行管理。
雖然數據庫聯機檢索功能比較完善,但是其數據通信能力很一般。
③這一時期的標志是IT的出現。在IT出現之后,系統一般使用的是分布式的網絡化管理。信息資源不僅具有數字表達的形式,還有多媒體的形式,規范化和結構化難度較大,內容特征抽取比較煩瑣,并且其對用戶界面要求比較高。
計算機信息檢索技術的這些特點,使信息處理的模式出現了巨大的變革。
信息結構從結構化到非結構化,系統功能從單純信息檢索到綜合信息管理和服務等,這些變革促進了信息檢索技術的進一步發展,且能夠滿足更多用戶對信息利用的需要。就目前情況來看,計算機信息檢索技術主要發展方向有2個:
①傳統信息檢索向全文文本、多媒體、多載體、多原理等新型信息檢索的發展;②信息資源的網絡化和分布化。在第一個發展方向中,信息檢索的方式新型化突出,能夠實現自動抽詞、自動檢索和數據挖掘等大量的新功能,能夠使管理和組織信息的能力得到提升;在第二個發展方向中,信息資源主要是集中于“廣度”上發展,使資源的檢索范圍更加廣闊。
2.計算機信息檢索應用中的問題及對策
信息檢索,英文譯為“InformationRetrieval”。通過信息檢索,能夠實現信息的存儲和組織、存取。信息檢索的關鍵是文本信息的索引和檢索。在信息檢索的發展歷程中,我們了解到其經歷了多個發展階段,發展的趨勢是越來越智能化。在科學技術飛速發展的今天,信息檢索的對象也越來越多,不僅包括文獻和數據等文本信息,還包括圖形圖像、聲音和視頻等媒體信息,這些都是信息檢索研究的范疇。現在,信息檢索實現了從網絡化到智能化的發展,信息檢索的對象從以前的封閉到現在的開放,從以前的穩定、一致到現在的動態和分布廣泛,都是一大進步。當互聯網越來越普及時,我們需要面對的信息資源的數量越來越多,如果想要在最短的時間內獲得自己所需的信息,就會給計算機信息檢索帶來巨大的`困難。但隨著技術的發展,這絕對是可以實現的。圖1所示為智能信息檢索形式的框架圖。
2.1 檢索中存在的問題
2.1.1 語言的問題
目前,在很多計算機的信息檢索過程中,由于使用的是自然語言標引和檢索,會出現查詢不準確的現象。尤其是在互聯網信息時代,檢索需求逐漸難以滿足人們日益增長的信息檢索需求。
2.1.2內容的問題
當前,網絡信息資源變得越來越豐富,檢索的內容是否準確,能不能展現查詢的網絡信息資源,這是一個問題。我們在對信息檢索的時候,檢索內容不符合自己要求的情況很普遍。所以,為了增加檢索量,同時保證查詢方式的單一性,就需要做很多工作。
2.1.3對象的問題
在信息檢索的過程中,不同人的信息檢索需求是有差異的。怎么對這些信息檢索需求進行分類,從而使用戶的使用個性化凸顯,并且還能夠確保準確性,這些都是需要改進的對象。
2.2檢索中存在問題的相應對策
2.2.1語言智能化
所謂的“語言智能化”,也就是當我們通過自然語言向信息檢索系統輸入關鍵詞之后,可檢索處理和歧義分析,在知識層面或者說概念層面上輔助查詢,通過系統給我們的一些智能化提示,幫助我們獲得效果最好的檢索結果。
2.2.2內容具體化
在信息檢索系統中,需要使內容分析的能力得到提升。
在這個過程中,應當對與檢索內容沒有關系的信息進行篩除,這樣不僅可以使標題和全文成為檢索點,還可以通過聲音、圖像等進行檢索。
2.2.3技術智能化
現在,我國已經出現了一些智能化的檢索技術,不僅包括自動標引、自動文摘技術,還包括自動跟蹤、自動漫游等智能化技術。這些檢索技術正在逐漸得以改善和優化。近年來,“智能瀏覽器”和“知識共享智能體”等概念已被提了出來。
3結束語
目前,信息檢索技術的發展方向是多功能化和智能化。當信息檢索技術在飛速發展時,傳統的信息獲取方式發生了巨大的改變。作為21世紀的人們,只有掌握現代信息技術,掌握信息檢索技術,才能跟上社會發展的步伐。
【信息檢索技術論文】相關文章:
信息檢索技術論文04-11
信息檢索的方式論文04-11
信息檢索課程論文04-11
信息檢索與應用論文04-11
關于網絡信息檢索論文04-11
信息檢索總結范文03-11
信息檢索教學應用影響作用研究論文6篇06-27
高職院校信息檢索課學業評價模式構建論文04-25
信息通信技術論文04-05
信息技術的論文03-29