所屬欄目:計算機信息管理論文 發布日期:2011-01-20 08:42 熱度:
摘要:本文利用了標準的HTML技術來解決信息抽取問題,提出一個Web信息抽取平臺。通過歸納學習算法,尋找感興趣的數據。抽取機制是利用歸納學習的方法,先選定樣本頁面和模式,生成模式信息和抽取規則,存入知識庫;后利用知識庫對其他同類頁面自動地抽取信息,將得到的信息按對象關系模型進行重組后存放在數據庫,以支持查詢及各種應用。
關鍵詞:信息抽取;歸納學習;樣本頁面;模式
1.背景
Internet提供了海量數據,但不便于處理查詢;關系數據庫提供了非常方便的SQL語句來處理數據但對數據的結構限制過多。因此,結合兩者之間的優點,利用關系數據庫中的查詢語句對Web上異構的、大量數據信息進行查詢,就會顯露出巨大優勢。它能完成搜索引擎所不能完成、同時基于多個站點的查詢。
這種新的技術就是信息抽取技術。它可以把散落在Internet中的信息以某種格式提取出來,并把提取出的整齊的結果放入關系數據庫中,這樣獲得的數據集就可以方便地使用SQL語句進行查詢,彌補了搜索引擎的不足。并且,由于獲得的信息格式整齊,便于計算機對其進行加工處理。
2.基于歸納學習信息抽取模型的建立
2.1原理概述
同一Web站點的同類數據信息具有相似結構,尤其是對于大量的信息,通常都是采用某種模板或者基于某種動態網頁技術生成的,這些同類信息通過HTML格式表現出來,就具有一定相似性。而信息抽取的特點一般是:一次數據抽取通常是針對同類信息的,我們可以利用這種相似性來完成信息抽取。
可以將整個抽取過程分為2個階段:學習階段和抽取階段。同時將抽取階段分為2步:抽取部分和集成部分。
學習階段:以某一個信息塊為樣本,根據這個樣本生成抽取規則放入知識庫。知識庫中存放了系統每次抽取時,對每種樣本生成的模式信息和特定的抽取規則,這種存放是以數據庫的形式實現的,模式信息作為表的字段名稱,而規則是由各個數據段的內容即時生成的。
抽取階段:根據學習階段定義的模式信息,建立數據庫,同時使用知識庫對所有信息塊進行信息抽取,將抽取出來的信息以數據庫的形式存儲和管理。其中抽取部分從知識庫中獲得規則信息和模式信息,對所有的信息塊進行抽取,獲得結果信息表。而抽取階段的集成部分將多次抽取獲得的結果表進行整合,除去冗余信息,形成一個集成數據庫。
2.2確定樣本
樣本就是用于在學習階段生成抽取規則的示例信息塊。進行信息抽取之前,我們先要分析樣本,以生成抽取規則。
假設某電子商務網站中介紹一款手機的頁面HTML代碼如下,這就是樣本。
<dt>蘋果iPhone(8G)</dt>
<dd><strong>參考價格:</strong><spanclass="red"id="ppckbj">3600</span></dd>
<dd><strong>上市時間:</strong>2007</dd>
<dd><strong>網絡制式:</strong>GSM850/900/1800/1900,EDGE</dd>
<dd><strong>手機外形:</strong>直板</dd>
<dd><strong>主屏參數:</strong>彩屏,1600萬色,TFT,觸摸屏,320×480像素,3.5英寸</dd>
2.3定義模式
所謂模式,就是對頁面中我們感興趣的信息所取的名稱,例如上述例子中,我們感興趣的信息有:手機品牌:蘋果iPhone(8G);參考價格:3600元;上市時間:2007等。而“品牌型號”,“參考價格”和“上市時間”就是這些信息的名稱。定義了模式之后。我們只需要從頁面中獲得:“蘋果iPhone(8G)”“3600元”和“2007”等冒號右邊的信息就可以了。這些信息的意義已經由模式給出了。
注意到該樣本中,除了“手機品牌:蘋果iPhone(8G)”之外,所有的信息都在冒號的左邊給出了它們的名稱。我們可以使用這些頁面中給出的名稱來作為模式信息,也可以自己定義。
表現在數據庫中,模式就是信息抽取結果表中的字段名稱。上面例子中完整的模式信息如下:品牌型號,參考價格,上市時間,網絡制式,手機外形,主屏參數。
2.4生成抽取規則
在一個信息抽取系統中,最重要的部分是抽取過程,而抽取過程要順利完成,抽取規則的正確生成是功不可沒的。
在此我們按照信息的左右邊界和文本特征來形成抽取規則。由于上文已定義了模式信息,我們可以直接從信息塊中找到待抽取的屬性,它們的語義已由模式信息確定。
而知識庫中就記錄了這些標記信息。在數據庫中表示為標記表。但是需要注意的是,上述HTML代碼是我們事先從冗長的HTML代碼中找到的一個信息塊。也就是說,在提取標記之前,需要進行一個過濾功能,把有用的信息塊找到并保留,而去掉其余的HTML代碼。
至此已可以確定待抽取信息的左右邊界,這種確定左右邊界的方法要求待抽取的信息塊中對應位置的標記應該相同。
2.5抽取過程
利用抽取規則,匹配所有的信息塊,獲取的信息將被寫入抽取信息數據庫中。
3.總結
本文提出了一個基于歸納學習方式的信息抽取系統,這個系統在后臺能夠實現對于不同類型的Web頁面的樣本歸納學習,并由此生成抽取規則和信息模式,利用抽取規則可以對不同頁面進行信息抽取,并把相關的信息集成到一個數據庫中,還能夠實現對知識庫的添加和擴充;在前臺則能夠滿足用戶查詢某一信息的要求,它與一般查詢的不同之處就是,用戶查詢到的資料雖然存在于本地的一個集成的數據庫中,但他們都是從Internet上的不同站點上抽取并匯總過來的,相當于對分布的數據庫的一個虛擬的查詢。
參考文獻
[1]李彥剛,魏海平,侯興華,基于HTMLParser的Web信息抽取系統的設計與實現遼寧石油化工大學學報,2006.6
[2]梁曉濤,謝榮傳,基于OWL描述本體的語義信息抽取,計算機技術與發展,2006.1
文章標題:基于歸納學習的信息抽取
轉載請注明來自:http://www.56st48f.cn/fblw/dianxin/xinxiguanli/6555.html
攝影藝術領域AHCI期刊推薦《Phot...關注:106
Nature旗下多學科子刊Nature Com...關注:152
中小學教師值得了解,這些教育學...關注:47
2025年寫管理學論文可以用的19個...關注:192
測繪領域科技核心期刊選擇 輕松拿...關注:64
及時開論文檢索證明很重要關注:52
中國水產科學期刊是核心期刊嗎關注:54
國際出書需要了解的問題解答關注:58
合著出書能否評職稱?關注:48
電信學有哪些可投稿的SCI期刊,值...關注:66
通信工程行業論文選題關注:73
SCIE、ESCI、SSCI和AHCI期刊目錄...關注:121
評職稱發論文好還是出書好關注:68
復印報刊資料重要轉載來源期刊(...關注:51
英文期刊審稿常見的論文狀態及其...關注:69
電子信息論文范文
智能科學技術論文 廣播電視論文 光電技術論文 計算機信息管理論文 計算機網絡論文 計算機應用論文 通信論文 信息安全論文 微電子應用論文 電子技術論文 生物醫學工程論文 軟件開發論文
SCI期刊分析
copyright © www.56st48f.cn, All Rights Reserved
搜論文知識網 冀ICP備15021333號-3