亚洲综合专区|和领导一起三p娇妻|伊人久久大香线蕉aⅴ色|欧美视频网站|亚洲一区综合图区精品

實用文檔>簡說戰國楚文字數字化處理系統論文

簡說戰國楚文字數字化處理系統論文

時間:2024-10-22 14:35:00

簡說戰國楚文字數字化處理系統論文

簡說戰國楚文字數字化處理系統論文

簡說戰國楚文字數字化處理系統論文

  首個關于出土戰國楚文字資料的數字化成果《戰國楚文字數字化處理系統》(光盤)經華東師范大學中國文字研究與應用中心古文字數字化開發組多年開發研制,日前由上海教育出版社出版。

  該成果是一個多功能的戰國楚系漢字及其所傳載的出土文獻的數字化處理平臺,包括“戰國楚文獻檢索系統”、“戰國楚文字字庫”、“楚文字輸入法”、“楚楷對應轉換程序”四大部分!皯饑墨I檢索系統”收錄了迄今已發表的戰國楚系簡帛文、銅器銘文、璽印文、貨幣文文獻,相關實物材料2267件。其中以簡帛文為主體,以著錄材料計,有《曾侯乙墓》(文物出版社1989年7月版)竹簡及竹簽文字218條;《包山楚簡》(文物出版社1991年10月版)竹簡、木牘文字306條;《九店楚簡》(中華書局2000年5月版)竹簡文字196條;《郭店楚墓竹簡》(文物出版社1998年5月版)竹簡文字711條;《戰國楚竹簡匯編》(齊魯書社1995年11月版)竹簡文字417條;《上海博物館藏戰國竹書》(一)(上海古籍出版社2001年版)竹簡文字98條;《上海博物館藏戰國竹書》(二)(上海古籍出版社2002年版)竹簡文字116條;《長沙子彈庫戰國楚帛研究》(中華書局1985年7月版)帛書3篇。銅器銘文則以《殷周金文集成》、《考古》、《文物》、《考古與文物》的著錄為主要材料來源,計收銘文61篇。璽印文以《古璽匯編》為主要材料來源,計收印文92篇。貨幣文以《中國錢幣大詞典·先秦編》為主要材料來源,計收貨幣文32篇?傋謹颠_56689字,刪除添加的對應通用字、合文釋字及各種符號等,文獻本體字數為50538,其中簡帛文48724字,金文1437字,璽印文317字,貨幣文60字。該系統不但具有任意字、句的全文檢索,任意字的頻率數據檢索,文獻附著材料的各種屬性檢索,著錄檢索等必要的數字化處理功能,并且還具備逐字顯示對應原始實物文字影象的功能。

  “戰國楚文字字庫”的收字包括了“戰國楚文獻多路徑全文檢索系統”中所收錄的文獻實際用字,并按數字化處理要求進行了嚴格整理。包括楷體字和原形字?w字形端正,原形字據銘文拓本掃描制作,逼真美觀。

  “楚文字輸入法”采用了針對古文字輸入特殊需要的新近開發的“三級字符全拼輸入檢索系統”的編碼原則進行編碼,是一種非常簡單易學(只要掌握全拼輸入者無需專門學習)的古文字輸入法,同時也具有大字符集中生僻字簡易輸入(即不知讀音也可成功輸入)的功能。

  “楚楷對應轉換程序”可以在Word上實現現代通用繁體字和楚文字原形字的雙向對應轉換,為楚文字原形字的使用創造了極大方便。

  光盤中還附有“說明文檔”,含各種程序使用的詳細說明以及有關系統開發研究的介紹闡釋,如《“戰國楚文獻檢索系統”使用指南》、《“楚文字輸入法”使用手冊》、《“楚楷對應轉換程序”使用說明》及立足數字化平臺的楚文字文字系統的論著《基于“戰國楚文字數字化處理系統”的楚文字系統概述》。

  這個系統,實現了出土戰國楚文獻的多路徑全文檢索,及楚文字的計算機輸入,使學界所期盼的出土楚文字材料的計算機數字化處理變成了現實。然而,保證這個目標得以實現的根基,還在于對該系統的數據本身——楚文獻文本的收錄、整理和加工。

  古文字數字化對數據(古文獻文本)是有自己特定要求的,這種要求大致涉及收集、整理、保真三個方面。

  1.數據的收集,以真實、系統、窮盡為目標。

  古文字數字化具體目標涉及多方面多層次:古文字研究,漢字教學,數字化圖書館建設,互聯網上的古文字傳輸平臺建設,乃至涉及古文字的排版印刷等等。要真正完成這多方面多層次的任務,在古文字的數字化處理平臺中的數據就應該是真實、系統、窮盡的。另一方面,數據統計乃是“數字化”一大獨特功能,從這一功能的要求來看,古文字數字化開發中的數據更必須要在真實的基礎上達到系統、窮盡的,因為不窮盡(至少是一定范圍、層次的窮盡),統計所得數據就沒有多大意義。然而具體落實這種要求,勢必需要首先在材料收集方面付出艱苦的努力:窮盡是指在所劃定范圍內的沒有遺漏;系統是指對應有的方面、層次合理包蘊及必要的強調;真實是指對資料原始面貌的客觀保持。應該說,各種不同類型的古文字數字化項目為實現以上目標可能會有不盡相同的操作方式,但在“字”的處理這個基礎層面上則會面臨同樣的選擇。比如在目前古文字尚未在國際標準字符集中編碼的條件下,任何一種古文字數字化產品都必須另建古文字字庫來支持電子文本,字庫中的字形是取自二手材料還是取一手材料?二手材料,是指已有的古文字字匯字典類工具書;一手材料,則是實物文字材料的拓片影象。毫無疑問,利用二手資料,工作會省力方便得多,而利用第一手資料,則必須投入巨大的歸納、整理、認同之類工作量。面對兩種選擇,開發組選擇了后者。這是因為,事實證明,如果作前一種選擇,無法真正實現數字化的目標。比如說,開發組曾經利用有關的古文字字匯建成的古文字字庫,但這樣的字庫僅在古文字書籍排印中就存在大量缺口。當然,不能把問題僅僅歸咎于傳統二手資料本身,因為傳統字匯等二手資料的編纂目標,一般與數字化的目標并不一致,而它們只收錄摹寫古文字,它們收錄的古文字資料在數量上相對現有古文字材料總量有所缺漏,又每每是由歷史原因造成的。所以不能用今天的數字化的要求來苛求它們。但我們今天要開發古文字數字化產品,還去選擇二手材料作為數據來源則是完全不合適的。

  要實現資料的真實、系統、窮盡,還有一個實現手段問題,客觀地講,做卡片之類紙筆操作輔助人腦記憶的傳統方法難以應付數字化所提出的龐雜資料高精密儲存關聯的要求,而真正合乎這種要求的手段也應該是數字化的。我們的具體做法是,古文字語料庫建設與古文字字庫建設同步進行,互為支撐,以達到所需數據的真實窮盡。具體來說,就是以原始文字資料圖片為處理對象,一方面逐字錄入以建設文獻語料庫,一方面逐字對應造字建設字庫,這樣就在操作程序上首先保證了語料與其載體字的嚴密對應,再立足這樣的嚴密對應的基礎平臺,運用查詢,關聯等數字化手段來保證整個系統資料的完整性。

  當然,古文字資料(包括字形、文獻語料等)的窮盡,只能是相對的,這種相對性表現在這樣幾個層次上:一是相對于實際存在的資料而言,窮盡是相對的,因為可能還有大量客觀存在的古文字資料尚有待我們今后去發現;二是相對于已經出土的資料而言,窮盡是相對的,因為有相當一部分已經出土的資料至今并未正式發表;三是相對古文字資料內涵的實際信息而言窮盡也是相對的,因為迄今我們對古文字的認識還存在一些盲點。

  如何面對這種相對性? 首先,這種客觀的障礙,并不能成為我們在資料收集工作上敷衍了事的借口,立足現實,盡可能地實現資料的窮盡系統是必須努力達到的目標。同時,由于數字化工具書是可以不斷進行版本升級并通過網絡等渠道提供給用戶的,因此在首次開發的版本中預留了各類資料增補路徑是必要的,這樣開發者就可以很方便地跟蹤古文字資料不斷出土,相關研究不斷推進的發展,與時俱進,隨時把新的文本數據填加進老版本中去。

  2.數據的整理,以標準、統一為目標。

  要實現數字化處理,必須貫徹標準化原則,也就是說,所有應該統一的數據,都不能存在歧異。具體來說,在任何一種古文字工具書所必需的古文字字庫和古文獻語料庫建設中,都必須實現字的唯一性,只有唯一,相關的字才能夠在字庫中占據一個唯一的內碼碼位,在計算機的查詢、統計、篩選等過程中才能成為唯一的處理對象,從而保證數據的準確可靠。而在語料庫中,同一個字也絕不能使用多個字形,而在某些層次上有對應關系的不同文字又有必要加以認同,只有這樣才能實現數字化處理的效果。為達到這樣的目標,我們又不得不面對楚文字資料(包括實物資料和研究資料)的重新整理問題。

  從數字化的角度來看,現有古文字資料中存在不少難以容忍的歧異。舉例來說,在最近出版的《上海博物館藏戰國楚竹書(二)》中的“舜”字,共21見,原形均為 ,而由于不同考釋者的不同隸定,此字在該書中就出現了兩種寫法: (見于“容成氏”篇11次)和 (見于“子羔”篇10次)。

  毫無疑問,如果保留了這種歧異,數字化處理就成了一句空話。因此,在《戰國楚文字數字化處理系統》中,我們對類似歧異都作了統一。需要說明的是,我們在對此種歧異的統一中,一般是選擇相對能夠體現造字理據的字形,但這并不意味著我們對被淘汰的字形持完全否定的態度,因為它們往往從某些角度來看有著存在的合理性。只是因為數字化的處理無法容許歧異的存在,我們才進行了統一工作。

  3.數據的保真,以兼顧不同層次需要為目標

  整理、統一,無疑是數字化所必須的,但另一方面,經過整理、統一,我們的成果最終所呈現的字形就有可能與所依據的實物材料或研究材料不盡一致。這樣我們又不得不面對一個古文字資料的保真問題。

  數字化處理的標準化,與古文字資料的保真要求之間存在一定的矛盾,但我們必須看到,保真只能是相對的,也應該具有相對性,這是因為從不同目標出發,保真有著不同的要求,而超越需要的保真,則不免成為一種干擾。比如記錄文獻的用字,如果僅從保真的角度看,似乎應該使用原形字,但如果真的使用原形字,勢必遭遇這樣的麻煩:古文字原形實際是一種手寫字,一個字在文獻中出現多少次就會有多少個特定的原形字形,難道在它出現的每一處都用一個不同的字形嗎?顯然,從一般文獻閱讀的角度來看,這并非是必要的;而對一個本可以用數字化手段來處理的電子文本來說,這樣的處理只能帶來災難性的后果。相反,用似乎很不保真的楷體字則是合適的,因為對于同樣結構的古文字原形字而言,它具有最大的概括性,因而也就可以成為最合宜的認同基點,這正是以一般文獻閱讀為目標這個層次的數字化處理所最需要的。

  當然,標準化與保真性的矛盾也并非完全無法調和,而兼顧各個層次的保真和數字化兩方面的要求的手段,依然只能是數字化。我們在《戰國楚文字數字化處理系統》的開發中,采用了三種方式來實現這種目標:一是開發專門程序來實現文獻所用楷體字與古文字原形字的對應轉換,如“楚楷對應轉換程序”,可以保證人們方便的查檢記錄楚文獻的各個楷體字所分別對應諸多原形字(包括異體原形字)。

  二是開發文獻閱讀主界面的逐字原始圖影顯示功能。這一功能,可以讓人們在檢索、閱讀楚文獻時隨心所欲地調閱任意字的原始影象,因而更加貼近文獻實際閱讀的需要。

  第三,在文獻用字的直接呈現上,給予必要的認同。具體方式有兩種:隸古定與通用字同出、原形字與隸定字同出。

  隸古定反映了眾多同結構原形字與其所對應的現代通用字構形上的基本差異,而對這種差異的保真,對古文字研究來說,意義重大——由于古文字的考釋研究目前還存在一些盲點,同時又有一定數量的文字存在歧釋,因此,釋文用字采用比較接近原始形態的隸古定方式有助于明確對象、避免誤解,也有助于進一步深入研究。然而,如果僅僅給出隸古定,既無法反映相應的研究成果,又取消了相應層次的數字化處理的可能。因此,我們采用了在隸古定字形后加括號標注通用字的方法,以兼顧兩種需要。

  原形字與隸定字同出的方法一般適用于考釋研究尚存某種局限的文字。對一般歧釋字則在原形字后加括號標注楷體字,以前者明確所指對象,以后者反映某種考釋意見。另外,對有些用法已有共識,而文字隸定尚有疑問者同樣用在原形字后加括號標注楷體字的方法來反映現有的認識水平。

【簡說戰國楚文字數字化處理系統論文】相關文章:

學校數字化校園建設自評報告范文03-22

《馬說》韓愈賞析06-29

教學設計:《雨說》02-12

八年級《晏子使楚》教學設計(精選15篇)10-16

說屏教學反思大全03-20

馬說的教學體會及反思03-07

打擊樂說課教案02-27

《說“木葉”》教案設計(精選10篇)04-21

楚源小學2017年小學語文二年級上冊期中試卷03-20

小學水墨畫的教與學論文03-19

用戶協議