English

“蒙古語語料庫”二期工程:填補網際網路上無蒙古文文獻空白

2018年11月26日 14:18:00來源:中國新聞網

  中新網呼和浩特11月26日電 (記者 李愛平)內蒙古自治區社會科學院“蒙古語語料庫”首席專家巴特爾26日向中新網記者介紹,正在實施的“蒙古語語料庫”二期工程(簡稱二期工程)總字數將達到1.2億詞,目前已完成佛教重要典籍《甘珠爾經》的錄入工作。其最大意義在於“填補網際網路上無蒙古文文獻的空白,最終能使蒙古學學者有文獻可用”。

  巴特爾對記者透露,二期工程“文獻語料庫”是“掃描文件、電子文檔、拉丁文轉寫”三位一體的大型蒙古文文獻語料庫。

  巴特爾表示,二期工程語料庫有三大特點:第一、窮盡式收集自蒙古文第一份文獻成吉思汗碑以及《蒙古秘史》等中世紀文獻,好中選優《黃金史》《甘珠爾經》《禦制清文鑒》等木刻板文獻,均衡選錄社會科學、自然科學、報紙、政治、法律、文學、醫學、農牧業、應用、口語等10大類文獻;第二、遵循文獻學原則,即每份文獻提供原圖、錄入文件、拉丁文標音三種形式;第三、語料庫實現免費線上網路查詢檢索。

  巴特爾告訴記者,二期工程自2015年實施近三年來,截至目前已完成13世紀—16世紀中世紀文獻、17世紀—18世紀近代文獻(大部分)、19世紀現代文獻部分和20世紀—21世紀當代文獻部分,約完成8000萬字語料的錄入校對工作。

  “蒙古語語料庫建設工程”是“一次規劃,多年實施”的中國首個蒙古語、達斡爾語、鄂溫克語、鄂倫春語大型綜合性語料庫。它涵蓋言語語料和文獻語料兩部分,總字數將達到2億詞。

  2005年“蒙古語語料庫建設工程”確立為內蒙古自治區民族文化大區建設重點項目,設計20年完成。一期工程言語語料庫(2005-2014)已于2014年11月驗收,二期工程文獻語料庫(2015-2024)正在實施。

  巴特爾表示,一期工程言語語料庫(8000小時語料)旨在大規模蒐集真實言語語料,重點在中國八省自治區、蒙古國四省一市、俄羅斯布裏亞特共和國和卡爾梅克共和國境內97個點採訪了6725人,蒐集蒙古語、達斡爾語、鄂溫克語、鄂倫春語自然口語語料4192小時(相當於4000多萬詞)。它是已建成的世界上最大的蒙古語自然口語語料庫。同時還完成了4000多小時的書面語語料庫。兩項合計“蒙古語語料庫建設工程”一期工程共完成了8000多小時的言語語料。

  在巴特爾看來,二期工程的實施,不僅對蒙古語等少數民族語言(文字)的規範化、資訊化和內蒙古語言生活的健康和諧發展,具有重要的理論意義,也對保護、傳承和開發、利用民族語言文化遺産,維護中國語言文化安全具有重要的現實意義。(完)

[責任編輯:楊永青]

相關內容

京ICP備13026587號-3 京ICP證130248號 京公網安備110102003391 網路傳播視聽節目許可證0107219號

關於我們|本網動態|轉載申請|聯繫我們|版權聲明|法律顧問|違法和不良資訊舉報電話:86-10-53610172