<sub id="ttdfl"><listing id="ttdfl"><listing id="ttdfl"></listing></listing></sub>
    <form id="ttdfl"><dl id="ttdfl"><ol id="ttdfl"></ol></dl></form>

    <noframes id="ttdfl">

        歡迎光臨小原外文佛山翻譯公司!
        專門代辦加急公證 小原翻譯電話
        翻譯知識
        當前位置 > 主頁 > 翻譯園地 > 翻譯知識 >
        值得收藏的語料庫資源推薦
        2020:09:23 21:20:24 作者:admin|VISITORS: |來源:佛山小原翻譯公司
        29

        Jun
        2018

          語言材料的大集合不僅能幫助我們研究語言的各種現象,還能在計算機輔助翻譯工具中輔助我們的翻譯。在機器翻譯領域,運用大批量的語料進行訓練還可以幫助提升機器翻譯的效果。

          單語語料庫資源:

          美國當代英語語料庫(COCA)

          https://corpus.byu.edu/coca/

          美國當代英語語料庫是全球最大的免費英語語料庫,包含文本小說、口語、雜志、報紙、學術文章等文體。其時效性很強,一些新詞也會收錄在內。可以作為平時詞典的補充,把不確定的表達可以放到語料庫里查,確認是否地道或者是找到更過的信息。

          英國國家語料庫(BNC)

          http://www.natcorp.ox.ac.uk/

          英國國家語料庫是由英國牛津出版社、朗文出版公司、大英圖書館、牛津大學計算機中心等機構聯合建立的大型語料庫。以現代英式英語文本為主,口語和書面語并存。

          聯合國文件數據庫

          http://www.un.org/zh/search/index.shtml

          本文件系統包括了1993年以來聯合國印發的所有正式文件。不過,聯合國的早期文件也逐日添加到本系統。本文件系統也提供從1946年以來聯合國大會、安全理事會、經濟及社會理事會和托管理事會通過的所有決議。本系統不提供新聞稿、聯合國出版物、聯合國條約匯編或新聞部印發的新聞材料。由日本捐贈的3萬多份數字化文件已被增添進正式文件系統。

          語言開放典藏社群(OLAC)

          http://search.language-archives.org/index.html

          語言開放典藏社群是由個人或組織所組成的國際性合作協會。許多種類的協會需要語言資源,如:語言學家、工程師、教師、演說家,也有許多機構提供片段性的架構,如:文件管理器、軟件開發者和出版者。

          SKETCH ENGINE多語言語料庫

          http://www.sketchengine.co.uk

          每個郵箱可以注冊一次,免費期是一個月,免費期過了就再注冊一個郵箱,再注冊一次。

          漢語資源:

          語料庫在線

          http://www.cncorpus.org

          語料庫在線提供了現代漢語語料庫和古代漢語語料庫資源,并且可以通過字詞索引檢索,還支持分詞與詞性標注、漢語拼音標注、字詞頻率統計等功能。

          北京大學中國語言學研究中心

          http://ccl.pku.edu.cn/corpus.asp

          北京大學中國語言學研究中心網站是由北京大學中國語言學研究中心開發并維護的純學術性非盈利性網站。以交流語言學研究經驗,傳播語言學研究成果,推動語言學研究和發展為宗旨。北大語料庫由“現代漢語語料庫”、“古代漢語語料庫”、“漢英雙語語料庫”三個語料庫組成。支持復雜檢索表達式、支持對標點符號的查詢、支持在“結果集”中繼續檢索、用戶可定制查詢結果的顯示方式、用戶可從網頁上下載查詢結果(txt文件);其中漢語語料庫包含783,463,175字符,其中現代漢語語料581,794,456字符,古代漢語語料201,668,719字符。漢英語料庫包含2374個文件(漢英語料庫僅限北大校內用戶使用)。

          搜文解字

          http://words.sinica.edu.tw

          包含“搜詞尋字”、“文學之美”、“游戲解惑”、“古文字的世界”四個單元,可由部件、部首、字、音、詞互查,并可查詢在四書、老、莊、唐詩中的出處,及直接連結到出處,閱讀原文。

          媒體語言語料庫

          http://ling.cuc.edu.cn/RawPub/

          中國傳媒大學有聲媒體文本語料庫是一個開放、免費使用的語料庫,由中國傳媒大學國家語言資源監測與研究有聲媒體中心開發。該語料庫2003年開始建設,2005年上線,其后不斷擴大語料規模,一直為研究者提供免費服務。為方便廣大研究者使用,2016年語料庫進行了第三次改版。這次改版主要加進了與原來語料規模相等、內容相同的熟語料,可以進行以詞為單位或以詞性及詞性串為單位的詞串檢索。

          本語料庫包括2008至2013六年的34,039個廣播、電視節目的轉寫文本,總字符數為241,316,530個,總漢字數為200,071,896字次。所有文本都進行了分詞和詞性標注,共計135,767,884詞次。為保證語料的典型性和代表性,每年都盡可能選擇那些流通度大、年度間又有一定連續性的節目文本;為便于研究者做6年間的歷時語言調查,各年度的語料規模盡可能平衡。

          本語料庫所有語料都進行了元數據標注,既可以利用全部2億字語料進行檢索,也可以根據研究需要選定檢索范圍。

          北京BCC漢語語料庫

          bcc.blcu.edu.cn

          BCC漢語語料庫,總字數約150億字,包括:報刊(20億)、文學(30億)、微博(30億)、科技(30億)、綜合(10億)和古漢語(20億)等多領域語料,是可以全面反映當今社會語言生活的大規模語料庫。

          香港教育學院“LIVAC漢語共時語料庫”

          http://www.livac.org/index.php?lang=sc

          LIVAC漢語共時語料庫以嚴謹、恒常與「共時」方式,搜索和處理了超常的大量具代表性漢語平面媒體語料,并通過精密的技術,累積了泛華語地區眾多精確的語言和語用統計數據。本語料庫最大特點是采用「共時性」視窗模式,剖析來自香港,北京,上海,臺灣,澳門,新加坡等多地有代表性的定量華語媒體語料。直至2016年,LIVAC已累計過濾25億漢字語料,并已處理逾6億字,累積并持續提煉出2百多萬詞條。LIVAC所收集各地語用數據,可供各種比較研究,并方便有關信息科技發展與應用。此外,語料庫又兼顧了「歷時性」,方便有意者以專詞搜索(KWIC),以便客觀地觀察與研究視窗內20多年來有代表性的語用發展全面動態。經過協調與配合個別用戶需求,例如針對性以地區、時段或范疇,LIVAC曾為多個公、私營機構提供服務,包括語言工程,資訊服務,詞典編著,媒體分析與教育機構等。LIVAC由香港城市大學語言資訊科學研究中心于1995年開發和推展,由城大企業有限公司旗下麒麟(香港)有限公司提供技術支援。2010年至2013年期間,LIVAC由香港教育學院語言資訊科學研究中心維持。自2013年7月起,LIVAC由麒麟(香港)有限公司獨家維護和開發。目前提供1995至1997年的資料供使用者免費試用。

          中文語言資源聯盟

          http://www.chineseldc.org

          中文語言資源聯盟是由中國中文信息學會語言資源建設和管理工作委員會發起,由中文語言(包括文本、語音、文字等)資源建設和管理領域的科技工作者自愿組成的學術性、公益性、非盈利性的社會團體,其宗旨是團結中文語言資源建設領域的廣大科技工作者,建成代表中文信息處理國際水平的、通用的中文語言語音資源庫。中文語言資源聯盟的目的是建成能代表當今中文信息處理國際水平的、通用的語言信息與知識庫,具有完整性、權威性、系統性和開放性的特點,涵蓋中文信息處理各個層面上所需要的語言語音資源,包括詞典、各種語音語言語料庫、工具等。在建立和收集語言資源的基礎上,形成一套統一的系列化的標準和規范,推薦給需要的機構或研發人員。

          雙語語料庫:

          Tmxmall語料快搜

          https://www.tmxmall.com/qsearch

          Tmxmall語料快搜平臺是中國領先的中英翻譯記憶庫檢索與交換平臺,具備搜索、上傳、下載、賬戶管理和積分購買等功能。平臺支持中英雙向檢索,檢索速度快;語料超過7300萬句對,總字數達15億字,且在持續增長;語料質量高,均經過人工審核;語料涵蓋面廣,覆蓋經濟、數理科學和化學、生物科學、醫藥、衛生、石油、天然氣工業、能源與動力工程、機械、儀表工業、自動化技術、計算機等行業和領域。

          語料商城

          https://www.tmxmall.com/store

          語料商城是專業的語料交易共享平臺,由用戶將語料數據上傳,買方可以通過關鍵詞、匹配待翻譯文件以及在CAT工具中直接調取句對,支付費用就可以了。讓語料數據充分流通起來。

          Linguee

          https://www.linguee.com/

          Linguee集字典和搜索引擎為一體,上半部分是搜索詞條的翻譯列表,下半部分是網絡上的雙語例句。主要來自與網絡,而且是已經被翻譯成多種語言的官方網站,比如聯合國網站。

          TAUS Data

          https://data-app.taus.net/

          翻譯自動化用戶協會(TAUS)運營的大型翻譯記憶庫網站。

          句酷

          https://www.jukuu.com/

          句酷,2004年初創立于北京郵電大學,目標定位于打造中國人自己的語言搜索引擎,幫助人們克服語言溝通障礙。

          MyMemory

          https://mymemory.translated.net/

          MyMemory是全球知名的記憶庫檢索平臺,其語料來源于歐盟、聯合國等組織,并按照領域劃分。可以在CAT工具中查詢使用。

          本文轉自Tmxmall


        上一篇:醫學翻譯技巧實例

        下一篇:語言服務助力中國企業“走出去”

        翻譯園地
        聯系我們

        • 地址1:佛山市禪城區汾江中路144號科華大廈1002室(創業大廈正對面)

          電話:0757-82285965 13318391728

        • 地址2:佛山市禪城區魁奇路瀾石(國際)金屬交易中心大廳一樓

          電話:0757-82285965 13318391728

        專業翻譯服務

        版權所有 ? 佛山市小原外文翻譯公司 COPYRIGHT 2018 ALL RIGHTS RESERVED  粵ICP備19115996號-1  技術支持:佛山網站建設

        小原外文翻譯專注佛山翻譯、駕照翻譯、護照翻譯以及多國語言翻譯的專業翻譯公司,為您提供全方向的翻譯服務!

        歡迎光臨小原翻譯,請問有什么需要嗎?我們擁有專業的翻譯隊伍,熱線咨詢:133 1839 1728
        現在咨詢稍后再說
        在線客服
        熱線電話 0757-82285965
        二維碼

        微信公眾賬號

        欧美毛片性情免费播放