国产的一区二区三区_日韩图片精品午夜_国产清纯白嫩初高生在线被c_亚洲成av人片在线观看无下载_国产日韩香港欧美不卡三级_99久久精品成人免费_欧美a级完整在线观看_亚州av无码大片一区二区_狼友色成人网在线播放视频网站免费_日韩中文字幕精品一区

語料工具

Corpus Tools
ABBYY FineReader

ABBYY FineReader

ABBYY FineReader是一款OCR軟件,可以進(jìn)行文件識別、自動保留排版格式,后臺批處理識別等功能。用戶可以利用ABBYY FineReader進(jìn)行對不可編輯文本的掃描,如圖像、PDF等格式的語料,以獲取Microsoft Word等格式的可編輯的文檔。
天若OCR文字識別

天若OCR文字識別

天若OCR文字識別是一款界面簡潔、功能強大的OCR識別軟件,可將圖片中的文本轉(zhuǎn)換成可編輯文本,將表格識別后轉(zhuǎn)換成可編輯表格,進(jìn)行識別翻譯、截圖及截圖標(biāo)注等,處理圖像或PDF等格式語料極為方便。
AntConc

AntConc

AntConc是一款免費的單語語料檢索工具,支持Windows, MacOS等系統(tǒng),具有索引、索引定位、詞叢、搭配、詞表和關(guān)鍵詞單等多種功能,界面簡單,方便用戶操作,可以極大提高語料檢索的效率。
TextForever

TextForever

TextForever可以用來進(jìn)行文本HTML到TXT的轉(zhuǎn)換、文件切分、文檔合并、文本提取、TXT文件分行、HTML代碼整理等功能。在使用Teleport Ultra軟件提取網(wǎng)頁中的語料后,我們可以使用TextForever軟件對所獲取的語料進(jìn)行格式處理,搜集所需格式的語料,兩個軟件的搭配使用使得語料搜集過程更加方便快捷。
Microsoft Word

Microsoft Word

微軟Word是微軟公司開發(fā)的一款文字處理軟件。相信大家日常辦公都會或多或少用到它,其實它還有許多隱藏技能,今天為大家介紹其中之一——語料清洗。

具體來說,利用Ctrl+H快捷鍵調(diào)出查找與替換對話框,點擊“更多”,單擊勾選“通配符”,借助通配符快速清洗語料。

EmEditor

EmEditor

EmEditor是一個輕量級、可擴(kuò)展、易于使用的Windows文本編輯器,適用于Windows系統(tǒng)。EmEditor在64位和32位版本中都可用。我們可以在EmEditor軟件中利用正則表達(dá)式快速清洗語料,具體操作是導(dǎo)入文本后,點擊“搜索”,單擊“替換”,再勾選“正則表達(dá)式”,利用正則表達(dá)式清洗語料。

正則表達(dá)式學(xué)習(xí)參考:

https://www.runoob.com/regexp/regexp-tutorial.html

在線正則表達(dá)式測試平臺:

https://tool.oschina.net/regex

Notepad++

Notepad++

Notepad++是一款與EmEditor類似的軟件,Notepad++是Windows操作系統(tǒng)下的一套免費的文本編輯器,有完整的中文化接口及支持多國語言編寫的功能(UTF8技術(shù))。同樣,我們也可以借助它,并利用正則表達(dá)式清洗語料,操作與EmEditor類似。
斑斕科技小助手

斑斕科技小助手

斑斕科技小助手是一款基于VBA的Word小工具,與庫酷和文檔整理器不同的是,它可以直接在Word中使用,功能豐富,提供各種快捷鍵,操作簡單方便,為語料處理提供極大的幫助。
ABBYY Aligner

ABBYY Aligner

ABBYY Aligner 2.0是一個工具對齊并行文本和創(chuàng)建翻譯記憶數(shù)據(jù)庫,提供了編輯對齊結(jié)果的功能,并可以保存為TMX格式,以便在CAT工具中進(jìn)一步使用,可以提高工作效率。
Tmxmall

Tmxmall

Tmxmall是一款在線語料對齊工具,語料對齊方便用戶調(diào)整對齊結(jié)果,其自主研發(fā)的智能對齊算法可以自動對齊原文,支持46種語言,2070種語言對,極大提高語料對齊效率。
ParaConc

ParaConc

ParaConc是一款雙語或多語平行語料庫建設(shè)與檢索工具,具有語料對齊、平行文本預(yù)覽功能、平行文本檢索、檢索行排序、詞頻統(tǒng)計、搭配提取等功能,可以用于語料檢索、對比分析、語言學(xué)習(xí)和翻譯研究培訓(xùn)等。