利用MSOFFICE自帶功能OCR整本PDF或DJVU圖書(shū)利用MSOFFICE自帶功能OCR整本PDF或DJVU圖書(shū)在一次偶然的搜索,發(fā)現(xiàn)了這個(gè)功能:首先確定MS的虛擬打印機(jī)你已經(jīng)安裝(打印機(jī)里可以看到這個(gè)Microsoft Office Document Image Writer),如沒(méi)安裝請(qǐng)完全安裝office(閹割版的office沒(méi)有這個(gè)功能)。將你要識(shí)別的文件打印,打印機(jī)選Microsoft Office Document Image Writer,確認(rèn)后將該文件輸出為MDI格式的虛擬打印文件。 運(yùn)行Microsoft Office Document Imaging,并利用它來(lái)打開(kāi)剛才保存的MDI文件,選擇“工具→將文本發(fā)送到Word”菜單,在彈出的窗口中選中“在輸出時(shí)保持圖片版式不變”,確認(rèn)后系統(tǒng)會(huì)提示“必須在執(zhí)行此操作前重新運(yùn)行OCR。這可能需要一些時(shí)間”,不管它,確認(rèn)即可。 這樣的識(shí)別率相當(dāng)高。如須識(shí)別繁體的,必須安裝多一個(gè)繁體版的office,然后在識(shí)別之前設(shè)置一下語(yǔ)言。
幫忙置頂吧,虛擬打印機(jī)500K不到,附件只能50,不傳了。
-----------搞不懂。請(qǐng)明言。
-----------看糊涂了。請(qǐng)說(shuō)清楚一點(diǎn)。
...