好不容易找到一本想看的电子书,但却是PDF格式的,更令人郁闷的是,PDF电子书往往还会对文本内容进行锁定而无法转存为TXT格式,或者是PDF电子书中的内容是图片扫描的,这该怎么办?以下是一篇发表自【翻译中国】的电子书转档攻略,对于各位掌书迷来说提供了很好的借鉴。
一、将PDF格式转换为WORD或TXT等其它可编辑格式
工具:Solid Converter PDF。试验结论:免安装, 直接解压后点击Solid PDF Service就可用。比较好用,能保持原文结构,但不能转换图片格式的PDF文档。下载地址:www.softhy.net/down.asp?id=7757&no=1,是热心网友提供的。转帖在此。
另外,也可用ACROBAT8.0--编辑—将文件复制到粘贴板— 打开WORD – 粘贴 ,文本也可编辑了,但不能保持原文结构。
二、图片格式的PDF文档转换
1.用ACROBAT 8.0 打开PDF原文--文档OCR识别--用OCR识别
A.选择要识别的页面;
B.编辑要识别的语言—确定; 识别完成后, 编辑—将文件复制到粘贴板— 打开WORD – 粘贴 ,文本可编辑了,但正确率不太高,可能是手写的内容太多。
2.用ACROBAT 8.0 打开PDF图片格式的PDF文档--编辑—另存为—JPEG格式,用OCR(尚书7.0,下载地址:jx.10gb.cn/10gb_down_425845258724591/SHOCR70.zip汉王5.0下载地址: http://cncdata.soft169.com/xd/hw50.rar?vsid=890c7a54dc3364ef75c9d709ae5bdf7b等,)识别工具识别。
打开尚书7.0— 打开图片—(分析,可省)—开始识别—输出
A. RTF格式,比较好地保存原文样式,在WORD中打开;
B. TXT格式, 文件小, 但不保留原文样式;
C. HTM网页格式;
D. XLS格式.但正确率也不太高,比直接在ACROAT中识别好一点, 可能是手写的内容太多.
用汉王5.0识别方法同上,识别的效果与OCR7.0差不多,尚书7.0的文稿校对功能似乎好用些。
至于其其它方法,也可用,但效果都不如以上的方法。如用Microsoft Office document Image Writer 和Adobe Reader合用,试验结论::对文字多的PDF文件转换效果较好。有表格的乱码就太多。也不能对图片格式中的文字进行有效转换。