本帖最后由 haierccc 于 2018-3-23 09:56 编辑
我对PDF的了解不多,根据我的判断,应该有2类PDF:内嵌文字的,和图片的。
内嵌文字的PDF,因为里面已经有文本内容了,所以很容易实现PDF转WORD,而且是一字不差(其实就是把内嵌的文本提取出来而已)。
另一种是图片类型的,比如用手机拍一张照片,然后把该照片转成PDF(WPS就可以),因为是图片,所以需要OCR识别才能转成可编辑的文本。但因为清晰度等原因,转换过程肯定有错误(OCR是依形状识别文字的),比如把数字0识别成了字母O,“因”识别成“困”等等。
这几天我在用FOXIT看PDF书:
从上图可见,这应该是扫描件,因为印刷过程中的一些缺陷很明显的体现出来,比如不均匀的油墨,和顶部的背景图案。
因为是图片,按理说要识别成文字需要OCR,可是我发现,我居然可以直接选中文字,复制粘贴:
识别出的文字:
第 3 章
TCP/IP 简介
本章涵盖如下 CCNA考试要点。
J 描述网络的工作原理
日描述 OSI 和 TCP 模型中各协议的用途和基本工作原理。
口使用分层模型方法找出并修复第 1 层、第 2 层、第 3 层和第 7 层的常见网络故障。
这是咋回事,百思不得其解。
如果说该PDF已经内嵌了文字,那提取出的文本应该是一字不差,但在复制的过程中经常有错字,比如这里把对号√识别成了j,方框■识别成了日和口。
很明显,这是字体形状判断错误,因为√的形状和j类似,■的形状和日、口类似,应该是OCR识别过程的错误。
难道FOXIT已经能够做到实时OCR,直接对图片内容进行识别么?我做了一个实验,先用WPS编辑文字,再截图成图片,在WPS中插入这张图片并输出为PDF:
可是在FOXIT中打开却法复制其中的文字,说明没有OCR识别,但纯文字转的PDF就能复制。
真是好奇怪的现象啊,请教高人。
|