PCEVA,PC绝对领域,探寻真正的电脑知识
开启左侧

FOXIT支持实时OCR识别了么?好奇怪的现象

[复制链接]
haierccc 发表于 2018-3-23 09:25 | 显示全部楼层 |阅读模式
点击数:751|回复数:12
本帖最后由 haierccc 于 2018-3-23 09:56 编辑

我对PDF的了解不多,根据我的判断,应该有2类PDF:内嵌文字的,和图片的。
内嵌文字的PDF,因为里面已经有文本内容了,所以很容易实现PDF转WORD,而且是一字不差(其实就是把内嵌的文本提取出来而已)。
另一种是图片类型的,比如用手机拍一张照片,然后把该照片转成PDF(WPS就可以),因为是图片,所以需要OCR识别才能转成可编辑的文本。但因为清晰度等原因,转换过程肯定有错误(OCR是依形状识别文字的),比如把数字0识别成了字母O,“因”识别成“困”等等。
这几天我在用FOXIT看PDF书:
图片1.png
从上图可见,这应该是扫描件,因为印刷过程中的一些缺陷很明显的体现出来,比如不均匀的油墨,和顶部的背景图案。
因为是图片,按理说要识别成文字需要OCR,可是我发现,我居然可以直接选中文字,复制粘贴:
图片1.png
识别出的文字:
第 3 章
TCP/IP 简介
本章涵盖如下 CCNA考试要点。
J 描述网络的工作原理
日描述 OSI 和 TCP 模型中各协议的用途和基本工作原理。
口使用分层模型方法找出并修复第 1 层、第 2 层、第 3 层和第 7 层的常见网络故障。

这是咋回事,百思不得其解。
如果说该PDF已经内嵌了文字,那提取出的文本应该是一字不差,但在复制的过程中经常有错字,比如这里把对号识别成了j,方框识别成了
很明显,这是字体形状判断错误,因为的形状和j类似,的形状和日、类似,应该是OCR识别过程的错误。
难道FOXIT已经能够做到实时OCR,直接对图片内容进行识别么?我做了一个实验,先用WPS编辑文字,再截图成图片,在WPS中插入这张图片并输出为PDF:
图片1.png
可是在FOXIT中打开却法复制其中的文字,说明没有OCR识别,但纯文字转的PDF就能复制。
真是好奇怪的现象啊,请教高人。
wsy2220 发表于 2018-3-23 11:41 | 显示全部楼层
是做PDF的人识别好了嵌入进去的. 年头比较老的论文都是这么数字化的
vipspy 发表于 2018-3-23 12:46 | 显示全部楼层
一些投标文件PDF,是word或者Excel表格转成的,表格加文字。
这种转换才烦人,一次几十页,想在电脑上填表,还不如手写。
haierccc  楼主| 发表于 2018-3-23 13:19 | 显示全部楼层
wsy2220 发表于 2018-3-23 11:41
是做PDF的人识别好了嵌入进去的. 年头比较老的论文都是这么数字化的

先识别文字,再嵌入么
wsy2220 发表于 2018-3-23 18:39 | 显示全部楼层
haierccc 发表于 2018-3-23 13:19
先识别文字,再嵌入么

扫描->识别->生成嵌入文字的PDF一条龙
haierccc  楼主| 发表于 2018-3-23 19:10 | 显示全部楼层
wsy2220 发表于 2018-3-23 18:39
扫描->识别->生成嵌入文字的PDF一条龙

居然能把识别出来的文字嵌入到扫描件对应的物理位置。
这个是怎么做的,网上有教程么
dongyi945 发表于 2018-3-23 20:29 | 显示全部楼层
haierccc 发表于 2018-3-23 19:10
居然能把识别出来的文字嵌入到扫描件对应的物理位置。
这个是怎么做的,网上有教程么
...

Abbyy finereader
目前最好的ocr软件.
但是即使是最好的也不要报太大期望.

zsbstephen 发表于 2018-3-23 22:15 | 显示全部楼层
dongyi945 发表于 2018-3-23 20:29
Abbyy finereader
目前最好的ocr软件.
但是即使是最好的也不要报太大期望.

正解~也是目前识别率最高的~公司也在用这个~
当然转换完还得让人工逐个字校对,少不了这个步骤,但总比逐个字手打快多了~

红色狂想 发表于 2018-3-23 22:18 | 显示全部楼层
顺路搭车问一下,有没有什么软件能把音频文件中的讲话录音自动转成文本?
Opteron 发表于 2018-3-23 22:52 | 显示全部楼层
红色狂想 发表于 2018-3-23 22:18
顺路搭车问一下,有没有什么软件能把音频文件中的讲话录音自动转成文本? ...

微信语音转文字
来自苹果客户端来自苹果客户端
红色狂想 发表于 2018-3-23 23:30 | 显示全部楼层
Opteron 发表于 2018-3-23 22:52
微信语音转文字

这个只能转微信上的内容,我是要转PC上的业务音频,刚搜了一下,发现有以下几个

如何将录音和视频文件中的语音转换成文字
有能把录音变成文字的软件么?
讯飞听见科技_把声音变成文字的软件_语音转文字_免费试用
试试看再说
Opteron 发表于 2018-3-25 20:22 | 显示全部楼层
红色狂想 发表于 2018-3-23 23:30
这个只能转微信上的内容,我是要转PC上的业务音频,刚搜了一下,发现有以下几个

如何将录音和视频文件中 ...

来个方言试试
wsy2220 发表于 2018-3-25 21:58 | 显示全部楼层
haierccc 发表于 2018-3-23 19:10
居然能把识别出来的文字嵌入到扫描件对应的物理位置。
这个是怎么做的,网上有教程么
...

PDF格式有很多黑科技
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部