自动提取生成excel表格!推荐一款开源工具

自动提取生成excel表格!推荐一款开源工具 最新 图1张
文字 | 配图 | 排版 | ?老Y
官网:www.youquhome.cn


hello大家好,前几天老Y在github上闲逛,发现了一个大神项目,这个工具已经被标星将近5K,可见其受欢迎程度。


自动提取生成excel表格!推荐一款开源工具 最新 图2张


这个工具叫Tabula,它是用于提取pdf中的数据表格工具。我们知道pdf中的数据表格,不好复制,即使用文字识别工具也未能很好的识别,更别说直接生成excel表格了。


而Table可以将pdf中的数据直接提取到csv或excel表格中,很实用很方便的一个工具。Table支持Windows、Mac OS X、Linux三大系统。


下面老Y在windows中用个例子说明一下。


在Windows中,工具下载后只有一个exe文件如下图所示,使用方法很简单直接双击就可以了。


自动提取生成excel表格!推荐一款开源工具 最新 图3张


运行后会自动跳出网页,如果没有自动跳出,在浏览器输入http://localhost:8080即可.


自动提取生成excel表格!推荐一款开源工具 最新 图4张


如上图所示,找到我们的测试pdf,点击import上传后可以看到pdf内容。对需要处理的表格可以进行鼠标框选,也可以点击自动选择表格按钮(Auto detect Tables),完成后点击右上角输出数据就可以了。


自动提取生成excel表格!推荐一款开源工具 最新 图5张


处理结果如下图所示。


自动提取生成excel表格!推荐一款开源工具 最新 图6张


可以看到,有不同的格式输入,也可以直接复制到剪切板,csv格式excel是直接可以打开的。


自动提取生成excel表格!推荐一款开源工具 最新 图7张


这个工具对于需要处理或者提取pdf中的表格数据,实在是太赞了!比一般的OCR工具更加便捷。


最后要说的是,Tabula工具是运行在java环境下的,老Y已经将Tabula工具和java程序一起打包提供给大家下载了,下载地址如下:

https://www.lanzoux.com/iaDpvgswidc 密码:174s


大家也可以去官网下载:

https://tabula.technology/


好了,以上就是今天的推荐,记得“三连”支持下哦。


自动提取生成excel表格!推荐一款开源工具 最新 图8张


– End –



往期精选:




自动提取生成excel表格!推荐一款开源工具 最新 图9张

文章转载自微信公众号:老Y工作室