自动提取生成excel表格!推荐一款开源工具
hello大家好,前几天老Y在github上闲逛,发现了一个大神项目,这个工具已经被标星将近5K,可见其受欢迎程度。
这个工具叫Tabula,它是用于提取pdf中的数据表格工具。我们知道pdf中的数据表格,不好复制,即使用文字识别工具也未能很好的识别,更别说直接生成excel表格了。
而Table可以将pdf中的数据直接提取到csv或excel表格中,很实用很方便的一个工具。Table支持Windows、Mac OS X、Linux三大系统。
下面老Y在windows中用个例子说明一下。
在Windows中,工具下载后只有一个exe文件如下图所示,使用方法很简单直接双击就可以了。
运行后会自动跳出网页,如果没有自动跳出,在浏览器输入http://localhost:8080即可.
如上图所示,找到我们的测试pdf,点击import上传后可以看到pdf内容。对需要处理的表格可以进行鼠标框选,也可以点击自动选择表格按钮(Auto detect Tables),完成后点击右上角输出数据就可以了。
处理结果如下图所示。
可以看到,有不同的格式输入,也可以直接复制到剪切板,csv格式excel是直接可以打开的。
这个工具对于需要处理或者提取pdf中的表格数据,实在是太赞了!比一般的OCR工具更加便捷。
最后要说的是,Tabula工具是运行在java环境下的,老Y已经将Tabula工具和java程序一起打包提供给大家下载了,下载地址如下:
https://www.lanzoux.com/iaDpvgswidc 密码:174s
大家也可以去官网下载:
https://tabula.technology/
好了,以上就是今天的推荐,记得“三连”支持下哦。
– End –
往期精选:
文章转载自微信公众号:老Y工作室