O.P.这篇文章被编辑了
大家好,
我正在清算一个旧的 PTY LTD 及其关联的银行账户(圣乔治)。
不幸的是,我不能将交易历史导出为 QIF 或 CSV 等,因为“过去太多年了。”
我还联系了 St George,询问他们是否可以提出支持请求,让他们的技术团队为我,没有骰子。
最终,我所能得到的只是“PDF 电子报表”
显然,将其逐行重新输入到 Xero 或 MYOB 中将是死亡通过文书工作,所以我正在尝试研究解析软件和其他东西,看看我是否可以从 PDF 本身批量提取数据。
有各种各样的“半工作”网站(例如 docuclipper)说他们提供这个,但我想知道外面是否有人知道这里的“简单”方法。是否有针对澳大利亚 BIG4 等的非常具体的软件,最好是澳大利亚软件?我在 Xero 中看不到任何原生内容(而且我可以在那里看到数据馈送功能,但同样,时间回溯不够远)
如果有人知道,我将不胜感激,最终只是赶上了几年的批量回报,我只有 PDF。我无法想象我是第一个或最后一个遇到这种不便的人,所以我希望这个问题一直都得到解决!
评论
nachopants 写道...
显然,逐行将其重新键入 Xero 或 MYOB 将因文书工作而死亡
我怀疑是否有专门为此构建的解决方案。
我的建议是将相关交易复制/粘贴到记事本(文本)中,然后将其格式化为固定宽度的列,然后粘贴到 excel 中。
10 年的月结单是120 条语句......大概可以在 3-4 小时内完成。假设每个语句是 2-3 页。如果每个陈述的时间更长,您可能会陷入痛苦的世界。
评论
O.P.
第一次导出是 73 页。
保存
评论
您可以免费试用 adobe acrobat pro,用它来将报表导出为 CSV。
当然假设有pdf 上没有一些保护措施阻止您这样做
评论
nachopants 写道...
我会感谢任何人的帮助,如果有人知道,
可以将 pdf 转换为文档或电子表格格式,然后保存为 CSV 文件....
最终只是赶上几年的回报大量地,
在公司倒闭之前将问题转给会计师......
评论
nachopants 写道。 ..
导出交易历史
批量提取 PDF 本身的数据
在我的机构中,我们使用名为 Altia 的 OCR 应用程序将扫描的纸质和电子报表转换为 CSV。这是一个过程,可能会抛出错误,但它是最好的选择(无论如何对我们来说。)许多银行都可以访问同一个应用程序,并且可以为您处理交易历史记录。也许 StGeorge 的人不知道该应用程序,或者他们可能无权访问它。我知道 CBA 使用它这一事实。可能值得在 StGeorge 更高层询问。我不熟悉公共领域的 Altia 或类似的东西。
Not_Brandon!写...
acrobat pro
它可以做到,但速度非常慢
评论
如果您订阅了 Office 365 ,您可以使用 Excel 从 PDF 导入。
评论
如果您已经熟悉 Excel 的这一方面,则可能可以在 Excel 中使用 Power Query。尽管如果您是从零知识开始的,那么像 sp00ker 建议的那样复制并粘贴所有这些可能会更快。
我已经做了类似的事情,从 PDF ASX 公告中提取数据表。
评论
sp00ker writes...
我的建议是将相关交易复制/粘贴到记事本(文本)中,然后格式化到固定宽度的列中,然后粘贴到 excel 中。
PDF 和柱状数据通常不能很好地复制/转换。它将非常依赖于语句的结构和编码,并且可以是“不错”或“噩梦”来处理。
评论
YetAnotherAcc writes...
PDF 和柱状数据通常不能很好地复制/转换。
是的——我明白,这就是我建议复制到记事本的原因并手动对齐列。
Else 写道...
如果您订阅了 Office 365,则可以使用 Excel 从 PDF 导入。
p>Cecile 写...
在我的机构中,我们使用名为 Altia 的 OCR 应用程序将扫描的纸质和电子报表转换为 CSV
任何一种都可以,如果它有效的话……这两种方法的问题都是识别错误。
nachopants 写道...
第一次导出是 73 页。
我觉得你完蛋了。 73 页是多少个月?
评论
其他写道...
如果您订阅了 Office 365,您可以使用 Excel 从 PDF 导入数据。
我肯定会先尝试这个,过去我在从 pdf 银行对账单导入数据方面取得了不同程度的成功。它甚至可以在 pdf 文件夹上工作。
sp00ker 写道...
这两种方法的问题是识别错误。
Excel 从 pdf 导入不是 OCR——因此如果它导入数据,您将不需要检查每一行是否已正确导入。
评论
sp00ker 写入...
并手动对齐列。
我的意思是您甚至可能无法使用列。我将多列作为单列返回,有关空单元格的信息完全丢失,导致进一步的数据不对齐。
www1 写道...
你不需要检查每一行是否已正确导入。
虽然这可能大体上是正确的,但您不能真的这样假设。根据 PDF 的编码方式,可能会出现细微的错误,例如由文本重建方式引起的字符转换,因为 PDF 中的文本不一定存储为连贯的单词或句子。
评论
我将从不同的角度来看这个问题,希望它不会太离题。
您真的需要编写年复一年的银行报表吗?如果该业务有利可图,那么可能是的。但如果这是一家小企业造成税收损失,则可能不会。值得与您的会计师讨论实际需要什么。有时您只需要提出“不需要退货”的建议。
评论
此帖子已编辑
如果声明 PDF 是图形生成的(如“打印为 PDF”),那么上述所有方法都将失败(因为 PDF 本质上是“图像”而不是“数据”)......
这就是 Microsoft Lens 的优势所在,它在提取数据方面非常棒!
< p>Tek评论
sp00ker writes...
identifying errors
Agreed, but with法务会计有很多检查和识别。一般来说,OCR 和转换非常顺利,几乎没有错误。
评论
Tekno 写...
如果声明PDF 是图形生成的(如“打印到 PDF”),那么上述所有方法都会失败(因为 PDF 本质上是“图像”而不是“数据”)
我希望大多数“打印到PDF”将使用数据,并且仅回退到无法使用数据的图像。
评论
我会使用 JetConvert 处理该卷的某些内容。
会花费你一些钱,但会节省大量时间。
评论
nachopants 写道...
< p>如果有人知道,我将不胜感激,最终只是赶上了几年的批量回报,我所拥有的只是 PDF。我无法想象我是第一个或最后一个遇到这种不便的人,所以我希望这个问题一直都得到解决!试试 Tabula:https://tabula.technology/ – 它是一款开源软件,可让您将大致结构化的 PDF 数据提取到 CSV/电子表格中。
我已将它用于这种情况。这取决于您的 PDF 的确切性质——您会比其他人更幸运,但至少可能足以将其转换为中间格式,您可以使用其他工具进行处理以清理和完成.
评论
YetAnotherAcc 写道...
我的建议是将相关交易复制/粘贴到记事本(文本) ,然后将其格式化为固定宽度的列,然后粘贴到 excel 中。
我通常就是这样做的。甚至使用 Word,它更容易处理大型任务的宏,然后另存为文本或 CSV。
Exel 的日期格式令人震惊,即使在导入和导出到 Access 时也是如此。另一个问题是语句不是强类型的,营销神童可能会认为 mm-dd-yyyy 看起来比 dd-mm-yyy 更酷,而您遇到了问题。
Telco 数据存在类似问题。< /p>
评论
虽然它是为发票设计的,但你可以尝试'invoice2data',只需要在其中一个上运行它,建立一个模板,然后一旦模板是完成后,通过所有这些运行它,它应该(从内存中)吐出所有信息的 json 或 csv 文件。
澳洲中文论坛热点
- 悉尼部份城铁将封闭一年,华人区受影响!只能乘巴士(组图)
- 据《逐日电讯报》报导,从明年年中开始,因为从Bankstown和Sydenham的城铁将因Metro South West革新名目而
- 联邦政客们具有多少房产?
- 据本月早些时分报导,绿党副首领、参议员Mehreen Faruqi已获准在Port Macquarie联系其房产并建造三栋投资联