我正在开发一个Python Flask网络应用程序,我正在尝试将一些用户上传的PDF转换为格式良好的HTML,就像当您在.iframe到目前为止,我尝试了几件事:库,产生凌乱的HTML,pdfminer.six在渲染带有pdf.js的PDF时,试图抓取生成的HTML,这显然隐藏在影子DOM中,无法访问其内部HTML最后我遇到了(https://github.com/pdf2htmlEX/pdf2htmlEX),它产生了我想要的东西。pdf2htmlEX在本地,此解决方案效果很好,但是在生产状态(Heroku)中,我无法正确安装它。该项目已被弃用,文档有限且可怕。问题与损坏的依赖项有关。那么,如何使用Python或任何其他工具有效地将PDF转换为HTML而不会丢失任何格式?非常感谢。如果有人愿意帮助我获得pdf2htmlEX在heroku上工作,请发表评论,我会在另一篇文章中发布更多详细信息
1 回答
慕神8447489
TA贡献1780条经验 获得超1个赞
这不会是微不足道的。但我会给出一些指点。
您需要在其中定义构建包。
https://devcenter.heroku.com/articles/app-json-schema#buildpacksapp.json
如果这个项目可以通过它获得,那将很容易。您只需使用 Heroku 的 Apt 构建包定义一个,说明它需要安装哪些包。示例
然后它会自动安装它,您就完成了。apt
Aptfile
如果它不能作为软件包使用,则需要创建自己的构建包。
https://devcenter.heroku.com/articles/buildpack-api 此处使用的示例。
另一种解决方案是将项目进行泊坞化,并将其作为泊站容器执行。
添加回答
举报
0/150
提交
取消