分享web开发知识

注册/登录|最近发布|今日推荐

主页 IT知识网页技术软件开发前端开发代码编程运营维护技术分享教程案例
当前位置:首页 > 教程案例

使用pdfdom将pdf转为html

发布时间:2023-09-06 01:49责任编辑:郭大石关键词:pdf

pdfbox自带的转换html的方法效果不是太好,pdfdom是基于pdfbox的,在此之上加强了转换html的能力。

maven

 ???????<dependency> ???????????<groupId>net.sf.cssbox</groupId> ???????????<artifactId>pdf2dom</artifactId> ???????????<version>1.6</version> ???????</dependency> ???????<dependency> ???????????<groupId>org.apache.pdfbox</groupId> ???????????<artifactId>pdfbox</artifactId> ???????????<version>2.0.4</version> ???????</dependency> ???????<dependency> ???????????<groupId>org.apache.pdfbox</groupId> ???????????<artifactId>pdfbox-tools</artifactId> ???????????<version>2.0.4</version> ???????</dependency>

使用

public void generateHTMLFromPDF(String filename) throws IOException, ParserConfigurationException { ???????PDDocument pdf = PDDocument.load(new File(filename)); ???????Writer output = new PrintWriter("pdf.html", "utf-8"); ???????new PDFDomTree().writeText(pdf, output); ???????output.close();}

或者

public void convertPdf2Html(File input,Writer out) throws IOException, ParserConfigurationException { ???????PDDocument pdf = PDDocument.load(input); ???????PDFDomTree tree = new PDFDomTree(); ???????tree.writeText(pdf,out);}

转自:这里

使用pdfdom将pdf转为html

原文地址:https://www.cnblogs.com/x54256/p/8820471.html

知识推荐

我的编程学习网——分享web前端后端开发技术知识。 垃圾信息处理邮箱 tousu563@163.com 网站地图
icp备案号 闽ICP备2023006418号-8 不良信息举报平台 互联网安全管理备案 Copyright 2023 www.wodecom.cn All Rights Reserved