Java使用openOffice对于word的转换及遇到的问题解决
一:需求详情:
openoffice.org 是一套跨平台的办公室软件套件,能在 windows、linux、macos x (x11)、和 solaris 等操作系统上执行。它与各个主要的办公室软件套件兼容。openoffice.org 是*软件,任何人都可以免费下载、使用、及推广它。
公司需要存储合同文件,用户上传word文档的合同,通过openoffice去把word转换为pdf、再把pdf转换为图片格式,并分别存储。因为openoffice的转换需要耗费挺大的内存,所以设计为task任务,凌晨自动转换。
记录本次需求完成的时候遇到的问题。
openoffice既有windows版本也有linux版。不用担心生产环境是linux系统。
关于linux系统安装openoffice软件请参照:
二:过程
1:本地环境编码(windows)
第一步:因为是本地环境的编码而且是windows环境,所以从安装openoffice开始,到启动服务并没有遇到难题。
第二步:转换所需要的工具包;
<dependency> <groupid>commons-cli</groupid> <artifactid>commons-cli</artifactid> <version>1.2</version> </dependency> <dependency> <groupid>commons-io</groupid> <artifactid>commons-io</artifactid> <version>1.4</version> </dependency> <dependency> <groupid>org.openoffice</groupid> <artifactid>juh</artifactid> <version>3.0.1</version> </dependency> <dependency> <groupid>org.openoffice</groupid> <artifactid>jurt</artifactid> <version>3.0.1</version> </dependency> <dependency> <groupid>org.openoffice</groupid> <artifactid>ridl</artifactid> <version>3.0.1</version> </dependency> <dependency> <groupid>org.slf4j</groupid> <artifactid>slf4j-api</artifactid> </dependency> <dependency> <groupid>org.slf4j</groupid> <artifactid>slf4j-jdk14</artifactid> <scope>test</scope> </dependency> <dependency> <groupid>org.openoffice</groupid> <artifactid>unoil</artifactid> <version>3.0.1</version> </dependency> <dependency> <groupid>com.thoughtworks.xstream</groupid> <artifactid>xstream</artifactid> <version>1.3.1</version> </dependency> <dependency> <groupid>org.apache.pdfbox</groupid> <artifactid>fontbox</artifactid> <version>2.0.8</version> </dependency> <dependency> <groupid>org.apache.pdfbox</groupid> <artifactid>pdfbox</artifactid> <version>2.0.8</version> </dependency>
问题1:在这里遇到了第一个问题,就是在maven的*仓库找不到关键的依赖jar包的问题。
jodconverter-cli 这个jar包*仓库找不到jar包依赖,jodconverter 版本才到2.2.1(这个版本之前的不能支持docx格式转换,2.2.2及以后才开始支持。)
然后和大牛商量,加入到公司内网自己的maven仓库。
第三步:工具类
/** * @author gh * 输入文件 * 输出文件 */ public class wordtopdf {//word转pdf public static void doctopdf(file inputfile, file outputfile){ openofficeconnection connection = new socketopenofficeconnection(8100); try{ connection.connect(); documentconverter converter = new openofficedocumentconverter(connection); converter.convert(inputfile, outputfile); }catch(connectexception cex){ cex.printstacktrace(); }finally{ if(connection!=null){ connection.disconnect(); connection = null; } } } }
/** * @author gh * 参数1:要装换的pdf位置 * 参数2:转换后的图片存放位置 * 参数3:中间要拼接的名字 * return:转换后的img名字集合 */ public class pdftoimage {//pdf转img public static list<string> pdftoimagepath(string srcfile,string contractfromsrc,string name){ list<string> list = new arraylist<>(); string imagepath; file file = new file(srcfile); try { file f = new file(contractfromsrc); if(!f.exists()){ f.mkdir(); } pddocument doc = pddocument.load(file); pdfrenderer renderer = new pdfrenderer(doc); int pagecount = doc.getnumberofpages(); for(int i=0; i<pagecount; i++){ // 方式1,第二个参数是设置缩放比(即像素) // bufferedimage image = renderer.renderimagewithdpi(i, 296); // 方式2,第二个参数是设置缩放比(即像素) bufferedimage image = renderer.renderimage(i, 2f); //第二个参数越大生成图片分辨率越高,转换时间也就越长 imagepath = contractfromsrc+name+"-"+i +".jpg"; imageio.write(image, "png", new file(imagepath)); list.add(name+"-"+i +".jpg"); } doc.close(); } catch (ioexception e) { e.printstacktrace(); } return list; } }
第四步:编码
首先从数据库读取没有转换过的集合,循环下载oss对象存储文件到指定临时文件夹。
通过工具类转换下载的word为pdf,录入数据pdf记录,上传oss对象pdf图片。
通过工具类转换得到的pdf图片,录入数据路图片记录,上传转换得到的img图片。
try catch捕捉异常,有异常就回滚数据库,删除oss对象上传的文件。
修改word的转换状态为已转换。
问题2:因为到最后测试环境和生产环境都是linux系统的,因为涉及到文件的操作,但是linux和windows的文件路径是不一样的,例如:windows文件路径为(c:\tmp\test.txt)linux则为(/tmp/test.txt)
因此 采用这种方式
public final static string convert_tmp_url="c:"+file.separator+"temp"+file.separator+"contracttoimg"+file.separator;//进行word——img转换的时候的暂时存放路径 window public final static string convert_tmp_url2=file.separator+"tmp"+file.separator+"contracttoimg"+file.separator;//进行word——img转换的时候的暂时存放路径 linux
file.separator 与系统有关的默认名称分隔符,为了方便,它被表示为一个字符串 在linux此字段的值为 '/' windows为'\'
第五步:本地测试,没有问题。
2:测试环境测试(windows)
问题3:在linux环境下word转换word中文出现乱码 空白,导致的原因是linux缺少中文字体编码。
解决方法:
步骤1:创建路径。
在centos的/usr/java/jdk1.8.0_91/jre/lib/fonts下新建路径:fallback。
步骤2:上传字体。
将字体:simhei.ttf 黑体、simsun.ttc 宋体(windows下通过everything找下)上传至/usr/java/jdk1.8.0_91/jre/lib/fonts/fallback路径下。
步骤3:查看系统字体文件路径。
查看方案:
[root@80ec6 fallback]# cat /etc/fonts/fonts.conf <!-- font directory list --> <dir>/usr/share/fonts</dir> <dir>/usr/share/x11/fonts/type1</dir> <dir>/usr/share/x11/fonts/ttf</dir> <dir>/usr/local/share/fonts</dir> <dir>~/.fonts</dir>
步骤4:字体拷贝。
将 /usr/java/jdk1.8.0_91/jre/lib/fonts的全部内容,拷贝到步骤3查看的路径下, 我的字体路径为:/usr/share/fonts。
步骤5:更新缓存
执行命令:fc-cache
步骤6:kill掉openoffice进程。
[root@80ec6 fonts]# ps -ef | grep openoffice root 3045 3031 0 06:19 pts/1 00:00:03 /opt/openoffice4/program/soffice.bin -headless -accept=socket,host=127.0.0.1,port=8100;urp; -nofirststartwizard
执行kill:kill -9 3045
步骤7:重启后台运行openoffice。
[root@a3cf78780ec6 openoffice4]# soffice -headless -accept="socket,host=127.0.0.1,port=8100;urp;" -nofirststartwizard &
3:测试环境和生产环境内核不一样,安装的安装包不一样。
测试环境的安装的是deb文件,使用 dpkg命令安装所有的deb文件,启动服务就能使用。
生产环境的是dpkg命令找不到。改换安装prm文件,执行安装之后,竟然启动不了,查找原因之后尽然是没有安装完,rpms目录下有desktop-integration文件夹,进入到desktop-integration目录,里面有四个rpm 文件,选择相应的安装即可,这里我选择的是redhat版本。
执行 rpm -ivh openoffice4.1.5-redhat-menus-4.1.5-9789.noarch.rpm
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对的支持。