在实际开发中,Java会操作word文档、pdf文档和excel表格,实现基本的功能和需求。如果在接触之前我们什么都做不了,今天我就把这些操作中用到的工具或者方法做一些简单的陈述,这样我们就可以直接找到相应的资料。
Java操作word文档:
操作Java word时,读写word文档时,主要使用Apache编写的工具类POI。网上有POI使用的API和文档,我们可以在自己的实际项目中找到相应的API进行相应的操作。特别说明:word文档分为03版和07版,doc和docx,阅读方式不同。以. docx文件结尾的实际上是一个压缩文件。当您将docx的后缀改为。zip,然后解压,可以看到很多xml文件。实际上,读取docx文档就是解析xml文档。不信可以自己试试。
docx文件转换为zip文件的渲染
1 什么是Apache POI1什么是Apache POI
Apache POI是一个用Java编写的免费开源跨平台Java API。就是创建、维护和操作各种符合Office Open XML(OOXML)标准和微软的OLE2复合文档格式(OLE 2)的Java API。有了它,你可以用Java来读取、创建和修改MS Excel文件。而且,还可以用Java读取和创建MS Word和MSPowerPoint文件。Apache提供Java操作的Excel解决方案(适用于Excel97-2008)。
阿帕奇兴趣点的2个组成部分
Apache POI包含MS-Office的OLE2复合文档的所有类和方法。该API的组件列表如下:
附上一个简单的代码:POIFS:这个组件是所有其他POI元素的基本因子。它用于显式读取不同的文件。HSSF:用来读写微软的Excel文件。xls格式。XSSF(XML电子表格格式):。MS-Excel的xlsx文件格式。HPSF:用于提取MS-Office文件的属性集。HWPF:。用于读写MS-Word的doc扩展文件。XWPF(XML字处理器格式):一个扩展文件。用于读写MS-Word的docx。HSLF:用于阅读、创建和编辑PowerPoint演示文稿。HDGF(可怕的图表格式):它包含MS-Visio二进制文件的类和方法。HPBF(恐怖的PuBlisher格式):用于读写MS-Publisher文件。
package com.lq.readDoc; import org.apache.poi.hwpf.extractor.WordExtractor;import org.apache.poi.ooxml.POIXMLDocument;import org.apache.poi.ooxml.extractor.POIXMLTextExtractor;import org.apache.poi.openxml4j.opc.OPCPackage;import org.apache.poi.xwpf.extractor.XWPFWordExtractor; import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream; /** * 读取文档中的doc和docx的内容 */public class ReadDocUtils { public static String ReadDoc(String path) throws IOException { String resullt = ""; //首先判断文件中的是doc/docx try { if (path.endsWith(".doc")) { InputStream is = new FileInputStream(new File(path)); WordExtractor re = new WordExtractor(is); resullt = re.getText(); re.close(); } else if (path.endsWith(".docx")) { OPCPackage opcPackage = POIXMLDocument.openPackage(path); POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage); resullt = extractor.getText(); extractor.close(); } else { System.out.println("此文件不是word文件"); } } catch(Exception e){ e.printStackTrace(); } return resullt; }}
Java操作的PDF文档:
使用Itext工具类操作Java PDf文档很方便。可以替换文字,上传图片,在word和PDF之间转换。网上有相应的文档和API,可以自己找封装工具类。
Java操作Excel表:
操作Java excel:目前我知道的工具类主要有两个,一个是Apache的POI,一个是阿里巴巴的EasyExcel,解决了POI存在的问题。如果想要少量的Excel数据,可以在Apache下使用。如何利用海量数据?推荐使用EasyExcel,它有很多优点。
Easy Excel的核心功能
阅读任何大小的03和07版本的Excel都不会OOM。读取Excel自动传递注释,将结果映射到java模型,读取Excel,支持多表,读取Excel时是否修剪()Excel内容,增加容错,写入数据量小,03版Excel(不超过2000行),写入任意大版本07版Excel,不OOM,写入Excel,通过注释自动将表头写入Excel,写入Excel自定义字体,加粗,表头颜色,数据内容颜色等Excel样式。将Excel写入多个不同的工作表。写Excel时,一张表可以写多个表。写Excel时,自定义是否需要写表头。
本文来自习惯有你投稿,不代表舒华文档立场,如若转载,请注明出处:https://www.chinashuhua.cn/24/535405.html