心得技巧

html5 HTML/Xhtml CSS XML/XSLT Dreamweaver教程 Frontpage教程心得技巧

上一篇: 21201112李夏楠_9/20_学习笔记下一篇:玩转linux之应用篇（Ubuntu20.04...

zip格式文件编码检测

发布时间：2022-07-05 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了zip格式文件编码检测，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

解压后文件名乱码

由于zip格式文件无编码存储的结构，因此解压时无法知道原先的编码。

当解压zip格式文件时使用的编码和原编码不一致时，就可能会出现解压后文件名乱码问题。

猜测编码

基于上述问题，需要对zip格式文件所使用的编码进行猜测。

笔者使用基于统计学原理的 juniversalchardet 库来猜测编码，下面是maven依赖坐标。

<dePEndency>
    <groupId>com.GOOGLEcode.juniversalchardet</groupId>
    <artifactId>juniversalchardet</artifactId>
    <version>1.0.3</version>
</dependency>

下面是一个简单的例子，只需要提供待猜测文本的字节数据即可。

Universaldetector detector = new UniversalDetector(null);
String text = "这是一段测试文本";
byte[] buf = text.getBytes("GB18030");
detector.handleData(buf, 0, buf.length);
detector.dataEnd();
System.out.PRintln(detector.getdetectedCharset()); // GB18030

zip格式文件结构

zip格式文件的结构如下（具体解析见其他文章），这里需要其中的 CENTRAL_DIRCETORY_HEADER 区域，该区域存储zip里所有的文件及文件夹的名称。

|LOCAL_FILE_HEADER|
|EXTRA_LOCAL_HEADER|
|CENTRAL_DIRCETORY_HEADER|
|END_OF_CENTRAL_DIRCETORY_RECORD|

利用 apache ComPress库获取名称字节数据

笔者一般推荐使用 Apache Compress 库来处理zip格式文件，可以使用 ZipArchiveEntry.getRawName 方法来获取名称的字节数据。

下面是检测zip格式文件编码的例子，其中为了加快速度忽略解析Local file header区域。

public String detectCharset(File file) throws IOException {
    // Ignore resolve local file header to improve rate.
    ZipFile zipFile = new ZipFile(file, StandardCharsets.UTF_8.name(), true, false);
    Enumeration<ZipArchiveEntry> entries = zipFile.getEntries();
    UniversalDetector detector = new UniversalDetector(null);

    while (entries.hasMoreElements()) {
        ZipArchiveEntry entry = entries.nextElement();
        byte[] buf = entry.getRawName();  // Get the byte data of file name.
        detector.handleData(buf, 0, buf.length);
    }
    detector.dataEnd();
    return detector.getDetectedCharset();
}

下面是Apache Compress库的依赖坐标。

<dependency>
    <groupId>org.apache.COMmons</groupId>
    <artifactId>commons-compress</artifactId>
    <version>1.21</version>
</dependency>

注意事项

数据量越大 juniversalchardet 库检测编码就越准确，反之可能得到空结果或者不准确的编码。

例如猜测编码章节中让 text="中文" ，最后输出的结果是 KOI8-R。

为此实际使用中要根据业务场景来做限定，比方说系统面向的用户只可能是中文用户，那么当出现 KOI8-R 这种斯拉夫文字的编码时应当限定为中文的 GB18030 编码（数据量小时GB18030非常大概率会被检测成KOI8-R）。

脚本宝典总结

以上是脚本宝典为你收集整理的zip格式文件编码检测全部内容，希望文章能够帮你解决zip格式文件编码检测所遇到的问题。

如果觉得脚本宝典网站内容还不错，欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：hive java php python String while while 乱码乱码程序员程序员

上一篇: 21201112李夏楠_9/20_学习笔记下一篇:玩转linux之应用篇（Ubuntu20.04...

猜你在找的心得技巧相关文章

clion结合vcpkg以及GTest的使用 2022-07-07
EGF 2022-06-06
ExtJS 布局-Column布局（Column layout） 2022-06-05
颜色之ARGB与RGB、RGBA的区别与介绍 2022-04-15
rgba中的a是什么意思 CSS之RGBA颜色指南 2022-04-15
rootfs -根文件系统制作 2022-07-07
网页简单布局之结构与表现原则分享 2022-04-15
小项目中怎么防止Vue的闪现画面效果 2022-04-15
隐藏 Web 中的元素方法及优缺点教程详解 2022-04-15
告别硬编码让你的前端表格自动计算的实例代码 2022-04-15

全站导航更多