unicode的编码解码

程序员文章站 2022-05-08 10:04:19

...


import java.nio.ByteBuffer;
import java.nio.charset.Charset;
import java.util.regex.Matcher;
import java.util.regex.Pattern;


    /**
     * unicode编码
     * @param String str
     * @return String
     */
    public static String encodeUnicode(String string) {
         
        StringBuffer unicode = new StringBuffer();
     
        for (int i = 0; i < string.length(); i++) {
     
            // 取出每一个字符
            char c = string.charAt(i);
     
            // 转换为unicode
            unicode.append("\\u00" + Integer.toHexString(c));
        }
     
        return unicode.toString();
    }

    /**
     * unicode 解码
     * @param String str
     * @return String
     */
     public static String decodeUnicode(String str) {
          Charset set = Charset.forName("UTF-16");
          Pattern p = Pattern.compile("\\\\u([0-9a-fA-F]{4})");
          Matcher m = p.matcher( str );
          int start = 0 ;
          int start2 = 0 ;
          StringBuffer sb = new StringBuffer();
          while( m.find( start ) ) {
           start2 = m.start() ;
           if( start2 > start ){
            String seg = str.substring(start, start2) ;
            sb.append( seg );
           }
           String code = m.group( 1 );
           int i = Integer.valueOf( code , 16 );
           byte[] bb = new byte[ 4 ] ;
           bb[ 0 ] = (byte) ((i >> 8) & 0xFF );
           bb[ 1 ] = (byte) ( i & 0xFF ) ;
           ByteBuffer b = ByteBuffer.wrap(bb);
           sb.append( String.valueOf( set.decode(b) ).trim() );
           start = m.end() ;
          }
          start2 = str.length() ;
          if( start2 > start ){
           String seg = str.substring(start, start2) ;
           sb.append( seg );
          }
          return sb.toString() ;
    }

爬去网页时获取到的时unicode编码过的字符串，用该方法解码即可
需要注意的是如果需要转码解码的字符串中含有中文，则这两种方法是不适用的。
---------------------
作者：NumbIssac
来源：CSDN
原文：https://blog.csdn.net/weixin_38453685/article/details/77990645
版权声明：本文为博主原创文章，转载请附上博文链接！

unicode的编码解码

Url的Base64编码以及解码

PowerShell或命令行运行javac xx.java提示“编码GBK的不可映射字符”

VS中一些提高编码效率的快捷键

用ASP读取/写入UTF-8编码格式的文件

ORACLE 10G修改字符编码没有超字符集的限制

php下HTTP Response中的Chunked编码实现方法

PHP如何实现Unicode和Utf-8编码相互转换

MsSQL数据导入到Mongo的默认编码问题(正确导入Mongo的方法)

php检测文本的编码

Python3中编码与解码之Unicode与bytes的讲解