欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

java 字符串截取的实例详解

程序员文章站 2024-02-29 13:01:28
java 字符串截取的实例详解 题目 在java中,字符串“abcd”与字符串“ab你好”的长度是一样,都是四个字符。 但对应的字节数不同,一个汉字占两个...

java 字符串截取的实例详解

题目

在java中,字符串“abcd”与字符串“ab你好”的长度是一样,都是四个字符。

但对应的字节数不同,一个汉字占两个字节。

定义一个方法,按照指定的字节数来取子串。

如:对于“ab你好”,如果取三个字节,那么子串就是ab与“你”字的半个,那么半个就要舍弃。

如果取四个字节就是“ab你”,取五个字节还是“ab你”。

仅考虑gbk和utf-8编码

实例代码:

import java.io.unsupportedencodingexception;

import org.junit.test;

/**
 * @author<a href="mailto:953801304@qq.com" rel="external nofollow" >胡龙华</a>
 * @version 2017-4-4 下午1:08:45
 * @filename stringcut.java
 */
public class stringcut {

  @test
  public void analyze(){
    string str1 = "你好abc";
    byte[] bs1=null;
    byte[] bs2=null;
    try {
       bs1 = str1.getbytes("gbk");
       system.out.println("---gbk---");
       for(byte b:bs1){
         system.out.print(b+" ");
       }
       system.out.println();
      //-60 -29 -70 -61 97 98 99 
      // 发现规律,再gbk中一个中文汉字 都是以两个字节 小于0的数存储
       bs2 = str1.getbytes("utf-8");
       system.out.println("---utf-8---");
       for(byte b:bs2){
         system.out.print(b+" ");
       }
      //-28 -67 -96 -27 -91 -67 97 98 99 
      // 发现规律,在utf-8中一个中文汉字 是以三个字节 小于0 的数存储
    } catch (unsupportedencodingexception e) {
      e.printstacktrace();
    }
  }
  /**
   * 思路:从第len个往前数,连续2的倍数个负数则全部输出,单数个则去掉最后一个输出
   * @param str
   * @param len
   * @return
   */
  private static string stringcutbygbk(string str,int len){
    byte[] bs = null;
    try {
      int count = 0;
      bs = str .getbytes("gbk");
      for(int i=len-1;i>=0;i--){
        if(bs[i]<0){
          count++;
        }else{
          break;
        }
        // 0  1  2  3  4 5  6 7  8  9  10 11 12  
      }  //-60 -29 -70 -61 -80 -95 97 98 99 -76 -17 -72 -25 
      if(count%2==0){
        string s=new string(bs, 0, len, "gbk");
        system.out.println("截取"+len+"个字符:"+s);
      }else{
        string s=new string(bs, 0, len-1, "gbk");
        system.out.println("截取"+len+"个字符:"+s);
      }
    } catch (unsupportedencodingexception e) {
      e.printstacktrace();
    }

    return null;
  }
  /**
   * 思路:从第len个往前数,连续3的倍数个负数则全部输出,其他情况则去掉最后count%3个输出
   * @param str
   * @param len
   * @return
   */
  private static string stringcutbyutf8(string str,int len){
    byte[] bs = null;
    try {
      int count = 0;
      bs = str .getbytes("utf-8");
      for(int i=len-1;i>=0;i--){
        if(bs[i]<0){
          count++;
        }else{
          break;
        }
      }  
      // 0  1  2  3  4  5  6 7 8 9  10 11 12
      //-60 -29 -70 -61 -80 -95 97 98 99 -76 -17 -72 -25 
      if(count%3==0){
        string s=new string(bs, 0, len, "utf-8");
        system.out.println("截取"+len+"个字符:"+s);
      }else{
        string s=new string(bs, 0, len-count%3, "utf-8");
        system.out.println("截取"+len+"个字符:"+s);
      }
    } catch (unsupportedencodingexception e) {
      e.printstacktrace();
    }

    return null;
  }
  @test
  public void test() {
    string str = "你好啊abc达哥";
    try {
      system.out.println("---测试gbk---");
      byte bs [] = str.getbytes("gbk");
      for(int i=0;i<=bs.length;i++){
        //system.out.print(bs[i]+" ");
        stringcutbygbk(str,i);

      }

      system.out.println("---测试utf-8---");
      byte bs2 [] = str.getbytes("utf-8");
      for(int i=0;i<=bs2.length;i++){
        //system.out.print(bs[i]+" ");
        stringcutbyutf8(str,i);

      }
    } catch (unsupportedencodingexception e) {
      // todo auto-generated catch block
      e.printstacktrace();
    }

  }

}

如有疑问请留言或者到本站社区交流讨论,感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!