package com.chine.invertedindex.analysis;

import com.chine.invertedindex.analysis.segment.ChineseSegment;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.regex.Pattern;

/* loaded from: input_file:com/chine/invertedindex/analysis/ChineseTokenizer.class */
public class ChineseTokenizer extends Tokenizer {
    private static String reg = "([^一-龥A-Za-z(\\d+(\\.?\\d)*)])|((?<=[一-龥])(?=[A-Za-z(\\d+(\\.?\\d)*)]+))|((?<=[A-Za-z(\\d+(\\.?\\d)*)]+)(?=[一-龥]))|((?<=[A-Za-z]+)\\.)";
    private static Pattern pat = Pattern.compile(reg, 64);
    private static Pattern chnPat = Pattern.compile("[一-龥]+", 64);

    public ChineseTokenizer(String str) {
        super(str);
        this._tokens = new ArrayList();
    }

    public ChineseTokenizer() {
        this("");
    }

    @Override // com.chine.invertedindex.analysis.Tokenizer, com.chine.invertedindex.analysis.ITokenizer
    public void tokenize() {
        ChineseSegment chineseSegment = new ChineseSegment();
        for (String str : pat.matcher(this._input).replaceAll(" ").split("\\s")) {
            if (str.length() != 0) {
                if (chnPat.matcher(str).matches()) {
                    chineseSegment.set(str);
                    chineseSegment.startSegment();
                    Iterator<String> it = chineseSegment.iterator();
                    while (it.hasNext()) {
                        this._tokens.add(it.next());
                    }
                } else {
                    this._tokens.add(str);
                }
            }
        }
    }

    public static void main(String[] strArr) {
        ChineseTokenizer chineseTokenizer = new ChineseTokenizer();
        for (String str : new String[]{"java中yield(),sleep()以及wait()的区别往往混淆了这三个函数的使用", "今天的主题是QQ IM的架构演化。先是一系列可怕的数据：7亿活跃账户 百亿级关系链 日千亿级 99.99%可用性…… 然后是1.0版本核心数据结构介绍，一个大的C语言struct", "【中国大都市46%的用户使用移动设备接入互联网 】| 调查研究公司Forrester上周发布了一条最新的研究，展示了全球移动设备的使用趋势。在移动设备的运用的几乎所有方面，中国的大都市和其他环太平洋地区国家都是领跑者。这包括了移动社交运用，工作运用以及个人拥有多台设备的比例", "Siri不是什么革新，但是安到苹果机器上就被捧上了神坛。那我们也不免俗，来看看大家对Siri带来的对未来世界的畅想。同学们想到最大的变革就是如果Siri的语音识别系统能被110报警系统集成，那“平安北京”神马的就不再是浮云了。"}) {
            chineseTokenizer.clear();
            chineseTokenizer.set(str);
            chineseTokenizer.tokenize();
            Iterator<String> it = chineseTokenizer.iterator();
            while (it.hasNext()) {
                System.out.print(String.valueOf(it.next()) + "/");
            }
            System.out.println();
        }
    }
}
