lucene入门系列（二、建立索引）

程序员文章站 2022-07-09 10:26:29

...

文档已经处理完毕，接下来，开始好似用Lucene处理相关内容。通常情况下，使用 Lucene的步骤如下所示:
(1)为要处理的内容建立索引
(2)构建查询对象
(3)在索引中查找

package com.heming.lucene.process;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;

import jeasy.analysis.MMAnalyzer;

import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexWriter;

/**
 * 为文档创建索引
 * 
 * @author 何明
 * 
 */
public class IndexProcesser {

	// 成员变量，存储创建的索引文件存放的位置
	private String INDEX_STORE_PATH = "d:\\index";

	// 创建索引
	public void createIndex(String inputDir) {

		try {

			// 以MMAnalyzer作为分词工具创建一个IndexWriter
			IndexWriter writer = new IndexWriter(INDEX_STORE_PATH,
					new MMAnalyzer(), true);

			File filesDir = new File(inputDir);

			// 取得所有需要建立索引的文件数组
			File[] files = filesDir.listFiles();

			// 遍历数组
			for (int i = 0; i < files.length; ++i) {

				// 获取文件名
				String fileName = files[i].getName();

				// 判断文件是否为txt类型的文件
				if (".txt"
						.equals(fileName.substring(fileName.lastIndexOf(".")))) {

					// 创建一个新的 Document
					Document doc = new Document();

					// 为文件名创建一个Field
					Field field = new Field("filename", files[i].getName(),
							Field.Store.YES, Field.Index.NOT_ANALYZED);

					doc.add(field);

					// 为文件内容创建一个Filed
					field = new Field("content", loadFileToString(files[i]),
							Field.Store.NO, Field.Index.NOT_ANALYZED);

					doc.add(field);

					// 把Document加入IndexWriter
					writer.addDocument(doc);

				}

			}

			// 关闭IndexWriter
			writer.close();

		} catch (Exception e) {

			e.printStackTrace();

		}

	}

	/**
	 * 从文件中把内容读出，所有的内容放在一个String 容器
	 * 
	 * @param file
	 * @return
	 */
	private String loadFileToString(File file) {

		try {

			BufferedReader br = new BufferedReader(new FileReader(file));

			StringBuffer sb = new StringBuffer();

			String line = br.readLine();

			while (null != line) {

				sb.append(line);

				line = br.readLine();

			}

			br.close();

			return sb.toString();

		} catch (Exception e) {

			e.printStackTrace();

		}

		return null;
	}

	public static void main(String[] args) {

		IndexProcesser processor = new IndexProcesser();

		processor.createIndex("d:\\test");

	}

}

我这里用的lucene版本是2.4的，分词用的MMAnalyzer

lucene入门系列（二、建立索引）

JDBC 入门(二) - 建立联接

Oracle建立二进制文件索引的方法

用ASP.NET Core 2.1 建立规范的 REST API 系列文章索引

SpringBoot系列（二）入门知识

ASP.Net Core 2.2 MVC入门到基本使用系列 (二)

8天入门docker系列 —— 第二天通过一个aspnetcore程序加深对容器的理解

ES6入门系列二（数值的扩展）

Lucene学习笔记（二）--------构建索引

lucene 3.0 学习笔记（1）— 建立索引

Lucene4.9学习笔记——Lucene建立索引

lucene入门系列（二、建立索引）

JDBC 入门(二) - 建立联接

Oracle建立二进制文件索引的方法

用ASP.NET Core 2.1 建立规范的 REST API 系列文章索引

SpringBoot系列（二）入门知识

ASP.Net Core 2.2 MVC入门到基本使用系列 (二)

8天入门docker系列 —— 第二天 通过一个aspnetcore程序加深对容器的理解

ES6入门系列二（数值的扩展）

Lucene学习笔记（二）--------构建索引

lucene 3.0 学习笔记（1）— 建立索引

Lucene4.9学习笔记——Lucene建立索引

8天入门docker系列 —— 第二天通过一个aspnetcore程序加深对容器的理解