欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

php 中文分词 全文搜索引擎 xunsearch 实例

程序员文章站 2022-07-05 18:06:00
...

xunsearch 安装

下载

cd  ~/downloads/
wget http://www.xunsearch.com/download/xunsearch-full-latest.tar.bz2

解压

 tar -xvf xunsearch-full-latest.tar.bz2 

安装

cd xunsearch-full-1.4.11/
./setup.sh 

安装成功

+=================================================+
| Installation completed successfully, Thanks you |
| 安装成功,感谢选择和使用 xunsearch              |
+-------------------------------------------------+
| 说明和注意事项:                                |
| 1. 开启/重新开启 xunsearch 服务程序,命令如下: |
|    /usr/local/xunsearch/bin/xs-ctl.sh restart
|    强烈建议将此命令写入服务器开机脚本中         |
|                                                 |
| 2. 所有的索引数据将被保存在下面这个目录中:     |
|    /usr/local/xunsearch/data
|    如需要转移到其它目录,请使用软链接。         |
|                                                 |
| 3. 您现在就可以在我们提供的开发包(SDK)基础上    |
|    开发您自己的搜索了。                         |
|    目前只支持 PHP 语言,参见下面文档:          |
|    /usr/local/xunsearch/sdk/php/README
+=================================================+

配置信息

ini文件设计辅助工具 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

项目配置详解 - 权威指南 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

SCWS 中文分词

SCWS|中文分词|PHP中文分词 - 开源免费的中文分词系统

PHP简易中文分词(SCWS) 第4版在线演示 (by hightman)

文档|中文分词|PHP中文分词 - 开源免费的中文分词系统

设计表

CREATE TABLE `test` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `username` varchar(255) COLLATE utf8_unicode_ci NOT NULL,
  `mobile` varchar(11) COLLATE utf8_unicode_ci NOT NULL,
  `message` text COLLATE utf8_unicode_ci,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=10002 DEFAULT CHARSET=utf8 COLLATE=utf8_unicode_ci;

做测试数据

先来个1,2百万

配置文件

project.name = usersearch
project.default_charset = utf-8
server.index = 8383
server.search = 8384

[id]
type = id

[username]
type = title

[mobile]
index = mixed

; 这里的字段如果参与搜索,一定要加索引
[message]
index = mixed
tokenizer = split

建立索引

util/Indexer.php usersearch   --source=mysql://root:[email protected]/yiiExam/ --sql='select id,username,mobile,message from test'  --clean

测试索引

util/Quest.php usersearch 风景

注意这里的 usersearch 是项目名称;最好项目名称与配置文件名称一致