欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

ORACLE TEXT全文检索

程序员文章站 2022-07-01 15:29:34
...
ORACLE 版本10.0.2
查看数据库相关的信息select * from nls_database_parameters
1、简单应用
1.1如果要使用全文检索,当前ORACLE用户必须具有CTXAPP角色

--创建一个用户
--create user textsearch identified by textsearch;
/**
赋予用户三个角色,其中有一个为CTXAPP角色,
以便该用户可以使用与全文检索相关的PROCEDURE
*/
grant connect,resource,ctxapp to textsearch;
/


使用创建的用户登录
SQL> conn textsearch
输入口令: **********
已连接。

1.2创建要进行全文检索的数据表,准备数据

--drop table textdemo;
create table textdemo(
id number not null primary key,
book_author varchar2(20),--作者
publish_time date,--发布日期
title varchar2(400),--标题
book_abstract varchar2(2000),--摘要
path varchar2(200)--路径
);
commit;

insert into textdemo values(1,'宫琦峻',to_date('2008-10-07','yyyy-mm-dd'),'移动城堡','故事发生在19世纪末的欧洲,善良可爱的苏菲被恶毒的女巫施下魔咒,从18岁的女孩变成90岁的婆婆,孤单无助的她无意中走入镇外的移动城堡,据说它的主人哈尔以吸取女孩的灵魂为乐,但是事情并没有人们传说的那么可怕,性情古怪的哈尔居然收留了苏菲,两个人在四脚的移动城堡中开始了奇妙的共同生活,一段交织了爱与痛、乐与悲的爱情故事在战火中悄悄展开','E:\textsearch\moveingcastle.doc');

insert into textdemo values(2,'莫·贝克曼贝托夫',to_date('2008-10-07','yyyy-mm-dd'),'子弹转弯','这部由俄罗斯导演提莫·贝克曼贝托夫执导的影片自6月末在北美上映以来,已经在全球取得了超过3亿美元的票房收入。在亚洲上映后也先后拿下日本、韩国等地的票房冠军宝座。虽然不少网友在此之前也相继通过各种渠道接触到本片,但相信影片凭着在大银幕上呈现出的超酷的视听效果,依然能够吸引大量影迷前往影院捧场。','E:\textsearch\catch.pdf');

insert into textdemo values(3,'袁泉',to_date('2008-10-07','yyyy-mm-dd'),'主演吴彦祖和袁泉现身','电影《如梦》在上海同乐坊拍摄,主演吴彦祖和袁泉现身。由于是深夜拍摄,所以周围并没有过多的fans注意到,给了剧组一个很清净的拍摄环境,站在街头的袁泉低着头,在寒冷的夜里看上去还真有些像女鬼,令人毛骨悚然。','E:\textsearch\dream.txt');

commit;


1.3在摘要字段上创建索引


/*
*创建索引,使用默认的参数
*/
--drop index demo_abstract;
create index demo_abstract on textdemo(book_abstract)
indextype is ctxsys.context
--parameters('datastore ctxsys.default_datastore filter ctxsys.auto_filter ')
;
commit;
;
系统会创建四个相关的表
DR$DEMO_ABSTRACT$I(分词后的TOKEN表)\DR$DEMO_ABSTRACT$K\DR$DEMO_ABSTRACT$N\DR$DEMO_ABSTRACT$R
查看索引创建过程中是否发生了错误

SELECT * FROM ctx_USER_index_errors

1.4测试查询

select score(20),t.* from textdemo t where contains(book_abstract,'移动城堡 or 俄罗斯',20)>0;

select score(20),t.* from textdemo t where contains(book_abstract,'移动城堡 or 俄罗斯',20)>0 and t.title like '子弹%';


1.5查看索引脚本
select ctx_report.create_index_script('file_index') from dual;

2.对外部文件进行全文检索
ORACLE TEXT可以对文件系统中的文件进行检索,支持大部分的文件格式(如:OFFICE、PDF等),不同的格式ORACLE TEXT会选择不同的
FILTER 提取二进制文件中的纯文本,生成一个虚拟的DOCUMENT,如同对单个文本型COLUMN创建索引一样。这一切都由ORACLE TEXT自己完成。
使用上表textdemo的数据,我们对path 创建索引

begin
--ctx_ddl.drop_preference('my_filter');
ctx_ddl.create_preference('my_filter','auto_filter');
end;
/
begin
--ctx_ddl.drop_preference('my_store');
ctx_ddl.create_preference('my_store','file_datastore');
/*
--设置文件的路径,由于此处数据表中已经包含了路径
不需要再进行设置,如果表中只有文件名称无路径信息,
需要设置该参数,如果文件在不同的路径下,也可以设置
多个路径WINDOWS下用";"分开,UNIX用":",
限制:设置目录后的文件名不应有路径信息,避免不同的目录
下有相同的文件名.
ctx_ddl.set_attribute('mystore','path','E:\demo;E:\textsearch');
*/
--ctx_ddl.set_attribute('mystore','path','E:\demo');
end;
/
begin
--ctx_ddl.drop_preference('my_lexer');
ctx_ddl.create_preference('my_lexer','chinese_lexer');
end;

/

--drop index demo_path;
create index demo_path on textdemo(path)
indextype is ctxsys.context
parameters('
datastore my_store
filter my_filter
lexer my_lexer
');

commit;




2.1查询

select score(20),t.* from textdemo t where contains(path,'苏菲 and 城堡',20)>0

--联合第一次对book_abstract做的索引进行查询
select score(5),score(20),t.* from textdemo t where contains(book_abstract,'电影',5)>0 AND contains(path,'数据库 and 全文检索',20)>0

2.2查看索引的大小信息
select ctx_report.index_size('demo_path') from dual

2.3 同步索引
索引异常可以从CTX_USER_INDEX_ERRORS视图跟踪。
数据库根据索引列的改变跟踪文档的改变,如果想强制ORACLE TEXT重新创建特定文档的索引,可以更新相对应行中的索引字段:
update textdemo set path=path where id = 4;
在索引同步时将会更新ID=4文件的关键字。


--update textdemo set path='E:\textsearch\dream.txt' where id=3;
update textdemo set path='E:\textsearch\catch.pdf' where id=2;
--update textdemo set path='E:\textsearch\movingcastle.doc' where id=1;
commit;
begin
/*
指定索引名称,和内存大小
*/
ctx_ddl.sync_index('demo_path','20M') ;
end;



3使用自定义的存储过程
USER_DATASTORE:合成索引时使用用户指定的存储过程
ATTRIBTES:
procedure:指明合成用于索引文本的存储过程,第一个参数必须为ROWID,当存储过程改变后,需要重新建立索引,
索引只会在指明定的字段修改或增加,同步索引才会起作用。
output_type:指定存储过程的第二个参数的数据类型(CLOB,CLOB_LOC,BLOB_LOC,VARCHAR2)默认为:CLOB,
当指定为CLOB_LOC,BLOB_LOC时,表示不需要临时的CLOB或BLOB变明,因为PROCEDURE复制一个locator到第二个IN/OUT参数
/*
创建自定义的存储过程
*/
create or replace procedure myproc(rid in rowid,tlob in out clob nocopy)

is

begin
for c1 in (select author,title,text from articles where rowid = rid)
loop
dbms_lob.writeappend(tlob,length(c1.title),c1.title);
dbms_lob.writeappend(tlob,length(c1.author),c1.author);
dbms_lob.writeappend(tlob,length(c1.text),c1.text);
end loop;
end;
/*
定位数据的存放形式,使用自定义的存储过程
*/

begin
ctx_ddl.create_preference('myud','user_datastore');
ctx_ddl.set_attribute('myud','procedure','myproc');
ctx_ddl.set_attribute('myud','output_type','clob');
end;

创建索引时,除了改变PARAMETERS('DATASTORE MYUD')外,其它的都不用做更改。