config.xml配置文件
config.xml是一个标准的XML文件,编码方式是UTF-8,是系统默认参数配置文件,当没有提供自定义参数文件时系统采用该文件提供的各个参数值,包含分析器(analyzer)参数,索引(index) 参数,索引合并(indexmerge)参数和程序运行记录(log)参数等。
analyzer.stopwordfile :停用词文件位置,如果名称为"stopword.stf",则系统自动在目录"程序目录\data"下查找,否则必须指明停用词文件的绝对位置。
index.memory: 建立索引时使用的内存缓冲大小,以字节为单位,增加此值可以提高建索引速度,但是超过机器的物理内存大小可能会适得其反。
index.maxIndexTerms: 单个文档最多索引的词总数,超过这个值的词讲自动丢弃。
indexmerge.maxIndexBarrels: 建立索引完毕时最多允许索引桶数目,一个索引桶就是一个相对独立的子索引,最少7个文件,最多“6+3(词向量)+索引字段数目”个文件。
indexmerge.mergeFactor: 索引合并因子,在合并过程中,每次将mergeFactor个索引桶并行合并成一个索引桶,mergeFactor越大中间合并层次越少,但是单个索引桶使用的内存越少。
log.level: 程序运行信息输出级别,可取:
default_level:系统默认,info,err,fatal,warn信息;
enable_all:输出所有信息;
disable_all:禁止输出所有信息;
fatal:只输出致命错误信息;
err:输出错误信息和fatal信息;
warn:输出警告信息,err,fatal信息;
info:输出提示信息,warn,err,fatal信息;
dbg:输出调试信息,info,warn,err,fatal信息;
下图是config.xml样例。
注 :config.xml是UTF-8编码,手工编辑此文件时请不要使用中文。
<?xml version="1.0"
encoding="UTF-8" ?>
<config>
<analyzer>
<stopwordfile type="string"/>
</analyzer>
<index>
<memory type="int64">28000000</memory>
<maxIndexTerms type="int32">10000</maxIndexTerms>
</index>
<indexmerge>
<maxIndexBarrels type="int32">50</maxIndexBarrels>
<mergeFactor type="int32">3</mergeFactor>
</indexmerge>
<log>
<level type="string">default_level</level>
</log>
</config> |