您现在的位置:首页 > 开始使用 > 配置文件格式说明 > 正文
 

配置文件格式说明

 

作者:郭瑞杰 最后修改:2006-10-05

 
目录
 
config.xml配置文件

config.xml配置文件

config.xml是一个标准的XML文件,编码方式是UTF-8,是系统默认参数配置文件,当没有提供自定义参数文件时系统采用该文件提供的各个参数值,包含分析器(analyzer)参数,索引(index) 参数,索引合并(indexmerge)参数和程序运行记录(log)参数等。

analyzer.stopwordfile :停用词文件位置,如果名称为"stopword.stf",则系统自动在目录"程序目录\data"下查找,否则必须指明停用词文件的绝对位置。

index.memory: 建立索引时使用的内存缓冲大小,以字节为单位,增加此值可以提高建索引速度,但是超过机器的物理内存大小可能会适得其反。

index.maxIndexTerms: 单个文档最多索引的词总数,超过这个值的词讲自动丢弃。

indexmerge.maxIndexBarrels: 建立索引完毕时最多允许索引桶数目,一个索引桶就是一个相对独立的子索引,最少7个文件,最多“6+3(词向量)+索引字段数目”个文件。

indexmerge.mergeFactor: 索引合并因子,在合并过程中,每次将mergeFactor个索引桶并行合并成一个索引桶,mergeFactor越大中间合并层次越少,但是单个索引桶使用的内存越少。

log.level: 程序运行信息输出级别,可取:

default_level:系统默认,info,err,fatal,warn信息;
enable_all:输出所有信息;
disable_all:禁止输出所有信息;
fatal:只输出致命错误信息;
err:输出错误信息和fatal信息;
warn:输出警告信息,err,fatal信息;
info:输出提示信息,warn,err,fatal信息;
dbg:输出调试信息,info,warn,err,fatal信息;
下图是config.xml样例。

注 :config.xml是UTF-8编码,手工编辑此文件时请不要使用中文。

<?xml version="1.0" encoding="UTF-8" ?>
<config>
    <analyzer>
        <stopwordfile type="string"/>
    </analyzer>
    <index>
        <memory type="int64">28000000</memory>
        <maxIndexTerms type="int32">10000</maxIndexTerms>
    </index>
    <indexmerge>
        <maxIndexBarrels type="int32">50</maxIndexBarrels>
        <mergeFactor type="int32">3</mergeFactor>
    </indexmerge>
    <log>
        <level type="string">default_level</level>
    </log>
</config>

 
schema.xml文件
schema文件使用在FirteX格式文档集中,用于指明这个文档集的“模式”,如果在文档集的根目录下存在这个schema.xml文件,系统会自动根据此文件定义的字段名,字段索引和存储方案来解析文档集,建立索引。

    先看一个样例:

<documentschema>
    <schemaitem>
        <name>URL</name>
        <type>none</type>
        <store>yes</store>
        <index>no</index>
        <termvector>no</termvector>
        <boost>1.0</boost>
    </schemaitem>
    <schemaitem>
        <name>AUTHOR</name>
        <type>word</type>
        <store>yes</store>
        <index>analyze</index>
        <termvector>no</termvector>
        <boost>2.0</boost>
    </schemaitem>
    <schemaitem>
        <name>PUBLISHTIME</name>
        <type>date</type>
        <store>yes</store>
        <index>unanalyze</index>
        <termvector>no</termvector>
        <boost>1.0</boost>
    </schemaitem>
<documentschema> 

样例中定义了3个字段:URL、AUTHOR和PUBLISHITIME,一个字段由schemaitem标签表示,包含:

    name:字段名称;

    type:字段类型,目前可取none,word,date值,分别表明这是一个匿名字段,正文字段和时间日期字段,如果没有指定则默认取none;

    store:字段存储方案,可取no,yes,compress,分别表示字段不存储,存储和压缩存储,如果没有指定则默认取no;

    index:字段索引方案,可取no,analyze和unanalyze,分别表示字段不索引,分析并索引,不分析但索引,如果没有指定则默认取no;

    termvector:字段的词向量方式,可取no,sequence,freq,position,分别表示不建立词向量,建立词序列,词和词频,词、词频和词位置类型的词向量,如果没有指定则默认取no;

    boost:字段的提升值,值越大,表明这个字段越重要,可以提高字段的检索结果打分,如果没有指定则默认取1.0;

 
自定义参数文件

    collection.identifier:字符串类型,指明需要建索引的文档集类型,目前可取:
        directory:文档集是一个目录;
        filelist:文档集由一个文件说明,该文件每行存放一个待索引文件的绝对路径;
        trec:是一个trec格式的文档集,具体可参加trec格式说明;
        firtex:文档集是一个firtex格式的文档集,参见firtex格式文档集一节;

    collection.modifieddate:可选参数,指明是否需要索引或存储文档集中文件的修改日期,包含三个参数:
        field:字符串类型,指定修改日期的字段名;
        store:bool类型,指明该字段是否需要存储,取false或true;
        index:bool类型,指明该字段是否需要索引,可取false或true
    store和index必须有一个取true值,如果均为false,则忽略modifieddate的所有参数值。

    parser.identifier:字符串类型,指明建立索引所用的文件解析器,目前可取
        plainparser:解析纯文本文档;
        htmlparser:解析HTML文档;
        pdfparser:解析PDF文档;

    parser.termvectors:可选参数,设置需要建立前向索引(即词向量)的字段属性,包含一个或多个termvector标签,每一个termvector标签设置一个字段。
        termvector.field:字符串类型,字段名称;
        termvector.mode:字符串类型,字段的前向索引类型,可取sequence,freq和position,详细信息见前文。

    analyzer.identifier:字符串类型,指定分析文件内容的分析器,即分词,目前取值chineseanalyzer

    analyzer.stopwordfile:可选参数,停用词文件,详细说明见"config.xml配置文件"一节。

    index.srcfile:待索引文档集绝对路径。

    index.dstindex:索引存储位置。

    index.append:建立增量索引(true)或者创建新索引(false)。

    index.mergemode:索引合并方式,可取值:
        no:不合并,最终存在多个子索引,这样有利于后续增量索引操作,但是降低检索性能,如果超过文件系统打开文件句柄数目索引将不可检索;
        merge:根据设定的索引合并参数部分合并索引,最终可能存在1个或多个子索引,具体数目由合并参数决定,同样有利于后续增量索引操作;
        optimize:进行索引优化,最终仅生成单个子索引,不利于后续增量索引操作,但是能提高检索性能;

    index.memory:
    index.maxIndexTerms:
    indexmerge.maxIndexBarrals:
    indexmerge.mergeFactor:
    log.level:
    可选参数,同config.xml文件中参数,如果值与config.xml中设定的值不一致,则自动使用此参数值; 

 
软件许可证|BUG报告|联系我们

Copyright (c) 2005-2006 版权所有 中科院计算所智能软件部

SourceForge.net Logo
查看在SourceForge.net上的FirteX's Project Page