最新消息
简介
特性
关于我们
邮件列表
所获奖项new
 
开始使用
FAQ
检索语法
索引文件格式
文档
论坛
 
程序&源代码
插件
相关资料
学术论文new
 
中科院计算所
学术讲座
搜索论坛
中科计算技术转移中心
CnPack开发网站
 
您现在的位置:首页 > 特性 > 正文
 

FirteX 特性

 

最后修改:2006-10-29

 
全文索引
  • 中文( GB2312 , GBK )、英文快速索引;
  • 增量索引;
  • 索引文档删除;
  • 多字段索引;
  • 支持纯文本, HTML , PDF 文档格式;
  • 支持 MP3 , AVI 等音视频文件;
  • 支持文档列表、文档目录, TREC 等形式的文档库,也支持 FirteX 自定义文档库;
  • 前向最大匹配中文分词;
  • ICTCLAS 分词组件;
  • 日期字段索引;
  • 同一文档各字段可以使用不同的内容分析器 (Analyzer) ;
  • 三种方式前向索引;
  • 停用词;
  • 支持索引内存使用量控制;
  • 支持 On-line 索引;
  • Stemming( 非亚洲语言 ) ;
  • 多编码支持, GBK , BIG5 , Unicode , UTF-8 等;
 
全文检索
  • 支持布尔查询( AND 、 OR 、 NOT 任意组合);
  • 支持短语检索;
  • 支持向量空间模型计算文档相关性;
  • 支持 BM25 计算文档相关性;
  • 支持语言模型计算文档相关性;
  • 支持概率模型计算文档相关性;
  • 支持对特定查询、字段和文档设置 boost 值;
  • 跨字段检索;
  • 日期范围检索;
  • 检索结果按任意指定字段排序(例如按时间排序);
  • 检索结果按任意要求过滤(例如按时间范围过滤);
  • 支持检索日志;
  • 支持检索 Cache ;
  • 支持完全内存检索;
  • 支持索引时检索;
  • 支持检索内存使用量控制
 

其他

  • 系统易配置,支持XML形式的配置文件配置整个系统,包括:
    • 索引内存使用量,索引文件总数控制,索引合并等;
    • 配置程序运行信息记录(LOG)级别,全面掌握系统运行情况;
    • 支持文档集的schema定义,控制元数据索引和存储方案,控制词向量方式,无需编写代码就能处理各种不同文档集;
  • 程序 log 功能,可以将 log 信息输出到控制台,文件中,或任何其他的设备,支持编译时 log ,分级 log ( fatal , error , debug , warning , info 等级别);
  • 支持跨平台 COM 组件插件;
  • HTML 文档格式解析 COM 插件;
  • PDF 文档格式解析 COM 插件;
  • MP3 , AVI 等音视频文件格式解析 ( 元数据提取 )COM 插件;
  • Unicode 版本;
  • Fxist - FirteX Index/Search Toolbox,Windows 用户界面的索引维护工具
  • 线程安全;
 

功能对比

 

Lucene 2.00

Lemur 4.32

FirteX 1.02 beta

InvFPIndex

Indri

Keyfile

索引

增量索引

是 +

是 +

文档删除

多字段支持

索引算法实验

On-line 索引实验

前向索引

是 +

是 -

是 +

多种文档集支持

是 +

处理 Tb 级数据

索引速度

1x

3x

9x

多文档格式支持

多文档内容分析支持

中文支持

是 +

检索

检索语言

丰富 +

丰富

丰富 +

丰富

丰富

检索模型实验

是 +

是 +

完全内存检索

索引的同时检索

其他

COM 插件支持

XML 配置系统

是 +

程序运行记录

注:黑色:已完成

灰色: beta 版中尚未提供此功能

软件许可证|BUG报告|联系我们

Copyright (c) 2005-2006 版权所有 中科院计算所智能软件部

SourceForge.net Logo
查看在SourceForge.net上的FirteX's Project Page