全文索引 |
- 中文( GB2312 , GBK )、英文快速索引;
- 增量索引;
- 索引文档删除;
- 多字段索引;
- 支持纯文本, HTML , PDF 文档格式;
- 支持 MP3 , AVI 等音视频文件;
- 支持文档列表、文档目录, TREC 等形式的文档库,也支持 FirteX 自定义文档库;
- 前向最大匹配中文分词;
- ICTCLAS 分词组件;
- 日期字段索引;
- 同一文档各字段可以使用不同的内容分析器 (Analyzer) ;
- 三种方式前向索引;
- 停用词;
- 支持索引内存使用量控制;
- 支持 On-line 索引;
- Stemming( 非亚洲语言 ) ;
- 多编码支持, GBK , BIG5 , Unicode , UTF-8 等;
|
| |
全文检索 |
- 支持布尔查询( AND 、 OR 、 NOT 任意组合);
- 支持短语检索;
- 支持向量空间模型计算文档相关性;
- 支持 BM25 计算文档相关性;
- 支持语言模型计算文档相关性;
- 支持概率模型计算文档相关性;
- 支持对特定查询、字段和文档设置 boost 值;
- 跨字段检索;
- 日期范围检索;
- 检索结果按任意指定字段排序(例如按时间排序);
- 检索结果按任意要求过滤(例如按时间范围过滤);
- 支持检索日志;
- 支持检索 Cache ;
- 支持完全内存检索;
- 支持索引时检索;
- 支持检索内存使用量控制
|
| |
其他
|
- 系统易配置,支持XML形式的配置文件配置整个系统,包括:
- 索引内存使用量,索引文件总数控制,索引合并等;
- 配置程序运行信息记录(LOG)级别,全面掌握系统运行情况;
- 支持文档集的schema定义,控制元数据索引和存储方案,控制词向量方式,无需编写代码就能处理各种不同文档集;
- 程序 log 功能,可以将 log 信息输出到控制台,文件中,或任何其他的设备,支持编译时 log ,分级 log ( fatal , error , debug , warning , info 等级别);
- 支持跨平台 COM 组件插件;
- HTML 文档格式解析 COM 插件;
- PDF 文档格式解析 COM 插件;
- MP3 , AVI 等音视频文件格式解析 ( 元数据提取 )COM 插件;
- Unicode 版本;
- Fxist - FirteX Index/Search Toolbox,Windows 用户界面的索引维护工具
- 线程安全;
|
| |
功能对比
|
|
Lucene 2.00 |
Lemur 4.32 |
FirteX 1.02 beta |
InvFPIndex |
Indri |
Keyfile |
索引 |
增量索引 |
是 + |
是 |
是 + |
文档删除 |
是 |
否 |
是 |
多字段支持 |
是 |
否 |
是 |
是 |
是 |
索引算法实验 |
否 |
否 |
是 |
On-line 索引实验 |
否 |
否 |
是 |
前向索引 |
是 + |
是 - |
是 + |
多种文档集支持 |
否 |
是 |
是 + |
处理 Tb 级数据 |
否 |
是 |
是 |
索引速度 |
1x |
3x |
9x |
多文档格式支持 |
是 |
是 |
是 |
多文档内容分析支持 |
是 |
是 |
是 |
中文支持 |
是 |
是 |
是 + |
检索 |
检索语言 |
丰富 + |
丰富 |
丰富 + |
丰富 |
丰富 |
检索模型实验 |
是 |
是 + |
是 + |
完全内存检索 |
是 |
否 |
是 |
索引的同时检索 |
是 |
否 |
是 |
其他 |
COM 插件支持 |
否 |
否 |
是 |
XML 配置系统 |
否 |
是 |
是 + |
程序运行记录 |
否 |
否 |
是 |
注:黑色:已完成
灰色: beta 版中尚未提供此功能 |