目标和动机
FirteX 是一个功能强大、高性能、灵活的全文索引和检索平台。 FirteX 的主要目标是研究文本索引的快速构建 (Index Construction) ,动态文档集的索引维护 (Index Maintenance) ,短语查询 (Phrase Query),Top-k 查询的快速处理 (Top-k Query Process) 以及各种检索模型( IR Model )等。高性能和灵活的架构也使 FirteX 可以应用在产品搜索,桌面搜索,站内搜索,新闻搜索, Blog 搜索,学术搜索以及大规模搜索引擎等领域中。
实验平台
FirteX 支持各种检索效果和检索效率的实验。在效果方面,可以实现各种检索模型、查询反馈以及面向信息检索的中文分词等实验;在效率方面,可以研究文本索引的快速构建算法,动态文档集的索引建立和更新策略,查询快速处理算法以及查询 Cache 方案等。
强大功能
FirteX 支持纯文本,网页, PDF,Microsoft Office 等文件格式,支持中文(GB2312 和 GBK)
和英文,灵活的架构也可以方便地扩展支持其他语言和编码;检索语法丰富,支持多字段检索,日期范围检索,检索结果自定义排序等;系统也可以通过 COM 插件无限扩展。[更多信息]
高性能
FirteX 设计成可以处理大规模数据,具有较高的性能,在单台 Pentium 4 2.8G 2GRAM 的机器上超过 200Mb 每分钟的纯文本索引速度,在近 100G 的网页上搜索,仅用十几M内存能在数毫秒内返回结果。[更多信息]
开放源码
FirteX采用C++开发,以GPL(General Public License)开放源码授权协议的形式发布,这意味着您可以在遵循GPL协议的基础上自由使用FirteX,也可以参与到FirteX的开发中来。如果需要其他授权协议,请联系我们。
您可以访问在SourceForge.net上的FirteX's Project Page 参与开发或下载使用。 |