我使用CentOS7上的Fess来尝试本地文件搜索
使用 Fess 进行本地文件的全文搜索试验。
使用开源全文搜索服务器 Fess。
我没有特别的理由,但除了JDK之外,可以下载并安装zip文件。如果要从rpm安装,则选择这个选项。
CentOS安装目录的版本是什么?
CentOS Linux release 7.9.2009 (Core)
由于有文件,所以没有特别困难的地方。
只是试试而已,所以在主目录下全部执行。
安装JDK
sudo yum install java-11-openjdk-devel
确认一下是否有动作。
请设置并编译下述文件,以验证其能够正常运行。
public class HelloWorld {
public static void main(String[] args) {
System.out.println("Hello World!");
System.out.println(System.getProperty("java.version"));
}
}
javac HelloWorld.java
java HelloWorld
安装Elasticsearch
免费下载Elasticsearch | 立即开始 | Elastic | Elastic 从Elastic下载。
当前最新版本为7.10.1。
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.10.1-linux-x86_64.tar.gz
tar -zxvf elasticsearch-7.10.1-linux-x86_64.tar.gz
Fess的安装。
从GitHub上获取最新的Fess代码。
Releases · codelibs/fess · GitHub
目前最新版本是13.10.2。
wget https://github.com/codelibs/fess/releases/download/fess-13.10.2/fess-13.10.2.zip
unzip fess-13.10.2.zip
预先更改目录名称。
mv elasticsearch-7.10.1 elasticsearch
mv fess-13.10.2 fess
Elasticsearch的配置设置
参考: 安装
在Elasticsearch中安装Fess插件。
我在GitHub上确认了一下,最新版本是7.10.0。
Tags · codelibs/elasticsearch-analysis-fess · GitHub
./elasticsearch/bin/elasticsearch-plugin install org.codelibs:elasticsearch-analysis-fess:7.10.0
./elasticsearch/bin/elasticsearch-plugin install org.codelibs:elasticsearch-analysis-extension:7.10.0
./elasticsearch/bin/elasticsearch-plugin install org.codelibs:elasticsearch-configsync:7.10.0
./elasticsearch/bin/elasticsearch-plugin install org.codelibs:elasticsearch-dataformat:7.10.0
./elasticsearch/bin/elasticsearch-plugin install org.codelibs:elasticsearch-minhash:7.10.0
添加配置以识别”./elasticsearch/data/config/”。
添加用于访问Fess的设置。
路径应为完整路径。
configsync.config_path: /path/to/elasticsearch/data/config/
据说需要指定启动选项才能连接到Elasticsearch集群。
ES_HTTP_URL=http://localhost:9200
FESS_DICTIONARY_PATH=/path/to/elasticsearch/data/config/
确认
启动它并确认是否能通过浏览器访问。
./elasticsearch/bin/elasticsearch
./fess/bin/fess
请确认是否可以通过http://[服务器的IP]:8080进行访问。
http://[服务器的IP]:8080/admin 是管理员登录页面。
ID:admin
PASS:admin
如果无法访问,请检查防火墙设置。
本地文件的爬取
设定
参考资料:文件滚动
本次操作是将文件放置在/var/fess下,并确保可以对该目录下的文件进行全文搜索。
登录管理界面,在左侧菜单中选择“爬虫”->“文件系统”,进行如下注册。
名字:隨意
文件路徑:file:/var/fess/
要爬取的路徑:file:/var/fess/.*
由于我想要立即执行,所以我会在系统 -> 定时器中点击“Default Crawler”,然后点击“立即开始”按钮进行爬取操作。
当操作完成后,我会在系统信息 -> 爬取信息中确认爬取的状态和结果,以确保数据已经取回。
确认系统信息能否从检索中找到。
如果想要删除搜索索引
参考:从Fess的索引中删除文档-与基督徒妻子一起
在系统信息搜索栏中输入“*:*”进行搜索,然后通过屏幕底部的删除按钮进行删除。