从Lucene到Elasticsearch:全文检索实战
上QQ阅读APP看书,第一时间看更新

3.4 工程搭建

通过3.3节的学习,文件内容抽取问题已经解决了。下面介绍如何从零开始构建文件检索系统,在开始之前确保计算机已经正确安装Java、Eclipse、Apache Tomcat。

步骤01 在Eclipse中新建一个Java Web工程。启动Eclipse,单击File->New->Dynamic Web Project,工程名命名为filesearch,如图3-8所示。

图3-8 新建一个Java Web工程

步骤02 单击Target runtime下方的“New Runtime“按钮设置Tomcat路径,如图3-9所示。我们选择Apache Tomcat 7.0,找到Tomcat所在位置,选定JRE版本为1.8,最后单击Finish。

图3-9 设置Tomcat路径

步骤03 设置完运行环境以后,下面的Dynamic web module version选择2.5,选择2.5版本的会在WebContent的WEB-INF目录下自动生成web.xml。

步骤04 单击Finish按钮,一个Java Web项目创建完成。

步骤05 在Tomcat中运行Web工程。

WebContent目录下新建一个index.jsp,在body标签之间加上一个h1标签并输入“Hello Lucene“字符串作为首页的提示信息。然后选中工程名并右击,依次选择Run As→Run on Server→Tomcat v7.0 Server at localhost→Finish,待服务器启动以后打开浏览器访问:http://localhost:8080/filesearch,运行效果如图3-10所示。

图3-10 Web工程首页信息

步骤06 添加jar包。拷贝下面这些jar包到filesearch/WebContent/WEB-INF/lib :IKAnalyzer2012_u6.jar 、 lucene-analyzers-common-6.0.0.jar 、 lucene-analyzers-smartcn-6.0.0.jar 、lucene-core-6.0.0.jar 、 lucene-highlighter-6.0.0.jar 、 lucene-memory-6.0.0.jar 、 lucene-queries-6.0.0.jar 、lucene-queryparser-6.0.0.jar、tika-app-1.13.jar

步骤07 新建包和资源文件夹。在Web工程的src目录下新建3个包,分别命名为lucene.file.search.controller、lucene.file.search.model、lucene.file.search.service。lucene.file.search.controller包中主要存放Servlet控制器,lucene.file.search.model用于存放实体类,lucene.file.search.service用于存放工具类。然后,在WebContent目录下新建一个名为css的文件夹用于存放样式表文件,新建一个名为files的文件夹用于存放要检索的各种类型的文档,新建一个名为images的文件夹用于存放图片资源,新建一个名为indexdir的文件夹用于存放索引库。最后在files目录下放置一些文档用于测试,即被搜索的对象。本实例中的文档格式有DOC、DOCX、PPTX、PDF、TXT 5种。

经过以上几个步骤,Lucene文件检索系统的环境已经搭建完成,工程目录如图3-11所示。

图3-11 工程目录