pdfbox+lucene做一个pdf的搜索引擎

来源:学生作业帮助网 编辑:作业帮 时间:2024/04/28 14:05:50
pdfbox+lucene做一个pdf的搜索引擎

pdfbox+lucene做一个pdf的搜索引擎
pdfbox+lucene做一个pdf的搜索引擎

pdfbox+lucene做一个pdf的搜索引擎
既然做到了提取内容,那么应该提取内容的同时就把内容转化静态的html,比如用FreeMarker生成html.
然后再建立索引,搜寻到相关内容要显示关键字时也可以用上这个html,是如果需要下载才用到pdf.
至于提取内容,可以是用户第一次使用到这个pdf的时候进行提取,也可以是上传到服务器的时候就处理,
或者就像爬虫一样,另外开服务器不断的处理新pdf

很难做出来的。