Nemo

关注TA

路漫漫其修远兮，吾将上下而求索。

普罗旺斯
负责帅就完事了
写了1,495,102字

标签 > 标签文章：#搜索引擎# (共有2文章)

Lucene入门样例 - 第一个demo

这两天正好有点空闲，稍稍看了一些lucene的内容。晚点可能会在link-nemo上加入相关的使用。这里先记录一个最简单的样例代码。Lucene是apache基金会里头比较有名的一个项目了，之前用过基于它的另一个全文检索框架Solr。需要的依赖jar：<groupId>org.apache.lucenegroupId>lucene-core</artifactId>5......

2017年09月20日 18:34 3,295 2
搜索引擎工作原理（记录）

第一步：爬行搜索引擎是通过一种特定规律的软件跟踪网页的链接，从一个链接爬到另外一个链接，像蜘蛛在蜘蛛网上爬行一样，所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的，它需要遵从一些命令或文件的内容。第二步：抓取存储搜索引擎是通过蜘蛛跟踪链接爬行到网页，并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时，也做一......

2016年12月25日 00:15 4,425 4