SuperTaoer -

今天和一个朋友谈论lucene的时候 我想出了这么一个念头 就是让lucene自己去学习分词之类的设想 比如用户输入的关键字也可以作为lucene的学习的对象 让lucene建立索引智能化,不知道是否可行。


bluetent -

今天终于把weblucene在tomcat下面架起来了,呵呵。 如果能让lucene从一段文字中提取分好的词组,是个不错的办法, 一个信息点->分词->另一个信息点,就实现了信息的整合。 估计稍微修改weblucene的代码就能返回分词结果。


SuperTaoer -

lucene的索引似乎是不可以排序的,我想到了一个方法 就是按照每种不同的排序,分别给lucenen建立索引文件 这样的话就可以进行排序的索引了 但是相应的问题是:如果再有新的记录,排序就又被打乱了 也就是说没有办法差量的更新索引 只能完全的重新建立索引 不知道你和anakin考虑过么?


bluetent -

索引文件的排序没有考虑过,它内建有两种排序方式,一个是按照id号码,另外一个是按照相关度数值。 我想如果确实要进行排序的话,倒不如用不同的方法来把mysql的数据dump到xml里,这样还可以方便的利用它的索引差量更新功能。 网摘的数据表里有个字段记录了该条记录最后被修改的时间,简直就是专门为差量索引准备的,呵呵。


海狸 -

路过,踩一脚! bluetent提到的设想,我今天在网上找了半天(整整半天哟!),发现http://www.21cn.com/的邮箱应该符合你的要求(免费的就可以)。 它的过滤的项目有五个:发件人、收件人、抄 送、主 题、邮件长度 符合条件的信件执行以下操作:拒绝接收、发送到文件夹**、将草稿箱中题为:**的邮件自动回复、转发到其它邮箱:** bluetent的设想可以通过“将草稿箱中题为:**的邮件自动回复”这个功能实现。 不过我当时想实现的功能使将指定发件人的邮件转发到其他邮箱,21cn也可以符合要求,另外符合要求的还有联想的个人邮箱http://www.lenovo.net/channel/sunny365/default.shtml,以及你所提到的gmail(可是没人帮我推荐,sign!所以才找其他的网站的邮箱)


bluetent -

多谢您提供的线索,我想这样的邮件提供商,可能自身的资源压力会更大些,但是会不会也是未来发展的一个方向呢?