蒙科立搜索引擎开始索引多个蒙古文网站

蒙科立搜索引擎开始索引多个蒙古文网站

蒙古网站king2013-04-0815:23:598880A+A-

蒙科立搜索引擎发布首个试用版本(见之前的博文-蒙科立蒙古文搜索引擎开始试用)之后,经过这段时间的努力,我们处理了如下几个问题,开始索引多个蒙古文网站了

1、通过网络爬虫抓取网页:目前所有资源都是直接从网站上通过网络爬虫抓取。可以保证新发布的网页内容都可以被抓到。因网络爬虫是通过种子地址开始分析网络连接而抓取页面,所以对以网址未变而,内容更新的内容没有反应;没有任何外部连接链入的网页抓不到;没有参数,通过其他机制更换内容的页面,只能抓到默认状态内容。总之不敢保证所有页面都被包含进来。而且目前爬虫仅仅以20几个网站首地址为种子地址,爬虫也限定在制定站点内抓取,不会向外自动扩散。也就是说除种子地址中明确加入的网站外的内容抓不到。

2、蒙古文编码自动检测及自动转换:本系统可以自动检测目标网页的蒙古文编码类型,并将其转换为蒙科立编码,便于后续处理。目前所索引的20多个网站主要是蒙科立编码和赛因编码。实际上现有其他编码制作的网站也都可以通过这种方式纳入搜索中。

3、蒙古文行序自动检测及自动转换:目前蒙古文网站主要是通过<br>换行和<table>两种形式竖排蒙古文。为了能够争取判断关键词的顺序,有必要知道文字正确行序。

4、批量加入搜索引擎:如果每检测到一个网页就立即加入检索系统的话,会频繁更新索引而影响效率。为此按日将所搜集网页合并到一个文档,再定时统一加入检索系统。这样处理的好处是减少了服务器负担,但同时显而易见的问题是达不到实时检索(实际延时为最多一天)。

5、改进了Snippet:通过过滤掉HTML标签,基本防止了偶尔出现高亮显示越界,HTML标签显露等弊病。

存在的问题

1、搜索一些内容后重复项过多:

例如搜索后出现如下图结果:点击查看原图

 

这就涉及到搜索引擎中的原创识别去重等高级研究内容。可能要通过authority-hubmodel、给pr值最高的页面,或者有激烈讨论,大量pageview的页面优先权,竞价排名、authoritypv加权等方式解决吧?

2、目前只可以使用蒙科立输入法要搜索的关键字。搜索前对关键字进行编码识别,并进行编码转换就可以支持别的输入法。但这么做后使页面出现乱码。暂时不准备做!

点击这里复制本文地址以上内容由蒙文软件大全整理呈现,请务必在转载分享时注明本文地址!如对内容有疑问,请联系我们,谢谢!

支持Ctrl+Enter提交

蒙文软件大全© All Rights Reserved.  蒙文软件大全 Copyright ©2018 蒙ICP备13001995号-4
PoweredbyZ-BlogPHPThemesby蒙古文软件
联系我们|关于注册|留言建议|管理|

本站会员尊享VIP特权,现在就加入我们吧!登录注册×
»
会员登录
新用户注册
×
会员注册
获取邀请码
已有账号登录
×