AC_state = 3; }
break; } } }
catch(Exception e) {
input_state = 3; } }
search_state = 2; AC_state = 3; 29
6系统运行效果图
6.1自动登录效果图
按照用户自动登录的设计思想,程序运行效果图如下:
图6-1自动登录效果图
6.2自动提交效果图
按照源代码自动提交的设计思想,程序运行效果图如下:
图6-2自动提交效果图
30
6.3杭电ACM刷题排名
本系统运行了12个小时之后,在杭电ACM刷题排名,效果图如下:
图6-3杭电ACM系统刷题排名
6.4系统运行分析
经测试,系统在运行了12小时之后,在杭电ACM刷题排名如图6-3,位列19名。由上图可知,系统自动刷题通过率比较高。在运行时间内,本系统一共解决了杭电ACM平台上1872道题,提交总次数为8026次,题目AC率达到了23.32%。在与其他各个网络爬虫刷题系统比较中可以发现,这个AC率已经较好的能完成刷题目标,达到实验预期目的。
31
7结 论
7.1自动刷题器小结
本刷题系统实现了帮助编程初学者解决难度较高的题目。通过本系统可以更快速提升自己的编程能力,减少了自己百度搜索的时间。自己若需要查阅详细的代码实现过程,只需要浏览对应的URL。
本系统的优点在于:
1.分析了URL链接的特点,利用答案网页的URL结构,实现了自动搜索答案网页。
2.对网页的预处理过程,大大减少了对整个网页的分析,只需要提取出答案对应的文本和子链接即可。
3.完成目标代码转换后,能将搜索的信息有效的处理并保存在数据库中,使其能够和整个框架结合在一起,形成一个相互协调的整体,从而实现了自动刷题系统。
7.2进一步研究的设想
由于本系统涉及到了网络蜘蛛的理论和应用。如何将网络蜘蛛应用在其他方面是我们需要进一步研究的,本系统也还需要不断地优化和改进相关的搜索算法的性能,也需要进一步的研究。在以后的工作中,可以围绕一下几个方面进行深入研究:
(1)通过网络蜘蛛的不同的遍历策略,优化搜索引擎,实现更快速、高效搜索。
(2)在互联网上,利用网络蜘蛛技术,抓取指定的中文信息,并结合中文分词技术,对信息进行分类保存。
(3)在已有的技术的基础上,让网络蜘蛛通过机器学习,实现搜索更加智能化。
32
参考文献
[1] 翁岩青,网页抓取策略研究[D].哈尔滨工程大学硕士论文,2011
[2] 陈杰,主题搜索引擎中网络蜘蛛搜索策略研究[D].浙江大学硕士论文,2006 [3] 何翼,陈文娟,蒲天银, 基于网络爬虫原理的Web内容挖掘技术分析[J]. 计
算机时代,2013.
[4] 陈瑜芳,何克右,网络蜘蛛的设计与实现[J]. 现代计算机(专业版),2009. [5] 黄英铭. Web结构挖掘及HITS算法分析[J]. 计算机与现代化,2007. [6] 卢虹宇. Web结构挖掘中HITS算法的研究[D]. 西南交通大学,2008. [7] 蔡琼,罗雪松. HITS算法在Web挖掘中的应用与改进[J]. 软件导刊,2008.
33

