2011年信息检索试题
一,判断,15题*2分
1, 在布尔检索中处理多个词项的查询时,按照词项对应的倒排记录表的长度从小到大处理的性能一定
最优。( )f
2, 词干还原的正确率很难做到100%。( )t
3, 组成短语的两个词项各自出现都很频繁,那么采用二元词索引的效率不如位置信息索引。( )f 4, 倒排索引压缩的唯一好处就是节省空间开销。( )f 5, 按照zipf定律,文档集不断增长后一定会出现新词汇。( )f
6, 在向量空间模型的权重表示中,IDF给出的是词项在文档内的局部信息。( )f 7, 对于检索系统而言,MAP值越高意味着用户的满意度一定越大。( )f 8, 伪相关反馈中,没有用户的交互,不一定会提高检索的效果。( )t
9, 在语言模型的估计当中,如果采用MLE估计方法,往往会遇到“零概率”问题。( )t
10,在朴素贝叶斯分类器的实现中,基于多项式模型实现的效果总是优于基于贝努利模型的效果。( f) 11,文本分类中特征选择的作用只是为了提高计算的效率。( )f 12,SVM当中的核函数实际上是从原始空间到目标空间的映射函数。( )t 13,K-均值聚类算法一定能保证目标函数收敛到全局最小值。( )f 14,单链接HAC层次聚类算法的结果具有确定性。( t)
15,PageRank反映的是Web图中“越多越重要的节点指向某节点,则该节点越重要”这个现象。( t) 二,选择(单选或多选)8题*2分 1,关于布尔模型的有点,一下叙述正确的是( )
A,布尔检索构造复杂 B,结果无排序
C,难以进行部分匹配 D,表述简洁 2,关于向量空间模型,一下叙述错误的是( ) A,查询也看成一个向量 B,权重计算是某个固定不便的TF*IDF公式 C,查询和文档可以采用不同的权重计算机制 D,只能采用余弦相似度进行相关度计算 3,关于二值独立概率模型,以下叙述错误的是( ) A,该模型中不存在词项独立性假设 B,该模型没有考虑词项频率TF C,该模型考虑了相关文档的生成频率 D,该模型考虑了不相关文档的生成频率 4,关于查询似然检索模型,以下叙述错误的是( ) A,不需要参数估计 B,平滑技术非常重要 C,计算复杂度远高于向量空间模型 D,词项频率和为1 5,关于朴素贝叶斯分类器,以下叙述错误的是( ) A,该分类器不需要训练 B,该分类器中存在词项独立性假设 C,该分类器训练速度很快 D,该分类器分类速度很快 6,关于层次聚类,以下叙述错误的是( ) A,层次聚类必须要指定聚类数目 B,层次聚类复杂度通常很高 C,层次聚类中类间相似度计算只有一种方式 D,层次聚类一定收敛 7,关于PageRank和HITS算法,以下叙述错误的是( ) A,两者通常都是离线(Offline)使用 B,两者通常都是在线(Online)使用 C,两者本质都是计算矩阵的特征根 D,PageRank计算的图通常大于HITS计算的图
1 / 3
8,关于分类器,以下叙述错误的是( )cd A,训练速度快的分类器通常分类速度也快 C,线性分类器一定优于非线性分类器
B,实际应用中要考虑分类器的效率问题 D,分类器的效果与分类数据集无关
三,计算题,5题*6分 1,面对两个正确答案集合分别是Rq1={d1,d2,d3,d4,d5}及Rq2={d6,d7,d8,d9,d10}的查询q1、q2,某检索系统A返回的检索结果如表1。小数点后保留2位,AP采用未插值方法。
表1 系统·查询 A·q1 A·q2 系统·查询 A·q1 A·q2
P R 返回结果数 20 20 表2 F P@10 AP MAP 正确结果位置 1-d2;2-d4;8-d1;15-d5 4-d7;10-d8;12-d9 2,对于下列采用?编码的间距编码结果,请还原原始的间距序列及倒排记录表。
1110110111111001011111111110100011111001 3,为简单期间,假设每篇文档均采用一维向量(即一个数字)来表示,在一个包含A、B两个类别的问题中,有10篇训练文档,其中3篇属于A类,7篇属于B类。3篇A类文档的向量表示为1、3、5,而7篇B类文档的向量表示为2、4、6、7、8、9、10,假设两个一维向量的距离采用差的绝对值来表示(注,此处相似度为距离的倒数,不采用内积或余弦相似度计算),即两个维向量a、b的距离为|a-b|,试采用Rocciho(?=?=0,?=1)方法和kNN(k分别取3、5)计算一篇新来文档(向量表示为4.4)的类别(在kNN中, 只考虑top k个文档的类别分布情况),试写出计算过程和结果,试根据结果分析kNN的不足并给出可能的解决方法。
4,假设5个网页A、B、C、D、E构成如下的链接关系,试采用如下公式(u指当前页面,Bu是所有
连接到u的页面集合,Nv是页面v的总链出链接数,R(u)和R(v)分别是u和v的PageRank值,为计算方便,假定c?1)计算每个网页的归一化PageRank值,即5个网页的PageRank总和为1。
R(u)?c?v?BuR(v) Nv2 / 3
5,计算如下聚类结果的纯度和兰德指数RI。
四、应用题(8分*3题)
1、基于网页的新闻内容抽取是指从新闻网页中提取新闻标题和正文的过程(如下图所示),试应用本课程学到的文本文类技术实现上述过程,给出你的思路的详细步骤(内容抽取到文本分类问题的映射、类别体系的建立、特征及特征方法、分类器等)和过程。
2、更具课程中学到的知识,设计一种方法来计算新浪微博用户的重要度,详述整个方法的思路及流程。 类似 PageRank和HITS
3、一个词语通常有多种含义,比如:“苹果”既是一种水果也是一个品牌。根据课程中学到的知识,试设计一种方法来粗略判定词语的不同含义数目,详述整个方法的思路及流程。 聚类
3 / 3

