电影演员的结果有点乱,冯绍峰,肖恩安迪和高园园并不被认为是受欢迎的。电影的排列在不同的方法下看起来也很混乱。因此,我们可以粗略地说,在处理电影和电影演员这样的网络时,二部图不适合。 ③ 分析
我们分析了这两种模型的性能之前,回忆我们以前的未经证实的声明,当有一个网络结构和某些可以通过网络传播的东西时,我们可以用之前的模型运行。现在我们用下列的陈述来证实它与上述结果的一致性。
在中国,歌手和词曲作者有很多相似之处,一首歌的普及可以让歌手和词曲作者都出名。此外,一个歌手还可以利用那首歌的作曲者来吸引歌迷。因此,那不仅仅是一个网络结构,在二部图模型中,普及度也可以通过网络来传播。至于基本模型,有很多例子,比如一个普通的歌手因为一个著名的歌手翻唱了他的一首歌,而迅速的出名。这也证明了普及度是可以传播的。这些都是对于歌手和作曲者问题的合理解释。
不过,电影明星和电影的相互影响在中国有些不同。电影的情节相比于电影的主演,占有更大的比重。当影迷决定观看的时候,情节质量与电影演员没有很强的联系。因此,一部成功的电影可以很快的普及,而一个电影演员反而却更难走红。这是一个合理的二部图失效的解释。对于基本模型,两个演员之间的(互相影响的)名气传播是存在的,这也有很多现实的例子,所以对于基本模型来看,其性能表现的并不差。
概括,虽然每一个模型都有一个网络结构,但它是否存在感兴趣的东西通过网络来传递,这就决定了基于网络科学的模型是否适用。这也是一个有用的标准,直观的预测,这些模型是否可以提供令人信服的结果。
任务5:探讨
我们已经建立了几种不同的方法来评估在一个给定的网络中的顶点的影响。现在应用我们的方法,以帮助我们获得启发,例如作出明智的决定。在个人层面上,我们不知道如何尽快提高我的数学影响力。让我们回到任务1的合著者网络。为了更简洁和直观,我们考虑
一个以下的情景:一个新人只能选择一个作者合作,对新进入者的最优选择是什么?用网络术语来表述,就是说有一个新的节点,可以选择在原始网络中添加到一个无向边,并与一个节点连接。共有511中选择,可是哪个选择为新加入的顶点提供了最高的中心性?至于中心性的类型,我们有以下定义: ? “新加入的点“其度中心性总为1
? “新加入的点“不在任何一个路径上,除非式(13)中的s或t是这个新加入的点 因此,我们只需要关注紧密中心性和特征向量中心性。我们编写了另外一套Ruby程序来模拟其6个小时的运行,其中511个选项和40s运行时间为1组。模拟结果如表17,18
我们发现一个有趣的现象,不管是紧密中心性还是特征向量中心性,通过我们的Ruby程序模拟出来的前十个选择与之前的网络中前十位研究人员(重要性)的顺序是不变的。这种现象可以从理论上证明,但由于篇幅的限制,我们只给出了直观解释。每个顶点的特征向量中心性是由它的邻居决定的,因此,新来者应该选择最有影响力的一个。紧密中心性的解释是类似的,因为新来者的最短路径必须通过它唯一的邻居。
也就是说,新来者应该与最有影响力的作者,即一个具有最高中心性的现有研究者合作,
这是一个符合常识的:与一个更有影响力的人共同创作,使自己更有影响力。然而,由于一些因素,例如残酷的竞争,作者越具有影响力,越有难度去合著。“新来者“必须权衡成本与效益来选择加入哪条边,所以最终结果因人而异。
我们也考虑其他方案,比如一个新加入者可以选择两位研究人员。(例如,第一位是他本科的导师,而第二位是他想攻读博士学位而选择的以为出名的教授。)什么才是他的最优选择?尽管估计可能需要4个月去模拟,超出了建模时间的限制,但它建模的现实意义大很多。例如,对于新来者来说,选择紧密中心性和特征向量中心性并不是必要的最优化选择,因为它现在可以选择另外一个临接点以及两个分开的组。总而言之,尽管缺乏封闭选择(1或2),我们的模型为个体要面临的(交易)问题提供了一个探寻方法,然后游戏理论总是能够提供一个最好的策略。因此,不管是学校选择还是论文导师选择都可以归为这个问题。
灵敏度分析
在一节中,我们将实施模型的灵敏度分析
请注意,有非参数方法(如任务2的四种方法)和参数方法(例如,改进的Katz中心性)模型,我们分开分析如下。 ① 非参数模型
为处于简便,我们限定非参数模型就是指任务2中的四种方法,其他模型都是从它们延伸出的。首先,共有两种类型的灵敏度。具体而言,第一种类型使用了一个不正统的另外一个属性(例如在非学术领域),在任务4中,我们已经处理了这个问题,并且显示出这些模型对数据的属性不灵敏的。第二种类型的灵敏度分析,我们使用调整数据集的微小改变,在这里探讨。
基于任务1的合著者网络,我们实施10次随机性试验,在每个试验中,同时在原始图中随机的删除或增加5条边。用四种方法计算得到的研究人员排列,在结果图中。并且,并且列出与表3-6相比,最大偏差的5个研究人员 如表19
由于最大的偏差总是不超过2,原始网络的轻微变化只会导致轻微的排名变化。此外,由于表3中,前5个顶点的度是彼此接近的,所以度中心性偏离是合理的。此外,添加或删除的边可能会严重破坏原有的拓扑结构,导致相应的路径变化,因此,介数中心性模型是中度敏感的,而由于紧密中心性是取平均的,所以敏感程度稍下降。最后,由于有影响力的顶点的位置并没有显著变化,所以特征向量中心性模型不敏感。 结论:所有的四种测量方法对网络中的轻微变化是不敏感的,但排名可能会轻微改变。
② 参数模型
在这篇论文中,唯一的参数化模型是改进的Katz中心性模型(MKC方法)(16)-
(18)。首先,基于递推公式,易知,{ wn }在
n
的标准下是一个柯西序列。并且wn
的元素都是非负的。因此由于R的完整性,数列{ wn }肯定是收敛的。因此,对于参数p,b, 收敛的数列是不敏感的(b>0)
现在我们考虑选择p,b的影响。如前文所说,大的p意味着被有影响力的论文引用更重要(如bollobas2001更重要,它没有新的论文在它的临接点)而不是更多的作品(如watts1998,它的度是最大的)。因此,大p和小b意味着一个新的论文的引用,它的帮助是很小的,而此时bollobas2001更可能更具影响力,反之亦然。特别是,MKC方法退化为特征向量中心方法时,p = 0。数值试验,以验证前面的结果。 固定b=0.01,那么p的阀值为0.993。 当p>0.993时,Bollobas2001占据主导地位,而p≤0.993时,Watts1998会占据主导地位。类似的,当固定p=1时,b的临界值是0.09. 对于一个较小的B,首选是bollobas2001。因此,这个实验的结果与我们的直觉是一致的。因此,我们可以调整p,b,来寻求(论文)质量和数量之间的平衡。
优势和缺点
① 优势
? 简单
? 参数少(只有一个MKC方法用到参数p,b)
? 不同的价值观和角度被包含(对于“有影响力“这个定义来看) ? 性能/效率(有向图,无向图,二部图) ? 适用范围广(很实际)
? 启发性(个人和团体可以从文章中获得很大的启发。例如,利用网络科学的方
法和如何进行相应的成本效益分析。) ② 缺点
? 计算复杂(模拟耗时长)
? 自适应性差(需根据客户需求选择不同方法)
? 不一致性(不同的方法产生的结果可能不同。因为看待问题角度不同) ? 不现实的假设(特征向量中心性)
总结(百度翻译 实在要吐血了 翻不动了 就这。。)
在本文中,我们提出了一个完整的过程,在现实中,处理网络的问题。首先,我们大致得出这样的结论:在本质上是一个真正的问题要解决的条件是,有一个网络结构和感兴趣的东西,通过网络传输,我们的真实实验符合这一说法。然后我们可以模拟现实转化为有/无向同属于一个多属性点的图(S),而二维的图形绘制采用应力控制方法有效地处理。接下来,我们可以采用几种不敏感的非参数和参数的方法来评估的作用,影响或从不同的角度对某些顶点的重要性。
我们的模拟结果表明,?ERD的不同算法产生的最具影响力的合著者是一致的,不管我们关注消息传输或溢出的影响。然而,共同的书目方法和有向图的方法给出了不同的重要研究论文,这都是支持的,根据谷歌学者提供的整体引用时间。此外,我们的模型和措施有不错的表现,对于预测顶级歌手和电影明星。因此,本
文提供了实用的方法,用于处理实际的基于网络的问题,适度强劲的输出,但由于其潜在的缺点,处理他们的谨慎。

