中国自然语言处理白皮书

2026/1/17 10:12:14

中国自然语言处理白皮书

汇、句子和篇章等多个层次都开展了语义研究。以词汇语义计算为例,词义消歧是其中的一个重要的主题。例如,“打”至少有十几个不同的义项。表4-1列出了几个示例。词义消歧的任务就是为给定上下文的“打”选择合适的义项。例如,在句子“打他的人打车走了”这句话中为两个“打”选择正确的义项。

1 2 3 4 5 义项解释 殴打 攻打 编织 搅拌 标记 例句 打人、打架 打敌人、打仗 打毛衣 打蛋 打标签 表4-1 “打”的几个义项示例

在已有的英语词义消歧国际评测中,如果义项是粗粒度的(例如,上述“打”的第1个和第2个义项合并为一个,不加区分),那么平均性能可以达到90%以上。大家如果据此数据认为词义消歧技术已经比较成熟了,那么就可能会误解为何还有那么多的研究人员持续开展词义消歧任务的研究,就可能会误解为何有些任务中还不把词义消歧技术加入进去提高系统性能。

而实际上,如果义项不是粗粒度的,而是细颗粒度的(比如上述“打”的第1个和第2个义项是需要区分的),那么在已有的英语词义消歧国际评测中取得的平均性能不超过70%!基于这个数据,大家应该就不会认为词义消歧技术已经成熟了,而是还有很长的路要走。

进一步,如果我们按人的标准来评价计算机程序的消歧性能,要求计算机程序在消歧的同时能解释各个义项间的微妙差别,能解释这种义项选择背后发生了什么。那么,其性能会更差。

14

中国自然语言处理白皮书

因此,大家在关注自然语言处理技术进展的时候一定需要对技术任务有更多的理解,否则,很有可能产生不同程度的误解。

基于此,我们希望进一步指出的是:自然语言处理技术虽然在不断发展中,但是,在未来很长一段时间中,它还只能作为一种技术工具在有限深度上对语言进行处理,还不可能完全达到人类理解自然语言的水平。因此,当前我们对于自然语言处理技术和应用的合适态度可能是:既不要期待它能很快就像人一样地去完成各种自然语言处理和理解的任务,也不用害怕它会完全取代人的工作。

15

中国自然语言处理白皮书

第5章 参考文献

[1]

Richard Sproat,Thomas Emerson. The First International Chinese Word Segmentation Bakeoff. In Proceedings of the Second SIGHAN Workshop on Chinese Language Processing. 2003. Thomas Emerson. The Second International Chinese Word Segmentation Bakeoff. In Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing. 2005.

Gina-Anne Levow. The Third International Chinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition. In Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing. 2006.

Guangjin Jin, Xiao Chen. The Fourth International Chinese Language Processing Bakeoff: Chinese Word Segmentation, Named Entity Recognition and Chinese POS Tagging. In Proceedings of the Sixth SIGHAN Workshop on Chinese Language Processing. 2008.

Hongmei Zhao, Qun Liu. The CIPS-SIGHAN CLP 2010 Chinese Word Segmentation Bakeoff. In Proceedings of CIPS-SIGHAN Joint Conference on Chinese Language Processing. 2010. Huiming Duan, Zhifang Sui, Ye Tian, Wenjie Li. The CIPS-SIGHAN CLP 2012 Chinese Word Segmentation on MicroBlog Corpora Bakeoff. In Proceedings of the Second CIPS-SIGHAN Joint Conference on Chinese Language Processing. 2012.

Huiming Duan, Zhifang Sui, Tao Ge. The CIPS-SIGHAN CLP 2014 Chinese Word Segmentation Bake-off. In Proceedings of

16

[2]

[3]

[4]

[5]

[6]

[7]

中国自然语言处理白皮书

the Third CIPS-SIGHAN Joint Conference on Chinese Language Processing.2014.

[8]

Wenzhe Pei,Tao Ge, Baobao Chang.Max-Margin Tensor Neural Network for ChineseWord Segmentation.Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, 293–303, Baltimore, Maryland, USA, June 23-25 2014.

Jianqiang Ma,Erhard Hinrichs. Accurate Linear-Time Chinese Word Segmentation via Embedding Matching. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, 1733–1743, Beijing, China, July 26-31, 2015.

Xinchi Chen, Xipeng Qiu, Chenxi Zhu, Xuanjing Huang.Gated Recursive Neural Network for Chinese Word Segmentation. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, 1744–1753,Beijing, China, July 26-31, 2015.

[9]

[10]

17


中国自然语言处理白皮书.doc 将本文的Word文档下载到电脑
搜索更多关于: 中国自然语言处理白皮书 的文档
相关推荐
相关阅读
× 游客快捷下载通道(下载后可以自由复制和排版)

下载本文档需要支付 10

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:xuecool-com QQ:370150219