当前位置:首页 > 全部子站 > 论文网 > 政治论文

适用于报社自动校对的中文分词技术方案研究

来源:长理培训发布时间:2018-07-26 14:32:52

 【摘 要】报社校对软件使用效果不尽如人意,其中一个重要原因是分词结果不理想。文章根据报社校对业务特点,在自建文本分词合理结果集的基础上,通过对公开分词工具的评测比较,探索适用于报社自动校对的中文分词技术方案。这对深入研究报社自动校对系统,提升报社新闻出版质量意义重大。 
中国论文网 /1/view-13049096.htm
  【关键词】自动校对;中文分词 
  一、引言 
  目前市场上校对软件有不少,采用的自动校对技术方法都是在中文分词的基础上,进行分析纠错。分词结果不理想,校对效果自然不会好。所以提升自动校对效果的一个研究方向就是中文分词研究。 
  对报社而言,过去以采编为主,内容为王,缺乏技术沉淀。近几年,随着融合发展,技术得到了更多重视和投入。但是要完全自主研发分词技术,依然面临着很多困难。因此引进第三方技术成果,来帮助实现定制化应用也是报社技术发展的一种方法。只是需要结合校对业务需求选用合适的中文分词工具。 
  二、报社校对业务需求 
  由于语言文字现象的复杂性,新闻文本中的差错类型多种多样。根据表现形式,具体分为以下几类: 
  ⑴文字差错:这类差错是新闻出版差错中最主要的部分,常见的包括错字、别字、多字、漏字、颠倒字、繁体字等。 
  ⑵词语差错:词语是语言系统中最活跃的组成形式,很多词语在词音、词形、词义上近似,因此容易混淆误用。 
  ⑶语法差错:主要指违反汉语语法结构规律的句子。 
  ⑷政治差错:在涉及政治敏感问题方面,出现导向性、政策性和技术性错误。 
  ⑸标点符号差错:违反国标《标点符号用法》的标点符号使用错误。 
  ⑹数字差错:违反国标《出版物上数字用法的规定》的数字使用错误。 
  ⑺计量单位差错:违反国标《量和单位》的计量单位使用错误。 
  ⑻英文拼写差错:英文内容表述中出现的词语拼写错误。 
  ⑼知识性差错:内容表述中涉及的有关知识不正确。 
  校对系统作为一种自动化辅助工具,就是要尽可能识别并纠正以上文字差错,以帮助校对人员减轻工作量。 
  三、中文分词工具选择 
  中文分词技术是自然语言处理中一个重要组成部分,在国内外都有几十年的研究历史,也有很多优秀成熟的解决方案。目前公开实用的中文分词主要可分为学术类、市场类和开源类三种。 
  ⑴学术类:由高校相关院所研发,主要用于科学研究。知名代表有中科院NLPIR、哈工大LTP、斯坦福大学Stanford NLP、复旦大学FudanNLP等。目前各高校采用的分词服务模式不尽相同,有共享版、试用版、付费版等。 
  ⑵市场类:科技企业基于市场需求和技术导向而研发的开放化服务平台。知名代表有百度AI、腾讯文智、玻森BosonNLP等。目前根据不同开放策略,在线分词授权有免费和收费两种方式。 
  ⑶开源类:由个人技术研发并公布在代码托管平台上的开源项目。知名代表有paoding、ansj、jieba、Jcseg等。这类分词都提供开源代码,只要遵循开源协议,即可免费使用。 
  基于报社融合发展的技术成本管控和校对业务需要,选择可免费使用且带有词性标注的分词工具。所以将斯坦福大学Stanford NLP、复旦大学FudanNLP、百度AI、玻森BosonNLP、jieba、ansj、Jcseg这7款中文分词工具作为备选对象开展评测工作。 
  四、分词工具评测方法 
  判断分词工具是否适用于报社自动校对,主要看分词效果。采用黄金标准(Golden Standard),编制一份正确合理的分词结果集作为参考开展评测。由于评测目的是衡量适用度而非准确度,因此重点考虑的是词语切分逻辑和词性标注精度。根据新闻出版文本差错和自动校对常见问题,分词需要具备以下六个能力维度。 
  ⑴歧义识别:能识别并根据语境正确切分歧义内容。 
  【例句】 
  “研究生命令本科生”分词标准“研究生/名 命令/动 本科生/名”; 
  “这块地面积小”分词标准“这块/代词 地/名词 面积/名词 小/形容词”。 
  ⑵新词发现:能识别未登录词,并准确标注词性。常见新词有人名、地名、机构名等。 
  【例句】 
  “王总和小丽结婚”分词标准“王总/人名 和/连词 小丽/人名 结婚/动词”; 
  “吴江西陵印刷厂”分词标准“吴江西陵印刷厂/机构名”。 
  ⑶短语组合:能识别常用的短语词组。 
  【例句】 
  “这样的人才能经受住考验”分词标准“这样的人/代词 才能/动词 经受住/动词 考验/名词”; 
  “信息技术应用于教学”分词标准“信息技术/名词 应用于/动词 教学/名词”。 
  ⑷数字区分:能正确识别出各种数字组合词,例如时间词、数量词等。 
  【例句】 
  “一亿人有60%投票”分词标准“一亿/数词 人/名词 有/动词 60%/数词 投票/动词”; 
  “9月20日购入1KG面粉”分词标准“9月20日/时间词 购入/动词 1KG/数词 面粉/名词”。 
  ⑸英文区分:能正确识别出各种英文组合词,例如中英混合词、英文单词、网址、邮箱等。 
  【例句】 
  “一件T恤衫”分词标准“一件/数词 T恤衫/名词”; 
  “官网www.foreo.com”分词标准“官网/名词 www.foreo.com/网址”。 
  ⑹错误切分:当文本存在错误时,切分结果必须要么是散串,要么依然是一个词。 
  【例句】 
  “不原看到”分词标准“不/副词 原/副词 看到/动词”; 
  “新加泊旅游”分词标准“新加泊/名词 旅游/动词”。 
  分词效果评测指标包括召回率(Recall)、准确率(Precision)、F值(F-mesure)和错误率(Error Rate),以下分别简记为R、P、F和ER。 
  定义:N为黄金标准切分词语数,e为分词错误标注词语数,c为分词正确标注词语数,则以上指标计算公式如下: 
  除了分词效果,评测中文分词工具的适用度还要考虑并发性。并发性决定自动校对运算性能,主要看接口并发调用的限制和方法。 
  五、评测结论 
  编制一份涵盖六个维度共计2000个例句的分词结果测试集,对7个备选中文分词工具进行评测,评测结果如下: 
  从结果可以看出,适用于报社自动校对效果最理想的中文分词工具是百度AI和玻森BosonNLP,性价比最高的是ansj。
  在实际应用中,可以采取多分词混合使用的技术解决方案。在语料训练上使用百度AI和玻森BosonNLP,在校对算法上使用ansj。另外根据自动校对需要,还可以对开源分词代码进行修改和优化。至于如何进行开源分词二次开发则有待下一步研究。 

责编:荣秀

发表评论(共0条评论)
请自觉遵守互联网相关政策法规,评论内容只代表网友观点,发表审核后显示!

国家电网校园招聘考试直播课程通关班

  • 讲师:刘萍萍 / 谢楠
  • 课时:160h
  • 价格 4580

特色双名师解密新课程高频考点,送国家电网教材讲义,助力一次通关

配套通关班送国网在线题库一套

课程专业名称
讲师
课时
查看课程

国家电网招聘考试录播视频课程

  • 讲师:崔莹莹 / 刘萍萍
  • 课时:180h
  • 价格 3580

特色解密新课程高频考点,免费学习,助力一次通关

配套全套国网视频课程免费学习

课程专业名称
讲师
课时
查看课程
在线题库
面授课程更多>>
图书商城更多>>
在线报名
  • 报考专业:
    *(必填)
  • 姓名:
    *(必填)
  • 手机号码:
    *(必填)
返回顶部