All Projects → overtrue → pinyin-resources

overtrue / pinyin-resources

Licence: CC0-1.0 license
汉字拼音相关参考资料

汉语拼音相关参考资料

此项目为我在开发 overtrue/pinyin 时所用到的参考的资料收集,旨在方便有同样需求的朋友。

汉字的多音字处理

以下内容摘自: 《汉语同音字和多音字处理方法研究》- 杨宪泽,谈文蓉,刘玉萍,张 楠,殷 锋

中文是象形文字,字数多,字形复杂。西文是拼音文字,英文只有 26 个字母,加上大写小写及数字符号,总数不超过 128 个,用七位二进制码就可表达。而中文字成千上万,要用十几位二进制码才能把它们区别开来, 这给存储乃至输入方式等都造成困难。

多音字判别方法中技术的关键是基于统计特征, 特征提取使多音字正确判音有效。特征包含在特征词典中, 采用规则描述。共定义了以下特征:

  • 词内左右邻接字

    通式为: Xi-1 Xi 和 Xi Xi+1。Xi 是当前要判断读音的多音字,这是处理多音字在不同的词语中读不同的音的情况 。例如 “人参” 与 “参加”、“银行” 与 “行程”、“重量” 与 “重复” 等等 。

  • 左右邻接词

    通式为:Wi-1 Xi 和 XiWi+1 。X 是当前要判断读音的多音字,Wi-1 和 Wi+1 是多音字 的左右邻接词,这是处理多音字与不同的邻接词读不同的音的情况 。例如“相当长”、“大队长”、“长方形” 等等。

  • 当前词的词性

    例如 “数” 作名词的读法和作动词的读法,“更” 作名词的读法和作副词的读法等等。

  • 边界条件

    该特征是有的字在句首 、句末或不同位置读音不同,更多地体现在一些语气助词上面 。例如 “了” 在句中和句末时读音往往不会相同 。

参考资料

页面

统计分析与规范文档

需求设计

网站

论文

开源项目

License

CC0 1.0 Universal

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].