All Projects → mozillazg → Pinyin Data

mozillazg / Pinyin Data

Licence: mit
汉字拼音数据

Programming Languages

python
139335 projects - #7 most used programming language

Labels

Projects that are alternatives of or similar to Pinyin Data

hanzi-tools
Converts from Chinese characters to pinyin, between simplified and traditional, and does word segmentation.
Stars: ✭ 69 (-89.24%)
Mutual labels:  pinyin
Tinypinyin
适用于Java和Android的快速、低内存占用的汉字转拼音库。
Stars: ✭ 3,348 (+422.31%)
Mutual labels:  pinyin
Limax
Node.js module to generate URL slugs. Another one? This one cares about i18n and transliterates non-Latin scripts to conform to the RFC3986 standard. Mostly API-compatible with similar modules.
Stars: ✭ 423 (-34.01%)
Mutual labels:  pinyin
mw2fcitx
Fcitx 5 pinyin dictionary generator for MediaWiki instances. (Releases for demo dict of zh.moegirl.org.cn)
Stars: ✭ 80 (-87.52%)
Mutual labels:  pinyin
Phrase Pinyin Data
词语拼音数据
Stars: ✭ 257 (-59.91%)
Mutual labels:  pinyin
Neural chinese transliterator
Can CNNs transliterate Pinyin into Chinese characters correctly?
Stars: ✭ 310 (-51.64%)
Mutual labels:  pinyin
ToolGood.Words.Core
一款高性能敏感词(非法词/脏字)检测过滤组件,附带繁体简体互换,支持全角半角互换,汉字转拼音,模糊搜索等功能。支持.net standard 2.0
Stars: ✭ 66 (-89.7%)
Mutual labels:  pinyin
Mynlp
一个生产级、高性能、模块化、可扩展的中文NLP工具包。(中文分词、平均感知机、fastText、拼音、新词发现、分词纠错、BM25、人名识别、命名实体、自定义词典)
Stars: ✭ 519 (-19.03%)
Mutual labels:  pinyin
Chinesepinyin Codecompletionhelper
让你的 JetBrains 系 IDE ( IDEA ,PyCharm,PhpStorm,WebStorm,AndroidStudio,DevEco等 )支持中文标识符以拼音输入方式完成代码补全,享受和英文环境一致的中文智能编码体验,为代码表达提供更多选择,一种值得考虑的折中解决方案
Stars: ✭ 262 (-59.13%)
Mutual labels:  pinyin
Chineseutil
PHP 中文工具包,支持汉字转拼音、拼音分词、简繁互转、数字、金额大写;QQ群:17916227
Stars: ✭ 413 (-35.57%)
Mutual labels:  pinyin
Pinyin4NET
c# 拼音汉字/姓相互转换工具库 (这只是镜像仓库,源仓库见 https://gitee.com/hyjiacan/Pinyin4Net)
Stars: ✭ 38 (-94.07%)
Mutual labels:  pinyin
rust-pinyin
汉字转拼音
Stars: ✭ 111 (-82.68%)
Mutual labels:  pinyin
Pinyin
🇨🇳 基于词库的中文转拼音优质解决方案
Stars: ✭ 3,824 (+496.57%)
Mutual labels:  pinyin
pinyin
javascript实现输入汉字获取汉字拼音或者汉字拼音首字母
Stars: ✭ 27 (-95.79%)
Mutual labels:  pinyin
Rime Cloverpinyin
🍀️四叶草拼音输入方案,做最好用的基于rime开源的简体拼音输入方案!
Stars: ✭ 478 (-25.43%)
Mutual labels:  pinyin
syng
A free, open source, cross-platform, Chinese-To-English dictionary for desktops.
Stars: ✭ 108 (-83.15%)
Mutual labels:  pinyin
Python Pinyin
汉字转拼音(pypinyin)
Stars: ✭ 3,618 (+464.43%)
Mutual labels:  pinyin
Xmnlp
xmnlp:提供中文分词, 词性标注, 命名体识别,情感分析,文本纠错,文本转拼音,文本摘要,偏旁部首等功能
Stars: ✭ 591 (-7.8%)
Mutual labels:  pinyin
Pinyin
Pure JavaScript library for converting Hanzi to Pinyin.
Stars: ✭ 504 (-21.37%)
Mutual labels:  pinyin
Pinyin Engine
JavaScript 拼音匹配引擎
Stars: ✭ 386 (-39.78%)
Mutual labels:  pinyin

pinyin-data Build Status

汉字拼音数据。

数据介绍

拼音数据的格式:

{code point}: {pinyins}  # {hanzi} {comments}
  • # 开头的行是注释,行内 # 后面的字符也是注释

  • {pinyins} 中使用逗号分隔多个拼音

  • 示例:

      # 注释
      U+4E2D: zhōng,zhòng  # 中
    

Unihan Database 数据版本:

Date: 2020-02-18 18:27:33 GMT [JHJ]
Unicode version: 13.0.0

  • kTGHZ2013.txt: Unihan DatabasekTGHZ2013 部分的拼音数据(来源于《通用规范汉字字典》的拼音数据)
  • kHanyuPinyin.txt: Unihan DatabasekHanyuPinyin 部分的拼音数据(来源于《漢語大字典》的拼音数据)
  • kXHC1983.txt: Unihan DatabasekXHC1983 部分的拼音数据(来源于《现代汉语词典》的拼音数据)
  • kHanyuPinlu.txt: Unihan DatabasekHanyuPinlu 部分的拼音数据(来源于《現代漢語頻率詞典》的拼音数据)
  • kMandarin.txt: Unihan DatabasekMandarin 部分的拼音数据(普通话中最常用的一个读音。zh-CN 为主,如果 zh-CN 中没有则使用 zh-TW 中的拼音)
  • kMandarin_overwrite.txt: 手工纠正 kMandarin.txt 中有误的拼音数据(可以修改
  • GBK_PUA.txt: Private Use Area 中有拼音的汉字,参考 GB 18030 - 维基百科,自由的百科全书可以修改
  • nonCJKUI.txt: 不属于 CJK Unified Ideograph 但是却有拼音的字符(可以修改
  • kanji.txt: 日本自造汉字 的拼音数据 (可以修改
  • kMandarin_8105.txt: 《通用规范汉字表》(2013 年版)里 8105 个汉字最常用的一个读音 (可以修改)
  • overwrite.txt: 手工纠正的拼音数据(可以修改
  • pinyin.txt: 合并上述文件后的拼音数据
  • zdic.txt: 汉典网 的拼音数据(可以修改

修改数据

  • 上面标注了 可以修改 字样的文件都可以直接修改
  • 如果汉字的拼音不需要修改,只是调整第一个读音的话,可以直接修改 kMandarin_8105.txt 这个文件
  • 执行 merge_unihan 命令可以按照合并规则生成最新的 pinyin.txt 文件
  • 进入 unihan 目录,执行 make update 命令可以更新最新的 Unihan 数据

参考资料

相关项目

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].