All Projects → nickcheng → Ncchineseconverter

nickcheng / Ncchineseconverter

Licence: mit
NCChineseConverter 是一个基于 Objective-C 的中文简繁正转换库.

Labels

Projects that are alternatives of or similar to Ncchineseconverter

Romanize Names
㊙️ Node module for romanizing names in Traditional Chinese for Taiwan primarily.
Stars: ✭ 88 (-24.79%)
Mutual labels:  chinese
Cn sort
中文排序:按拼音/笔顺快速排序简体中文词组(百万数量级,可含中英/多音字)。如果对您有所帮助,欢迎点个star鼓励一下。
Stars: ✭ 102 (-12.82%)
Mutual labels:  chinese
Datasets
Poetry-related datasets developed by THUAIPoet (Jiuge) group.
Stars: ✭ 111 (-5.13%)
Mutual labels:  chinese
Alfred Parrot
📝 一款可以多种语言翻译的 Alfred Workflow
Stars: ✭ 89 (-23.93%)
Mutual labels:  chinese
Zhopenie
Chinese Open Information Extraction (Tree-based Triple Relation Extraction Module)
Stars: ✭ 98 (-16.24%)
Mutual labels:  chinese
Pytorch multi head selection re
BERT + reproduce "Joint entity recognition and relation extraction as a multi-head selection problem" for Chinese and English IE
Stars: ✭ 105 (-10.26%)
Mutual labels:  chinese
Cws
Source code for an ACL2016 paper of Chinese word segmentation
Stars: ✭ 81 (-30.77%)
Mutual labels:  chinese
Data
中国政治和社会事件时间线数据仓库 Database for the timeline of political and societal events in China
Stars: ✭ 117 (+0%)
Mutual labels:  chinese
Nodejs Api Doc Cn
Node.js API 文档(中文版)
Stars: ✭ 98 (-16.24%)
Mutual labels:  chinese
Papers Notebook
📄 🇨🇳 📃 论文阅读笔记(分布式系统、虚拟化、机器学习)Papers Notebook (Distributed System, Virtualization, Machine Learning), created by @gaocegege
Stars: ✭ 1,678 (+1334.19%)
Mutual labels:  chinese
Uer Py
Open Source Pre-training Model Framework in PyTorch & Pre-trained Model Zoo
Stars: ✭ 1,295 (+1006.84%)
Mutual labels:  chinese
Chinese Poetry Npm
《中华古诗词数据》用于前端 & Node.js 相关项目。唐宋两朝近一万四千古诗人,接近5.5万首唐诗加26万宋诗,两宋时期1564位词人,21050首词。
Stars: ✭ 95 (-18.8%)
Mutual labels:  chinese
Docker Changelog Chinese
docker变更日志中文版
Stars: ✭ 107 (-8.55%)
Mutual labels:  chinese
Omnetpp primer
OMNeT++的仿真手册
Stars: ✭ 89 (-23.93%)
Mutual labels:  chinese
Docs Cn
OpenTelemetry Markdown中文文档: 接入使用、技术标准、RFC、SDK等. 中文网站:https://ot.md
Stars: ✭ 109 (-6.84%)
Mutual labels:  chinese
U2c
Unicode To Chinese -- U2C : A burpsuite Extender That Convert Unicode To Chinese 【Unicode编码转中文的burp插件】
Stars: ✭ 83 (-29.06%)
Mutual labels:  chinese
D2l Torch
《动手学深度学习》 PyTorch 版本
Stars: ✭ 105 (-10.26%)
Mutual labels:  chinese
Awesome Macos Command Line Zh
用你的 macOS 终端搞事情。(Use your macOS terminal shell to do awesome things. )
Stars: ✭ 117 (+0%)
Mutual labels:  chinese
Blog
部署在 GitBook 上的个人博客。
Stars: ✭ 112 (-4.27%)
Mutual labels:  chinese
Tensorflow Yolo1
目标检测yolo算法,采用tensorflow框架编写,中文注释完全,含测试和训练,支持摄像头
Stars: ✭ 107 (-8.55%)
Mutual labels:  chinese

NCChineseConverter

简介

NCChineseConverter 是一个 基于 Objective-C 的中文简繁正转换库. 除此之外, 本项目还包括一个 Python 的词库转换工具.

本库的基本实现原理: 从 Mediawiki 提供的字典中提取数据, 转换为自己需要的格式, 然后用最大正向匹配算法进行字符替换.

特点

  • 可以只使用单一词库
  • 可扩充自定义词库
  • 提供 NSString 的 Category

使用方法

  1. 用词典工具生成词典
  2. 把生成的词典放在项目的 Resources 目录下
  3. 按如下方式引用转换库和调用
#import "NCChineseConverter.h"
…
NSString *oriString = @"";
NSString *result = [[NCChineseConverter sharedInstance] convert:oriString 
                                                       withDict:NCChineseConverterDictTypezh2TW];
…

Tool

下载词库并生成词典:

python dictgenerator.py

用本地词库生成词典(适用于已经下载了词库文件):

python dictgenerator.py n

利用词典工具会在当前目录生成如下词典文件:

  • zh2TW.txt (简体 -> 台湾正体)
  • zh2HK.txt (简体 -> 港澳繁体)
  • zh2SG.txt (简体 -> 新马繁体)
  • zh2CN.txt (繁体/正体 -> 大陆简体)

方便起见, 我在 dictionary 目录中放了转换好的词典文件. 目录名称即为词典生成时间.

注意: 请勿修改文件名, 转换库是严格按照文件名来读取词典的.

自定义扩充转换词组

词典工具是根据 Mediawiki 的词库来进行词典生成, 所以要等待 Mediawiki 的词库更新才能得到新的词典. 如果你有一些 Mediawiki 里没有的词语要扩充, 则可以使用该方法来使用.

使用前缀相同的字典文件来进行自定义词组的扩充, 转换库会自动加载对应的扩充字典.

比如, 把你自己的 简体 -> 台湾正体 词典命名为 zh2TW.custom.txt, 这样转换库就可以自动加载这个词典并在转换时使用.

备注

虽然词典工具一次生成四个词典, 但是你可以视情况只使用其中一个或多个. 需要注意的是如果你没有在项目中放入某个词典文件, 那么要避免在代码里调用该字典.

未来改进

  • 增加更多转换词库
  • 使用 Double-array Trie Tree 来构造原始字典, 提高搜索速度
  • 改进分词算法

背景

简繁正的问题在此不多说, 都是历史遗留问题, 具体情况可以自行查看 Wikipedia, 用自己的思考去判断(漢字簡化爭論). 在此只讨论技术相关问题.

简繁转换不是单纯的从一个字转换为另一个字, 他包含很多内容, 如:

  • 各种繁体/正体. 如: 港澳繁体, 台湾正体. 再加上各个华人地区的中文(如新加坡)使用等.
  • 简体和繁体的对照往往不止一对一, 而是一对二, 一对三, 甚至一对五(多繁對一簡問題)

目前比较常用的转换方式主要是 Wikipedia 的转换方式OpenCC.

Wikipedia 进行简繁转换的操作流程参见: 繁简处理

OpenCC 的库相对比较专业. 不过这是一个 C 库, 所以如果要在 iOS 下使用, 则需要自己把库编译成 iOS 可以使用的库再进行调用.

参考

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].