lewangdev / scel2txt Licence: other
搜狗细胞词库转鼠须管(Rime)词库,使用 Python3 实现
Programming Languages python 139335 projects - #7 most used programming language
Projects that are alternatives of or similar to scel2txt lrime 自定义 Rime 带辅码自然码双拼输入法方案,由内置的「自然码双拼」、带辅码的「自然码 2000」 和「nihongo-r」日语输入方案综合而成。
Stars : ✭ 49 (+113.04%)
Mutual labels: rime
wubi-dict-editor 五笔码表助手 for Rime ( Windows、macOS、Ubuntu ) base on electron
Stars : ✭ 28 (+21.74%)
Mutual labels: rime
danjing An exquisite Trime theme.
Stars : ✭ 29 (+26.09%)
Mutual labels: rime
mw2fcitx Fcitx 5 pinyin dictionary generator for MediaWiki instances. (Releases for demo dict of zh.moegirl.org.cn)
Stars : ✭ 80 (+247.83%)
Mutual labels: rime
Rime Rime config of squirrel input method.
Stars : ✭ 58 (+152.17%)
Mutual labels: rime
WubiBuddy 《码表助手》鼠须管五笔用户词添加工具 (macOS)
Stars : ✭ 16 (-30.43%)
Mutual labels: rime
rime-yahwe zaonhe 吳語協會式上海話輸入法/吴语协会式上海话输入法:以吳語協會式拼音爲基礎的 Rime 上海話輸入方案。
Stars : ✭ 29 (+26.09%)
Mutual labels: rime
rime rime 输入法配置
Stars : ✭ 26 (+13.04%)
Mutual labels: rime
dotfiles 💎 My vim/neovim, fish, git, and tmux configuration files
Stars : ✭ 49 (+113.04%)
Mutual labels: rime
Onion Rime Files 電腦 Rime 洋蔥方案(注音、雙拼、拼音、形碼、行列30)
Stars : ✭ 88 (+282.61%)
Mutual labels: rime
myRime 我的 Rime 配置,适用于朙月拼音/小鹤双拼/小狼毫 /ibus
Stars : ✭ 46 (+100%)
Mutual labels: rime
Rime JD 星空键道6是星空系列输入法中的一款音形码中文输入法方案,「Rime键道」是该方案借助RIME开源输入平台的实现。
Stars : ✭ 42 (+82.61%)
Mutual labels: rime
rime-nushu Nushu input method | 𛆁𛈬𛈬𛇈𛊡 | 女书输入法
Stars : ✭ 28 (+21.74%)
Mutual labels: rime
coc-rime Rime input method source for coc.nvim
Stars : ✭ 22 (-4.35%)
Mutual labels: rime
iridium-bpmf 銥 [Ir] 注音 — (又是一個) 基於 RIME、參酌其它注音輸入法習慣、符合臺灣使用習慣為規準的注音輸入方案。
Stars : ✭ 40 (+73.91%)
Mutual labels: rime
rimerc rimerc: rimer's dictionary & config
Stars : ✭ 228 (+891.3%)
Mutual labels: rime
rime-wugniu zaonhe 上海吳語拼音輸入方案 · 上海吴语拼音输入方案 · Rime input schemas for Shanghai Dialects
Stars : ✭ 20 (-13.04%)
Mutual labels: rime
openfly 词库开源的小鹤音形 Rime 配方
Stars : ✭ 54 (+134.78%)
Mutual labels: rime
rime-moetaigi 萌台語:基於萌典 API 的 RIME 臺語輸入法,使用注音符號輕鬆輸入台語。
Stars : ✭ 24 (+4.35%)
Mutual labels: rime
scel2txt
搜狗细胞词库转鼠须管(Rime)词库,使用 Python3 实现
使用
将从搜狗官方词库网站 下载的 *.scel
文件放入 scel
文件夹,然后运行
生成的文件
后缀为 .txt 的同名词库文件
自动合并所有 *.txt 文件到 luna_pinyin.sogou.dict.yaml
搜狗细胞词库(scel格式文件) 格式说明
按照一定格式保存的 Unicode 编码文件,其中每两个字节表示一个字符(中文汉字或者英文字母)。
主要包括两部分:
全局拼音表,在文件中的偏移值是 0x1540+4, 格式为 (py_idx, py_len, py_str)
py_idx: 两个字节的整数,代表这个拼音的索引
py_len: 两个字节的整数,拼音的字节长度
py_str: 当前的拼音,每个字符两个字节,总长 py_len
汉语词组表,在文件中的偏移值是 0x2628 或 0x26c4, 格式为 (word_count, py_idx_count, py_idx_data, (word_len, word_str, ext_len, ext){word_count}),其中 (word_len, word, ext_len, ext){word_count} 一共重复 word_count 次, 表示拼音的相同的词一共有 word_count 个
word_count: 两个字节的整数,同音词数量
py_idx_count: 两个字节的整数,拼音的索引个数
py_idx_data: 两个字节表示一个整数,每个整数代表一个拼音的索引,拼音索引数
word_len:两个字节的整数,代表中文词组字节数长度
word_str: 汉语词组,每个中文汉字两个字节,总长度 word_len
ext_len: 两个字节的整数,可能代表扩展信息的长度,好像都是 10
ext: 扩展信息,一共 10 个字节,前两个字节是一个整数(不知道是不是词频),后八个字节全是 0,ext_len 和 ext 一共 12 个字节
目前已测试的词库
网络流行新词【官方推荐】 , 24923 个词
最详细的全国地名大全 , 114572 个词
开发大神专用词库【官方推荐】 , 430 个词
中国高等院校(大学)大全【官方推荐】 , 7192 个词
宋词精选【官方推荐】 , 7297 个词
成语俗语【官方推荐】 , 46785 个词
计算机词汇大全【官方推荐】 , 10300 个词
论语大全【官方推荐】 , 2907 个词
歇后语集锦【官方推荐】 , 1926 个词
数学词汇大全【官方推荐】 , 15992 个词
物理词汇大全【官方推荐】 , 13107 个词
中国历史词汇大全【官方推荐】 , 20526 个词
饮食大全【官方推荐】 , 6918 个词
上海市城市信息精选 , 37757 个词
linux少量术语 , 136 个词
参考资料
scel2mmseg
scel-to-txt
Note that the project description data, including the texts, logos, images, and/or trademarks,
for each open source project belongs to its rightful owner.
If you wish to add or remove any projects, please contact us at
[email protected] .