All Projects → lewangdev → scel2txt

lewangdev / scel2txt

Licence: other
搜狗细胞词库转鼠须管(Rime)词库,使用 Python3 实现

Programming Languages

python
139335 projects - #7 most used programming language

Projects that are alternatives of or similar to scel2txt

lrime
自定义 Rime 带辅码自然码双拼输入法方案,由内置的「自然码双拼」、带辅码的「自然码 2000」 和「nihongo-r」日语输入方案综合而成。
Stars: ✭ 49 (+113.04%)
Mutual labels:  rime
wubi-dict-editor
五笔码表助手 for Rime ( Windows、macOS、Ubuntu ) base on electron
Stars: ✭ 28 (+21.74%)
Mutual labels:  rime
danjing
An exquisite Trime theme.
Stars: ✭ 29 (+26.09%)
Mutual labels:  rime
mw2fcitx
Fcitx 5 pinyin dictionary generator for MediaWiki instances. (Releases for demo dict of zh.moegirl.org.cn)
Stars: ✭ 80 (+247.83%)
Mutual labels:  rime
Rime
Rime config of squirrel input method.
Stars: ✭ 58 (+152.17%)
Mutual labels:  rime
WubiBuddy
《码表助手》鼠须管五笔用户词添加工具 (macOS)
Stars: ✭ 16 (-30.43%)
Mutual labels:  rime
rime-yahwe zaonhe
吳語協會式上海話輸入法/吴语协会式上海话输入法:以吳語協會式拼音爲基礎的 Rime 上海話輸入方案。
Stars: ✭ 29 (+26.09%)
Mutual labels:  rime
rime
rime 输入法配置
Stars: ✭ 26 (+13.04%)
Mutual labels:  rime
dotfiles
💎 My vim/neovim, fish, git, and tmux configuration files
Stars: ✭ 49 (+113.04%)
Mutual labels:  rime
archlinuxcn-dotfiles-collection
来自社区小伙伴们的 dotfiles 集锦
Stars: ✭ 73 (+217.39%)
Mutual labels:  rime
Onion Rime Files
電腦 Rime 洋蔥方案(注音、雙拼、拼音、形碼、行列30)
Stars: ✭ 88 (+282.61%)
Mutual labels:  rime
myRime
我的 Rime 配置,适用于朙月拼音/小鹤双拼/小狼毫 /ibus
Stars: ✭ 46 (+100%)
Mutual labels:  rime
Rime JD
星空键道6是星空系列输入法中的一款音形码中文输入法方案,「Rime键道」是该方案借助RIME开源输入平台的实现。
Stars: ✭ 42 (+82.61%)
Mutual labels:  rime
rime-nushu
Nushu input method | 𛆁𛈬𛈬𛇈𛊡 | 女书输入法
Stars: ✭ 28 (+21.74%)
Mutual labels:  rime
coc-rime
Rime input method source for coc.nvim
Stars: ✭ 22 (-4.35%)
Mutual labels:  rime
iridium-bpmf
銥 [Ir] 注音 — (又是一個) 基於 RIME、參酌其它注音輸入法習慣、符合臺灣使用習慣為規準的注音輸入方案。
Stars: ✭ 40 (+73.91%)
Mutual labels:  rime
rimerc
rimerc: rimer's dictionary & config
Stars: ✭ 228 (+891.3%)
Mutual labels:  rime
rime-wugniu zaonhe
上海吳語拼音輸入方案 · 上海吴语拼音输入方案 · Rime input schemas for Shanghai Dialects
Stars: ✭ 20 (-13.04%)
Mutual labels:  rime
openfly
词库开源的小鹤音形 Rime 配方
Stars: ✭ 54 (+134.78%)
Mutual labels:  rime
rime-moetaigi
萌台語:基於萌典 API 的 RIME 臺語輸入法,使用注音符號輕鬆輸入台語。
Stars: ✭ 24 (+4.35%)
Mutual labels:  rime

scel2txt

搜狗细胞词库转鼠须管(Rime)词库,使用 Python3 实现

使用

将从搜狗官方词库网站下载的 *.scel 文件放入 scel 文件夹,然后运行

python3 scel2txt.py

生成的文件

  • 后缀为 .txt 的同名词库文件
  • 自动合并所有 *.txt 文件到 luna_pinyin.sogou.dict.yaml

搜狗细胞词库(scel格式文件) 格式说明

按照一定格式保存的 Unicode 编码文件,其中每两个字节表示一个字符(中文汉字或者英文字母)。

主要包括两部分:

  1. 全局拼音表,在文件中的偏移值是 0x1540+4, 格式为 (py_idx, py_len, py_str)

    • py_idx: 两个字节的整数,代表这个拼音的索引
    • py_len: 两个字节的整数,拼音的字节长度
    • py_str: 当前的拼音,每个字符两个字节,总长 py_len
  2. 汉语词组表,在文件中的偏移值是 0x2628 或 0x26c4, 格式为 (word_count, py_idx_count, py_idx_data, (word_len, word_str, ext_len, ext){word_count}),其中 (word_len, word, ext_len, ext){word_count} 一共重复 word_count 次, 表示拼音的相同的词一共有 word_count 个

    • word_count: 两个字节的整数,同音词数量
    • py_idx_count: 两个字节的整数,拼音的索引个数
    • py_idx_data: 两个字节表示一个整数,每个整数代表一个拼音的索引,拼音索引数
    • word_len:两个字节的整数,代表中文词组字节数长度
    • word_str: 汉语词组,每个中文汉字两个字节,总长度 word_len
    • ext_len: 两个字节的整数,可能代表扩展信息的长度,好像都是 10
    • ext: 扩展信息,一共 10 个字节,前两个字节是一个整数(不知道是不是词频),后八个字节全是 0,ext_len 和 ext 一共 12 个字节

目前已测试的词库

参考资料

  1. scel2mmseg
  2. scel-to-txt
Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].