1194712.jpg

非典型废宅

GF  2021-04-15 03:14
(从不畏惧,也从不后悔)

[吐槽]制作修改版小说的一点事

一如既往的前情提要:[分享]一个辅助修改绿文的小玩意

脚本做完了打算填充一下词库,找点新的修改版和原文作对比,来判断一般需要注意的关键字。
目前建立的词库还只有自己凭感觉积累的一部分,还没有实际测试过。

结果到了搜书吧,一搜下下来一堆我之前排版整理的,十本里有六七本,全是我合集里拆出来单卖的。
还有一部分我自己改的,结果我都没拿去骗金币,倒是别人赚得满头油。

讲真这金币又不能用我倒是无所谓,但是一个个下下来发现没有一点有用的,实在是让人失望又烦躁。
而且有些改的实在拉跨,我直接一键替换人称都比你改的像个东西。
除了改就是删啊,绿文那么多偷窥看视频才发现的,剧情能有多连贯?改个人称删点东西都不至于弄成这样。

感觉我应该下几个绿文合集,再根据分词词频等提取词库?但是最近没那么多大块的时间了。

母+老哥们有啥建议没?现在也忙起来了,只能再一点点填补。

脚本的链接明早我起来了发下边,初学者摸爬滚打照着一点点做的,部分可能有BUG,希望能反馈我一个。



我测试下性能看有无需要调整的,大文本可能会要几秒,我再测试下。

大概就这么点功能:

03.修改助手
├─01.全局 - 文件处理
│    01.撤销 - 撤销10次
│    02.撤销 - 撤销50次
│    03.重做 - 重做10次
│    04.重做 - 重做50次
│    10.———————
│    11.文件 - 创建副本
│    12.文件 - 多个副本
├─02.标记 - 段落内容
│    01.标记 - 剧情冲突
│    02.标记 - 人物矛盾
│    03.标记 - 肉戏修改
│    04.标记 - 对话调整
│    05.标记 - 叙述改写
│    06.标记 - 保留片段
│    10.———————
│    11.标记 - 自行命名
│    12.选区 - 删除标记
│    13.删除 - 按类清除
│    14.大纲 - 所有标记
├─03.选区 - 快速操作
│    01.选区 - 查找下一个
│    02.选区 - 全部替换为
│    03.选区 - 全文内删除
│    10.————————
│    11.选区 - 选区内替换
│    12.选区 - 去各类括号
│    13.选区 - 去各类引号
│    20.————————
│    21.选择 - 光标处标记
│    22.选择 - 由行号选区
│    23.选择 - 包含选区行
│    30.————————
│    31.选区 - 新窗口编辑
│    32.选区 - 保存到副本
│    33.选区 - 追加到文件
├─04.检索 - 定位替换
│    01.词典 - 普通分组查找
│    02.词典 - 正则分组查找
│    03.词典 - 普通分组替换
│    04.词典 - 正则分组替换
│    10.—————————
│    11.临时 - 查找临时词典
│    12.临时 - 编辑临时词典
│    13.临时 - 添加选区词条
│    14.临时 - 转义已有词条
│    20.—————————
│    21.大纲 - 所有标记符号
│    22.选区 - 替换各类括号
│    23.选区 - 搜索添加标记
│    24.选区 - 删除查找标记
│    25.选区 - 执行替换标记
│    26.选区 - 删除替换标记
├─10.——————————
│ 11.大纲 - 自定义搜索词语
│ 12.替换 - 边界外任意词语
│ 13.替换 - 边界内任意词语
├─20.——————————
│ 21.替换 - 对话外第一人称
│ 22.替换 - 对话外第三人称
│ 23.替换 - 对话外任意词语
├─30.——————————
│ 31.替换 - 对话内第一人称
│ 33.替换 - 对话内任意词语
└─33.替换 - 对话内第三人称

none.gif

aadd哈哈哈

只能说加油

59265.jpg

星之扉

我以前都是下载下来自己除了相同的批量刷,其他内容是一个字一个字的改的,

4.gif

65db783d

搜书吧的金币并没有什么卵用 ,不过有本号称非绿的,直接把全部人名包括男主都给换成了佐藤分身,真的给爷整吐了

1194712.jpg

非典型废宅

B4F  2021-04-15 21:28
(从不畏惧,也从不后悔)
我特么……合着真是软件提供的函数性能不行……

测试结果已经毫无疑问的证明了这一点,同样的词库替换无论是否正则,软件提供的函数性能都远不如脚本语言自带的。
同样的处理一个是135ms,一个是3338ms,前者换成正则加上另一个词条也只有21ms。

早知道我就不试了,这都™的啥事啊???

不过另一个的处理结果则有些差别,两者的性能又差不多,我有点整不明白了。
最简的匹配性能差别很大,过滤项最多的时候却差不多?
我再试试另一个写法吧,说不定可以解决。

本来说今天发的,结果又咕咕咕了。

a13.gif

differ

B5F  2021-04-15 21:36
([sell=] 搜书吧密码已换 [/sell])
搜书网上确实有不少垃圾,我在p站上看的一些R-18文作者明确说了不要把他们免费的作品搬到国内,结果还有sb干这种事,也有不少挂羊头卖狗肉的

1194712.jpg

非典型废宅

B6F  2021-04-15 22:12
(从不畏惧,也从不后悔)
换了正则,原来几百上千毫秒的只要十几毫秒就行。

果然这玩意有毒。

怪不得说正则要注意避免回溯,果然性能天差地别。

1194712.jpg

非典型废宅

B7F  2021-04-16 22:06
(从不畏惧,也从不后悔)
16MB的差不多一两秒处理完,这个速度还差不多。

之前那个正则能跑出153381ms来,就离谱。

我再逐个测试下



文件:《希灵帝国》-知轩藏书校对版
处理:替换对话内外的“我”字为其他字符

物理行数:100035
单词数:614472
字节大小:16541191
字符数:8381389
ASCII字符:221893
None-ASCII字符:8159496
空白:191798

对话外第一人称:1640ms    68266处
对话外任意词语:673ms    68564处
边界外任意词语:1585ms    68651处

对话内第一人称:1332ms    29491处
对话内任意词语:1136ms    29766处
边界内任意词语:575ms    29411处

1194712.jpg

非典型废宅

B8F  2021-04-18 15:33
(从不畏惧,也从不后悔)
完成了,有一些遗憾,但基本都够我用了。主要还是替换对话内外人称、快速建立副本、段落进行标记、词库批量替换并显示替换内容。

原本打算加一个词频统计、姓名称呼分析的功能,但是这个貌似要词典比较占用空间,就放弃了。

词库相关的我还在纠结要不要换一种标识符号,或者还是干脆不要标识符号。目前的逻辑是将匹配到的对象和替换结果用【A→B】的形式在原文标注出来,大纲区刷新显示,这样防止错误替换,然后有两个按钮可以选择保留A还是B。

不过这个也有点小毛病就是可能产生嵌套不好处理,但我也没有太好的解决方法,受限于文件格式,用语法高亮等方法之类的关了软件就没得了。

目前的效果类似这样:
原文:
引用

  我妈妈确实很漂亮,而且身材也很好,虽然三十多岁了,但是不少人还以为她没结婚,在我班同学中,除了刘宇轩的妈妈,就数我妈妈最漂亮。因此,在学校,不论是老师还是校长,都对我很好,这也是我骄傲的。但是,杨雄没见过我妈妈,我说:“你怎么知道?”那个时候我还不知道他已看过我妈妈的照片。
  “同学们都这么说,说我班同学的妈妈数你和刘宇轩同学的妈妈最漂亮。”我自豪地点了点,他接着说:“你真幸福,有个这么漂亮的妈妈宠爱。”


替换词典(O表示替换对话外):
引用

我妈妈    妈妈    O
我    小苦主    O


替换结果:
引用

  【我妈妈→妈妈】确实很漂亮,而且身材也很好,虽然三十多岁了,但是不少人还以为她没结婚,在【我→小苦主】班同学中,除了刘宇轩的妈妈,就数【我妈妈→妈妈】最漂亮。因此,在学校,不论是老师还是校长,都对【我→小苦主】很好,这也是【我→小苦主】骄傲的。但是,杨雄没见过【我妈妈→妈妈】,【我→小苦主】说:“你怎么知道?”那个时候【我→小苦主】还不知道他已看过【我妈妈→妈妈】的照片。
  “同学们都这么说,说我班同学的妈妈数你和刘宇轩同学的妈妈最漂亮。”【我→小苦主】自豪地点了点,他接着说:“你真幸福,有个这么漂亮的妈妈宠爱。”

1194712.jpg

非典型废宅

B9F  2021-04-18 15:56
(从不畏惧,也从不后悔)
中文分词实在麻烦,最后还是放弃了,英文直接空格和逗号分隔可正常多了,词典也好做,中文怎么就这么难,现在稍微有点了解到了。再深入就得去学NLP了,光做这点东西我就花了这么一段时间,还是放弃了。