语料格式、内容、编码清洗小工具

限购商品:每个账户天内限购
  • 价格: --
    折扣价: --
    会员价: --
  • 允许购买的用户组
  • 赠送积分
  • 库存数量
    --
  • 已售数量
    --
  • 购买数量
购买

购买结果

商品简介

2023-10-25更新:更新支持更多编码文档清洗。

2023-6-15更新:已打包成可执行EXE文件。不需要单独安装环境。

语料格式、内容、编码清洗小工具

语料内容清洗小工具功能介绍

1.批量解决训练语料编码非UTF-8(自动把编码统一转为UTF-8)

2.批量解决训练语料内容有各种html标签(自动过滤各种标签)

3.批量解决训练语料多余空格自动过滤。

4.批量解决统一规范训练语料格式要求。(整理除第一行标题外,第二行程序会处理成自动空行,第三行就是语料内容了)

5.批量处理语料的简易排版,实现每段前面都加两个空格。

6.增加了检测内容不符条件,当TXT内容少于100字中文时,直接过滤。(这种措施是防止有些位置的乱码,符号等无法过滤,导致TXT文本中没中文,就统一过滤掉)

语料格式、内容、编码清洗小工具
语料格式、内容、编码清洗小工具

6.更新加入报错处理,非常规问题异常报错文件单独保存到一份新的文件夹内,不进行处理。

7.更新优化处理逻辑。

声明:由于此工具并非AI项目配套必须品(人工完全自己也可以把控采集时把训练语料处理干净标准),此工具只为协助解决处理你的语料数据,提升使用者的方便,所以本工具需另收费。本工具仅限用于我们闪豚AI的训练语料批量处理。

优势介绍

使用本工具后,能全自动化高速处理训练语料,也就是说,你采集的语料只需采集的时候要把换行弄好,排版弄好就行。剩下的如果有多的各种html标签等,或者多的空格和换行。该工具都可以给你完美解决好。

暂定价格:98元(买断制)

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索

本网站服务生成的所有内容均由人工智能模型生成,其生成内容的准确性和完整性无法保证,不代表我们的态度或观点。请自行甄别内容的可靠性。