Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

A Python toolkit for file processing, text cleaning and data splitting. 文件处理,文本清洗和数据划分的python工具包。

License

Notifications You must be signed in to change notification settings

sharejing/Takin

Repository files navigation

A Python Toolkit for File Processing, Text Cleaning and Data Splitting

实验室数据大多由人工众包构建而成,其格式规范,内容干净,数据经过一些简单清洗便能用于模型训练;而真实环境下的数据往往来自于一些用户日志、员工记录等,其文件格式众多,数据内容包含大量噪声,想要获得内容干净、格式规范统一的数据,就需要对这些数据进行深度清洗。Takin就是一款用于真实环境下文件处理、文本清洗和数据划分的开源工具。通过对外提供函数接口的方式,帮助使用者快速获取模型的输入数据。

🚩Takin的最终目标是:对于任何格式和内容的数据,通过Takin就能完全得到你所期望的最规范、最干净的数据。

为了接近并最终达到这个目标,Takin目前包含以下功能:

  • 文件处理:读取和写入各种文件;
  • 文本清洗:提供多个清洗函数接口(如删除数字、序号、标点、特殊字符等);
  • 数据划分:快速划分训练集、验证集和测试集。

Installation&Usage&Plan

☀️ Installation

pip install takin

最近的船新版本为takin==1.1.4

☀️ Plan&Usage

文件处理 (File Processing)

文本清洗 (Text Cleaning)

数据划分 (Data Splitting)

  • 给定一个原始数据集,按照比例将其划分为训练集、验证集、测试集 split_dataset
  • corpus中每个元素是dict,按照类别进行数据切分 split_dataset_by_class

目前Takin仍处于开发阶段,才疏学浅,若有错误和不当之处,请批评与指正!

如果您有更好的想法想一起合作,请联系我QQ:1085665357,请注明来意,谢谢~

About

A Python toolkit for file processing, text cleaning and data splitting. 文件处理,文本清洗和数据划分的python工具包。

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

Languages

AltStyle によって変換されたページ (->オリジナル) /