分享
  1. 首页
  2. 文章

Golang基于DFA算法实现敏感词汇过滤

贝塔船长 · · 4179 次点击 · · 开始浏览
这是一个创建于 的文章,其中的信息可能已经有所发展或是发生改变。

DFA:确定有穷自动机。
具体功能:

  1. 将敏感词汇保存在map中。
  2. 对敏感词汇进行过滤,将敏感词变为"*"。
  3. 对无意义符号进行忽略处理。
敏感词数据结构:
{ 王:{
 isEnd: false
 八:{
 isEnd:false
 蛋:{
 isEnd:true
 }
 }
 }
}
无意义符号数据结构:
{
 "@":Null (空结构体)
}
package main
import (
 "fmt"
 "strings"
)
type Null struct {}
var sensitiveWord = make(map[string]interface{})
var Set = make(map[string]Null)
const InvalidWords = " ,~,!,@,#,,ドル%,^,&,*,(,),_,-,+,=,?,<,>,.,—,,,。,/,\,円|,《,》,?,;,:,:,',‘,;,","
var InvalidWord = make(map[string]Null) //无效词汇,不参与敏感词汇判断直接忽略
//生成违禁词集合
func AddSensitiveToMap(set map[string]Null){
 for key := range set {
 str := []rune(key)
 nowMap := sensitiveWord
 for i := 0; i < len(str); i++ {
 if _,ok := nowMap[string(str[i])]; !ok {//如果该key不存在,
 thisMap := make(map[string]interface{})
 thisMap["isEnd"] = false
 nowMap[string(str[i])] = thisMap
 nowMap = thisMap
 }else {
 nowMap = nowMap[string(str[i])].(map[string]interface{})
 }
 if i == len(str)-1 {
 nowMap["isEnd"] = true
 }
 }
 }
}
//敏感词汇转换为*
func ChangeSensitiveWords(txt string,sensitive map[string]interface{}) (word string){
 str := []rune(txt)
 nowMap := sensitive
 start := -1
 tag := -1
 for i := 0; i < len(str); i++ {
 if _, ok:= InvalidWord[(string(str[i]))]; ok || string(str[i]) == "," {
 continue
 }
 if thisMap, ok :=nowMap[string(str[i])].(map[string]interface{}); ok {
 tag++
 if tag == 0 {
 start = i
 }
 isEnd, _ := thisMap["isEnd"].(bool)
 if isEnd {
 for y := start; y < i+1; y++ {
 str[y] = 42
 }
 nowMap = sensitive
 start = -1
 tag = -1
 }else{
 nowMap = nowMap[string(str[i])].(map[string]interface{})
 }
 }else{
 if start != -1 {
 i = start + 1
 }
 nowMap = sensitive
 start = -1
 tag = -1
 }
 }
 return string(str)
}
func main() {
 words := strings.Split(InvalidWords,",")
 for _, v := range words {
 InvalidWord[v] = Null{}
 }
 Set["你妈逼的"] = Null{}
 Set["你妈"] = Null{}
 Set["日"] = Null{}
 AddSensitiveToMap(Set)
 text := "文明用语你&* 妈,逼的你这个狗日的,怎么这么傻啊。我也是服了,我日,这些话我都说不出口"
 fmt.Println(ChangeSensitiveWords(text,sensitiveWord))
}

有疑问加站长微信联系(非本文作者)

本文来自:简书

感谢作者:贝塔船长

查看原文:Golang基于DFA算法实现敏感词汇过滤

入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:692541889

关注微信
4179 次点击
添加一条新回复 (您需要 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传

用户登录

没有账号?注册
(追記) (追記ここまで)

今日阅读排行

    加载中
(追記) (追記ここまで)

一周阅读排行

    加载中

关注我

  • 扫码关注领全套学习资料 关注微信公众号
  • 加入 QQ 群:
    • 192706294(已满)
    • 731990104(已满)
    • 798786647(已满)
    • 729884609(已满)
    • 977810755(已满)
    • 815126783(已满)
    • 812540095(已满)
    • 1006366459(已满)
    • 692541889

  • 关注微信公众号
  • 加入微信群:liuxiaoyan-s,备注入群
  • 也欢迎加入知识星球 Go粉丝们(免费)

给该专栏投稿 写篇新文章

每篇文章有总共有 5 次投稿机会

收入到我管理的专栏 新建专栏