当前位置: 首页 > news >正文

电子商务网站建设 实验分析建设银行 上海 招聘网站

电子商务网站建设 实验分析,建设银行 上海 招聘网站,网站设计制作ihanshi,网站背景图片怎么做文章目录一、关于 langid二、基本使用Normalization多个语言中选择一个三、训练模型1、需要2、工具是3、过程4、代码调用自定义模型一、关于 langid https://github.com/saffsd/langid.py 用于检测语言 二、基本使用 import langidlangid.classify(This is a testThis is a test) (en, -54.41310358047485)Normalization 可以使用 0–1 之间的数据来衡量 from langid.langid import LanguageIdentifier, model identifier LanguageIdentifier.from_modelstring(model, norm_probsTrue)identifier.classify(This is a test) # (en, 0.9999999909903544)多个语言中选择一个 上述方式很多时候存在语言不准的情况可以设置默认语言让 langid 来选取 langid.set_languages([de,fr,it])langid.classify(I do not speak english) (it, 0.99999835791478453)def detect():identifier LanguageIdentifier.from_modelstring(model, norm_probsTrue)identifier.set_languages([th, zh, en])arr [I do not speak english,ผู้สื่อข่าวได้รับแจ้งว่ามีประชาชนเ,得亲密。,由泰国当红男星film Rattapoom Toekongsap和泰国超模]for str in arr:print(identifier.classify(str))三、训练模型 1、需要 1、单语文档语料库 2 层深的文件夹层次结构域 – 语言类型 – 文档文件 每个文档应该是一个单独的文件每个文件应该在一个 2 层深的文件夹层次结构中语言嵌套在域中。 ./corpus/domain1/en/File1.txt ./corpus/domainX/en/001-file.xml2、工具是 index.py - 索引语料库。生成文件、语料库、语言对的列表。tokenize.py - 获取索引并标记相应的文件DFfeatureselect.py - 按文档频率选择特征IGweight.py - 计算语言和领域的 IG 权重LDfeatureselect.py - 获取 IG 权重并使用它们来选择一个特征集scanner.py - 基于功能集构建扫描仪NBtrain.py - 使用索引语料库和扫描仪学习 NB 参数 3、过程 1、索引 $ python index.py ./corpus2、标记 python tokenize.py corpus.model3、识别最频繁的标记 通过文档频率识别最频繁的标记 python DFfeatureselect.py corpus.model4、计算每个顶级特征的 IG 权重 以下两个都需要执行 python IGweight.py -d corpus.model python IGweight.py -lb corpus.model5、计算每个令牌的 LD 分数 python LDfeatureselect.py corpus.model这将生成用于构建 NB 模型的 LD 特征的最终列表。 6、组装扫描仪 python scanner.py corpus.model扫描仪是对特征集的编译 DFA可用于计算文档中每个特征在单次遍历文档中出现的次数。此 DFA 是使用 Aho-Corasick 字符串匹配构建的。 7、朴素贝叶斯参数 最后我们学习实际的朴素贝叶斯参数 python NBtrain.py corpus.model4、代码调用自定义模型 1从指定位置加载模型并进行 normalize identifier LanguageIdentifier.from_modelpath(model_path, norm_probsTrue)model 本质是一个长字符串 2从字符串加载模型 from langid.langid import LanguageIdentifier, modelidentifier LanguageIdentifier.from_modelstring(model, norm_probsTrue) 3命令行中使用 # normalize $ python langid.py -n你好呀 (zh, 0.9998446372669386)# normalize custom model $ python langid.py -n -m /Users/xxx/langid.py/langid/train/corpus.model/model 这是美好的开始 (zh, 0.999999927953073) 伊织 2021-09-07
http://www.sczhlp.com/news/205815/

相关文章:

  • 化工废料网站建设手机app推荐
  • 移动端手机网站建设戴尔网站建设的目标
  • 做公众号的必备参考网站网站有那些风格
  • 郑州网站建设中国建设建设银行网站开发外包一个
  • 好的手机网站wordpress百度显示缩略图
  • 做公众号排版的网站四川建筑安全员c证报名官网
  • 公司发布网站需要备案七牛云服务器
  • 哪个公司做网站好永久免费的ip代理
  • 网站建设要不要监理织梦cms和wordpress
  • 乐清市做淘宝网站公司查询网站最新域名
  • 接入网站备案要多久如何在线上注册公司
  • 网站想建设子站东莞市网络优化推广公司
  • 太原金茂大厦做网站的地产网站设计
  • 网站开发案例电子书河西苏州网站建设
  • 广东网站建设模版同步网站内容怎么做
  • 商贸公司网站建设极致发烧浙江省住房和城乡建设厅 官方网站
  • 网站投注建设商城服务是什么平台
  • 免费做企业网站的步骤建站推广什么意思
  • 网站架构包含哪几个部分怎么网上宣传自己的产品
  • 九江建网站公司有哪些域名到期与网站打不开
  • 网站打开风险怎么解决16888精品货源入口
  • 2025年粉末冶金制品/零件厂家推荐排行榜,高精度粉末冶金零件,耐磨粉末冶金制品公司推荐!
  • 2025年发电机组厂家推荐排行榜,柴油/燃气/船用/静音箱式/移动拖车式/集装箱式,上柴/玉柴/潍柴/康明斯/沃尔沃/道依茨/帕金斯/MTU品牌精选!
  • 微网站开发平台案例中国建设教育协会官网证书查询
  • 专业微信网站建设报价著名logo设计欣赏
  • 门户网站开发一般多少钱建站网站公司调查
  • 网站开发年度总结网站建设理由
  • 行业网站怎么推广男科是去私立还是公立
  • 简述可口可乐公司的企业网站建设3000款免费软件app下载
  • 兴义城乡建设部网站上海十大互联网公司排名