当前位置: 首页 > news >正文

第三章 训练初步深入

train2

我国科学家在脑图谱研究领域取得新突破 民生
活力中国调研行|好用好玩!科技I点亮百姓生活 财经
为何动物伪装不完美也能吓退天敌? 科技
重庆黔江被确认为白垩纪恐龙化石集群埋藏地 科技
研究发现运动抗衰老的关键因子 科技
智能设备织密暑期“安全网” 科技
我国首个海水漂浮式光伏项目建成投用 科技
“肉食塑造人类”假说有了新证据 财经
欧航局:太阳系或迎来第三位“星际访客” 民生
智能设备织密暑期“安全网cccccccccccccccc” 财经
世界首台5财经财经兆瓦冲击式机组转轮研制成功 水电机有了“大心脏” 娱乐
雷神科技举办信创旗舰新品发布会,共擎信创国产化未来 娱乐

代码

import os
import math
import randomdef read_file(filepath):with open(filepath, 'r', encoding='utf-8') as f:all_lines= f.read().split("\n")# print(all_lines)all_text=[]all_label=[]for line in all_lines:# print(line)data_s=line.split()if len(data_s ) !=2:continueelse:text, label = data_sall_label.append(label)all_text.append(text)assert len(all_text)==len(all_label), "text and label length not equal"return all_text,all_label# Dataset 是所有数据集的集合,DataLoader 是每次返回一个batch的迭代器
class Dataset:def __init__(self, all_text, all_label,batch_size):self.all_text = all_textself.all_label = all_labelself.batch_size=batch_sizedef __iter__(self):dataloader=DataLoader(self)return dataloaderclass DataLoader:def __init__(self,dataset):self.dataset=datasetself.cursor=0def __next__(self):if self.cursor>=len(self.dataset.all_text):raise StopIterationtext=self.dataset.all_text[self.cursor:self.cursor+self.dataset.batch_size]label=self.dataset.all_label[self.cursor:self.cursor+self.dataset.batch_size]self.cursor+= self.dataset.batch_sizereturn text,labeldef build_word_dict(all_text):word_dict={}for text in all_text:for word in text:if word not in word_dict:word_dict[word]=len(word_dict)return word_dictif __name__ == '__main__':filepath = os.path.join("D:/", "my code", "Python", "NLP basic", "data", "train2.txt")all_text, all_label = read_file(filepath)# print(all_text)# print(all_label)epoch=3bitch_size=6word_dict = build_word_dict(all_text)print(word_dict)train_dataset = Dataset(all_text, all_label, bitch_size)for e in range(epoch):print("Epoch:",e,"/",epoch)for data in train_dataset:print(data)

运行结果
image

http://www.sczhlp.com/news/9305/

相关文章:

  • 收敛性分析
  • cf228a 题解
  • 第一周基础命令
  • Hetao P10484 01 transform 题解 [ 蓝 ] [ 奇偶位反转 ] [ 线段树 ]
  • Hetao P10483 异或 题解 [ 黄 ] [ 进制 ] [ 差分 ]
  • 机器学习过程
  • Datawhale AI 夏令营2025多模态RAG方向理解赛题、高效上分
  • VsCode 一些设置
  • ZROJ #3288. 括号匹配问题
  • 天体运动公式推导
  • 8 面向对象编程 8.4单例设计模式
  • 工行U盾12864屏幕简单逆向
  • 主页
  • 【AI编程】让Codebuddy改写《浪浪山小妖怪》,结果写出了打工人血泪史
  • TrueNas 25.04 ACME设置阿里DNS
  • 储能功能及盈利模式
  • 题解:[Ynoi2011] ODT
  • PAC Bayes 学习笔记
  • 爬虫入门笔记!
  • for循环和while循环
  • 8.10随笔
  • 8.4.2 创建和终止进程
  • nimber 与 Sidon 集构造
  • 题解:B4304 [蓝桥杯青少年组省赛 2024] 通关游戏的最少能量值
  • 【CAN通信】CAN和LIN的区别
  • [ZJOI2019] 开关
  • 图论
  • 通过Certbot自动申请更新HTTPS网站的SSL证书
  • 小红的树不动点
  • 垂直前沿:3D-NAND演进、AI、HPC应用及未来趋势的深度分析报告