Auxiliary Objectives for Neural Error Detection Models (WS 2017)
识别文本中各种类型的错误,包括功能词(function words)的错误使用,比如冠词和介词,和内容词(content words)语义错误,如形容词-名词组合。
作者将这个任务形式化定义为序列标注问题,对于一段文本,错误的字符标记为1,正确的字符标记为0.
基本的模型是word embedding, BiLSTM
预测二分类
Loss 使用Cross entropy
作者构造了多个任务,然后对于每一个任务共享word embedding和BiLSTM。
对于每一个任务,使用不同的参数对BiLSTM输出进行映射 和预测。
多任务的Loss Function为
Frequency: 统计词在train set的频率,然后离散化
error type:数据集有更细致的错误类型,例如缺少限定词或动词形式不正确。
first language:first language (L1) of the learner
part-of-speech:POS tag
grammatical relations:dependency parse
使用不同的辅助损失 函数的结果:
作者通过使用数据中标注过的标签或者可以自动产生的标签来使用多任务框架 。实验表明POS tags和语法关系(grammatical relations) 还有错误类型(error types)对于错误检测 (error detection)很有帮助,并且联合这些多任务,能进一步提高结果。作者通过预训练然后初始化错误检测模型(error detection model), 或者同时训练多个模型(多个任务随机切换训练),这两种方法都提升了效果,但是后者用多任务对模型起到了正则化 的效果。多任务一般应用在数据小的情况,但是在有大量标注数据的情况下,多任务依然有效。以后的工作是如何动态地决定每个任务的权重。
我的评论:
对于一个句子可以构造哪些辅助任务?
2. Chunking
3. Named entity recognition
预测命名实体的联合标签,比如B-PER,或者预测单独标签B或者PER。
4. Semantic role labeling
5. Dependency parsing
可以预测每个词比如prefer 对应的标签(root), 还可以预测prefer在树中的层数(第0层)。
6. Sentence compression by deleting words
预测某个词是否可以删除,不影响句子的整体意思
7. Coreference resolution
预测是否被引用。
8. hypernym and hyponym
预测上下位词
9. Language modeling
预测前一个词和后一个词
10. Autoencoder
11. Sentiment analysis
预测sentiment 标签
谢谢阅读~
Happy Reading, Happy Learning!
武汉格发信息技术有限公司,格发许可优化管理系统可以帮你评估贵公司软件许可的真实需求,再低成本合规性管理软件许可,帮助贵司提高软件投资回报率,为软件采购、使用提供科学决策依据。支持的软件有: CAD,CAE,PDM,PLM,Catia,Ugnx, AutoCAD, Pro/E, Solidworks ,Hyperworks, Protel,CAXA,OpenWorks LandMark,MATLAB,Enovia,Winchill,TeamCenter,MathCAD,Ansys, Abaqus,ls-dyna, Fluent, MSC,Bentley,License,UG,ug,catia,Dassault Systèmes,AutoDesk,Altair,autocad,PTC,SolidWorks,Ansys,Siemens PLM Software,Paradigm,Mathworks,Borland,AVEVA,ESRI,hP,Solibri,Progman,Leica,Cadence,IBM,SIMULIA,Citrix,Sybase,Schlumberger,MSC Products...