Android 准确过滤(禁止) Emoji表情
Emoji相关链接
- android 输入框EditText禁止输入Emoji表情符
- Android中过滤Emoji表情 完整版
- Unified Emoji表情for Android
- 彻底搞懂字符编码(unicode,mbcs,utf-8,utf-16,utf-32,big endian,little endian...)
- Emoji Unicode Tables
Emoji过滤方法
- 匹配Emoji表情列表过滤,需要得到Emoji表情列表
- 区间过滤,可能多过滤也肯少过滤
链接1:Emoji列表过滤,但是直接从 Emoji Unicode Tables 网站获取的列表 4. Enclosed characters ( 24C2 - 1F251 ) 区间会和汉字冲突,实际范围是 24C2 和(1F170 - 1F251),标题错了,作者没有修改直接把汉字内容(例如:我,们,有 ……)也过滤了,并且没有过滤 5. Uncategorized 忽略了许多表情。列表过滤相对准确,但是需要先加载列,虽然使用了静态方法但是首次使用要较长加载时间,过滤时匹配也相对耗时。
链接2:过滤区间,但是只过滤了双字节的Emoji表情,忽略了单字节的表情,并且区间也不合理(判断得很复杂,结果等同于直接过滤了 utf8 Surrogates,这样如果有其他的 Surrogates 区的编码字符也会被过滤掉)。相对列表过滤速度快,但存在多过滤和少过滤的较多。
综合两种情况考虑,既要保证速度又要保证过滤的准确性。Android EditView 以 UTF-16 为编码16位为一个单位。由于两字节以上的Unicode 编码基本上没用到,直接过滤掉 Surrogates 区(0xD800-0xDFFF);再过滤掉单字节的Emoji表情列表。
当然为了确保绝对只过滤Emoji表情,这里使用1的方法,修改了 4. Enclosed characters ( 24C2 - 1F251 ),添加了 5. Uncategorized ,毕竟现在Android的处理器性能都很高,效率可以不用考虑了。当然也可以使用区间过滤,添加个 Scrope ,再修改下filter()方法就行了,这里就不修改了。
import android.text.InputFilter;import android.text.Spanned;import org.xutils.common.util.LogUtil;import java.util.HashSet;import java.util.Iterator;import java.util.Set;/** * 过滤Emoji表情 * Created by tutu on 2016/5/31. */public class EmojiFilter implements InputFilter { private static Set filterSet = null; private static Set scopeSet = null; /** * 区间类模型 */ private class Scope { int start; int end; @Override public boolean equals(Object o) { if (o instanceof Scope) { Scope scope = (Scope) o; if (scope.start == start && scope.end == end) { return true; } } return super.equals(o); } } private static void addUnicodeRangeToSet(Set set, int start, int end) { if (set == null) { return; } if (start > end) { return; } for (int i = start; i <= end; i++) { filterSet.add(new String(new int[]{i}, 0, 1)); } } private static void addUnicodeRangeToSet(Set set, int code) { if (set == null) { return; } filterSet.add(new String(new int[]{code}, 0, 1)); } static { filterSet = new HashSet(); scopeSet = new HashSet<>(); // See http://apps.timwhitlock.info/emoji/tables/unicode // 1. Emoticons ( 1F601 - 1F64F ) addUnicodeRangeToSet(filterSet, 0x1F601, 0X1F64F); // 2. Dingbats ( 2702 - 27B0 ) addUnicodeRangeToSet(filterSet, 0x2702, 0X27B0); // 3. Transport and map symbols ( 1F680 - 1F6C0 ) addUnicodeRangeToSet(filterSet, 0X1F680, 0X1F6C0); // 4. Enclosed characters ( 24C2 - 1F251 ) addUnicodeRangeToSet(filterSet, 0X24C2); addUnicodeRangeToSet(filterSet, 0X1F170, 0X1F251); // 6a. Additional emoticons ( 1F600 - 1F636 ) addUnicodeRangeToSet(filterSet, 0X1F600, 0X1F636); // 6b. Additional transport and map symbols ( 1F681 - 1F6C5 ) addUnicodeRangeToSet(filterSet, 0X1F681, 0X1F6C5); // 6c. Other additional symbols ( 1F30D - 1F567 ) addUnicodeRangeToSet(filterSet, 0X1F30D, 0X1F567); // 5. Uncategorized addUnicodeRangeToSet(filterSet, 0X1F004); addUnicodeRangeToSet(filterSet, 0X1F0CF); // 与6c. Other additional symbols ( 1F30D - 1F567 )重复 // 去掉重复部分虽然不去掉HashSet也不会重复,原范围(0X1F300 - 0X1F5FF) addUnicodeRangeToSet(filterSet, 0X1F300, 0X1F30D); addUnicodeRangeToSet(filterSet, 0X1F5FB, 0X1F5FF); addUnicodeRangeToSet(filterSet, 0X00A9); addUnicodeRangeToSet(filterSet, 0X00AE); addUnicodeRangeToSet(filterSet, 0X0023); //阿拉伯数字0-9,配合0X20E3使用 //addUnicodeRangeToSet(filterSet, 0X0030, 0X0039); // 过滤掉203C开始后的2XXX 段落 //addUnicodeRangeToSet(filterSet, 0X203C, 0X24C2); addUnicodeRangeToSet(filterSet, 0X203C); addUnicodeRangeToSet(filterSet, 0X2049); //严格验证的话需要判断前面是否是数字 //Android上显示和数字分开可以不判断 addUnicodeRangeToSet(filterSet, 0X20E3); addUnicodeRangeToSet(filterSet, 0X2122); addUnicodeRangeToSet(filterSet, 0X2139); addUnicodeRangeToSet(filterSet, 0X2194, 0X2199); addUnicodeRangeToSet(filterSet, 0X21A9, 0X21AA); addUnicodeRangeToSet(filterSet, 0X231A, 0X231B); addUnicodeRangeToSet(filterSet, 0X23E9, 0X23EC); addUnicodeRangeToSet(filterSet, 0X23F0); addUnicodeRangeToSet(filterSet, 0X23F3); addUnicodeRangeToSet(filterSet, 0X25AA, 0X25AB); addUnicodeRangeToSet(filterSet, 0X25FB, 0X25FE); //TODO: 26XX 太杂全部过滤 addUnicodeRangeToSet(filterSet, 0X2600, 0X26FE); addUnicodeRangeToSet(filterSet, 0X2934, 0X2935); addUnicodeRangeToSet(filterSet, 0X2B05, 0X2B07); addUnicodeRangeToSet(filterSet, 0X2B1B, 0X2B1C); addUnicodeRangeToSet(filterSet, 0X2B50); addUnicodeRangeToSet(filterSet, 0X2B55); addUnicodeRangeToSet(filterSet, 0X3030); addUnicodeRangeToSet(filterSet, 0X303D); addUnicodeRangeToSet(filterSet, 0X3297); addUnicodeRangeToSet(filterSet, 0X3299); } public EmojiFilter() { super(); } @Override public CharSequence filter(CharSequence source, int start, int end, Spanned dest, int dstart, int dend) { // check black-list set for (int i = 0; i < source.length(); i++) { LogUtil.e(Integer.toHexString(source.charAt(i))); } LogUtil.e(source.toString() + " length: " + source.toString().length() + " ;bytes length: " + source.toString().getBytes().length);// Iterator iterator = filterSet.iterator();// while (iterator.hasNext()) {// String filter = iterator.next();// if (filter.equals(source.toString())) {// LogUtil.e(filter + " length: " + filter.length() +// " ;bytes length: " + filter.getBytes().length);// for (int i= 0; i < source.length(); i++){// LogUtil.e(Integer.toHexString(source.charAt(i)));// }// return "";// }// } if (filterSet.contains(source.toString())) { return ""; } return source; }}
吐槽
小日本真能折腾,没事搞什么Emoji,没事过滤Emoji干嘛
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。转载请保留作者及原文链接
更多相关文章
- Android 列表数据写入到本地Excel文件(包括图片)
- [android]在上下文菜单的选中事件中获取列表选中的元素
- android开发 列表显示(ListView)
- android中字符替换成表情
- 怎么去掉联系人、通话记录、拨号列表界面中的电话号码中间的空格
- android - mars课程列表
- Android 常用的ui(单选框 多选框 下拉列表框 拖动条)
- Android中下拉列表框操作
- Android中颜色值列表